Alignement de séquences (2/2)

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Perl Orienté Objet BioPerl There is more than one way to do it

Resolution limit in community detection

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Plus courts chemins, programmation dynamique

Les algorithmes de base du graphisme

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Identification de nouveaux membres dans des familles d'interleukines

Big Data et Graphes : Quelques pistes de recherche

Identification des incontournables à la démarche Lean

WEBANALYTICS Sur le chemin de l excellence

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Spécificités, Applications et Outils

Quantification Scalaire et Prédictive

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Cryptologie. Algorithmes à clé publique. Jean-Marc Robert. Génie logiciel et des TI

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

MABioVis. Bio-informatique et la

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Base de données bibliographiques Pubmed-Medline

Big Data et Graphes : Quelques pistes de recherche

Modélisation multi-agents - Agents réactifs

1 Modélisation d être mauvais payeur

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Projet Active Object

Insulinothérapie et diabète de type 1

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

données en connaissance et en actions?

Initiation à LabView : Les exemples d applications :

Jean-Philippe Préaux

Agence web en Suisse romande CH-1260 Nyon

Qualité du logiciel: Méthodes de test

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

1 Recherche en table par balayage

Autoroute A16. Système de Repérage de Base (SRB) - Localisation des Points de repère (PR) A16- A16+

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Routage AODV. Languignon - Mathe - Palancher - Pierdet - Robache. 20 décembre Une implémentation de la RFC3561

DNS Poisoning. Pollution de cache sur des serveurs DNS. Xavier Dalem, Adrien Kunysz, Louis Plair. 15 mars Université de Liège

Détection et prise en charge de la résistance aux antirétroviraux

Politique scientifique, Recherche et Développement

L exclusion mutuelle distribuée

TD de Biochimie 4 : Coloration.

Principes d implémentation des métaheuristiques

Prédiction de la structure d une

Circulaire 2015/1 «Comptabilité banques»

Factorisation d entiers (première partie)

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Analyse de performance, monitoring

Corrigé des TD 1 à 5

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Manuel des bonnes pratiques avec CATIA V.5

Module BDR Master d Informatique (SAR)

La mise en commun. (D après Michel Barlow, Le travail en groupes des élèves, Paris, A. Colin, 1993, pp )

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Samuel Bassetto 04/2010

Figure 3.1- Lancement du Gambit

Le ranking de Augure Influencers La méthodologie AIR en détails

Présentation du PL/SQL

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Industrialiser la chaîne complète de fabrication 1ère partie - Les bénéfices de la solution logicielle IBM VisualAge Pacbase / Rational

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Etude comparative de différents motifs utilisés pour le lancé de rayon

Logiciel SCRATCH FICHE 02

Parcours en deuxième année

Application 1- VBA : Test de comportements d'investissements

DEVELOPPEMENT ET MAINTENANCE DE LOGICIEL: OUTIL DE PILOTAGE

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Le Processus RUP. H. Kadima. Tester. Analyst. Performance Engineer. Database Administrator. Release Engineer. Project Leader. Designer / Developer

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

8 Certifications Minergie

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

Introduction à la B.I. Avec SQL Server 2008

Définitions. Numéro à préciser. (Durée : )

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Introduction au Data-Mining

Chaine de transmission

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

Transcription:

Alignement de séquences (2/2) Observation à l aide de l outil graphique : le dotplot. Simple, visuel, Très informatif : Permet de repérer une similarité globale Permet de repérer des similarités locales Permet de repérer des répétitions Oui mais!!!! Pas de mesure quantitative de similarité D1

Alignement de séquences http://en.wikipedia.org/wiki/sequence_alignment identité Insertion / Délétion substitution D2 Alignement : mise en correspondance de deux séquences Quantifier et localiser la similarité dans une paire de séquences Trouver la meilleure mise en correspondance des résidus qui conserve l ordre des séquences Utilisation de la méthode des scores Trouver le meilleur score

Alignement de séquences Calcul de score? Le score de l alignement est la somme des scores des événements élémentaires http://en.wikipedia.org/wiki/sequence_alignment identité substitution Insertion / Délétion D3 Matrice de similarité Pénalités

Alignement de séquences Rappel sur les acides aminés. D4 B Aspartic Acid ou Glutamic Acid Z Glutamine ou Glutamic Acid X inconnu Proprités physico-chimiques diagramme Venn

Alignement de séquences Calcul de score : matrices de similarité Blosum 62 A R N D P W A G K M H C W A 0 2-2 1-3 11 4 Total = 13 Matrices protéiques : BLOSUM (Henikoff & Henikoff, 1992) PAM (Dayhoff, 1969) Choix de la matrice? Il n existe pas de matrice idéale!!! Blosum62 semble être la plus générale. D5

Alignement des séquences Calcul de score : matrices de similarité Matrice d acides nucléiques : Matrice d ADN Mésappariement de 2 purines ou 2 pyrimidines D6

Alignement des séquences Calcul de score : matrices de similarité D7

Alignement de séquences Calcul de score : pénalité des indel Ouverture Extensions pénalités ouverture extension Ajustement des pénalités? augmenter le score en fonction de la longueur du «gap» : choisir une pénalité d ouverture > à la pénalité d extension, D8 faire en sorte de ne pas affecter le score en fonction de la longueur du «gap» : pénaliser juste l ouverture du «gap», très peu ou pas du tout l extension.

Alignement de séquences Calcul de score : exercices Calculer les scores pour chacun des alignements et selon les 2 matrices de similarité : BLOSUM62 et BLOSUM50 Blosum 62 D9 Blosum 50

Alignement de séquences On distingue différents types d alignements : L alignement par paires : alignement global, alignement sur la totalité de la longueur de deux séquences nécessité d ajout d indel dans l une des séquences Algorithme de Needleman-Wunsch alignement local, identification de régions de forte homologie alignement sur les régions conservées seulement Algorithme de Smith-Waterman D10 L alignement multiple Alignement global entre plus de 2 séquences.

Alignement de séquences Construire des alignements de séquence? Calcul informatique (1) : approche exhaustive (naïve) o les différentes solutions alternatives d alignement possibles sont proposées, o Les scores sont calculés pour chacune de ces alternatives, o Est conservé le meilleur alignement, càd celui qui a le score le plus élevé. D11 Simple, mais temps de calcul bien trop élevé Op. x n n!!!!! Estimation du temps de calcul : alignement de 2 séquences de longueur n=20, temps de calcul (1 itération Op.=0,1 s) 300 millions d années.

Alignement de séquences Construire des alignements de séquence? Calcul informatique (2) : approche dynamique o Optimiser le score pour chaque paire de résidus (m*n paires), o Le meilleur score est la somme des meilleurs scores de chaque paire. D12 Exact, rapide [temps de calcul Op. x(m*n)], mais gourmand en mémoire!!!!! Estimation du temps de calcul : alignement de 2 séquences de longueur n=20, temps de calcul (1 itération Op.=0,1ms) 40 s.

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 1 : Construction de la matrice de comparaison. Matrice(m,n) Etape 2 : Transformation de la matrice par addition des scores. D13 http://www.info.univ-angers.fr/~richer/recbioal3.php

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Matrice initiale : Avec : S(i,j) : score dans la case (i,j)de la matrice transformée. i j Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Démonstration : construction de la matrice transformée D14 se(i,j) : score élémentaire de la case d indice i et j de la matrice initiale. + y x

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Matrice initiale : Avec : S(i,j) : score dans la case (i,j)de la matrice transformée. i j Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Démonstration : construction de la matrice transformée D15 se(i,j) : score élémentaire de la case d indice i et j de la matrice initiale. + y x

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Matrice transformée intermédiaire : Matrice transformée finale : D16 Processus ascendant

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 3 : Chemin des scores maxima i j D17 Processus descendant i j

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Les deux séquences présentent une similarité que l alignement global ne révèle pas!!!!! Alignement local de Smith-Waterman (1981) D18

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement local de Smith-Waterman (1981) Dans le cas de l alignement local : N importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes. Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. D19

Alignement de séquences Un outil d alignement : Align. Choix de la méthode : «needle» (global) Needleman-Wunsch «water» (local) Smith-Waterman http://www.ebi.ac.uk/emboss/align D20

Alignement de séquences Un outil d alignement : Align. Etape 1 : Entrée des deux séquences à analyser D21 Etape 2 : Choix :. des penalités et. de la matrice de similarité. Etape 3 : Exécution. http://www.ebi.ac.uk/emboss/align

Alignement de séquences Un outil d alignement : Align. Des Résultats : Identité : Proportion des paires de résidus identiques entre les deux séquences alignées (exprimée en %) Similarité : Mesure de la ressemblance entre les deux séquences alignées. Le degré de similitude entre les deux séquences est quantifié par un score basé sur le % de similarité (% d identité + % de substitutions conservatives). Score : Somme des scores des événements élémentaires. D22 http://www.ebi.ac.uk/emboss/align

Recherche de similitudes dans une base de séquences (base de données)??? Pourquoi? Savoir si ma séquence ressemble à d autres séquences déjà connues, Trouver toutes les séquences d une même famille, Rechercher toutes les séquences qui contiennent un motif donné. D23

Recherche de similitudes dans une base de séquences (base de données)??? Méthodes? Recherche à grande échelle (bases de données contenant des 10zaines de milliers de séquences) pas raisonnable d utiliser des programmes classiques d alignement D24 Utilisation d heuristiques : BLAST & FASTA Basic Local Alignment Search Tool (Altschul et al, 1990) Méthodes approximatives basées sur une idée de filtrage.

D25 BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. L algorithme BLAST : Étape 1 : création d une liste de tous les fragments (mots) de taille k (avec k petit: 11 pour les acides nucléiques, 2 ou 3 pour les protéines) trouvés dans la séquence requête et qui obtiennent un score > à un seuil donné. Etape 2 : construction d un automate fini déterministe pour retrouver les positions de tous les mots dans toutes les séquences de la banque de données. A partir de ces positions, BLAST essaie d étendre l alignement local tant que le score reste au dessus d un seuil donné. Toutes ces positions dans les séquences de la banque permettent ainsi de construire la liste des segments les plus similaires ou HSP (High Scoring Segment Pairs). Étape 3 : ordonner les alignements locaux, appelés MSP (Maximal-scoring Segment Pairs) en fonction de leur score maximun.

Étape 1 : Création d une liste de tous les fragments (mots) de taille k trouvés avec un score > seuil Etape 2 : Construction d un automate retrouver les positions dans séquences de la BD. Extension de l alignement local score reste au dessus d un seuil donné =>construction de la liste des HSP, D26 Etape 3 : Construction de la liste de MSP (HSP à score maximal)

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Evaluer les résultats de BLAST : les indicateurs Le score brute : est la somme des scores des MSP qui composent cet alignement. Le score modifié : scores bruts convertis du logarithme (utilisés pour la création de la matrice de scores) au logarithme à base 2. Cela permet de comparer les scores obtenus entre différents alignements. La E-value : donne les informations sur la significativité d un alignement donné. La E-value d un alignement indique le nombre d alignements que l on s attendrait à trouver dans les banques avec un score supérieur ou égal au score qu obtiendrait la séquence requête contre une banque de données aléatoire (probabilité d'observer au hasard ce score à travers la banque de séquences considérée). Plus la E-value est faible, plus l'alignement est significatif. D27

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Evaluer les résultats de BLAST : les indicateurs D28

Implémentation de l algorithme BLAST : NCBI BLAST & WU-BLAST? NCBI BLAST & WU-BLAST : Utilisables en tant que serveurs Web ou paquetage logiciel téléchargeable. NCBI BLAST : disponible sur le serveur du NCBI. http://blast.ncbi.nlm.nih.gov/blast Pour les versions les plus récentes : profit du développement de méthodes permettant de comparer les profils de séquences multiples. WU-BLAST : version alternative développée et maintenue à partir de la version NCBI Interrogation de bases de données protéines. http://www.ebi.ac.uk/tools/sss/wublast/ D29

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Les différents programmes BLAST : blastp : séquence requête protéique contre banque de données de séquences protéiques. blastn : séquence requête nucléique contre banque de données de séquences nucléiques. blastx : séquence requête nucléique traduite dans les six phases de lecture contre banque de données de séquences protéiques. tblastn : séquence requête protéique contre banque de données de séquences nucléiques dynamiquement traduite dans les six phases de lecture. tblastx : séquence requête nucléiques traduite dans les six phases de lecture contre banque de données de séquences nucléiques dynamiquement traduites suivant les six phases de lecture. D30

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Les différents programmes BLAST : D31

http://blast.ncbi.nlm.nih.gov/blast Choisir l espèce étudiée : Choisir le programme : Choisir la base de données : D32

Entrer la séquence requête : Ajuster la sélection de la base de données : Optimisez les contraintes de sélection : D33

Réglez les paramètres de votre recherche : D34

Les résultats!! D35

D36

D37

D38

D39

D40

D41

D42

D43

D44

D45

D46

D47

D48

D49

Alignement multiple de séquences? CLUSTALL : Algorithme de type progressif. Composé de trois étapes : D50 Alignement par paires A B C D Calcul d un arbre de guidage Alignement progressif. A B C D A 10 - - - B C D 5 7 2 10 4 9-10 2 - - 10 Matrice de similarité B D Arbre de A guidage C similarité

Alignement multiple de séquences? CLUSTALL : Algorithme de type progressif. Composé de trois étapes : Calcul d un arbre de guidage Alignement progressif. B D Arbre de guidage A C similarité D51 B D Alignement des paires les plus similaires Gaps pour optimiser l alignement A C B D A C Nouveaux gaps pour optimiser L alignement (BD) avec (AC)

D52

D53

Merci de votre attention!!!!!!!! D54