Alignement de séquences (2/2)

Alignement de séquences (2/2) Observation à l aide de l outil graphique : le dotplot. Simple, visuel, Très informatif : Permet de repérer une similarité globale Permet de repérer des similarités locales Permet de repérer des répétitions Oui mais!!!! Pas de mesure quantitative de similarité D1

Alignement de séquences http://en.wikipedia.org/wiki/sequence_alignment identité Insertion / Délétion substitution D2 Alignement : mise en correspondance de deux séquences Quantifier et localiser la similarité dans une paire de séquences Trouver la meilleure mise en correspondance des résidus qui conserve l ordre des séquences Utilisation de la méthode des scores Trouver le meilleur score

Alignement de séquences Calcul de score? Le score de l alignement est la somme des scores des événements élémentaires http://en.wikipedia.org/wiki/sequence_alignment identité substitution Insertion / Délétion D3 Matrice de similarité Pénalités

Alignement de séquences Rappel sur les acides aminés. D4 B Aspartic Acid ou Glutamic Acid Z Glutamine ou Glutamic Acid X inconnu Proprités physico-chimiques diagramme Venn

Alignement de séquences Calcul de score : matrices de similarité Blosum 62 A R N D P W A G K M H C W A 0 2-2 1-3 11 4 Total = 13 Matrices protéiques : BLOSUM (Henikoff & Henikoff, 1992) PAM (Dayhoff, 1969) Choix de la matrice? Il n existe pas de matrice idéale!!! Blosum62 semble être la plus générale. D5

Alignement des séquences Calcul de score : matrices de similarité Matrice d acides nucléiques : Matrice d ADN Mésappariement de 2 purines ou 2 pyrimidines D6

Alignement des séquences Calcul de score : matrices de similarité D7

Alignement de séquences Calcul de score : pénalité des indel Ouverture Extensions pénalités ouverture extension Ajustement des pénalités? augmenter le score en fonction de la longueur du «gap» : choisir une pénalité d ouverture > à la pénalité d extension, D8 faire en sorte de ne pas affecter le score en fonction de la longueur du «gap» : pénaliser juste l ouverture du «gap», très peu ou pas du tout l extension.

Alignement de séquences Calcul de score : exercices Calculer les scores pour chacun des alignements et selon les 2 matrices de similarité : BLOSUM62 et BLOSUM50 Blosum 62 D9 Blosum 50

Alignement de séquences On distingue différents types d alignements : L alignement par paires : alignement global, alignement sur la totalité de la longueur de deux séquences nécessité d ajout d indel dans l une des séquences Algorithme de Needleman-Wunsch alignement local, identification de régions de forte homologie alignement sur les régions conservées seulement Algorithme de Smith-Waterman D10 L alignement multiple Alignement global entre plus de 2 séquences.

Alignement de séquences Construire des alignements de séquence? Calcul informatique (1) : approche exhaustive (naïve) o les différentes solutions alternatives d alignement possibles sont proposées, o Les scores sont calculés pour chacune de ces alternatives, o Est conservé le meilleur alignement, càd celui qui a le score le plus élevé. D11 Simple, mais temps de calcul bien trop élevé Op. x n n!!!!! Estimation du temps de calcul : alignement de 2 séquences de longueur n=20, temps de calcul (1 itération Op.=0,1 s) 300 millions d années.

Alignement de séquences Construire des alignements de séquence? Calcul informatique (2) : approche dynamique o Optimiser le score pour chaque paire de résidus (m*n paires), o Le meilleur score est la somme des meilleurs scores de chaque paire. D12 Exact, rapide [temps de calcul Op. x(m*n)], mais gourmand en mémoire!!!!! Estimation du temps de calcul : alignement de 2 séquences de longueur n=20, temps de calcul (1 itération Op.=0,1ms) 40 s.

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 1 : Construction de la matrice de comparaison. Matrice(m,n) Etape 2 : Transformation de la matrice par addition des scores. D13 http://www.info.univ-angers.fr/~richer/recbioal3.php

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Matrice initiale : Avec : S(i,j) : score dans la case (i,j)de la matrice transformée. i j Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Démonstration : construction de la matrice transformée D14 se(i,j) : score élémentaire de la case d indice i et j de la matrice initiale. + y x

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Matrice initiale : Avec : S(i,j) : score dans la case (i,j)de la matrice transformée. i j Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Démonstration : construction de la matrice transformée D15 se(i,j) : score élémentaire de la case d indice i et j de la matrice initiale. + y x

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 2 : Transformation de la matrice par addition des scores : o Initialisation de (m,0) et (0,n) o Addition des scores : Matrice transformée intermédiaire : Matrice transformée finale : D16 Processus ascendant

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Etape 3 : Chemin des scores maxima i j D17 Processus descendant i j

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement global de Needlemann & Wunsch (1970) Les deux séquences présentent une similarité que l alignement global ne révèle pas!!!!! Alignement local de Smith-Waterman (1981) D18

Alignement de séquences Construire des alignements de séquence? Programmation dynamique : Alignement local de Smith-Waterman (1981) Dans le cas de l alignement local : N importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes. Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. D19

Alignement de séquences Un outil d alignement : Align. Choix de la méthode : «needle» (global) Needleman-Wunsch «water» (local) Smith-Waterman http://www.ebi.ac.uk/emboss/align D20

Alignement de séquences Un outil d alignement : Align. Etape 1 : Entrée des deux séquences à analyser D21 Etape 2 : Choix :. des penalités et. de la matrice de similarité. Etape 3 : Exécution. http://www.ebi.ac.uk/emboss/align

Alignement de séquences Un outil d alignement : Align. Des Résultats : Identité : Proportion des paires de résidus identiques entre les deux séquences alignées (exprimée en %) Similarité : Mesure de la ressemblance entre les deux séquences alignées. Le degré de similitude entre les deux séquences est quantifié par un score basé sur le % de similarité (% d identité + % de substitutions conservatives). Score : Somme des scores des événements élémentaires. D22 http://www.ebi.ac.uk/emboss/align

Recherche de similitudes dans une base de séquences (base de données)??? Pourquoi? Savoir si ma séquence ressemble à d autres séquences déjà connues, Trouver toutes les séquences d une même famille, Rechercher toutes les séquences qui contiennent un motif donné. D23

Recherche de similitudes dans une base de séquences (base de données)??? Méthodes? Recherche à grande échelle (bases de données contenant des 10zaines de milliers de séquences) pas raisonnable d utiliser des programmes classiques d alignement D24 Utilisation d heuristiques : BLAST & FASTA Basic Local Alignment Search Tool (Altschul et al, 1990) Méthodes approximatives basées sur une idée de filtrage.

D25 BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. L algorithme BLAST : Étape 1 : création d une liste de tous les fragments (mots) de taille k (avec k petit: 11 pour les acides nucléiques, 2 ou 3 pour les protéines) trouvés dans la séquence requête et qui obtiennent un score > à un seuil donné. Etape 2 : construction d un automate fini déterministe pour retrouver les positions de tous les mots dans toutes les séquences de la banque de données. A partir de ces positions, BLAST essaie d étendre l alignement local tant que le score reste au dessus d un seuil donné. Toutes ces positions dans les séquences de la banque permettent ainsi de construire la liste des segments les plus similaires ou HSP (High Scoring Segment Pairs). Étape 3 : ordonner les alignements locaux, appelés MSP (Maximal-scoring Segment Pairs) en fonction de leur score maximun.

Étape 1 : Création d une liste de tous les fragments (mots) de taille k trouvés avec un score > seuil Etape 2 : Construction d un automate retrouver les positions dans séquences de la BD. Extension de l alignement local score reste au dessus d un seuil donné =>construction de la liste des HSP, D26 Etape 3 : Construction de la liste de MSP (HSP à score maximal)

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Evaluer les résultats de BLAST : les indicateurs Le score brute : est la somme des scores des MSP qui composent cet alignement. Le score modifié : scores bruts convertis du logarithme (utilisés pour la création de la matrice de scores) au logarithme à base 2. Cela permet de comparer les scores obtenus entre différents alignements. La E-value : donne les informations sur la significativité d un alignement donné. La E-value d un alignement indique le nombre d alignements que l on s attendrait à trouver dans les banques avec un score supérieur ou égal au score qu obtiendrait la séquence requête contre une banque de données aléatoire (probabilité d'observer au hasard ce score à travers la banque de séquences considérée). Plus la E-value est faible, plus l'alignement est significatif. D27

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Evaluer les résultats de BLAST : les indicateurs D28

Implémentation de l algorithme BLAST : NCBI BLAST & WU-BLAST? NCBI BLAST & WU-BLAST : Utilisables en tant que serveurs Web ou paquetage logiciel téléchargeable. NCBI BLAST : disponible sur le serveur du NCBI. http://blast.ncbi.nlm.nih.gov/blast Pour les versions les plus récentes : profit du développement de méthodes permettant de comparer les profils de séquences multiples. WU-BLAST : version alternative développée et maintenue à partir de la version NCBI Interrogation de bases de données protéines. http://www.ebi.ac.uk/tools/sss/wublast/ D29

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Les différents programmes BLAST : blastp : séquence requête protéique contre banque de données de séquences protéiques. blastn : séquence requête nucléique contre banque de données de séquences nucléiques. blastx : séquence requête nucléique traduite dans les six phases de lecture contre banque de données de séquences protéiques. tblastn : séquence requête protéique contre banque de données de séquences nucléiques dynamiquement traduite dans les six phases de lecture. tblastx : séquence requête nucléiques traduite dans les six phases de lecture contre banque de données de séquences nucléiques dynamiquement traduites suivant les six phases de lecture. D30

BLAST : Basic Local Aligment Search Tool : Recherche de régions de similarité locales. Les différents programmes BLAST : D31

http://blast.ncbi.nlm.nih.gov/blast Choisir l espèce étudiée : Choisir le programme : Choisir la base de données : D32

Entrer la séquence requête : Ajuster la sélection de la base de données : Optimisez les contraintes de sélection : D33

Réglez les paramètres de votre recherche : D34

Les résultats!! D35

Alignement multiple de séquences? CLUSTALL : Algorithme de type progressif. Composé de trois étapes : D50 Alignement par paires A B C D Calcul d un arbre de guidage Alignement progressif. A B C D A 10 - - - B C D 5 7 2 10 4 9-10 2 - - 10 Matrice de similarité B D Arbre de A guidage C similarité

Alignement multiple de séquences? CLUSTALL : Algorithme de type progressif. Composé de trois étapes : Calcul d un arbre de guidage Alignement progressif. B D Arbre de guidage A C similarité D51 B D Alignement des paires les plus similaires Gaps pour optimiser l alignement A C B D A C Nouveaux gaps pour optimiser L alignement (BD) avec (AC)

Merci de votre attention!!!!!!!! D54