Scores d alignement Matrices de substitution. J.S. Bernardes/H. Richard

Transcription

1 Scores d alignement Matrices de substitution J.S. Bernardes/H. Richard

2 Score d'un alignement Score alignement = Σ scores événements élémentaires (Match, Mismatch, Indel) Amélioration du modèle : pénalité linéaire des gaps (gap open et gap extend) Amélioration du modèle : les matrices de substitution (= Mismatch) => toutes les substitutions ne sont pas équivalentes et donc pénalisées différemment

3 Les matrices de substitution des acides nucléiques Alphabet à 4 lettres : A,C,G,T Matrice identité => pas d'amélioration du modèle, non adapté à l'évolution des séq nucléiques Matrice transition/transvertion => pénalise davantage les transversions (purines <=> pyrimidines) que les transitions (pur <=> pur, pyr <=> pyr) A C G T A C G T A C G T A C G T

4 Les matrices de substitution des acides aminés Au cours de l évolution: Des acides aminés sont remplacés «préférentiellement» par d autres Ils possèdent par exemple des propriétés physico-chimiques proches Des acides aminés sont plus conservés que d autres Ils sont par exemple essentiels dans la structure 3D des protéines (comme Tryptophane/W/Trp)

5 Les matrices de substitution des acides aminés Matrices basées sur les propriétés physico-chimique des aa o matrices d'hydrophobicité o matrices des structures secondaires o matrices basées sur comparaisons de protéines partagent la même structure 3-D Matrices basées sur les substitutions entre aa au cours de l'évolution Les «log odds» : Sij = log [ qij / (pi.pj) ] qij = probabilité de la substitution i vers j pi = probabilité normalisée d apparition du résidu i pj = probabilité normalisée d apparition du résidu j

6 Matrix Blosum exemple A! B! B! C! A! C! A! C! B! B! A! C! A! B! A! B! A! C! C! A! B! C! B! C! A ={A,B,C}! Fréquence de chaque pair de aa pour chaque colonne k k fii=! k fij=! Ou ni est le nombre d observations du residue i dans la colonne k

7 Fréquence de chaque pair de aa pour chaque colonne k A! B! B! C! A! C! A! C! B! B! A! C! A! B! A! B! A! C! C! A! B! C! B! C! k fii=! k fij=! Premiere colonne k=1 AA 3 AB 0 AC 3 BB 0 BC 0 CC 0

8 Matrix Blosum exemple A! B! B! C! A! C! A! C! B! B! A! C! A! B! A! B! A! C! C! A! B! C! B! C! k fii=! k fij=! A ={A,B,C}! k=1 k=2 k=3 k=4 k=5 k=6 AA AB AC BB BC CC

9 Somme des fréquences de chaque pair pour toutes les colonnes A! B! B! C! A! C! fij=! k fij! A! C! B! B! A! C! A! B! A! B! A! C! C! A! B! C! B! C! k fii=! k fij=! k=1 k=2 k=3 k=4 k=5 k=6 fij AA AB AC BB BC CC

10 Normalise pour avoir la somme 1 T=! T=! 6*4*(4-1) 2 = 36 k=1 k=2 k=3 k=4 k=5 k=6 fij AA AB AC BB BC CC

11 Normalisé pour avoir une somme 1 T=! 36 f k=1 k=2 k=3 k=4 k=5 k=6 fij qij AA AB AC BB BC CC

12 Calcul du dénominateur pi Sij = log [ qij / (pi.pj) ] pa = qaa+ (qab + qac)/2 pa = ( )/2 = k=1 k=2 k=3 k=4 k=5 k=6 fij qij AA pb = 0.33 pc = AB AC BB BC CC

13 Calcul du dénominateur pi Sij = log [ qij / (eij) ] eij = pi 2 eij = 2pipj si i=j si i!= j pa = pb = 0.33 SAA = log [ qaa / (eaa) ] SAA = log [ 0.16 / (pa) 2 ] qij pc = SAB= log [ qab / 2(pA*pB) ] AA 0.16 A B C AB 0.22 A 0,599! AC 0.11 B 0,036! 0,36! BB 0.14 C -0.94! -0,422! 0,85! BC 0.16 CC 0.19

14 Les matrices de substitution des acides aminés Pénalités des Substitutions : Sij > 0 <=> remplacement considéré fréquent Sij < 0 <=> remplacement rare, peu probable entre protéines homologues

15 Les matrices de substitution des acides aminés Les matrices sont construites à partir de l'observation des fréquences de substitution entre séquences «apparentées» o Estimer le taux de substitution sur des positions conservées. Matrices PAM = Point Accepted Mutation (Dayhoff 1979) Matrices BLOSUM = BLOcks SUbstitution Matrix (Henikoff & Henikoff 1992)

16 Les matrices BLOSUM A partir de Blocs = alignement multiple local sans insertiondélétion pour une famille de protéines Calcul des scores Sij = log [ qij / (pi.pj) ] ~2000 blocs, 500 familles de protéines

17 Les matrices BLOSUM Regroupement des séquences au sein de leur bloc Regroupement en fonction d un seuil d identité Seuil = 80% <=> BLOSUM80 Seuil = 60% <=> BLOSUM60 Calcul des scores par cluster => diminue la redondance liée au nombre de paires identiques (sur-représentation de certaines séquences par exemple)

18 BLOSUM 62

19 Alignement des deux séquences protéiques RDISLVKNAGI et RNILVSDAKNVGI avec «BLOSUM 62» Correspondance et Substitution: cf. BLOSUM, Indel: -5 RDISLV---KNAGI RNI-LVSDAKNVGI Score = = 19

20 Les matrices PAM (Point Accepted Mutations) Deux séquences S1 et S2 sont à une unité PAM si plusieurs mutations ponctuelles ont transformé S1 en S2 avec en moyenne une mutation pour 100 aa. Idée: Dériver les matrices pour PAM-1 o On extrapole avec un modèle de mutation pour les distances plus longues.

21 Les matrices PAM Basées sur alignement multiple global de séquences très similaires (>85% identité), mutations dites acceptées car ne changent pas significativement la fonction de la protéine. 1) alignement de séquences (71 familles de protéines (1300 séquences)) 2) Comptage des substitutions sur un arbre phylogénétique des séquences A ij 3) Calcul mutabilité : m i = Σ j A ij /f i (pour chaque aa i, f i fréquence d'apparition) 4) Calcul des scores R ij =M ij /f i avec M ij =m i A ij /Σ i A ij et Normalisation tq ΣR ij =1 => matrices de mutation MDM-1 (Mutation Data Matrix) 5) Extrapolation pour séquences plus éloignées MDM-n = (MDM-1)^n (PAM-1 = 1 mutation acceptée pour 100 résidus) 6) Transformation en matrice «log odds» : PAM-n = log(ndm-n)

22 Matrice PAM Point Accepted Mutation Extrapolation «1àn» basée sur hypothèse forte que le «taux de mutation» est constant et équiprobable sur toute la longueur des séquences et au cours du temps néglige les différences mutations courtes / mutations longues PAM-1 fait environ 1 million d années d évolution Biais d échantillonnage : 1978 : ensemble des séquences pas représentatif (1300 séquences, 71 familles) 1992 : réactualisation : séquences, familles

23 PAM 10

24 Matrices PAM Choix de la matrice N en fonction de l évolution supposée des séquences Plus «N» est élevé, plus la matrice est adaptée à la comparaison de séquences divergentes Si la divergence n est pas connue (ce qui est généralement le cas), il faut faire plusieurs essais PAM-n n est pas n différences pour 100 aa. un aa peut être substitué plusieurs fois En général on utilise PAM-250

25 Matrice BLOSUM Choix de la matrice N en fonction du pourcentage d identité supposé des séquences Plus «N» est élevé, plus la matrice est adaptée à la comparaison de séquences de forte identité Si l identité n est pas connue (ce qui est généralement le cas), faire plusieurs essais

26 Quelle matrice de score utiliser? «Faible divergence/forte identité» : PAM 40 ou BLOSUM 80 «Moyenne divergence/moyenne identité»: PAM 120 ou BLOSUM 62 «Forte divergence/faible identité» : PAM 250 ou BLOSUM 45 Il n y a pas de matrice parfaite!

27 PAM et BLOSUM Hypothèse circulaire: o On utilise un alignement de séquence pour décider comment mettre en place la fonction de score. PAM: séquences très proches (plus sûr à aligner) BLOSUM: en pratique plusieurs (3) itérations d alignement sont faites Distance d évolution: o o PAM extrapole à partir d une distance courte BLOSUM estime avec une étape de regroupement à un % de similarité fixé

28 Significativité d un alignement

29 Significativité d un alignement Imaginons qu on aligne!vivalasvegas!!vivada-v--is! avec un score de 2 (match =+1, mismatch/gap = -1) Est ce que le score obtenu veut dire qu il y a une relation entre les deux séquences? o Est ce que la valeur est significativement plus grande qu attendu par hasard?

30 Significativité d un alignement Quel serait le score si on alignait deux séquences aléatoires? Génération de plusieurs séquences de même composition o Combien de fois observe-t-on une séquence avec le même score? o P-valeur de l alignement Ici 2 cas parmi 1000 simulations Distribution of Alignment Scores over 1000 Random Permutations

31 Retour a eyeless/pax score de l alignement : 437 (matrice PAM50) Quelle p-valeur? histogramme avec 1000 simulations human HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIRPRA fly HSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIRPRA human IGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEGVCTNDNIPSVSSINRVLRNLASEK-QQ fly IGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQENVCTNDNIPSVSSINRVLRNLAAQKEQQ

32 Comment comparer une séquence contre une banque?

33 Comparaison séquence/banque Pourquoi? o o o Réunir un échantillon taxonomique (homologues) pour faire une phylogénie Annoter un génome nouvellement séquencé (fonctions putatives) Étudier une famille (consensus, domaines) Vocabulaire : o o Séquence à rechercher = Query Séquence de la banque = Subject

34 Comparaison séquence / banque Comment? o Forcément, on cherche des alignements locaux! o SW = algorithme exact qui donne l'alignement optimal Si on cherchait pour chaque «Subject» son alignement optimal avec la «Query» et puis on classerait par score Problème : o o Si 1 alignement SW prend 15 ms Banque SwissProt (> entrées) prend 2h => Trop lent! Il faut trouver des heuristiques, indexer les séquences

35 BLAST: Basic Local Alignement Search Tool BLAST : o o o Altschul & al., 1990 est une heuristique qui recherche dans une banque les séquences (Subject) présentant une bonne similarité locale avec une séquence requête (Query) Assigne un score et une espérance à chaque couple Query-Subject Optimise le temps de recherche au détriment de la sensibilité et de la précision de l'alignement BLAST n'est pas un programme d'alignement optimal de séquences!

36 Blast : Basic Local Alignment Search Tool 3 grandes étapes : 1. Identifier les k-mots «similaires» w de taille k pour les nuc, k=10 ou 11 / pour les aa, k=3 ou 4 2. Création des High Scoring Segment Pairs (HSPs) a) Etendre l'alignement (sans indel) de chaque côté de w tant que le score cumulé est M (seuil fixé) => HSPs b) Eventuellement rassembler les HSPs 3. Evaluation statistique des segments similaires obtenus

37 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV

38 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : k=5 Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1

39 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : k=5 Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2

40 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : k=5 Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3

41 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : k=5 Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3 CLGYR PrSub1 15

42 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Banque : k=5 Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub CLGYR PrSub1 15 PrSub

43 Blast: étape 0 Indexation de la banque (parcours 1 seule fois la banque!) Index : EKFKA PrSub1 1 KFKAA PrSub1 2 Tri FKAAM PrSub1 3 CLGYR PrSub CLGYR PrSub1 15 PrSub Le tri de l'index ainsi créé (table de hachage) optimise le temps de recherche Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

44 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query k=5 Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

45 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query k=5 Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

46 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

47 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

48 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

49 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

50 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SKCDKSDTRALLAQYIPSTVNHPIL EKFKAAMLLKSDTRCLGYRNVCKEG Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

51 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SDTRA => 0 Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

52 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SDTRA => 0 DTRAL => PrSub2 13 SKCDKSDTRALLAQYIPSTVNHPIL YYDDVGLLCEKADTRALMAQFVPPL Index trié : AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

53 Blast: étape 2 Extension de l'alignement (sans indel) => HSPs Mots «similaires» de taille k=5 (en aa) L ProtQ PrSub1 SKCDKSDTRALLAQYIPSTVNHPIL EKFKAAMLLKSDTRCLGYRNVCKEG Extension du segment tant que S M (seuil fixé) ProtQ PrSub1 SKCDKSDTRALLAQYIPSTVNHPIL EKFKAAMLLKSDTRCLGYRNVCKEG ProtQ PrSub1 SKCDKSDTRALLAQYIPST AMLLKSDTRCLGYRNVCKE

54 Blast: Comment améliorer la première et la deuxième étape?

55 Blast: étape 1 Identification des k-mots «approximatifs» au lieu d'exiger k aa identiques successifs Score des k-mots T Exemple : DTRAL, T = 5 D T R A L D V R H I S= = 11 => OK D T R A L S= = -9 => NON M A T R G D T R A L S= = 8 => OK E S K S M D T R A L S= = 24 => OK D T R A L

56 Blast: étape 1 Identification des k-mots «approximatifs» au lieu d'exiger k aa identiques successifs Score des k-mots T Au lieu d'écrire dans l'index : DTRAL PrSub2 13 On pré-calcule les mots approximatifs, et on écrit : DTRAL PrSub DVRHI PrSub ESKSM PrSub (tous les 5-mots de score T) => Beaucoup de lignes d'index par mot de la banque Construction de l'index lente Recherche dans l'index longue => Sauf si k est petit!

57 Blast: étape 2 l On applique un double- critère: les séquences doivent partager 2 petits mots (au lieu d'un grand) Query Subject Query Subject trouver 2 paires de mots "voisins" PKV (s >= T) à égale distance d dans les 2 séquences (d<40)

58 Blast: étape 2 l vérifier que l'on peut étendre ces amorces pour obtenir des alignements sans gaps de score s>t Query Subject l faire l'alignement local Smith & Waterman

59 Blast: étape 3 Calcul des scores Quelle est la probabilité ( p-value ) d obtenir par hasard les HSPs effectivement obtenus? On peut approximer la probabilité d'obtenir une HSP de score S avec P(S) = e -λs On définit l'espérance E telle que : E-value = K B *l Q *e -λs où K B dépend de la taille et de la composition de la banque l Q = taille séquence Query => La E-value représente le nombre de HSPs de score S attendues au hasard dans la banque

60 Blast: étape 3 Significativité du score des HSPs La E-value représente le nombre de HSPs de score S attendu au hasard dans la banque E-value = 3 signifie «si je comparais ma séquence à une banque aléatoire de même taille et de même composition que la banque initiale, je m attendrais à trouver 3 alignements de score S» => pas significatif Plus la Evalue est petite, plus la similarité est pertinente (non due au hasard) Cette E-value dépend : Ø De la matrice de substitution (=> S et taille des HSPs) Ø De la taille et de la composition de la banque

61 BLAST : les différentes versions On veut en général masquer les séquences répétées Programmes distincts selon la nature des séquences traitées : BLASTN séquence nucléique contre base nucléique BLASTP séquence protéique contre base protéique BLASTX séquence nucléique traduite en 6 phases contre base protéique TBLASTN séquence protéique contre base nucléique traduite en 6 phases Et d'autres options/ En particulier Wu-blast, Psi-blast, etc.

62 BLAST always uses the same substitution matrix to find scores. However, a position-specific score matrix (PSSM) is more suitable. PSSM Q of a query sequence Q is a matrix (Nx20), where N is the size of Q and 20 are amino acids. PSSM Q elements contains the frequency of a amino acid in some position of query sequence. Frequencies are calculated from multiple alignments of sequences. Question: What are the differences between a substitution matrix and a position-specific scoring matrix? To answer at this question look at the scoring value for Serine residue at the positions 210 and 216. They are different.

63 Why? Serine has the different functions at the these positions. The substitutions of serine in the active site are very rare and, consequently, the costs for mutations are different. However, in a substitution matrix the scoring value of amino acids are independent of a position in a sequence.

64 PSI-BLAST - Position-Specific Iterative BLAST Query sequence 1st iteration seq1 seq2 PSSM 1 seqn seq1 seq2 PSSM 2 2nd iteration Sequence database seqm 3th iteration seq1 seq2 PSSM 2 seqm Convergence

65 1 st iteration Run the default BLAST by using the default substitution matrix (BLOSUM62) and the query sequence Q 1. Build the MSA 1 from the best sequences found. Build the PSSM 1 from MSA 1. 2 nd iteration Compare Q 1 with database sequences by using a modified BLAST version, that is, the default substitution matrix is replaced with the PSSM 1. Build a new MSA 2 from the best sequences found. Build the PSSM 2 from MSA 2. Stop if PSSM 1 = PSSM 2 3 th iteration (if not stopped) Compare Q 1 with database sequences by using PSSM 2. Build a new MSA 3 from the best sequences found. Build the PSSM 3 from MSA 3. Stop if PSSM 2 = PSSM 3

66 BLAST et associés BLAST permet de faire des recherches de séquences (query) contre une base de donnée (subject) o Heuristique de début d alignement Psi-BLAST permet de détecter des homologies lointaines o apprend avec les alignements successifs les positions importantes de la séquence query