Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek

Transcription

1 Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr

2 Comment comparer une séquence contre une banque?

3 Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique (homologues) pour faire une phylogénie Annoter un génome nouvellement séquencé (fonctions putatives) Étudier une famille (consensus, domaines) Vocabulaire : Séquence à rechercher = Query Séquence de la banque = Subject

4 Comparaison séquence/banque Comment? Forcément, on cherche du local! SW = algorithme exacte qui donne l'alignement optimal Si on cherchait pour chaque «Subject» son alignement optimal avec la «Query» et puis on classe par Z-score décroissant Problème : Si 1 alignement SW prend 15 ms Banque SwissProt (> entrées) prend 2h => Trop lent! Il faut trouver des heuristiques

5 Blast: Basic Local Alignement Search Tool Altschul & al., 1990 BLAST : est une heuristique qui recherche dans une banque les séquences (Subject) présentant une bonne similarité locale avec une séquence requête (Query) assigne un score et une espérance à chaque couple Query- Subject optimise le temps de recherche au détriment de la sensibilité et de la précision de l'alignement BLAST n'est pas un programme d'alignement optimal de séquences!

6 Blast: Basic Local Alignement Search Tool 3 grandes étapes : 1) Identifier les k-mots «similaires» w de taille k pour les an, k=10 ou 11 / pour les aa, k=3 ou 4 2) a) Etendre l'alignement (sans indel) de chaque côté de w tant que le score cumulé est M (seuil fixé) => HSPs = High Scoring Segment Pairs b) Eventuellement rassembler les HSPs 3) Evaluation statistique des segments similaires obtenus

7 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV

8 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1

9 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2

10 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3

11 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3 CLGYR PrSub1 15

12 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Banque : Index : >PrSub1 EKFKAAMLLKSDTRCLGYRNVCKEG >PrSub2 YYDDVGLLCEKADTRALMAQFVPPL >PrSub3 SACILSTVNHSILKKSVHCLGYRSV EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3 CLGYR PrSub CLGYR PrSub1 15 PrSub

13 Blast: étape 1 Indexation de la banque (parcours 1 seule fois la banque!) Index : Index trié : EKFKA PrSub1 1 KFKAA PrSub1 2 FKAAM PrSub1 3 CLGYR PrSub Tri CLGYR PrSub1 15 PrSub Le tri de l'index ainsi créé (table de hachage) optimise le temps de recherche AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

14 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

15 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

16 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

17 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

18 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

19 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

20 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SDTRA => 0 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

21 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SDTRA => 0 DTRAL => PrSub2 13 AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

22 Blast: étape 1 Recherche des mots de la Query dans l'index de la banque Query Index trié : >ProtQ SKCDKSDTRALLAQYIPSTVNHPIL SKCDK => 0 KCDKS => 0 CDKSD => 0 DKSDT => 0 KSDTR => PrSub1 10 SDTRA => 0 DTRAL => PrSub2 13 TRALL => 0 Etc. AAMLL PrSub1 5 ACILS PrSub CILST PrSub3 3 CLGYR PrSub1 15 PrSub3 19 DDVGL PrSub2 3 DTRAL PrSub2 13 DTRCL PrSub KSDTR PrSub1 10 KSVHC PrSub3 15 etc.

23 Blast: étape 1 Identification des k-mots «approximatifs» au lieu d'exiger k aa identiques successifs Score des k-mots T Exemple : DTRAL, T = 5 D T R A L S= = 11 => OK D V R H I D T R A L S= = -9 => NON M A T R G D T R A L S= = 8 => OK E S K S M D T R A L S= = 24 => OK D T R A L

24 Blast: étape 1 Identification des k-mots «approximatifs» au lieu d'exiger k aa identiques successifs Score des k-mots T Au lieu d'écrire dans l'index : DTRAL PrSub2 13 On pré-calcule les mots approximatifs, et on écrit : DTRAL PrSub DVRHI PrSub ESKSM PrSub (tous les 5-mots de score T) => Beaucoup de lignes d'index par mot de la banque Construction de l'index lente Recherche dans l'index longue => Sauf si k est petit!

25 Blast: étape 2 Extension de l'alignement (sans indel) => HSPs Mots «similaires» de taille k=4 (en aa) MGLSDGEWHLVLNVWGKVETDLAGHGQEVLIRLFKSHPETLEKFDKFKHLKSEDDMRRSEDLRKHGNTVLTAL. :... ::..:.. :.. ::.:.: : : MVADAVAKVCGSEAIKANLRRSWGVLSADIEATGLMLMSNLFTLRPDTKTYFTRLGDVQKGKANSKLRGHAITLTYAL Score (Blosum 30) = 72, ici MSP (Maximum Scoring Pair ) Extension du segment tant que S M (seuil fixé) MGLSDGEWHLVLNVWGKVETDLAGHGQEVLIRLFKSHPETLEKFDKFKHLKSEDDMRRSEDLRKHGNTVLTAL. :... ::..:.. :.. ::.:.: : : MVADAVAKVCGSEAIKANLRRSWGVLSADIEATGLMLMSNLFTLRPDTKTYFTRLGDVQKGKANSKLRGHAITLTYAL Score (Blosum 30) = 52, ici HSP (High Scoring Pair) Etc.

26 Blast: étape 2 Recherche des HSPs = High Scoring Pairs Basé sur l'idée que : En général, l'alignement optimal contient plusieurs HSPs dont sûrement la MSP (= Maximal Scoring Pair). Une HSP contient au moins un k-mot de score > T

27 Blast: étape 3 Significativité du score des HSPs Quelle est la probabilité ( p-value ) d obtenir par hasard les HSPs effectivement obtenus? Soit P(S) = e -λs la probabilité d'obtenir une HSP de score S On définit l'espérance E telle que : E-value = K B *l Q *e -λs où K B dépend de la taille et de la composition de la banque l Q = taille séquence Query => La E-value représente le nombre de HSPs de score S attendues au hasard dans la banque

28 Blast: étape 3 Significativité du score des HSPs La E-value représente le nombre de HSPs de score S attendu au hasard dans la banque E-value = 3 signifie «si je comparais ma séquence à une banque aléatoire de même taille et de même composition que la banque initiale, je m attendrais à trouver 3 alignements de score S» => pas significatif Plus la Evalue est petite, plus la similarité est pertinente (non due au hasard) Cette E-value dépend : De la matrice de substitution (=> S et taille des HSPs) De la taille et de la composition de la banque

29 Blast: étape 3 Significativité du score des HSPs Score S dépend des scores des différents Matchs (cf matrice de substitution) Les valeurs de cette matrice (log-odds) fondée sur l'hypothèse d'indépendance entre les différentes positions (chaque aa de la séquence) Ceci est faux pour les régions répétées des séquences => fausse la E-value Solution : masquer les séquences

30 Blast: étape 3 Masquer les séquences répétées Principe : filtrer la séquence Query en masquant les régions répétées Exemple : >sp P04156 PRIO_HUMAN Major prion protein OS=Homo sapiens GN=PRNP PE=1 SV=1 MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV ILLISFLIFLIVGC Devient : >sp P04156 PRIO_HUMAN Major prion protein OS=Homo sapiens GN=PRNP PE=1 SV=1 MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTHSQWNKPSKPKTNMKHMXXXXXXXX XXXXXXXXXXXXXXXRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV NITIKQHXXXXXXXXXXXXXXDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSXXXX XXXXXXXXXXXXX

31 Blast Masquer les séquences répétées Programmes distincts selon nature des séquences traitées : BLASTN séquence nucléique contre base nucléique BLASTP séquence protéique contre base protéique BLASTX séquence nucléique traduite en 6 phases contre base protéique TBLASTN séquence protéique contre base nucléique traduite en 6 phases Et d'autres Wu-blast, Psi-blast, etc.

32 Fasta / FastP Ancêtre de Blast = Fasta.

33 Fasta : Pearson & Lipman, PNAS 1988 A) Recherche des mots identiques de taille l k (matchs successifs joints si distance < seuil) B) Sur la base des 10 meilleurs, re-calcul du score avec PAM250, raccourcissement => Zones de + haut score = «initial region» C) Jonction des régions par alignement avec gap selon seuil D) Alignement NWS des couples Subject-Query sélectionnés autour de ces régions A C B D

34 Fasta : Pearson & Lipman, PNAS 1988 Significativité du score des alignments Basée sur la calcul d'un Z-score : Distribution de Score d'alignements «dus au hasard» => moyenne (m) et écart-type (e) Calcul du Z-score : Z = S-m/e => Comme déjà vu pour l'alignement 2 à 2 (Nws et SW).

35 Retour à la Génomique comparative On sait identifier des gènes qui se ressemblent Que peuvent me dire ces gènes sur l'histoire évolutive des génomes? => Homologie (orthologie/paralogie) et synténie

36 Gène et Homologie Rappel des définitions Des gènes homologues sont issus d un gène ancestral commun: Les gènes issus d un gène ancestral commun par héritage vertical sont dits orthologues. Par définition il existe donc au plus un orthologue par génome pour chaque gène considéré. Si ces gènes ont évolués par duplication l un de l autre ils sont dits paralogues

37 Gène et Homologie Exemple orthologues ORTHOLOGIE ORTHOLOGIE

38 Gène et Homologie Exemple paralogues ORTHOLOGIE PARALOGIE ORTHOLOGIE

39 Gène et Homologie Divergence + Fluidité ORTHOLOGUES? PARALOGUES?

40 Gène et Transfert horizontal

41 Retour à la Génomique comparative La similarité ne permet pas à elle seule d'établir des liens d'homologie!

42 Gènes et Orthologie Méthode du BBH Deux gènes a et b (codant pour des protéines pa et pb) appartenant respectivement aux génomes des organismes A et B sont dits en BBH si et seulement: Le meilleur hit blast de pb chez A est pa Le meilleur hit blast de pa chez B est pb Critères supplémentaires : Hit blast < 10^-6 taille(pa)=taille(pb) Taille alignement = taille des protéines

43 Gènes et Orthologie Méthode BBH Espèce A Espèce B a 1 b1 a 2 b2 a 3 b3 a 4 b4 a 5 b5 b6 a 2 et b 1 sont orthologues

44 BBH «Multi-Espèces» Exemple BBH en «étoile» pour 3 espèces Espèce A Espèce B Espèce C a 1 a 2 a 3 a 4 a 5 b1 b2 b3 b4 b5 c 1 c 2 c 3 c 4 b6 PIVOT a 2, b 1 et c 1 sont orthologues pour le BBH en «étoile»

45 BBH «Multi-Espèces» Exemple BBH en «clique» pour 3 espèces Espèce A Espèce B Espèce C a 1 a 2 a 3 a 4 a 5 b1 b2 b3 b4 b5 c 1 c 2 c 3 c 4 b6 a 2, b 1 et c 1 ne sont pas orthologues pour le BBH en «clique» => BBH en «clique» coûteux et très contraignant

46 La synténie

47 Synténie de Gènes Définition Ensemble de segments génomiques appartenant à différents génomes partageant «pratiquement» les mêmes gènes Ces segments témoignent d une conservation locale du voisinage génomique pouvant être affectée par quelques réarrangements (orientation, duplication, insertion, fusion, etc.)

48 Synténie de Gènes 1ère approche : le dotplot 2 isolats de Clostridium difficile Colinéarité = Synténie

49 Synténie de Gènes Exemple Gène : G1 G2 G3 G4 G5 G6 G7 Espèce 1 Espèce 2 Espèce 3 Espèce 4 Espèce 5 Espèce 6 Note: avant la détection des synténies, il faut définir les liens d orthologie. Ici, les gènes d une même couleur ont été identifiés (via le «BBH» par exemple) comme étant orthologues

50 Synténie de Gènes Définition gene team (Raffinot et al., 2004) u, a et w sont en synténie sur X et Z à un gap près X f u a w Y z a x y Z u x a a w

51 Synténie de Gènes Intérêts de la synténie La détection de synténies permet d identifier des gènes susceptibles d être fonctionnellement liés et/ou d interagir (opérons, clusters de gènes) La synténie permet également d évaluer et d identifier les réarrangements affectant les génomes tels que les transpositions, délétions, insertions, inversions, fusions et fissions (mesure phylogénétique, étude de la dynamique/fluidité des génomes)

52 Exemple Fluidité des génomes A B Inversion autour du terminus B

53 Exemple Caractérisation des zones conservées: les synténies B Gènes orthologues : B2

54

55 Exemple Cas réel

56 Synténie de Gènes Macro-synténie, Micro-synténie Micro-synténie: ensemble de segments génomiques appartenant à différents génomes partageant «pratiquement» les mêmes gènes Macro-synténie: deux gènes «côte à côte» sur le chromosome d une espèce sont sur le même chromosome dans une autre espèce

57 Homme / Souris

58

59 Jaillon et al., Nature, 2004