TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher toutes les séquences qui contiennent un motif donné. - Déterminer la fonction: Le but est d'identifier la fonction d'une séquence en la comparant à une ou plusieurs autres séquences. similarités dans la séquence similarités dans la structure similarités dans la function

Homologie La similarité forte entre deux séquences est considérée comme représentative de l'homologie entre ces séquences. séquence ancêtre commune mutations accumulées au cours de l'évolution. Lorsque la similitude protéique dépasse 30% sur au moins 100 résidus, alors il est généralement probable que les séquences dérivent d'un ancêtre commun (elles sont homologues). La comparaison de gènes homologues est une approche très efficace pour : - Déterminer la fonction et la structure d'une séquence. - Repérer des régions fonctionnelles au sein des séquences. - Etudier les processus de l'évolution à l'échelle moléculaire. - Etablir la phylogénie des espèces L'homologie entre deux séquences peut laisser supposer que les séquences ont des fonctions identiques (mais ne le prouve pas...).

2784 Gan et al. FIGURE 1 (caption on next page) Biophysical Journal 83(5) 2781 2791

Dot Plot lignement de séquences (proteines, DN, RN) Méthode de représentation visuelle des positions des similarités entre deux séquences (ou sur une même séquence). Objectif Dans le cas de la comparaison d'une séquence avec elle-même, il s'agit de détecter les répétitions internes. Dans le cas où la comparaison implique deux séquences différentes, il est possible d'identifier des régions de similarité. Principe Le principe est de mettre les séquences le long des axes d une matrice et de mettre un point là où il y a une correspondance. T T C G G C T G G C

Exercise 1: Tracez un nouveau dotplot à partir des deux séquences suivantes : THFLTQHYDKPQYRNDR KHFLTQHQHKPFGRNDR Que remarquez vous? T H F L T Q H Y D K P Q Y R N D R K H F L T Q H Q H K P F G R N D R

Exercise 2: Tracez un dotplot de la sequence avec elle-meme: BCDFFGKDFGTFGK B C D D F G K D F G B B C D D F G K D F G B ugmentez la stringence, en ne conservant les segments qui contiennent au moins 3 positions identiques sur la diagonale. La diagonale principale représentant l exacte similarité de la prot avec elle-même (normale) Plusieurs lignes diagonales représentant des zones de similarité chevauchantes. Dot plot typique pour une séquence contenant des répétitions.

La proteine ribosomale S1 de EColi contient 6 répétitions d environ 13 aa correspondant à 6 domaines S1. Domaine S1 : fonction de liaison à l RN et Beta-Barrel. Si on diminue la taille des fragments devant être similaires en dessous de 13, on voit mieux. Ici taille fragment = 6.

Exercise 3: Comparaison de la séquence nucléaire du gène de l'actine de muscle (horizontalement) à la séquence de l'dnc (RN) du même gène 1. Comment apparaissent les exons dans un dotplot? 2. Combien comptez-vous d'exons? 3. Que pouvez-vous dire sur la différence de taille entre les exons et les introns? 1. Les exons apparaissent en plusieurs petites diagonale décalées. Ils sont séparés par les introns du genes que l on ne retrouve pas dans l DNc. 2. 6 exons. 3. Les exons sont plus petits que les introns.

Recherche par similarité La recherche de similarités (globale ou locale) entre deux séquences consiste à chercher des régions très semblables: un maximum de caractères identiques : appariements et un minimum de changements : substitutions, insertions/délétions Exemples Un alignement parfait: sequence 1: TCCPSIVRSN * * * * * * * * * * * sequence 2: TCCPSIVRSN Un alignement avec ressemblances fortes: sequence 1: TCCPSIVRSN. * * * * *. * * * * sequence 2: SCCPSISRSN Un alignement avec indels et mismatch: sequence 1: CCCPSIVRSN. * * *. * *.. sequence 2: SC - PSR-RNT

Matrices de similarité Quantification de la similitude : Le score Un score global permet de quantifier la similitude. Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. C'est le nombre total de "bons appariements" pénalisé par le nombre de "mésappariements". Un mésappariement peut être : la substitution d'un caractère par un autre (mutation) l'introduction d'un "gap" Le gap permet d'optimiser l'alignement entre les deux séquences donc de faire coïncider le maximum de caractères communs. Example: ppariement: 5 Mésappariement: -6 Ouverture insertion/délétion : -4 T G G T T T G G T SCORE: 5-4+5+5-4+5-6+5 = 1

Matrices de substitution Les matrices PM (Percentage of cceptable point Mutations) PM matrices are based on global alignments of closely related proteins. Specific for a particular evolutionary distance. ex : la PM 250 est appropriée pour comparer des sequences ayant subis 250 mutations per 100 amino acids. Because of back mutations and silent mutations this corresponds to sequences that are about 20 percent identical. Les matrices BLOSUM (BLOcks SUbstitution Matrix) Based on local multiple alignments sans gap de regions très conservées of more distantly related sequences. ex:blosum 62 (default matrix in BLST), is calculated from comparisons of sequences with no less than 62% identity. Est utilisée comme matrice par défaut car elle offre un bon compromis quand les distances évolutives entre les séquences ne sont pas connues. lignement 1: G - P F D Y S T V H R C P R F E T H - V Score PM250 = -3-4-1 +6-2+ 9 +3-3 -1-4-1 +4-1 = 2 Score BLOSUM45 = -2-4-1 +9-2 +8 +2-1 -1-4-1 +5-2 = 6 lignement 2: G P F D Y S T - V H R C P R F E - - T H V Score PM250 = -3-4-1 +6-2 +9 +3-4-1-1 +3-4-1 +4-1 = 3 Score BLOSUM45 = -2-4-1 +6-2 +8 +2-4-1-1 +5-4-1 +5-2 = 4

Exercise 4: Calculer le score pour l allignemnet proteique suivante. Vous utiliserez la matrice de substitution BLOSUM50 et une pénalité d ouverture et d extension de gap de 2 E V R E P K T E M P K V

E-value Nombre d'alignements attendus par hasard ayant un score supérieur ou égale au score (S) obtenu dans la banque considérée (mn). Plus la valeur est faible, plus l'alignement est fiable (indique que le résultat n est pas du au hasard) Dépend du nombre total de résidus contenus dans la banque (Ces valeurs ne sont pas comparables entre deux banques) E-value = Kmn e -λs m* n : correspond à l espace de recherche. m est le nombre de lettres de la séquence requête et n est le nombre de lettre dans la base de données. Relation linéaire avec la taille de l espace de recherche: si la taille de la banque double, la e-value double aussi. Relation exponentielle avec le score: de légers changements de score peuvent entraîner d important changement de la e-value.

Exercise 5: Caluler le E-value pour les alignements precedents. Consider: m=10, n=10, K=1, λ=2 lignement 1 PM 250 : S = 2 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*2) = 1.831564 Blosum 45 : S = 6 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*6) = 0.0006144212 lignement 2 PM 250 : S = 3 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*3) = 0.2478752 Blosum 45 : S = 4 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*4) = 0.03354626