Algorithmes pour la comparaison de séquences II

Dimension: px

Commencer à balayer dès la page:

Download "Algorithmes pour la comparaison de séquences II"

Hugues Forget
il y a 7 ans
Total affichages :

1 Algorithmes pour la comparaison de séquences II Hélène TOUZET Equipe Bioinfo Master recherche informatique

2 Pourquoi comparer des séquences? Puisque c est la structure qui prime pour la fonction (cf cours de Maude Pupin)

3 Structure des protéines Structure Structure Structure Structure primaire secondaire tertiaire quaternaire Swissprot: séquences TrEMBL: séquences PDB : 243 structures

4 les programmes de séquençage fournissent des séquences qu il faut annoter ADN traduction protéine potentielle (TrEmbl) protéine (Swissprot) les structures 3D sont longues et coûteuses à déterminer cristallographie, résonnance magnétique nucléaire dans PDB, toutes les protéines avec plus de 25 % d identité partagent la même structure PDB: Protein Data Bank - banque de structures de protéines résolues expérimentalement

cristallographie, résonnance magnétique nucléaire dans PDB, toutes les protéines avec plus de 25 % d

5 Alignement 2 à 2 : Amélioration du modèle avec le traitement des gaps Gap: succession de délétions ou d insertions Un gap correspond à un seul événement mutationnel. Ouv : pénalité d ouverture de gap Ext : pénalité d extension de gap Anciennes pénalités Nouvelles pénalités T C A G A C G A G T C T C A G A C G A G T C T C G G A _ G C _ T G T C G G A G C T G

Ouv : pénalité d ouverture de gap Ext : pénalité d extension de gap Anciennes pénalités

6 Pénalités de gaps linéaires toutes les positions sont indépendantes (dépendance d ordre 0) Pénalités de gaps affines le score d une position dépend de la position précédente (dépendance d ordre 1) Ext Insertion Ouv+Ext Ouv+Ext Délétion Ext Ouv+Ext s s Ouv+Ext Substitution s

position dépend de la position précédente (dépendance d ordre 1) Ext

7 Algorithme Trois tables : a(i, j) score maximal d un alignement entre U(1..i) et V (1..j) qui termine par un match ou un mismatch entre U(i) et V (j) b(i, j) score maximal d un alignement entre U(1..i) et V (1..j) qui termine par l insertion de V (j) c(i, j) score maximal d un alignement entre U(1..i) et V (1..j) qui termine par la délétion de U(i)

8 Formules de récurrence Ouv : pénalité d ouverture de gap Ext : pénalité d extension de gap a(i, j) = Sub(i, j) + max a(i 1, j 1) b(i 1, j 1) c(i 1, j 1) b(i, j) = max Ouv + Ext + a(i, j 1) Ext + b(i, j 1) Ouv + Ext + c(i, j 1) c(i, j) = max Ouv + Ext + a(i 1, j) Ouv + Ext + b(i 1, j) Ext + c(i 1, j)

j 1) b(i, j) = max Ouv + Ext + a(i, j 1) Ext + b(i, j 1) Ouv + Ext + c(i,

9 Initialisation a(0, 0) = 0 a(i, 0) = a(0, j) = b(i, 0) = b(0, j) = Ouv + Ext j c(i, 0) = Ouv + Ext i c(0, j) =

10 Exemple : EAGAWGHE et PAWHEAE score des substitutions : A E G H P W A E G H P 10 4 W 15 pénalités d ouverture de gaps : -10 pénalités d extension : -2 alignement global avec gaps affines optimal: E A G A W G H - E P - - A W H E A E

11 a (... substitution) b (... insertion) c (... délétion) E A G A W G H E 0 P A W H E A E E A G A W G H E 0 P A W H E A E E A G A W G H E P A W H E A E

11 2 E 16 22 10 13 11 14 4 3 E A G A W G H E 0 P 12 24 26 28 30 32 34 36 38 A 14 13 25 27 29 31 33 35 37 W 16 15 8 20 22 24 26 28 30 H 18 17 10 11 23 7 19 21 23 E 20

12 BLAST Basic Local Alignment Search Tool Altschul et al

13 Programme pour la recherche de similarités dans de grandes banques de données EMBL, Swissprot,... Utilise un algorithme heuristique linéaire pour l alignement local : Ne s intéresse qu aux séquences avec un fort taux de similarité BLAST ne construit pas un alignement avec toutes les séquences de la banque. Tire parti du caractère biologique des séquences Des séquences similaires ont des segments communs de taille k quasi-identiques. Par défaut : ADN k=11 ou 13, protéines k=3

taux de similarité BLAST ne construit pas un alignement avec toutes les séquences de la banque.

14 Table de hachage k-mers : mots de longueur k Fonction de hachage (pour l ADN): e : {A, C, G, T } {0, 1, 2, 3} H(i) = k 1 j=0 e(a i+j)4 k j 1 H(i + 1) = 4 H(i) + e(a i+k ) mod 4 k Exemple : 5-mers de AGT ACCGAA A G T A C C G A A

+ 1) = 4 H(i) + e(a i+k ) mod 4 k Exemple : 5-mers de AGT ACCGAA A G T A

15 Étape 0: Pré-traitement de la banque de données : indexation de tous les k-mers 4 11 = << taille de la banque de données Étape 1: Construction d une table de hachage recensant tous les mots de longueurs k apparaissant dans la séquence requête avec un score > T.

Étape 1: Construction d une table de hachage recensant tous les

16 Étape 2: Localisation des k-mers dans la banque de données HSP : High Scoring Pairs Étape 3 : Extension de ces points d ancrage de proche en proche, pour avoir un score significatif.

17 Query= Felis catus DRD4 gene fordopamine receptor D4 (276 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AB Felis catus DRD4 gene f e-52 gi AB Nyctereutes procyonoide e-36 gi AB Canis lupus DRD4 gene f e-36 gi AB Bos taurus DRD4 gene fo e-31 gi Homo sapiens Dopamine D4 recep e-29

AB069665 Felis catus DRD4 gene f... 210 5e-52 gi AB069662 Nyctereutes procyonoide.

18 ALIGNMENTS >gi dbj AB AB Nyctereutes procyonoides DRD4 gene fordopamine receptor D4. Length = 393 Score = 157 bits (79), Expect = 7e-36 Identities = 94/99 (94%) Strand = Plus / Plus Query 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Sbjct 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Query 49 ggggcctgcggcgctgggaggcggctcgccaggccaagctgcactgccgg 99 Sbjct 49 ggggcctgcggcgctgggaggccgcgcgtcgggccaagctgcacggccgg 99 Score = 107 bits (54), Expect = 5e-21 Identities = 60/62 (96%) Strand = Plus / Plus Query 215 ggaggcgcgccaagatcaccggccgggagcgcaaggccatgagggtcct 252 Sbjct 332 ggagacgcgccaagatcacgggccgggagcgcaaggccatgagggtcct 379 Query 253 tgccggtggtggtc 276 Sbjct 380 tgccggtggtggtc 393

ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Query 49 ggggcctgcggcgctgggaggcggctcgccaggccaagctgcactgccgg 99 Sbjct 49 ggggcctgcggcgctgggaggccgcgcgtcgggccaagctgcacggccgg 99

19 >gi AB Hylobates pileatus gene for dopamine receptor D4, partial cds, drd4, 7-repeat allele. Length = 507 Score = 42.1 bits (21), Expect = 0.27 Identities = 45/53 (84%) Strand = Plus / Plus 52 ggcctgcggcgctgggaggcggctcgccaggccaagctgcactgccgggcgcc ggcctgcagcgctgggaggtggcacgtcgcgccaagctgcacggccgcgcgcc 56

27 Identities = 45/53 (84%) Strand = Plus / Plus 52

20 Alignement Felis Catus/ Nyctereute 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttccggggcctgcgg 60 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttccggggcctgcgg cgctgggaggcggctcgccaggccaagctgcactgccgggcgcctcgtcggcccagcggc cgctgggaggccgcgcgtcgggccaagctgcacggccggacaccgcgcagacccagcggc cccggcccaccgccccccga.ggt...c cccggcccgccaccccccgacggtacccccggccccccgccccccgacggcagccccgac ggcgagc ggc.agcccggacggcacccccggcccgccgccccccgacggcacccccgatgacacccc cccccgacgccgtcgcgccccccgacgccgt cgacgccaccccctgccccccgccccccgcccccgacgccgccgcgccccccgccgccga cccagccgagccgccgcggcaggcacccaggaggaggcgcgccaagatcaccggccggga ccctgcggagcccccgtggcagccacgcaagcggagacgcgccaagatcacgggccggga gcgcaaggccatgagggtcctgccggtggtggtc gcgcaaggccatgagggtcctgccggtggtggtc 393

..c 144 121 cccggcccgccaccccccgacggtacccccggccccccgccccccgacggcagccccgac 180 145 ggcgagc... 151 181 ggc.agcccggacggcacccccggcccgccgccccccgacggcacccccgatgacacccc 239 152.

21 AB (horizontal) vs. AB (vertical)

22 Significativité de l alignement : E-valeur E(S,n,m): Nombre moyen d alignements ayant un score supérieur ou égal à S quand on cherche dans une banque de taille m avec une séquence requête de longueur n. décrit le bruit aléatoire qui existe lorsque on aligne des séquences croit de manière proportionnelle en fonction de n et de m décroit de manière exponentielle en fonction du score S plus la E-valeur est proche de 0, plus la similarité est significative

23 Query= actgagcatagctgga (16 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AC Mus musculus chromosome gi AC Homo sapiens BAC clone gi AC Canis familiaris clone gi AF Homo sapiens chromosome ALIGNMENTS >gi AC Mus musculus chromosome 10 clone. Length = Query: 1 actgagcatagctgga 16 Sbjct: actgagcatagctgga >gi gb AC Homo sapiens BAC clone Length = Query: 1 actgagcatagctgg 15 Sbjct: actgagcatagctgg 48164

24 Query= actgagcatagctggac (17 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AC Mus musculus chromosome gi AL Human DNA sequence fro gi AC Homo sapiens BAC clone ALIGNMENTS >gi AC Mus musculus chromosome 10 clone Query: 1 actgagcatagctggac 17 Sbjct: actgagcatagctggac >gi Human DNA sequence >gi AC Homo sapiens BAC clone Query: 2 ctgagcatagctggac 17 Query: 1 actgagcatagctgg 15 Sbjct: ctgagcatagctggac Sbjct: ctgagcatagctggac 21079

25 Query= actgagcatagctggat (17 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AC Mus musculus chromosome 10 c gi AC Homo sapiens BAC clone gi AF Sulfolobus solfataricus ALIGNMENTS >gi AC Mus musculus chromosome 10 clone Query: 1 actgagcatagctgga 16 Sbjct: actgagcatagctgga >gi AC Homo sapiens BAC clone Query: 1 actgagcatagctgg 15 Sbjct: actgagcatagctgg 48164

26 Query= actgagcatag (11 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters No significant similarity found.

27 E-value 1000 Query= actgagcatag (11 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AC Homo sapiens chromosome 16 clo gi NM_ Danio rerio endothelin recept gi AC Homo sapiens BAC clone gi AC Mus musculus clone rp23-422n gi AP Pyrococcus horikoshii OT gi Drosophila melanogaster ALIGNMENTS >gi AC Homo sapiens chromosome 16 clone Length = Query: 1 actgagcatag 11 Sbjct: actgagcatag 78811

28 Génome de la drosophile Query= actgagcatag (11 letters) Database: D. melanogaster genomic nucleotide sequences 1170 sequences; 122,655,632 total letters Sequences producing significant alignments: Score E (bits) Value gi AE Drosophila melanogaster g gi AE Drosophila melanogaster g gi AE Drosophila melanogaster g gi AE Drosophila melanogaster g gi AE Drosophila melanogaster g ALIGNMENTS >gi gb AE AE Drosophila melanogaster genomic scaffold Query: 1 actgagcatag 11 Sbjct: actgagcatag 17844

29 Les différentes versions de BLAST BLASTN : séquences nucléiques BLASTP : séquences protéiques BLASTX : une séquence nucléique comparée à une base de données protéique. (Traduction suivant les 6 cadres de lecture.) TBLASTX : une séquence protéique comparée à une base de données nucléique TBLASTN : une séquence nucléique comparée à une base de données nucléiques, chacune suivant tous les cadres de lecture. (Cela revient à faire 36 fois BLASTP.)

Documents pareils

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche