Besoin d'accélérer la recherche de similitude dans une banque Bioinformatique Appliquée Recherche de similitudes La recherche de similitude permet de comparer une séquence appelée requête (query) à une ou plusieurs autres séquences, notamment à l'ensemble des séquences (de référence) connues ou annotées, stockées dans les banques de données publiques (ou privées). Alignement 2 à 2 Recherche de similitude dans une banque? Séquence requête? Rappel outils: Alignement global ou local Quel outil? BLAST 1 2 Besoin d'accélérer la recherche de similitude dans une banque Besoin d'accélérer la recherche de similitude dans une banque Séquence requête Query sequence Séquence requête? Base de données Database Pourquoi comparer une séquence requête à une banque de données de séquences? Savoir si ma séquence inconnue ressemble à d'autres déjà connues dans les banques de données. Si les séquences se ressemblent, il est possible de faire une hypothèse de lien de parenté (homologie) et donc une hypothèse sur une fonction similaire. Séquence de départ, celle pour laquelle vous cherchez s'il existe des séquences similaires ou identiques connues C'est l'ensemble des séquences dans lesquelles on va chercher des séquences similaires à la requête. Suivant les serveurs, les bases de données peuvent avoir des tailles et des contenus assez différents. Trouver toutes les séquences d'une même famille. Rechercher toutes les séquences qui contiennent un motif donné. 3 4 1
Besoin d'accélérer la recherche de similitude dans une Alignement 2 à 2? banque Recherche de similitude dans une banque Séquence requête? Besoin d'accélérer la recherche de similitude dans une banque 1980/1986 Création de l EMBL (1980), de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) Rappel outils: Alignement global ou local Quel outil? BLAST Les programmes d'alignement fondés sur la programmation dynamique sont des algorithmes exacts comme Needleman & Wunsch (global) et Smith & Waterman (local): Ils donnent tout le temps la meilleure solution, mais ils sont lents!! Pas utilisable sur les banques de données Il faut donc une astuce (BLAST) 5 1970 (Needleman & Wunsch) Alignement global 2 à 2 1978(Dayhoff) Matrices PAM 1981 (Smith & Waterman) Alignement local 2 à 2 1990 (Altschul) BLAST 1990 (Henikoff) Matrices BLOSUM 2000/2001 1 ier brouillon du génome humain En reprenant l'exemple du cours précédant, voici notre séquence d'intérêt: COMME UN VOL DE GERFAUTS HORS DU CHARNIER NATAL Le but est d'identifier une séquence en la comparant à une ou plusieurs autres séquences, notamment à l'ensemble des séquences (de référence) connues et annotées, stockées dans les banques de données publiques (ou privées). COMME UN BOL DE CEREALES HORS D UN CHANTIER NAVAL ILS SE DEPLACAIENT COMME UN VOL DE GERFAUTS COMME UN VOL DE MOINEAUX HORS DU CHARNIER NATAL SOMME DU VOL DES BATEAUX DU CHANTIER NAVAL PARTAIENT IVRES D UN REVE HEROIQUE ET BRUTAL ILS ADMIRAIENT CES MOINEAUX AU REVEIL MATINAL COMME LE VOL DES MOUETTES PRES DU CHALUTIER NARVAL Blast (Altschul et al., 1990) (le logiciel le plus utilisé en biologie) L'idée sous-jacente à l'algorithme de Blast (Basic Local Alignement Search Tool) est que les bons alignements doivent contenir quelque part des petits segments strictement identiques. Ces éléments constituent les points d'ancrage à partir desquels l'alignement est étendu. Blast2 est une version de Blast qui autorise les insertions et les délétions, c'est la version à utiliser. Ces algorithmes développés sont des heuristiques (un biologiste traduirait par astuce!) DEF: une heuristique est un algorithme qui fournit rapidement une solution réalisable (approximative), pas nécessairement optimale (exacte), pour un problème complexe. Ils utilisent des méthodes efficaces pour accélérer certaines parties, et des méthodes exactes pour optimiser certaines parties. 7 8 2
méthode Needleman & Wunsch objectif Alignement 2 à 2 Type d'alignement Global Type d'algorithme Exact Blast Première étape du calcul Recherche de tous les mots de taille W communs aux séquences avec un score de similitude supérieur à t Hit Blast W = 11 pour ADN Smith & Waterman Alignement 2 à 2 local Exact W = 3 pour protéines la valeur de W est ajustable! BLAST Recherche de similitude dans une banque local Heuristique T = score seuil au-delà duquel la ressemblance entre deux mots de taille W n'est pas due au hasard. T est ajustable 9 10 Blast Principe m(w=3) S L A A L L N K C K T P Q G Q R L V N Q W Liste de mots voisins P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) S(P,P) = 7 S(Q,R) = 1 S(G,G) = 6 Blast Première étape du calcul Recherche de régions sans insertions/délétions riches en similarité Détermination d une longueur de mot : W = 3 acides aminés pour les protéines Hachage de la séquence «requête» en mot de taille W m Séquence requête (query) Liste de mots voisins de longueur W ayant un score supérieur à un seuil T fixé par rapport au mot m. 11 12 3
B i Blast Première étape du calcul Chaque mot similaire au mot m est comparé à chaque mot de taille W pris dans chaque séquence B i de la banque de données. Lorsqu un mot d une séquence B i est identique à un mot de la liste de mots voisins, un hit est enregistré. Blast Signification d'un alignement Taille de la base de données = 20 x 10 6 lettres peptide A 1 x 10 6 AP 50000 IAP 2500 LIAP 125 WLIAP 6 KWLIAP 0,3 KWLIAPY 0,015 nombre présents par hasard 13 14 Blast Deuxième étape du calcul Blast Deuxième étape du calcul Extension des mots trouvés dans les deux directions pour trouver les régions de similitude les plus longues possibles ayant un score supérieur ou égal à un score seuil S HSP, Hight-scoring Segment Pair Arrêt de l'extension si Diminution de X du score cumulé par rapport au maximum atteint Score cumulé <= 0 Fin d une des séquences Pour chaque hit, le programme effectue une extension de l alignement dans les deux sens. (en gros alignement local de type Smith et Waterman). L extension s arrête quand le score du mot étendu diminue au-delà d un seuil fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). 15 16 4
Quantification de la similitude Un score global permet de quantifier la similitude. score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. Le score est pénalisé par l'introduction de gaps. Le gap permet d'optimiser l'alignement entre les deux séquences donc de faire coïncider le maximum de caractères communs. Biologiquement, le gap matérialise alors une insertion (ou délétion). Blast Calcul du score séquence 1: séquence 2: score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) TCCPS-IVARSN :. :. SCCPSDISARNT 1 9 4 4 4 1 9 7-8 -1 5-1 => alignement score = (1+9+9+7+4+4-1+4+5+1-1)-8=34 Notation 2 à 2 17 18 Blast Calcul du score Blast Exemple d'un HSP sequence Query= 256 Aa score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) séquence 1: séquence 2: TCCPS-IVARSN +CCPS I AR+ SCCPSDISARNT 1 9 4 4 4 1 9 7-8 -1 5-1 Notation BLAST => alignement score = (1+9+9+7+4+4-1+4+5+1-1)-8=34 19 20 5
Blast valeurs indiquées Blast Signification de la E-value Identities = nombre paires d'identités / nombre total paires de lettres alignées similitude calculée à partir de la matrice unitaire Positives = nombre paires avec poids positif / nombre total paires similitude calculée à partir de la matrice de substitition utilisée pour la recherche Gaps = nombre (insertions ou délétions) / nombre total paires E-value (Expect) = nombre d'alignements attendus par hasard ayant un score supérieur au score obtenu pour l'hsp dans la banque considérée Plus la valeur est faible, plus l'alignement est fiable Dépend de la taille de la banque de données utilisée! Valeurs non comparables entre deux banques P-value (probability) P(N): Probabilité du score observé. Plus cette valeur est faible, plus l'hsp est significatif. 21 22 Blast Exemple d'un HSP Zone de gaps BLAST Choix du programme (parfum) 32 256 Query 1 SEQUENCE BANQUE 1 Subject ID=42% Sim=57% Gaps=4% 636 Protéique BLASTP Protéique 390 622 SWP:Q2KJ63 Bos Taurus HSP donné par Blast : possible similitude entre les 2 séquences Que peut-on conclure à propos de la séquence query? Est-elle homologue à la séquence de la banque (Q2KJ63 bovins)? Nucléique BLASTN TBLASTX Nucléique 23 24 6
BLAST Choix du programme (parfum) Le parfum de Blast dépend du type (ADN/protéines) de la requête et du type de la banque. BLAST: score et E-value Un score global permet de quantifier la similitude. score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) Les plus utilisés BLAST Requête Banque BLASTn DNA DNA Nucleotide BLAST BLASTp Protein Protein Protein BLAST BLASTx DNA Protein La requête est traduite dans les 6 phases tblastn Protein DNA La banque est traduite dans les 6 phases tblastx DNA DNA La requête est traduite dans les 6 phases La banque est traduite dans les 6 phases 25 Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. Scores élémentaires: ADN: en général pas de notion de similitude (soit identique, soit différent) Proétine: matrice de substitution BLOSUM, PAM Pénalités de gap: Les indels sont traités différemment selon qu'on ajoute un premier indel (gap ouverture = gap open) ou qu'on allonge un indel déjà présent (gap extension = gap extend). Gap_open > Gap_extend 26 Dans le cas des séquences nucléiques, Rappel La matrice utilisée pour BLAST est en général la suivante: A T C G A 1-2 -2-2 T -2 1-2 -2 C -2-2 1-2 G -2-2 -2 1 Dans le cas des séquences protéiques, Rappel Utilisation de matrices de substitution : elle contient les coûts de substitution d'un acide aminé par un autre. En effet, il existe différents degrés de similitude entre acides aminés et la mutation d'un acide aminé en un autre a une probabilité différente selon les acides aminés concernés (BLOSUM62, PAM250): Identités Les acide aminés ne sont pas tous soumis à la même influence de la sélection naturelle Score élémentaire > 0 Substitutions conservatrices Eles sont relativement fréquentes au cours de l'évolution car elles modifient peu ou pas le phénotype et ne sont pas sous l'influence de la sélection naturelle. Score élémentaire > 0 27 Substitutions non conservatrices Le remplacement d'un acide aminé par un autre peut perturber complètement le phénotype et sera contre-sélectionné. Score élémentaire < 0 28 7
Dans le cas des séquences protéiques, Rappel BLOSUM62 Blast Signification de la E-value Une E-value n'est pas une probabilité, c'est un nombre de séquences qui serait trouvées par hasard E-value =2 Score= 56 Si je compare votre séquence à une banque de données de séquences aléatoires de même taille et de même composition alors je m'attendrai à trouver dans cette banque deux séquences qui s'aligneront avec votre séquence avec un score égal ou supérieur à 56. E-value =10-50 Score= 197 Si je compare votre séquence à une banque de données de séquences aléatoires 10-50 fois plus grande et de même composition alors je m'attendrai à trouver dans cette banque une séquence qui s'alignera avec votre séquence avec un score égal ou supérieur à 197. 29 30 Blast Score et E-value Le score (et la E-value) d'un alignement dépendent de De l'outil utilisé (needle, water, BLAST, ) et des paramètres (matrice, modèle de gap) Ne JAMAIS comparer des scores d'alignement avec des outils ou des paramètres différents De la taille des régions alignées Un alignement de plus petit score peut avoir un meilleur pourcentage d'identité qu'un autre alignement si sa taille est beaucoup plus petite! Une requête de petite taille (6Aa) peut avoir au maximum une E-value d'environ 10! La E-value dépend aussi de De la taille et la composition de la banque Ne JAMAIS comparer des E-values d'alignement réalisés sur des bases de données différentes. 31 Attention aux scores! # Length: 78 # Identity: 75/78 (96.2%) # Similarity: 78/78 (100.0%) # Gaps: 0/78 # Score: 395.0 RL28_ECOLI 1 MSRVCQVTGKRPVTGNNRSHALNATKRRFLPNLHSHRFWVESEKRFVTLR 50 RL28_SALTI 1 MSRVCQVTGKRPVTGNNRSHALNATKRRFLPNLHSHRFWVESEKRFVTLR 50 RL28_ECOLI 51 VSAKGMRVIDKKGIDTVLAELRARGEKY 78 : : : RL28_SALTI 51 VSAKGMRIIDKKGIETVLSELRARGEKY 78 # Length: 943 # Identity: 650/943 (68.9%) # Similarity: 759/943 (80.5%) # Gaps: 7/943 ( 0.7%) # Score: 3472.0 SYI_ECOLI 1 -MSDYKSTLNLPETGFPMRGDLAKREPGMLARWTDDDLYGIIRAAKKGKK 49.. :......:.:.... SYI_HAEIN 1 MTVDYKNTLNLPETSFPMRGDLAKREPDKLKNWYEKNLYQKIRKASKGKK 50 SYI_ECOLI 50 TFILHDGPPYANGSIHIGHSVNKILKDIIVKSKGLSGYDSPYVPGWDCHG 99 : : : :... : : SYI_HAEIN 51 SFILHDGPPYANGNIHIGHAVNKILKDIIIKSKTALGFDSPYIPGWDCHG 100 / SYI_ECOLI 846 PELSAKLTALGDELRFVLLTSGATVADYNDAPADAQQSEVLKGLKVALSK 895...... : :......::.... : :. :::: SYI_HAEIN 850 DEYRALLAQLGNELRFVLITSKVDVKSLSEKPADLADSE-LEGIAVSVTR 898 SYI_ECOLI 896 AEGEKCPRCWHYTQDVGKVAEHAEICGRCVSNVAGDGEKRKFA 938 :.. :.::.....:... :.. SYI_HAEIN 899 SNAEKCPRCWHYSDEIGVSPEHPTLCARCVENVVGNGEVRYFA 941 32 8
Blast Score et E-value Pour évaluer un alignement il faut plutôt considérer un ensemble de données: La E-value La taille de l'alignement Le pourcentage et la position des gaps Le pourcentage d'identité et de similitude Il n'existe pas de valeur seuil de E-value absolue pour conclure. La E-value est juste un outil d'aide à la décision! Blast Filtrage des séquences Lorsque la similitude entre deux séquences est faible et porte sur une courte région, il est possible que cette ressemblance soit due à une convergence fonctionnelle ou structurale, ou simplement au hasard. Parfois, la similitude entre séquences est uniquement due à des biais compositionnels AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA ******************************** AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA Exple: régions riches en proline, alanine, queue polya etc -> FILTRE 33 34 Blast Filtrage des séquences Interprétation biologique et piège de BLAST Des filtres (programmes SEG et XNU) ont été conçus pour éliminer les régions répétitives et segments de "faible complexité" qui bruitent les résultats. Pour cela, la séquence requête est tout d'abord comparée à une banque de données contenant des séquences représentatives de faible complexité. Les fragments de la séquence requête appartenant à ces familles sont alors masqués avant d'effectuer la recherche de similitude sur la banque complète. Exemples: Queue PolyA (ADN) PolyProline (Protein) etc 35 Si la similitude est suffisante, c'est à dire, lorsqu'elle est susceptible de ne pas s'être produite au hasard, on pose souvent deux "a priori" : La similitude forte entre deux séquences est considérée comme représentative de l'homologie entre ces séquences, c'est à dire elles possèdent une séquence ancêtre commune dont elles sont issues et la différence entre elles se traduit par l'existence de mutations, insertions et délétions accumulées au cours de l'évolution. L'homologie entre deux séquences peut laisser supposer que les séquences ont des fonctions identiques (mais ne le prouve pas...). C'est une HYPOTHESE!!! Attention : pour le spécialiste une forte similitude ne signifie pas forcément homologie!!!!!!!!!!!! 36 9
Interprétation biologique et piège de BLAST Lorsque l'identité protéique dépasse 30% sur au moins 100 résidus, alors il est généralement probable que les séquences dérivent d'un ancêtre commun (elles sont donc homologues). La comparaison de gènes homologues est une approche très efficace pour : - Déterminer la fonction et la structure d'une séquence. - Repérer des régions fonctionnelles au sein des séquences. - Etudier les processus de l'évolution à l'échelle moléculaire. - Etablir la phylogénie des espèces. Lorsque l'identité est inférieur à 30% sur 100 résidus, alors il est généralement difficile de conclure si les séquences dérivent d'un ancêtre commun. (Twillight zone) Blast Signification de la E-value Exemple BlastP sur NCBI avec DB SwissProt seq query= 263 Aa P17538.1 Chymotrypsinogen B; 533 533 100% 3e-151 Q6GPI1.2 Chymotrypsinogen B2; 525 525 100% 1e-148 / P42882.1 Protein NMT1 homolog 30.8 30.8 15% 8.7 Q7LZF5.1 Thrombin-like enzyme catroxobin-1; 30.8 30.8 6% 9.8 La valeur de la E-value pourrait signifier: Dans une banque de donnée quelconque de même taille que SwissProt, je m'attends à trouver 9.8 séquences qui ressembleront au moins autant que la séquence Q7LZF5 avec ma séquence query. La E-value de Blast n'est en aucun cas un nombre qui vous dit si l'alignement de deux séquences est "biologiquement significatif" ou non, c'est un outil d'aide à la décision. 37 38 Interprétation biologique et piège de BLAST Nous verrons que cette façon de faire est très très très problématique, et que seul un examen détaillé et attentif de l'ensemble des résultats d'une recherche permet en général de conclure! On PEUT (doit) utiliser ces valeurs pour conclure que la recherche n'a pas donné un résultat satisfaisant. Il faudra utiliser ces valeurs avec beaucoup de précaution. On NE PEUT PAS utiliser ces valeurs pour conclure que la recherche a donné un résultat satisfaisant. Dans tous les cas il ne faudra conclure que si l'outil indique que le résultat est du au hasard! 39 40 10
Interprétation biologique et piège de BLAST Problèmes et limites de la recherche de similitudes Les gènes inconnus Quand un gène ne ressemble à aucun autre, on le dit "orphelin". Quand le génome de la levure a été obtenu, près de la moitié de ses gènes n'avaient pas d'homologues connus dans les banques. Les erreurs Les informations présentes dans les banques peuvent être erronées, il est indispensable de vérifier attentivement les résultats. Problèmes et limites de la recherche de similitudes Les gènes homologues : orthologues et paralogues Une fois une certaine similitude mise en évidence, il est nécessaire de séparer les gènes orthologues des paralogues. - Quand le gène est transmis à deux espèces filles : ils sont orthologues. - Il est fréquent que certains gènes se dupliquent. Un exemplaire du gène conserve généralement sa fonction première, le ou les autres (ce sont les paralogues) peuvent évoluer indépendamment et acquérir des fonctions complètement différentes. Seule une analyse de leur évolution via la construction d'arbres phylogénétiques permet de différencier ces deux cas. 41 42 Rappel Orthologue et Paralogue Duplication Spéciation Lignée 1 Lignée 2 vache humain humain chimpanzé chimpanzé vache humain chimpanzé humain chimpanzé V1 H1 H2 C1 C2 V1 H1 C1 H2 C2 Problèmes et limites de la recherche de similitudes Le "bricolage de l'évolution" Une autre difficulté de la recherche de fonctions provient des réarrangements qui s'opèrent lors des étapes séparant le gène de la protéine fonctionnelle : L'épissage alternatif : pour un même gène et dans un même organisme, l'élimination des introns peut être différente selon la cellule concernée. Ainsi, pour un même gène, l'arnm sera différent et donnera naissance à une protéine différente. Par ailleurs, l'association de fragments provenant de gènes différents permet l'émergence de fonctions totalement nouvelles (cassettes fonctionnelles). Gènes orthologues Paire de gènes nés de la divergence de leur ancêtre commun (spéciation) Gènes paralogues Paire de gènes nés de la duplication de leur ancêtre commun 43 Importance de l'analyse de l'annotation de la région commune comme la présence de domaines protéiques. 44 11
Problèmes et limites de la recherche de similitudes La maturation post-traductionnelle de la protéine Les protéines, vont migrer grâce à des signaux d'adressage spécifiques vers les mitochondries, les lysosomes, les peroxysomes... Elles peuvent aussi traverser le réticulum endoplasmique et passer par l'appareil de Golgi pour être sécrétées dans le milieu extracellulaire. Une fois traduite, la protéine peut subir une maturation posttraductionnelle (glycosylation, hydroxylation, ) les modifiant profondément, de telle sorte que la protéine finale est bien différente de la molécule directement codée par le génome Un exemple! (Guy Perrière) L annotation par similitude peut conduire à certain abus Exemple d'alignement entre 2 séquences dont une annotés dans les banques: -> Annotation automatique de la deuxième: MZEORFG ILNSPDRACNLAKQAFDEAISELDSLGEESYKDSTLIMQLLXDNLTLWTSDTNEDGGDE BOV1433P IQNAPEQACLLAKQAFDDAIAELDTLNEDSYKDSTLIMQLLRDNLTLWTSDQQDEEAGE * * *:.**********:**.***.* ************** *********.:::. * LOCUS BOV1433P 1696 bp mrna MAM 26-APR-1993 DEFINITION Bovine brain-specific 14-3-3 protein eta chain mrna, complete cds. LOCUS MZEORFG 187 bp mrna PLN 31-MAY-1994 DEFINITION Zea mays putative brain specific 14-3-3 protein, tau protein homolog mrna, partial cds. 45 46 Les principaux serveurs BLAST Pour toutes ces raisons, les résultats produits par les logiciels ne constituent que des hypothèses qui doivent être vérifiées par une démarche expérimentale en laboratoire. Notamment par observation des effets de l'altération ou de la délétion du gène dans l'organisme, ou par RNA interférants. NCBI EBI http://www.ncbi.nlm.nih.gov/blast/ Le plus souvent utilisé mais aux USA (donc risque d'encombrement) http://www.ebi.ac.uk/blast/ Blast-Wu, développement un peu différent du NCBI, paramètres différents mais en Europe. Chaque serveur a son propre Blast avec ses propres paramètres et différents choix de bases de données. Il est souvent utile (nécessaire) de comparer les résultats entre les serveurs pour affirmer/infirmer des hypothèses. 47 48 12
BLAST Output NCBI (1) BLAST Output NCBI (2) séquence requête choix de la base de données choix du parfum de Blast Attention Megablast par défaut!! 49 50 BLAST Output NCBI (2) BLAST Output NCBI (3) séquence requête choix de la base de données Attention, pour accéder aux différents paramètres, il faut cliquer sur Algorithm parameters 51 52 13
BLAST Output NCBI (4) BLAST Output NCBI (5) E-value limite Choix de la matrice et gestion des indels Taille W du mot m Filtre pour les séquences de faible complexité 53 54 BLAST Output NCBI (6) BLAST Output NCBI (7) Nombres de hits Paramètres Répartition des hits en fonction du score Vision du recouvrement des différents HSP Séquence requête 55 56 14
BLAST Output NCBI (8) BLAST Output NCBI (9) Une forte valeur de la E value indiquerait que le résultat pourrait être du au hasard Le lien vers l'entrée de la base de données qui a été utilisée (enfin presque!) Un score élevé, ou mieux une série de scores élevés, suggère une relation mais à vérifier en regardant l'alignement 57 Un score faible, avec une forte E value, suggère fortement que la similitude entre les séquences est le résultat du hasard 58 BLAST Output NCBI (10) BLAST Output NCBI (11) 59 60 15
BLAST Output NCBI (12) BLAST Output EBI (1) Attention aux pourcentage (ID et Pos) par rapport à la longueur de l'hsp! 61 62 BLAST Output EBI (2) BLAST Output EBI (2b) 63 64 16
BLAST Output EBI (3) BLAST Output EBI (5) 65 66 BLAST Output EBI (4) Il s'agit d'outils mathématiques, ne pas oublier le sens biologique! 67 68 17
Il s'agit d'outils mathématiques, ne pas oublier le sens biologique! Conclusion Pour évaluer un alignement il faut plutôt considérer un ensemble de données: La E-value (uniquement comme un outil d'aide à la décision) La taille de l'alignement Le pourcentage et la position des gaps Le pourcentage d'identité et de similitude Lorsque les éléments ci-dessus sont favorables, cela permet de faire l'hypothèse que la séquence requête (query) et la séquence trouvée (hit) sont homologues et qu'elles pourraient partager une fonction similaire pour la région commune uniquement (annotation de domaines protéiques). 69 70 18