Bioinformatique Appliquée Recherche de similitudes

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Perl Orienté Objet BioPerl There is more than one way to do it

MABioVis. Bio-informatique et la

Base de données bibliographiques Pubmed-Medline

Introduction aux bases de données: application en biologie

Identification de nouveaux membres dans des familles d'interleukines

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

TESTS D'HYPOTHESES Etude d'un exemple

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

CHAPITRE 3 LA SYNTHESE DES PROTEINES

6. Les différents types de démonstrations

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Gènes Diffusion - EPIC 2010

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Génétique et génomique Pierre Martin

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Freeway 7. Nouvelles fonctionnalités

LE MODELE CONCEPTUEL DE DONNEES

Raisonnement par récurrence Suites numériques

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Bibliographie Introduction à la bioinformatique

Document d orientation sur les allégations issues d essais de non-infériorité

Système immunitaire artificiel

Détection et prise en charge de la résistance aux antirétroviraux

TD de Biochimie 4 : Coloration.

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Big Data et Graphes : Quelques pistes de recherche

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Item 169 : Évaluation thérapeutique et niveau de preuve

Extraction d information des bases de séquences biologiques avec R

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Ebauche Rapport finale

Reaper : utilisations avancées

Pourquoi l apprentissage?

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

TPE/PME : comment me situer et justifier de mon statut?

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Utilisation du logiciel ImageJ gratuit

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Théorie des Jeux Et ses Applications

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

DE VOS NOMS DE DOMAINE : Cette méthode est particulièrement efficace pour un référencement optimal sur une cible bien définie.

LE PROBLEME DU PLUS COURT CHEMIN

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Conférence technique internationale de la FAO

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Cellules procaryotes Service histologie Pr.k.mebarek

Spécificités, Applications et Outils

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Trier les ventes (sales order) avec Vtiger CRM

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

«Credit scoring» : une approche objective dans l'octroi de crédit?

Quantification Scalaire et Prédictive

GESTION DES BONS DE COMMANDE

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

LES ACCES ODBC AVEC LE SYSTEME SAS

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

ORACLE TUNING PACK 11G

Routage Statique. Protocoles de Routage et Concepts. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Figure 1 Différents éléments influençant les mesures de seuil réalisées en champ visuel

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Business Intelligence simple et efficace

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Les Réseaux sans fils : IEEE F. Nolot

AGROBASE : un système de gestion de données expérimentales

INF6304 Interfaces Intelligentes

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

TPE et PME : comment me situer et justifier de mon statut?

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

3 Les premiers résultats des plans d'actions

1 Définition de la non stationnarité

INFORMATIQUE : LOGICIELS TABLEUR ET GESTIONNAIRE DE BASES DE DONNEES

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Octroi de crédit : la minimisation des risques de défaillance n'a pas le dernier mot

DirXML License Auditing Tool version Guide de l'utilisateur

Exploitation des données issues de BE ( utilisation du tableur CALC) Fiche de travail (individuelle ou en binôme)

données à caractère personnel (ci-après la "LVP"), en particulier l'article 29 ;

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Limitations of the Playstation 3 for High Performance Cluster Computing

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION


Chapitre 1 : Introduction aux bases de données

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Eco-système calcul et données

Rappel sur les bases de données

Université Ibn Zohr Excel Résume de cours

Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

Transcription:

Besoin d'accélérer la recherche de similitude dans une banque Bioinformatique Appliquée Recherche de similitudes La recherche de similitude permet de comparer une séquence appelée requête (query) à une ou plusieurs autres séquences, notamment à l'ensemble des séquences (de référence) connues ou annotées, stockées dans les banques de données publiques (ou privées). Alignement 2 à 2 Recherche de similitude dans une banque? Séquence requête? Rappel outils: Alignement global ou local Quel outil? BLAST 1 2 Besoin d'accélérer la recherche de similitude dans une banque Besoin d'accélérer la recherche de similitude dans une banque Séquence requête Query sequence Séquence requête? Base de données Database Pourquoi comparer une séquence requête à une banque de données de séquences? Savoir si ma séquence inconnue ressemble à d'autres déjà connues dans les banques de données. Si les séquences se ressemblent, il est possible de faire une hypothèse de lien de parenté (homologie) et donc une hypothèse sur une fonction similaire. Séquence de départ, celle pour laquelle vous cherchez s'il existe des séquences similaires ou identiques connues C'est l'ensemble des séquences dans lesquelles on va chercher des séquences similaires à la requête. Suivant les serveurs, les bases de données peuvent avoir des tailles et des contenus assez différents. Trouver toutes les séquences d'une même famille. Rechercher toutes les séquences qui contiennent un motif donné. 3 4 1

Besoin d'accélérer la recherche de similitude dans une Alignement 2 à 2? banque Recherche de similitude dans une banque Séquence requête? Besoin d'accélérer la recherche de similitude dans une banque 1980/1986 Création de l EMBL (1980), de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) Rappel outils: Alignement global ou local Quel outil? BLAST Les programmes d'alignement fondés sur la programmation dynamique sont des algorithmes exacts comme Needleman & Wunsch (global) et Smith & Waterman (local): Ils donnent tout le temps la meilleure solution, mais ils sont lents!! Pas utilisable sur les banques de données Il faut donc une astuce (BLAST) 5 1970 (Needleman & Wunsch) Alignement global 2 à 2 1978(Dayhoff) Matrices PAM 1981 (Smith & Waterman) Alignement local 2 à 2 1990 (Altschul) BLAST 1990 (Henikoff) Matrices BLOSUM 2000/2001 1 ier brouillon du génome humain En reprenant l'exemple du cours précédant, voici notre séquence d'intérêt: COMME UN VOL DE GERFAUTS HORS DU CHARNIER NATAL Le but est d'identifier une séquence en la comparant à une ou plusieurs autres séquences, notamment à l'ensemble des séquences (de référence) connues et annotées, stockées dans les banques de données publiques (ou privées). COMME UN BOL DE CEREALES HORS D UN CHANTIER NAVAL ILS SE DEPLACAIENT COMME UN VOL DE GERFAUTS COMME UN VOL DE MOINEAUX HORS DU CHARNIER NATAL SOMME DU VOL DES BATEAUX DU CHANTIER NAVAL PARTAIENT IVRES D UN REVE HEROIQUE ET BRUTAL ILS ADMIRAIENT CES MOINEAUX AU REVEIL MATINAL COMME LE VOL DES MOUETTES PRES DU CHALUTIER NARVAL Blast (Altschul et al., 1990) (le logiciel le plus utilisé en biologie) L'idée sous-jacente à l'algorithme de Blast (Basic Local Alignement Search Tool) est que les bons alignements doivent contenir quelque part des petits segments strictement identiques. Ces éléments constituent les points d'ancrage à partir desquels l'alignement est étendu. Blast2 est une version de Blast qui autorise les insertions et les délétions, c'est la version à utiliser. Ces algorithmes développés sont des heuristiques (un biologiste traduirait par astuce!) DEF: une heuristique est un algorithme qui fournit rapidement une solution réalisable (approximative), pas nécessairement optimale (exacte), pour un problème complexe. Ils utilisent des méthodes efficaces pour accélérer certaines parties, et des méthodes exactes pour optimiser certaines parties. 7 8 2

méthode Needleman & Wunsch objectif Alignement 2 à 2 Type d'alignement Global Type d'algorithme Exact Blast Première étape du calcul Recherche de tous les mots de taille W communs aux séquences avec un score de similitude supérieur à t Hit Blast W = 11 pour ADN Smith & Waterman Alignement 2 à 2 local Exact W = 3 pour protéines la valeur de W est ajustable! BLAST Recherche de similitude dans une banque local Heuristique T = score seuil au-delà duquel la ressemblance entre deux mots de taille W n'est pas due au hasard. T est ajustable 9 10 Blast Principe m(w=3) S L A A L L N K C K T P Q G Q R L V N Q W Liste de mots voisins P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) S(P,P) = 7 S(Q,R) = 1 S(G,G) = 6 Blast Première étape du calcul Recherche de régions sans insertions/délétions riches en similarité Détermination d une longueur de mot : W = 3 acides aminés pour les protéines Hachage de la séquence «requête» en mot de taille W m Séquence requête (query) Liste de mots voisins de longueur W ayant un score supérieur à un seuil T fixé par rapport au mot m. 11 12 3

B i Blast Première étape du calcul Chaque mot similaire au mot m est comparé à chaque mot de taille W pris dans chaque séquence B i de la banque de données. Lorsqu un mot d une séquence B i est identique à un mot de la liste de mots voisins, un hit est enregistré. Blast Signification d'un alignement Taille de la base de données = 20 x 10 6 lettres peptide A 1 x 10 6 AP 50000 IAP 2500 LIAP 125 WLIAP 6 KWLIAP 0,3 KWLIAPY 0,015 nombre présents par hasard 13 14 Blast Deuxième étape du calcul Blast Deuxième étape du calcul Extension des mots trouvés dans les deux directions pour trouver les régions de similitude les plus longues possibles ayant un score supérieur ou égal à un score seuil S HSP, Hight-scoring Segment Pair Arrêt de l'extension si Diminution de X du score cumulé par rapport au maximum atteint Score cumulé <= 0 Fin d une des séquences Pour chaque hit, le programme effectue une extension de l alignement dans les deux sens. (en gros alignement local de type Smith et Waterman). L extension s arrête quand le score du mot étendu diminue au-delà d un seuil fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). 15 16 4

Quantification de la similitude Un score global permet de quantifier la similitude. score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. Le score est pénalisé par l'introduction de gaps. Le gap permet d'optimiser l'alignement entre les deux séquences donc de faire coïncider le maximum de caractères communs. Biologiquement, le gap matérialise alors une insertion (ou délétion). Blast Calcul du score séquence 1: séquence 2: score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) TCCPS-IVARSN :. :. SCCPSDISARNT 1 9 4 4 4 1 9 7-8 -1 5-1 => alignement score = (1+9+9+7+4+4-1+4+5+1-1)-8=34 Notation 2 à 2 17 18 Blast Calcul du score Blast Exemple d'un HSP sequence Query= 256 Aa score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) séquence 1: séquence 2: TCCPS-IVARSN +CCPS I AR+ SCCPSDISARNT 1 9 4 4 4 1 9 7-8 -1 5-1 Notation BLAST => alignement score = (1+9+9+7+4+4-1+4+5+1-1)-8=34 19 20 5

Blast valeurs indiquées Blast Signification de la E-value Identities = nombre paires d'identités / nombre total paires de lettres alignées similitude calculée à partir de la matrice unitaire Positives = nombre paires avec poids positif / nombre total paires similitude calculée à partir de la matrice de substitition utilisée pour la recherche Gaps = nombre (insertions ou délétions) / nombre total paires E-value (Expect) = nombre d'alignements attendus par hasard ayant un score supérieur au score obtenu pour l'hsp dans la banque considérée Plus la valeur est faible, plus l'alignement est fiable Dépend de la taille de la banque de données utilisée! Valeurs non comparables entre deux banques P-value (probability) P(N): Probabilité du score observé. Plus cette valeur est faible, plus l'hsp est significatif. 21 22 Blast Exemple d'un HSP Zone de gaps BLAST Choix du programme (parfum) 32 256 Query 1 SEQUENCE BANQUE 1 Subject ID=42% Sim=57% Gaps=4% 636 Protéique BLASTP Protéique 390 622 SWP:Q2KJ63 Bos Taurus HSP donné par Blast : possible similitude entre les 2 séquences Que peut-on conclure à propos de la séquence query? Est-elle homologue à la séquence de la banque (Q2KJ63 bovins)? Nucléique BLASTN TBLASTX Nucléique 23 24 6

BLAST Choix du programme (parfum) Le parfum de Blast dépend du type (ADN/protéines) de la requête et du type de la banque. BLAST: score et E-value Un score global permet de quantifier la similitude. score HSP = Σ se pe (se: score élémentaire, pe= pénalité de gap) Les plus utilisés BLAST Requête Banque BLASTn DNA DNA Nucleotide BLAST BLASTp Protein Protein Protein BLAST BLASTx DNA Protein La requête est traduite dans les 6 phases tblastn Protein DNA La banque est traduite dans les 6 phases tblastx DNA DNA La requête est traduite dans les 6 phases La banque est traduite dans les 6 phases 25 Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. Scores élémentaires: ADN: en général pas de notion de similitude (soit identique, soit différent) Proétine: matrice de substitution BLOSUM, PAM Pénalités de gap: Les indels sont traités différemment selon qu'on ajoute un premier indel (gap ouverture = gap open) ou qu'on allonge un indel déjà présent (gap extension = gap extend). Gap_open > Gap_extend 26 Dans le cas des séquences nucléiques, Rappel La matrice utilisée pour BLAST est en général la suivante: A T C G A 1-2 -2-2 T -2 1-2 -2 C -2-2 1-2 G -2-2 -2 1 Dans le cas des séquences protéiques, Rappel Utilisation de matrices de substitution : elle contient les coûts de substitution d'un acide aminé par un autre. En effet, il existe différents degrés de similitude entre acides aminés et la mutation d'un acide aminé en un autre a une probabilité différente selon les acides aminés concernés (BLOSUM62, PAM250): Identités Les acide aminés ne sont pas tous soumis à la même influence de la sélection naturelle Score élémentaire > 0 Substitutions conservatrices Eles sont relativement fréquentes au cours de l'évolution car elles modifient peu ou pas le phénotype et ne sont pas sous l'influence de la sélection naturelle. Score élémentaire > 0 27 Substitutions non conservatrices Le remplacement d'un acide aminé par un autre peut perturber complètement le phénotype et sera contre-sélectionné. Score élémentaire < 0 28 7

Dans le cas des séquences protéiques, Rappel BLOSUM62 Blast Signification de la E-value Une E-value n'est pas une probabilité, c'est un nombre de séquences qui serait trouvées par hasard E-value =2 Score= 56 Si je compare votre séquence à une banque de données de séquences aléatoires de même taille et de même composition alors je m'attendrai à trouver dans cette banque deux séquences qui s'aligneront avec votre séquence avec un score égal ou supérieur à 56. E-value =10-50 Score= 197 Si je compare votre séquence à une banque de données de séquences aléatoires 10-50 fois plus grande et de même composition alors je m'attendrai à trouver dans cette banque une séquence qui s'alignera avec votre séquence avec un score égal ou supérieur à 197. 29 30 Blast Score et E-value Le score (et la E-value) d'un alignement dépendent de De l'outil utilisé (needle, water, BLAST, ) et des paramètres (matrice, modèle de gap) Ne JAMAIS comparer des scores d'alignement avec des outils ou des paramètres différents De la taille des régions alignées Un alignement de plus petit score peut avoir un meilleur pourcentage d'identité qu'un autre alignement si sa taille est beaucoup plus petite! Une requête de petite taille (6Aa) peut avoir au maximum une E-value d'environ 10! La E-value dépend aussi de De la taille et la composition de la banque Ne JAMAIS comparer des E-values d'alignement réalisés sur des bases de données différentes. 31 Attention aux scores! # Length: 78 # Identity: 75/78 (96.2%) # Similarity: 78/78 (100.0%) # Gaps: 0/78 # Score: 395.0 RL28_ECOLI 1 MSRVCQVTGKRPVTGNNRSHALNATKRRFLPNLHSHRFWVESEKRFVTLR 50 RL28_SALTI 1 MSRVCQVTGKRPVTGNNRSHALNATKRRFLPNLHSHRFWVESEKRFVTLR 50 RL28_ECOLI 51 VSAKGMRVIDKKGIDTVLAELRARGEKY 78 : : : RL28_SALTI 51 VSAKGMRIIDKKGIETVLSELRARGEKY 78 # Length: 943 # Identity: 650/943 (68.9%) # Similarity: 759/943 (80.5%) # Gaps: 7/943 ( 0.7%) # Score: 3472.0 SYI_ECOLI 1 -MSDYKSTLNLPETGFPMRGDLAKREPGMLARWTDDDLYGIIRAAKKGKK 49.. :......:.:.... SYI_HAEIN 1 MTVDYKNTLNLPETSFPMRGDLAKREPDKLKNWYEKNLYQKIRKASKGKK 50 SYI_ECOLI 50 TFILHDGPPYANGSIHIGHSVNKILKDIIVKSKGLSGYDSPYVPGWDCHG 99 : : : :... : : SYI_HAEIN 51 SFILHDGPPYANGNIHIGHAVNKILKDIIIKSKTALGFDSPYIPGWDCHG 100 / SYI_ECOLI 846 PELSAKLTALGDELRFVLLTSGATVADYNDAPADAQQSEVLKGLKVALSK 895...... : :......::.... : :. :::: SYI_HAEIN 850 DEYRALLAQLGNELRFVLITSKVDVKSLSEKPADLADSE-LEGIAVSVTR 898 SYI_ECOLI 896 AEGEKCPRCWHYTQDVGKVAEHAEICGRCVSNVAGDGEKRKFA 938 :.. :.::.....:... :.. SYI_HAEIN 899 SNAEKCPRCWHYSDEIGVSPEHPTLCARCVENVVGNGEVRYFA 941 32 8

Blast Score et E-value Pour évaluer un alignement il faut plutôt considérer un ensemble de données: La E-value La taille de l'alignement Le pourcentage et la position des gaps Le pourcentage d'identité et de similitude Il n'existe pas de valeur seuil de E-value absolue pour conclure. La E-value est juste un outil d'aide à la décision! Blast Filtrage des séquences Lorsque la similitude entre deux séquences est faible et porte sur une courte région, il est possible que cette ressemblance soit due à une convergence fonctionnelle ou structurale, ou simplement au hasard. Parfois, la similitude entre séquences est uniquement due à des biais compositionnels AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA ******************************** AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA Exple: régions riches en proline, alanine, queue polya etc -> FILTRE 33 34 Blast Filtrage des séquences Interprétation biologique et piège de BLAST Des filtres (programmes SEG et XNU) ont été conçus pour éliminer les régions répétitives et segments de "faible complexité" qui bruitent les résultats. Pour cela, la séquence requête est tout d'abord comparée à une banque de données contenant des séquences représentatives de faible complexité. Les fragments de la séquence requête appartenant à ces familles sont alors masqués avant d'effectuer la recherche de similitude sur la banque complète. Exemples: Queue PolyA (ADN) PolyProline (Protein) etc 35 Si la similitude est suffisante, c'est à dire, lorsqu'elle est susceptible de ne pas s'être produite au hasard, on pose souvent deux "a priori" : La similitude forte entre deux séquences est considérée comme représentative de l'homologie entre ces séquences, c'est à dire elles possèdent une séquence ancêtre commune dont elles sont issues et la différence entre elles se traduit par l'existence de mutations, insertions et délétions accumulées au cours de l'évolution. L'homologie entre deux séquences peut laisser supposer que les séquences ont des fonctions identiques (mais ne le prouve pas...). C'est une HYPOTHESE!!! Attention : pour le spécialiste une forte similitude ne signifie pas forcément homologie!!!!!!!!!!!! 36 9

Interprétation biologique et piège de BLAST Lorsque l'identité protéique dépasse 30% sur au moins 100 résidus, alors il est généralement probable que les séquences dérivent d'un ancêtre commun (elles sont donc homologues). La comparaison de gènes homologues est une approche très efficace pour : - Déterminer la fonction et la structure d'une séquence. - Repérer des régions fonctionnelles au sein des séquences. - Etudier les processus de l'évolution à l'échelle moléculaire. - Etablir la phylogénie des espèces. Lorsque l'identité est inférieur à 30% sur 100 résidus, alors il est généralement difficile de conclure si les séquences dérivent d'un ancêtre commun. (Twillight zone) Blast Signification de la E-value Exemple BlastP sur NCBI avec DB SwissProt seq query= 263 Aa P17538.1 Chymotrypsinogen B; 533 533 100% 3e-151 Q6GPI1.2 Chymotrypsinogen B2; 525 525 100% 1e-148 / P42882.1 Protein NMT1 homolog 30.8 30.8 15% 8.7 Q7LZF5.1 Thrombin-like enzyme catroxobin-1; 30.8 30.8 6% 9.8 La valeur de la E-value pourrait signifier: Dans une banque de donnée quelconque de même taille que SwissProt, je m'attends à trouver 9.8 séquences qui ressembleront au moins autant que la séquence Q7LZF5 avec ma séquence query. La E-value de Blast n'est en aucun cas un nombre qui vous dit si l'alignement de deux séquences est "biologiquement significatif" ou non, c'est un outil d'aide à la décision. 37 38 Interprétation biologique et piège de BLAST Nous verrons que cette façon de faire est très très très problématique, et que seul un examen détaillé et attentif de l'ensemble des résultats d'une recherche permet en général de conclure! On PEUT (doit) utiliser ces valeurs pour conclure que la recherche n'a pas donné un résultat satisfaisant. Il faudra utiliser ces valeurs avec beaucoup de précaution. On NE PEUT PAS utiliser ces valeurs pour conclure que la recherche a donné un résultat satisfaisant. Dans tous les cas il ne faudra conclure que si l'outil indique que le résultat est du au hasard! 39 40 10

Interprétation biologique et piège de BLAST Problèmes et limites de la recherche de similitudes Les gènes inconnus Quand un gène ne ressemble à aucun autre, on le dit "orphelin". Quand le génome de la levure a été obtenu, près de la moitié de ses gènes n'avaient pas d'homologues connus dans les banques. Les erreurs Les informations présentes dans les banques peuvent être erronées, il est indispensable de vérifier attentivement les résultats. Problèmes et limites de la recherche de similitudes Les gènes homologues : orthologues et paralogues Une fois une certaine similitude mise en évidence, il est nécessaire de séparer les gènes orthologues des paralogues. - Quand le gène est transmis à deux espèces filles : ils sont orthologues. - Il est fréquent que certains gènes se dupliquent. Un exemplaire du gène conserve généralement sa fonction première, le ou les autres (ce sont les paralogues) peuvent évoluer indépendamment et acquérir des fonctions complètement différentes. Seule une analyse de leur évolution via la construction d'arbres phylogénétiques permet de différencier ces deux cas. 41 42 Rappel Orthologue et Paralogue Duplication Spéciation Lignée 1 Lignée 2 vache humain humain chimpanzé chimpanzé vache humain chimpanzé humain chimpanzé V1 H1 H2 C1 C2 V1 H1 C1 H2 C2 Problèmes et limites de la recherche de similitudes Le "bricolage de l'évolution" Une autre difficulté de la recherche de fonctions provient des réarrangements qui s'opèrent lors des étapes séparant le gène de la protéine fonctionnelle : L'épissage alternatif : pour un même gène et dans un même organisme, l'élimination des introns peut être différente selon la cellule concernée. Ainsi, pour un même gène, l'arnm sera différent et donnera naissance à une protéine différente. Par ailleurs, l'association de fragments provenant de gènes différents permet l'émergence de fonctions totalement nouvelles (cassettes fonctionnelles). Gènes orthologues Paire de gènes nés de la divergence de leur ancêtre commun (spéciation) Gènes paralogues Paire de gènes nés de la duplication de leur ancêtre commun 43 Importance de l'analyse de l'annotation de la région commune comme la présence de domaines protéiques. 44 11

Problèmes et limites de la recherche de similitudes La maturation post-traductionnelle de la protéine Les protéines, vont migrer grâce à des signaux d'adressage spécifiques vers les mitochondries, les lysosomes, les peroxysomes... Elles peuvent aussi traverser le réticulum endoplasmique et passer par l'appareil de Golgi pour être sécrétées dans le milieu extracellulaire. Une fois traduite, la protéine peut subir une maturation posttraductionnelle (glycosylation, hydroxylation, ) les modifiant profondément, de telle sorte que la protéine finale est bien différente de la molécule directement codée par le génome Un exemple! (Guy Perrière) L annotation par similitude peut conduire à certain abus Exemple d'alignement entre 2 séquences dont une annotés dans les banques: -> Annotation automatique de la deuxième: MZEORFG ILNSPDRACNLAKQAFDEAISELDSLGEESYKDSTLIMQLLXDNLTLWTSDTNEDGGDE BOV1433P IQNAPEQACLLAKQAFDDAIAELDTLNEDSYKDSTLIMQLLRDNLTLWTSDQQDEEAGE * * *:.**********:**.***.* ************** *********.:::. * LOCUS BOV1433P 1696 bp mrna MAM 26-APR-1993 DEFINITION Bovine brain-specific 14-3-3 protein eta chain mrna, complete cds. LOCUS MZEORFG 187 bp mrna PLN 31-MAY-1994 DEFINITION Zea mays putative brain specific 14-3-3 protein, tau protein homolog mrna, partial cds. 45 46 Les principaux serveurs BLAST Pour toutes ces raisons, les résultats produits par les logiciels ne constituent que des hypothèses qui doivent être vérifiées par une démarche expérimentale en laboratoire. Notamment par observation des effets de l'altération ou de la délétion du gène dans l'organisme, ou par RNA interférants. NCBI EBI http://www.ncbi.nlm.nih.gov/blast/ Le plus souvent utilisé mais aux USA (donc risque d'encombrement) http://www.ebi.ac.uk/blast/ Blast-Wu, développement un peu différent du NCBI, paramètres différents mais en Europe. Chaque serveur a son propre Blast avec ses propres paramètres et différents choix de bases de données. Il est souvent utile (nécessaire) de comparer les résultats entre les serveurs pour affirmer/infirmer des hypothèses. 47 48 12

BLAST Output NCBI (1) BLAST Output NCBI (2) séquence requête choix de la base de données choix du parfum de Blast Attention Megablast par défaut!! 49 50 BLAST Output NCBI (2) BLAST Output NCBI (3) séquence requête choix de la base de données Attention, pour accéder aux différents paramètres, il faut cliquer sur Algorithm parameters 51 52 13

BLAST Output NCBI (4) BLAST Output NCBI (5) E-value limite Choix de la matrice et gestion des indels Taille W du mot m Filtre pour les séquences de faible complexité 53 54 BLAST Output NCBI (6) BLAST Output NCBI (7) Nombres de hits Paramètres Répartition des hits en fonction du score Vision du recouvrement des différents HSP Séquence requête 55 56 14

BLAST Output NCBI (8) BLAST Output NCBI (9) Une forte valeur de la E value indiquerait que le résultat pourrait être du au hasard Le lien vers l'entrée de la base de données qui a été utilisée (enfin presque!) Un score élevé, ou mieux une série de scores élevés, suggère une relation mais à vérifier en regardant l'alignement 57 Un score faible, avec une forte E value, suggère fortement que la similitude entre les séquences est le résultat du hasard 58 BLAST Output NCBI (10) BLAST Output NCBI (11) 59 60 15

BLAST Output NCBI (12) BLAST Output EBI (1) Attention aux pourcentage (ID et Pos) par rapport à la longueur de l'hsp! 61 62 BLAST Output EBI (2) BLAST Output EBI (2b) 63 64 16

BLAST Output EBI (3) BLAST Output EBI (5) 65 66 BLAST Output EBI (4) Il s'agit d'outils mathématiques, ne pas oublier le sens biologique! 67 68 17

Il s'agit d'outils mathématiques, ne pas oublier le sens biologique! Conclusion Pour évaluer un alignement il faut plutôt considérer un ensemble de données: La E-value (uniquement comme un outil d'aide à la décision) La taille de l'alignement Le pourcentage et la position des gaps Le pourcentage d'identité et de similitude Lorsque les éléments ci-dessus sont favorables, cela permet de faire l'hypothèse que la séquence requête (query) et la séquence trouvée (hit) sont homologues et qu'elles pourraient partager une fonction similaire pour la région commune uniquement (annotation de domaines protéiques). 69 70 18