Master 1 :: module BBSG1.2.1 "Bioinformatique" :: année 2006/2007 TD2 : Histoire évolutive de la famille GH15 des glucosides hydrolases Encadrants: Emmanuel Talla (talla@ibsm.cnrs-mrs.fr) & Céline Brochier-Armanet (celine.brochier@up.univ-mrs.fr) Exercices à faire seuls, à rédiger et à renvoyer par mail au plus tard le 26 septembre 2006. Logiciels utilisés (tous gratuitement disponibles sur Internet) Logiciel d'alignement multiple CLUSTALW (ftp://ftp.ebi.ac.uk/) Éditeur d'alignement : SEAVIEW (http://pbil.univ-lyon1.fr/software/seaview.html) Logiciel de construction de reconstruction d'arbres : PHYLIP Logiciel d'édition d'arbres : NJPLOT (http://pbil.univ-lyon1.fr/software/njplot.html) A- Analyse phylogénétique de la famille GH15 des glucosides hydrolases 1- Recherche des homologues de la protéine P36914 d'aspergillus oryzae dans la banque de données nr au NCBI o Rechercher la séquence de la protéine P36914 au format FASTA au NCBI o Effectuer une requête par BLAST sur la banque de séquences protéiques nr. Qu est-ce que la banque nr? o Récupérer tous les homologues de la protéine P36914 possédant au moins le domaine GH15 au format FASTA. Combien d homologues récupérez-vous? Sauvegarder les séquences dans un fichier texte. o Quels sont les groupes d'organismes chez qui vous trouvez des homologues de glaa? Présenter les résultats sous la forme d un tableau excel (la dernière colonne peut être remplie après visualisation de l alignement) Nom de l organisme Position taxonomique Type(s) de séquence(s) Aspergillus oryzae Eukaryota; Fungi; Ascomycota; GH15+CBM20 Pezizomycotina GH15 2- Alignement des séquences de la famille Gh15 des glucosides hydrolases et expertise de l alignement o Dans votre fichier texte, modifier les identifiants de toutes les séquences de manière à avoir des identifiants uniques (ne pas utiliser pas deux fois le même identifiant pour des séquences différentes), courts (<30 caractères), ne comportant ni espaces, ni caractères spéciaux. Par exemple : >gi 114187852 gb EAU29552.1 alpha-amylase precursor [Aspergillus terreus NIH2624] => Aspergillus_terreus o Visualiser vos séquences à l aide du logiciel seaview. Quelle remarque pouvez-vous faire?
o Aligner les séquences avec le logiciel clustalw. o Pourquoi réalise-t-on un alignement des séquences avant toute analyse de séquences? o Visualiser l alignement à l aide du logiciel seaview. o Eliminer les séquences trop partielles ou ne possédant pas le domaine GH15 (fonction delete dans le menu edit). Eliminer les séquences redondantes (séquences identiques présentes chez le même organisme). o Repérer à l aide de l alignement les séquences possédant le domaine CBM20. Renommer ces séquences en ajoutant CBM20_ devant l identifiant de la séquence (fonction renommer dans le menu edit). Combien de séquences possèdent ce domaine? Quelle(s) remarque(s) pouvez-vous faire? Compléter la dernière colonne du tableau excel. o Sauvegarder les séquences au format mase (fonction save as / format mase / file.mase) o Sélectionner l ensemble des séquences constituant votre alignement. Réaliser un consensus (fonction consensus sequence dans le menu edit) en ayant préalablement fixé les options (allow gaps + seuil de 95% de résidus conservés). Quelle remarque pouvez-vous faire? o Supprimer la séquence consensus. Sauvegarder votre alignement. o Sélectionner les régions pour l analyse phylogénétique. Lorsqu on réalise une analyse phylogénétique, on n utilise pas toutes les positions d un alignement. On ne va travailler que sur des régions composées de plusieurs positions pour lesquelles à chaque position on est sur de l homologie entre tous les sites. Concrètement, ces régions sont délimitées par des résidus conservés (de même type : hydrophobes, polaires, chargés ) et ne contenant aucun gap. Exemple : Régions conservées
o Allez dans le menu sites => create set (=> donner un nom) pour effectuer votre sélection des sites à conserver pour l analyse phylogénétique. Une ligne apparaît au bas de l alignement. Faire glisser la souris en maintenant le bouton gauche enfoncé pour sélectionner les positions à analyser (les positions apparaissent en surbrillance et marquées par un X sur la dernière ligne).examiner attentivement la totalité de l alignement. B- Construction d'une phylogénie de référence basée sur la grande sousunité de l'arn ribosomique Pour comprendre l histoire évolutive d un gène (ici celle de la famille GH15 des glucosides hydrolases), il est indispensable de connaître celle des organismes chez qui le gène étudié est présent. L objectif de la seconde partie du TD est de reconstruire l histoire évolutive des organismes possédant un ou plusieurs membres de la famille des GH15 grâce à la reconstruction d une phylogénie de référence basée sur un marqueur de référence. La molécule de référence utilisée pour ce TP est la séquence de l ARN de la grande sous-unité du ribosome. L arbre obtenu sera considéré comme retraçant fidèlement l histoire évolutive des organismes étudiés. 1- Recherche des ARN de la grande sous-unité du ribosome présents chez les organismes possédant un/des membre(s) de la famille GH15 des glucosides hydrolases o A quel groupe majeur d Eucaryotes appartiennent les séquences de la famille GH15 identifiée dans la partie A. o Effectuer une requête par BLAST sur la banque de séquences nucléiques de séquences nr en limitant la recherche à ce groupe taxonomique (demander au moins 250 alignements). o Parmi toutes les séquences récupérées, sélectionner une séquence d ARN ribosomique de la grande sous-unité du ribosome représentative de chaque organisme possédant un membre de la famille GH15 des glucosides hydrolases (aidez-vous du tableau constitué en A). o Sauvegarder les séquences au format FASTA dans un fichier texte. 2- Alignement des séquences de la famille GH15 des glucosides hydrolases et expertise de l alignement o Dans le fichier texte, modifiez les identifiants de toutes les séquences de manière similaire à ce que vous avez fait dans la partie A-1.
o Aligner les séquences avec le logiciel clustalw. o Visualiser l alignement à l aide du logiciel seaview. Vérifier/corriger les erreurs grossières d alignement. o Sauvegarder les séquences au format mase (fonction save as / format mase / file.mase) o Sélectionner les sites à conserver pour l analyse phylogénétique (voir A-2). 3- Construction de la phylogénie de référence o Reconstruire une phylogénie par la méthode du neighbor-joining (methode de distance) à l aide du logiciel phylip. La reconstruction de phylogénie par des méthodes de distances commence par le calcul d'une matrice de distances. Des distances sont calculées entre chaque paire de séquences d'après un modèle d'évolution. Les distances calculées sont des approximations des distances évolutives réelles séparant les séquences. Au plus le modèle d'évolution choisi pour le calcul des distances sera proche des modalités d'évolution rée1les des séquences, au mieux seront estimées les distances évolutives. La qualité de la phylogénie obtenue est très dépendante de la qualité de l'estimation des distances évolutives. Il est donc indispensable de choisir le modèle d'évolution avec beaucoup de soin. Dans un second temps, une phylogénie sera reconstruite par la méthode du neighbor- Joining. Les longueurs des branches de la phylogénie obtenue représentent les distances évolutives estimées entre les paires de séquences. Pour le calcul des distances évolutives, vous utiliserez le programme protdist (commande protdist). Le fichier de sortie généré par protdist contenant la matrice de distances s'appelle outfile par défaut. Renommez-le avec un nom pertinent. Le logiciel de calcul d'arbre par la méthode du neighbor-joining s'appelle neighbor. Il générera un fichier appelé outttre par défaut qui contient l'arbre reconstruit. Renommez-le. o Reconstruire une phylogénie par la méthode de parcimonie à l aide du logiciel phylip (programme protpars). N oubliez par de renommer les sorties du programme protpars. o Visualiser les arbres obtenus avec le logiciel njplot. Vous pouvez faire pivoter les branches autour des nœuds et placer la racine de votre arbre. o Réaliser une capture d écran ou sauvegarder au format ps et inclure la phylogénie de référence dans le rapport à rendre.
C- Construction de la phylogénie de la famille GH15 o Construire la phylogénie des membres de la famille GH15. Raciner là de manière similaire à la phylogénie de référence obtenue dans la partie B. o Comparer la phylogénie obtenue avec la phylogénie de référence que vous aurez reconstruite (cf partie B). o Indiquer à chaque nœud si l événement représenté est un événement de spéciation ou de duplication. o Proposer un scénario évolutif pour les membres de la famille GH15 de glycosides hydrolases. Mettre en évidence sur la phylogénie de référence les organismes ayant des glucosides hydrolases composées uniquement du domaine GH15 et les organismes ayant des glucosides hydrolases composées des domaines GH15 + CBM20. Placer sur la phylogénie de référence les événements évolutifs retraçant l histoire des deux domaines. o Formuler une ou plusieurs hypothèses expliquant la présence de séquence d origine bactérienne.