Analyse in silico de génomes, protéomes et transcriptomes. «Génomique comparative» V.2012.1. Protocole TD



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Manuel d Utilisation Nouvelle Plateforme CYBERLIBRIS : ScholarVox Management

S y m M a i l i n g. S o l u t i o n d e - m a i l i n g. SymMailing est un outil professionnel de création et de gestion de campagnes d ing.

GanttProject : guide utilisateur

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

CRM PERFORMANCE CONTACT

Tutoriel QSOS. Version /02/2013

Module d anonymisation

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Identification de nouveaux membres dans des familles d'interleukines

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Procédure d'installation de Oracle Client pour Windows

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Transmission d informations sur le réseau électrique


3: Clonage d un gène dans un plasmide

Région wallonne Commissariat wallon

IFT287 Exploitation de base de données relationnelles et orientées objet. Laboratoire Mon premier programme Java en Eclipse

Gestion de bureaux à distance avec Vino

DOCUMENTATION POINT FACTURE

Guide d installation de Gael

Partie 7 : Gestion de la mémoire

EP60.92 Projet d application pluridisciplinaire La chasse aux trésors

MABioVis. Bio-informatique et la

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

User Documentation. Documentation utilisateur. version 0.2b

Création d un «Web Worm»

et de la feuille de styles.

1. Création du profil

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

PARAMETRER LA MESSAGERIE SOUS THUNDERBIRD

Utilisation de l éditeur.

A. Architecture du serveur Tomcat 6

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Les différentes méthodes pour se connecter

Survol des nouveautés

Procédure d'installation de PostgreSQL pour Windows

JIRA gestion de demandes HELPDESK Manuel technicien

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

CRÉER SON SITE INTERNET. Créer son site Internet. Méd de Roanne. FG 16/09/08

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Groupe Eyrolles, 2003, ISBN : X

Modules Multimédia PAO (Adobe)

CREG : versailles.fr/spip.php?article803

Sélection du contrôleur

Création de formulaires interactifs

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Questions - Réponses Plénière éditeurs 27/09/2011

Perl Orienté Objet BioPerl There is more than one way to do it

Tutoriel d utilisation du Back-Office du site de la ligue

3 logiciels «gratuits» pour gérer sa bibliographie

Création d une connexion VPN dans Windows XP pour accéder au réseau local de l UQO. Document préparé par le Service des technologies de l information

Introduction MOSS 2007

Installer Joomla Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring

INSTALLATION NG V2.1 D OCS INVENTORY. Procédure d utilisation. Auteur : GALLEGO Cédric 23/10/2014 N version : v1

Mathématiques financières

Probabilités (méthodes et objectifs)

Livret 1 Poste de travail de l utilisateur :

FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles

COMMENT CREER SIMPLEMENT UN TABLEAU DE BORD AVEC SAS BI DASHBOARD 4.3?

Epidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA

Version: 1.1 Date du document: 07 Novembre 2013 N du document: Guide Utilisateur Mandant. Guide utilisateur Mandant Page 1 de 20

Le logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation.

Mes documents Sauvegardés

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

TP1 : Initiation à l algorithmique (1 séance)

Module Communication - Messagerie V6. Infostance. Messagerie

Génétique et génomique Pierre Martin

ASSOCIATION NATIONALE D'ASSISTANCE ADMINISTRATIVE ET FISCALE DES AVOCATS

GUIDE DE PAIEMENT. Pour Bien Effectuer votre Paiement, veuillez suivre les instructions suivantes :

NAS 224 Accès distant - Configuration manuelle

Vous y trouverez notamment les dernières versions Windows, MAC OS X et Linux de Thunderbird.

Étude de l application DNS (Domain Name System)

ASR1 TD7 : Un microprocesseur RISC 16 bits

Un concept multi-centre de données traditionnel basé sur le DNS

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE

Génomique Comparative et intégrative

Les portails : créer et gérer un site web. Gérald Collaud, Jacques Monnard, Hervé Platteaux Centre NTE, Université de Fribourg

Avenir Concept Monaco

Table des matières Hakim Benameurlaine 1

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Sondage sur le climat. scolaire. Guide d utilisation à l attention des administratrices et des administrateurs

Configuration de Zabbix

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Document d orientation sur les allégations issues d essais de non-infériorité

TD d économétrie appliquée : Introduction à STATA

QUEL HEBERGEMENT POUR MON SITE WEB?

Préparation à l examen EFA en Macro

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Cloud public d Ikoula Documentation de prise en main 2.0

Procédure d'installation de SQL Server Express 2005

BIRT (Business Intelligence and Reporting Tools)

Cours 1 : Introduction. Langages objets. but du module. contrôle des connaissances. Pourquoi Java? présentation du module. Présentation de Java

L interface Outils, palettes, règles, repères, grille Paramétrer les préférences

Transcription:

Magistère Biotechnologies Analyse in silico de génomes, protéomes et transcriptomes «Génomique comparative» V.2012.1 Protocole TD Notes : Scripts et données sur : http://rna.igmors.u-psud.fr/gautheret/cours/analinsilico 1. Introduction Prérequis : - Prise en main d Unix/Linux. Commandes Unix de base Présentation de la symbiose Buchnera aphidicola / puceron: voir le support pdf 2. Récupération des protéomes - Récupération des données sur le site http://www.ebi.ac.uk/genomes/bacteria.html o Prendre les protéomes (format fasta) de: Buchnera aphid. Subsp Acyrthosiphon pisum (souche 5A) et E. coli K12 (souche MG1655) - Vérifier le contenu des fichiers avec un éditeur de texte (protéines au format Fasta) - Compter le nombre de protéines de chaque espèce à l aide de la commande egrep (cf TD Unix). 3. Utilisation programme Perl: compter les séquences, taille moyenne. - Utilisation du programme Perl check-datafile : check_datafile.pl permet de verifier la cohérence des fichiers fasta (fichier.fasta) téléchargés usage : perl check_datafile.pl [fichier.fasta] - Nombre de protéines coli et Buch? taille moyenne? - Y a-t-il une différence entre les tailles des protéines de ces deux génomes? 1

4. Comparaison de 2 protéomes dans le but de trouver les orthologues - Recherche d orthologues : o duplications / paralogues /orthologues et les conséquences sur Blast - Principe du «best reciprocal hit» - Rappels Blast (si nécessaire) o (k-words), formattage de la base, o Run en ligne de commande. Options de base. o Interprétation du fichier de sortie. E-value. - Comparer «manuellement» les protéomes de coli et Buchnera à l aide de Blast. Lancer Blast avec l option m 9, dans les deux directions : coli vs. buchnera et buchnera vs. coli. Attention : c est long! Redirigez les résultats dans un fichier de sortie avec «>» Regardez à quoi ressemble le fichier de sortie et comprenez bien le format. - A l aide des scripts Perl ci-dessous, obtenir la liste des meilleurs hits Blast dans chaque direction, puis la liste des couples présents dans les deux listes (meilleurs hits blast réciproques). first_line.pl bbh.pl permet de filtrer les resultat de blast (genome1_vs_genome2) en ne gardant que le meilleur hit si sa E-value est < 1e-5. usage : first_line.pl [fichier-blast] > [fichier] Attention : requiert des résultats de Blast obtenu avec l option m 9 permet de comparer des fichiers BLAST filtrés. Seuls les BLAST reciproques sont retenus. usage : bbh.pl [fichier firstline 1] [fichier firstline 2] > [fichier] - Combien de couples d orthologues Buch/coli? 5. Récupération des gènes spécifiques de Buchnera - A l aide des résultats précédents, réaliser à la main un diagramme de Venn des gènes communs aux deux espèces et spécifiques de chaque espèce. - Pour trouver les gènes du génome de Buchnera absents dans le génome de coli, comparer buch.fasta avec les résultats du bbh, à l aide du programme suivant : missing_names.pl recherche les noms de gènes d un fichier fasta absents dans un fichier bbh usage: missing_names [fichier fasta] [fichier bbh] - A l aide du script get_seq.pl et récupérer les descriptions (titre long ) des protéines spécifiques de Buchnera get_seq.pl permet d'extraire d'un fichier fasta les séquences dont la ligne de commentaires contient la chaîne de caracteres recherchée usage : get_seq.pl [fichier fasta] [fichier d identifiant protéine] (le fichier d identifiants peut être celui généré par missing_names.pl) 6. Analyse des gènes spécifiques à Buchnera - Parmi les gènes spécifiques à Buchnera, deux sont des gènes liés à la formation du flagelle. Recherchez parmi les protéines de Buchnera combien possèdent le mot flagelle dans leur nom, 2

puis utilisez un test de Fisher (par ex : http://www.langsrud.com/fisher.htm) pour savoir si les gènes de flagelle sont plus représentés parmi les gènes spécifiques à Buchnera que dans l ensemble des gènes de Buchnera. 7. Identifier les duplications ou pertes récentes Si le meilleur hit de X est Y et que le meilleur hit de Y n est pas X, alors il y a eu perte ou duplication récente dans l un des génomes (paralogue unique chez une espèce). Nous recherchons les gènes dans ce cas. - Rechercher les duplications ou pertes récentes à l aide du script diff.pl diff.pl permet de rechercher et d'afficher les lignes différentes entre deux fichiers usage : diff.pl [fichier firstline] [fichier bbh] (affiche les lignes trouvées uniquement dans le fichier 1, puis celles trouvées uniquement dans le fichier 2) - Attention : utiliser diff avec des fichiers dans lesquels les noms de gènes sont inscrits dans le même ordre. - Combien de paralogues uniques à coli? à Buchnera? 8. Protéome ancestral Comment vérifier si Buchnera a évolué par perte de gènes par rapport à l ancêtre des gammaprotéobactéries, ou si c est coli qui a évolué par gain de gènes? Pour répondre à cette question il faut récupérer un protéome d une espèce (espèce X) située dans un groupe extérieur au groupe de Buchnera et coli et comparer le protéome X à celui de coli et de Buchnera. - Récupérer le protéome de l espèce X - Que suggère la taille du protéomes X et des protéomes de Buchnera et de coli? - Rechercher les orthologues entre protéome X et chacun des deux autres protéomes. Pour faire les Blast plus rapidement, nous utiliserons le script autoblast.pl : autoblast.pl permet de blaster toutes les protéines de [genome1] contre la banque [genome 2]. Réalise automatiquement le formatdb et lance Blast avec l option m 9 (sortie tabulée) usage : autoblast.pl [genome1] [genome2] (pas la peine de rediriger les sortie, le script crée fichier genome1_vs_genome2.bl) - En vous basant sur les nombres d orthologues entre les espèces prises deux à deux, concluez sur le protéome ancestral et le mode d évolution de Buchnera. 3

9. Adaptation à l hote : Comparaison de 3 Buchnera Quels gènes conférent à Buchnera la capacité de symbiose avec son hôte spécifique? Il y a maintenant plusieurs génomes de Buchnera entièrement séquencés. Si ces souches coexistent avec des hôtes différents, chacune doit avoir un jeu de gènes spécifique de son hôte. On va donc faire une comparaison 3 à 3. - Récupération des génomes de Buchnera de puceron de l orge (souche sg ou Schizaphis graminum) et de puceron du cèdre (souche Cinara cedri) sur le site EBI. - A l aide du script autoblast, des scripts précédents et du script Venn.pl, réaliser un diagramme de Venn 3x3 pour faire apparaitre les orthologues des 3 protéomes et des protéomes 2 à 2. venn.pl permet de trouver la liste des protéines communes à trois fichiers de type bbh usage : venn.pl [fichier bbh 1] [fichier bbh 2] [fichier bbh 3] - Gènes en commun : Y a-t-il plus de gènes en commun entre Buchnera aphidicola et Escherichia coli qu entre les trois souches de Buchnera? Discutez la variabilité intra-souche et la variabilité inter-espèces? - Quelles est la souche la plus divergente? Quelles sont les souches les plus ressemblantes? 10. Gènes spécifiques à une souche - A l aide des scripts missing-names.pl et get_seq.pl, établissez la liste des gènes spécifiques à chacune des 3 souches de Buchnera. Il faudra pour cela concaténer les fichier bbh pertinents à l aide de la commande cat, afin de créer des listes de gènes à exclure. Attention à l ordre des gènes dans les fichiers pour la commande missing_names. - Pouvez-vous trouver des fonctions sur-représentées dans ces gènes spécifiques? 11. Adaptation à l hôte : Comparaison de 3 E. coli Nous allons maintenant comparer 3 souches de E. coli. La souche de laboratoire K12 et les deux souches pathogènes O157-H7 et coli CFT073. - Question bibliographique : quelles sont les spécificités d hôte des 3 souches? (donner références) - Récupérer à l EBI les protéomes de : coli O157-H7 (st sakai) et coli CFT073. - Réaliser un diagramme de Venn pour faire apparaitre les orthologues des 3 protéomes et des protéomes 2 à 2. - Quelles sont les souches les plus divergentes? Explication possible? - Comparer les diagrammes de Venn obtenus entre les 3 souches de Buchnera et entre les 3 souches de E. coli. Que peut-on en dire? 4

- En combinant judicieusement les scripts diff.pl, get_seq.pl et/ou missing_names.pl recherchez la liste des gènes communs aux deux pathogènes et absents chez coli K12 et celle des gènes spécifiques de l un des pathogènes. - Trouvez-vous une classe de gènes sur-représentée dans les pathogènes ou dans l un des pathogènes? 12. Comparaisons au niveau génomique On se pose ici la question : comment ont émergé les gènes responsables de la pathogénicité des souches de coli? par des insertions ponctuelles? en bloc? Pour répondre, il faut étudier la synténie. Nous allons comparer K12 et O157 :H7 au niveau de la séquence génomique, avec un programme de dot-plot : Gepard. - Télécharger les génomes (.fna) de K12 et O157 :H7 sur le site de l EBI. - Lancer gepard en ligne de commande «sh <chemin>/gepard.sh» (s il est installé sur vos machines) ou en mode Java Webstart à l adresse : http://mips.helmholtzmuenchen.de/services/analysis/gepard (choisir version normale, 512 MB). - Charger les deux génomes et afficher le dotplot - Question : comment sont arrivés les gènes responsables de la pathogénicité : par bloc ou par insertions ponctuelles? - Effectuer dans la fenêtre inférieure du programme l alignement des deux régions homologues. 13. Arbre des 6 espèces Question : le nombre de gènes communs est-il un indicateur de proximité évolutive? Non. On peut avoir une perte massive dans un temps court, ou au contraire une divergence de longue durée sans perte de gènes. Voir par ex. le nombre de gènes communs entre les Buchnera et entre Buchnera et coli. Pour confirmer ce fait, nous allons faire un arbre phylogénétique des 6 espèces étudiées. - Classe séparée entre 2 groupes. - Groupe 1 : Arbre 16S. Prendre 16S de E. coli (fichier 16s.seq). Blaster contre chaque génome. Récupérer les six 16S. Réaliser l arbre général sur phylogeny.fr - Groupe 2 : Arbre metaprotéines. Trouver des gènes communs aux 6 espèces (à partir des Venn). Concaténer les séquences protéiques en 5 «metaprotéines». Réaliser l arbre général sur phylogeny.fr. Attention aux tailles des protéines (ne pas prendre des protéines trop grandes). 5