Analyse de la diversité microbienne par séquençage massif : Méthodes et Applications



Documents pareils
Analyse des données de séquençage massif par des méthodes phylogénétiques

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Big data et sciences du Vivant L'exemple du séquençage haut débit

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

MASTER (LMD) GESTION DE DONNEES ET SPATIALISATION EN ENVIRONNEMENT (GSE)

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Les débouchés des diplômés de L LMD Sciences de la Nature et de la Vie

L Équipe de Microbiologie Aquatique

Liste des matières enseignées

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Loi sur la médecine dentaire scolaire

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Gènes Diffusion - EPIC 2010

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

DOCUMENT DE TRAVAIL DES SERVICES DE LA COMMISSION RÉSUMÉ DE L ANALYSE D IMPACT. accompagnant la

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Environmental Research and Innovation ( ERIN )

Construction modulaire pour la Faculté des sciences

COMMENTAiRES/ DECISIONS

Eco-système calcul et données

Présentation Générale

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Projet Pédagogique Conférence interactive HUBERT REEVES Vendredi 13 mars H

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Épreuve E7 Session Institutionnelle de Lancement de la rénovation du BTSA Aquaculture

GL BIOCONTROL Le Mas Bas CIDEX ASPERES GSM : +33 (0) Fax : +33 (0) contact@gl-biocontrol.

Brest (29) Lessay (50), Mars 2012

Impact on revenue requirements no Description (000$)

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

La résistance d'agents infectieux aux médicaments antimicrobiens

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Crédit d'étude en vue de la construction d'un bâtiment pour la Faculté de droit

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Stratégie nationale pour la biodiversité

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Surveillance épidémiologique : application à la détection et la prédiction des épidémies

SysFera. Benjamin Depardon

La loi NRE. Article 116

Méthodes de développement

La biodiversité : enjeu scientifique et enjeu éthique

au concept de «développement durable» Pour une éducation ouverte sur le monde

Outils de traitements de logs Apache

CENTRALES HYDRAULIQUES

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Système immunitaire artificiel

«Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat».

Code de la publicité écologique

Enjeux et Perspectives de la composante «Environnement Santé» du Plan d Action de l Initiative Environnement du NEPAD

Renforcement de Capacité La gestion de déchets industriels - La Promotion de l enseignement

Les macroinvertébrés: des bioindicateurs incontournables pour le monitoring des cours d eau en CH

Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8

eduscol Santé et social Enseignement d'exploration

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

TerrOïko : JEU en collaboration avec la SEEM

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT. Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec

CBBC Canadian Business & Biodiversity Council

Amélioration de la continuité écologique sur la rivière Aveyron

Physiopathologie : de la Molécule à l'homme

Lignes Directrices De La CDB Approche Par Écosystème

Impacts de l'informatique : ressources, énergie, déchets ; que nous révèlent les analyses de cycle de vie?

Programme des Nations Unies pour l environnement

Jean-François Boulicaut & Mohand-Saïd Hacid

MASTER 2 CONTAMINANTS EAU SANTE

Programme de Travail sur les Aires Protégées

Relocaliser la production industrielle, est-ce possible? Le retour du Made In France

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

Item 169 : Évaluation thérapeutique et niveau de preuve

Bases de données des mutations

Systèmes de transport public guidés urbains de personnes

Master "Generating Eco Innovation"

Demande chimique en oxygène

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Application de K-means à la définition du nombre de VM optimal dans un cloud

SERVICES DE SEQUENÇAGE

Annonce. Beyrouth, le 4/6/2013. La Doyenne. Nina SAADALLAH. UNIVERSITE LIBNAISE Faculté de Santé Publique Décanat

Faculté des Sciences d ORSAY

Programme "Conception et simulation" COSINUS Edition Projet

Nous vous prions d agréer, Madame, Monsieur, l expression de nos sentiments les meilleurs.

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

LA FONDATION: MISSION ET VISION

Simplifier la gestion de l'entreprise

Improving the breakdown of the Central Credit Register data by category of enterprises

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

MABioVis. Bio-informatique et la

Évaluation de l AERES sur l unité :

Réunion publique/téléconférence

CAMPAGNE NATIONALE DE SENSIBILISATION POUR LA PROTECTION DE NOTRE PATRIMOINE MARITIME & TERRESTRE DOSSIER DE PRESENTATION

LISTE DE PROTECTION DES ESPÉCES

Conférence technique internationale de la FAO

Mise en place d un réseau d Arboretums pour une valorisation coordonnée des ressources ligneuses ex situ

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Les plateformes de génétique

Transcription:

Najwa TAIB Analyse de la diversité microbienne par séquençage massif : Méthodes et Applications Au delà de son importance dans le fonctionnement et la régulation des écosystèmes ou du maintien de l'équilibre global de notre planète, la connaissance de la biodiversité est d'un intérêt majeur pour l'homme. En effet, l'exploitation de la biodiversité est depuis des millénaires à la base de notre alimentation, et plus récemment une source majeure d'innovations médicales (antibiotiques, vaccins, bio-molécules à la base de nouveaux médicaments anticancéreux) et de production industrielle. La biodiversité apparaît par ailleurs comme une ressource prometteuse dans le développement de nouveaux procédés dans un contexte de développement durable (production de biocarburants, recyclage des déchets, dé-pollution de sites industriels). Cependant, cette diversité n'est pas répartie uniformément autour du globe, mais en relations avec les conditions locales ou régionales des milieux. Ainsi, l'étude de différents écosystèmes à travers le temps ou l'espace (biogéographie) permet de mettre en lumière les relations qui peuvent exister entre les conditions du milieu, la diversité qui s'y trouve et le comportement des communautés biologiques en réponse aux perturbations locales (pollutions, anthropisation), ou globales (réchauffement climatique, eutrophisation) de ces milieux. Ces études peuvent alors fournir des arguments aux décideurs pour mettre en place des politiques adaptées. En 1992, le taux d'extinction des espèces due à la transformation des paysages, la pollution, la surexploitation des ressources biologiques, était estimée à 30000 par an. Si la diversité des «macro» espèces (plantes, animaux) est estimée à environ un million d'espèces, la diversité de la fraction microbienne est sans doute supérieure à 10 millions d'espèces, la plupart étant à l'heure actuelle inconnue, car on ne sait pas les maintenir en laboratoire pour pouvoir les étudier plus spécifiquement. Cette biosphère est cependant le plus grand réservoir de gènes potentiellement intéressant pour de nouveaux développements technologiques ou médicaux (Pedrós-Alió 2006). Elle pourrait aussi constituer un réservoir d'innovations génomiques qui pourraient expliquer comment les communautés microbiennes se rétablissent suite à une catastrophe environnementale (Sogin et al., 2006). Le développement des approches moléculaires en écologie et plus récemment des technologies de séquençage de deuxième génération (Next Generation Sequencing, NGS) offre la possibilité à travers le séquençage des génomes microbiens (métagénomique) ou un séquençage

ciblé d'une partie de ces génomes (métagénétique), d'explorer et d'étudier la diversité génétique et fonctionnelle de ces micro-organismes extraits directement de leur milieu. Ces approches ont permis de mettre en évidence ces dernières années de nouveaux acteurs dans les cycles biogéochimiques (Archaea dans le cycle de l'azote), ou de nouvelles molécules pour le développement de médicaments. Cependant, ces nouvelles techniques conduisent à la production de grandes quantités de données (plusieurs Gb de séquences) dont l'accumulation exponentielle dans les bases de données internationales pose de réels problèmes de représentation, de gestion des informations produites et de ressources de calcul. Les ressources informatiques au sein des laboratoires sont rarement dimensionnées pour permettre le traitement de ce type de données. En effet, alors que l'étude de la biodiversité microbienne par l'approche classique générait des librairies avec quelques centaines de séquences d'une taille moyenne de 800 paires de bases (pb), les techniques de séquençage massif (NGS) ont considérablement réduit le coût financier tout en augmentant le nombre de séquences générées qui peut atteindre plusieurs centaines de milliers à plusieurs millions de fragments par expérience. Par exemple, la technique du pyroséquençage 454 Roche peut générer un million de séquences d'une taille moyenne de 450 pb (700 pb est annoncée actuellement). Un point crucial dans l'étude de la biodiversité basée sur l'analyse de données issues des NGS est dès lors notre capacité à analyser précisément des gigabites de données dans un temps raisonnable. Les besoins de développements bio-informatiques spécifiques ainsi que des ressources informatiques dédiées pour le traitement de séquences issues des NGS constituent donc un point critique de l'exploration de la biodiversité et il est évident que ces données d'un nouveau type appellent des développements méthodologiques spécifiques ainsi que l'exploitation des ressources de calcul distribué. Depuis de développement de l'identification moléculaires des espèces bactériennes (Woese 1987), de nombreuses ressources ont été développées, en particulier pour l'identification des microorganismes sur la base de la petite sous unité du ribosome (SSU rdna). En effet, l'analyse des similitudes de l'adn des organismes permet de définir les contours des espèces microbiennes, ceci à partir de trois catégories d'outils : les outils d'appariement : qui évaluent la similitude d'une séquence expérimentale contre une base de données de référence. les outils de phylotypages : qui permettent l'insertion d'une séquence expérimentale dans un arbre phylogénétique (qui retrace les relations de parenté entre espèces) constitué de séquences de référence connues. les outils de clusterisation : qui permettent de regrouper au sein d'une unité taxonomique

opérationnelle (OTU) l'ensemble des séquences expérimentales, définissant différents individus de l'écosystème, mais appartenant tous à la même espèce. Des bases de données spécialisées regroupant des séquences de référence identifiées (e.g.; RDP II et SILVA, pour la petite sous unité du ribosome), de même que les outils pour classer les séquences, basés sur la recherche de similarité (e.g.; BLAST, USEARCH), la classification Bayesienne (RDP Classifier) ou les mots de k lettres (SequenceMatch) sont en partie disponibles à travers des portails dédiés (e.g. RDP http://rdp.cme.msu.edu/). L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, est peu utilisée pour l'annotation taxonomique, notamment pour les données issues des NGS, du fait de ses besoins en temps et en ressources de calcul. Des développements récents en bio-informatique ont permis d'améliorer les premiers outils d'analyse de la diversité jusqu'ici utilisés en écologie microbienne pour les adapter à la taille des jeux de données produits par les NGS, tant pour la constitution d'otus (l'unité de base pour l'évaluation de la diversité microbienne), que pour l'identification des espèces à travers la définition de phylotypes (ESPRIT (Sun et al., 2009), MOTHUR (Schloss et al., 2009), UCLUST (Edgar 2010), PPLACER (Matsen et al., 2010)). Des pipelines dédiés à l'analyse de la diversité par l'analyse des séquences massivement générées à partir de produits d'amplifications (amplicons) ont également été développés soit sous forme de programme «Stand Alone» (e.g. QIIME - Caporaso et al., 2010) ou associés à des ressources en ligne (RDP Pyrosequencing pipeline - Cole et al., 2009). Ces adaptations se caractérisent par une accélération de la vitesse d'exécution des taches, parfois au détriment de la précision des résultats, d'autant plus que l'affiliation taxonomique implémentée dans ces pipelines est basée sur les outils d'appariement et de clusterisation, ce qui ne permet pas de restituer l'information concernant la présence de groupes monophylétiques et leurs éventuelles implications écologiques. C'est dans ce contexte là que ce situent ces travaux de thèse, qui ont porté sur le développement d'une procédure d'annotation phylogénétique automatisée, adaptée aux données NGS de type 454, appelée PANAM pour «Phylogenetic Annotation of Next generetion AMplicons» (Taib et al., 2013). L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne (BLAST et RDP Classifier). Il a pu être montré que les résultats d'identification taxonomique produits par PANAM étaient plus précis et les taux d'exactitude (spécificité des résultats) plus importants que ceux produits par les outils «concurrents». La chaîne de traitements mise en place a ensuite été implémentée dans un contexte de calcul à

haute performance afin de proposer un service web dédié à l'analyse de la diversité microbienne. En effet, bien que le temps d'exécution de PANAM sur une machine locale soit adapté à une utilisation individuelle, il reste cependant prohibitif pour que cette approche devienne une ressource web de premier plan. Ainsi, afin d'améliorer les performances de PANAM, des travaux ont été réalisés pour gérer la charge de calcul à travers l'exploitation de ressources distribuées de type cluster ou grille. Pour la grille de calcul, des travaux préliminaires ont été initiés avec l'équipe PCSV du LPC. En effet, une partie du processus réalisé par PANAM a servi de trame aux travaux de thèse de Doan Trung Tung «Epidémiologie moléculaire et métagénétique à haut débit sur la grille» pour le déploiement d'outils bio-informatiques sur la grille de calcul. Le fruit de cette collaboration a donné lieu à la conception d'un chaînage adapté à la structure fragmentée des grilles de calculs. Ce travail peut être vue comme une preuve de concept (démonstration de faisabilité) de l'application de traitement de données NGS sur grilles de calculs, mais reste toutefois à l'état de prototype, de développements supplémentaires sont nécessaires pour la mise en production d'outil s'adossant à la grille de calcul. Parallèlement, des développements ont également été faits pour déployer PANAM sur cluster. Contrairement à la grille, les clusters de calcul possèdent une structure plus homogène et sont localisés sur un seul site. L'objectif de ces développements était de pouvoir à terme rendre les traitements de PANAM accessibles à la communauté des microbiologistes à travers une interface graphique et supportés par des ressources de calcul adaptées. De ces travaux sur le cluster a découlé la mise en place d'un service web, epanam, dédié au traitement des données issues des pyroséquenceurs par une approche phylogénétique, et optimisé pour permettre une analyse complète et automatisée de grands jeux de données. epanam affilie la taxonomie à partir des phylogénies réalisées sur un million de séquences. Les résultats générés sont enfin exploités afin de proposer une description des environnements étudiés par le calcul d'indices de diversité et de richesse (alpha diversité) ainsi que leur comparaison (béta diversité). En plus de ces ressources à haute performance, epanam dispose d'une interface graphique intuitive qui facilite son utilisation par les biologistes non initiés à la programmation, puisqu'aucune connaissance en informatique n'est requise. Notre méthode de traitement a été ensuite appliquée à des données de NGS provenant de deux contextes différents, en collaboration avec deux doctorants du LMGE. Ces études d'écologie microbienne concernaient deux modèles différents, les Archaea et les eucaryotes, les deux fractions provenant d'écosystèmes aquatiques. Ces études avaient pour point commun de décrypter la dynamique de la biosphère rare. La première concernait plus précisément la caractérisation des

communautés d'archaea en milieu marin. Nous avons ainsi analysé un jeu de séquences issues des données du pyroséquençage de l'adnr 16S et de l'arnr 16S et provenant de 40 dates d'échantillonnage, qui nous a permis d'étudier les remaniements de la biosphère rare en différenciant les micro-organismes actifs et inactifs (Hugoni et al., 2013). La seconde étude concernait la dynamique à court terme des picoeucaryotes (organismes dont la taille est inférieure à 5 μm) dans un écosystème lacustre (Mangot et al., 2013). Les études réalisées sur le moyen et long terme ont montré que les assemblages eucaryotiques se restructurent rapidement pour suivre une distribution rang-abondance en log-normal, avec quelques taxa abondants. Ces remaniements continus au sein de la communauté des protistes pourraient résulter des taxa rares qui deviennent abondants avec le changement des conditions environnementales. Au delà de l'intérêt fondamental que peut représenter l'évaluation de la diversité biologique pour le secteur académique, des applications d'intérêt socio-économiques existent comme par exemple la bio-surveillance. Ainsi ce service web peut également constituer une ressource pour les acteurs de l'environnement en charge du suivi de la qualité des milieux naturels ou anthropisés. La généralisation des méthodes basées sur les NGS ainsi que la mise sur le marché de séquenceurs de «paillasse» (junior de Roche) font qu'à court terme ces méthodes seront couramment utilisées. Des partenariats peuvent être envisagés avec des bureaux d'études afin de développer des approches moléculaires pour le suivi des populations microbiennes qui témoignent de la qualité sanitaire des milieux naturels. Des collaborations peuvent également être envisagées à l'échelle régionale et nationale avec des entreprises impliquées dans le développement et le suivi de consortia microbiens pour la production de bio-molécules d'intérêt économique (biocarburant, valorisation des biodéchets). Enfin, la ressource proposée est pour l'instant ciblée sur l'analyse de la diversité des microorganismes. Cependant, la caractérisation moléculaire des communautés naturelles est une approche qui s'applique à toutes les échelles du vivant. La caractérisation des espèces de «macro» organismes par des approches moléculaires s'est également développée depuis une dizaine d'années sous la terminologie de «barcoding» et fait appel à d'autre marqueurs de l'adn que la petite sous unité du ribosome (SSU rdna). Des collaborations peuvent être envisagées avec des partenaires travaillant sur la taxonomie moléculaire des eucaryotes, ciblant d'autres gènes.

Références bibliographiques Pedrós-Alió C. Marine microbial diversity : can it be determined? Trends in microbiology, 14(6) :257#263, 2006. Sogin ML, Morrison HG, Huber JA, Mark Welch D, Huse SM, Neal PR, Arrieta JM, Herndl GJ. Microbial diversity in the deep sea and the underexplored "rare biosphere". Proc Natl Acad Sci U S A. 2006 Aug 8;103(32):12115-20. Epub 2006 Jul 31. Woese CR. Bacterial evolution. Microbiol Rev. 1987 Jun;51(2):221-71. Sun Y, Cai Y, Liu L, Yu F, Farrell ML, McKendree W, Farmerie W. ESPRIT: estimating species richness using large collections of 16S rrna pyrosequences. Nucleic Acids Res. 2009 Jun;37(10):e76. doi: 10.1093/nar/gkp285. Epub 2009 May 5. Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, Lesniewski RA, Oakley BB, Parks DH, Robinson CJ, Sahl JW, Stres B, Thallinger GG, Van Horn DJ, Weber CF. Introducing mothur: open-source, platformindependent, community-supported software for describing and comparing microbial communities. Appl Environ Microbiol. 2009 Dec;75(23):7537-41. doi: 10.1128/AEM.01541-09. Epub 2009 Oct 2. Edgar RC. Search and clustering orders of magnitude faster than BLAST. Bioinformatics. 2010 Oct 1;26(19):2460-1. doi: 10.1093/bioinformatics/btq461. Epub 2010 Aug 12. Matsen FA, Kodner RB, Armbrust EV. pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics. 2010 Oct 30;11:538. doi: 10.1186/1471-2105-11-538. Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Peña AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koenig JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, Sevinsky JR, Turnbaugh PJ, Walters WA, Widmann J, Yatsunenko T, Zaneveld J, Knight R. QIIME allows analysis of high-throughput community sequencing data. Nat Methods. 2010 May;7(5):335-6. doi: 10.1038/nmeth.f.303. Epub 2010 Apr 11. Cole JR, Wang Q, Cardenas E, Fish J, Chai B, Farris RJ, Kulam-Syed-Mohideen AS, McGarrell DM, Marsh T, Garrity GM, Tiedje JM. The Ribosomal Database Project: improved alignments and new tools for rrna analysis. Nucleic Acids Res. 2009 Jan;37(Database issue):d141-5. doi: 10.1093/nar/gkn879. Epub 2008 Nov 12. Taib N, Mangot JF, Domaizon I, Bronner G, Debroas D. Phylogenetic affiliation of SSU rrna genes generated by massively parallel sequencing: new insights into the freshwater protist diversity. PLoS One. 2013;8(3):e58950. doi: 10.1371/journal.pone.0058950. Epub 2013 Mar 14. Hugoni M, Taib N, Debroas D, Domaizon I, Jouan Dufournel I, Bronner G, Salter I, Agogué H, Mary I, Galand PE. Structure of the rare archaeal biosphttp://www.ncbi.nlm.nih.gov/pubmed?term=robinson%20cj%5bauthor %5D&cauthor=true&cauthor_uid=19801464here and seasonal dynamics of active ecotypes in surface coastal waters. Proc Natl Acad Sci U S A. 2013 Apr 9;110(15):6004-9. doi: 10.1073/pnas.1216863110. Epub 2013 Mar 27. Mangot JF, Domaizon I, Taib N, Marouni N, Duffaud E, Bronner G, Debroas D. Short-term dynamics of diversity patterns: evidence of continual reassembly within lacustrine small eukaryotes. Environ Microbiol. 2013 Jun;15(6):1745-58. doi: 10.1111/1462-2920.12065. Epub 2013 Jan 9.