Analyse comparative de méthodes de traitement de séquences ITS fongiques issues du pyroséquençage 454 M BUEE, C MURAT, E. MORIN, F MARTIN Juliette Lengellé INRA-Nancy, Université de Lorraine,UMR1136 Unité Interactions arbres / microorganismes Equipe Ecogénomique des Interactions 25/04/2012 ETEGE d'aussois
Contexte Champignons présents dans de nombreux écosystèmes Très forte diversité dans les sols forestiers et fonctions diverses Apple => Importance de connaître les communautés fongiques pour comprendre le fonctionnement de l'écosystème forestier et développer une gestion durable des forêts Approches multiples : De l identification des carpophores (fructifications) à la métagénomique monogénique microbienne utilisant l ADN ribosomique fongique (ITS)
Principe de la métagenomique monogénique microbienne Echantillonnage Isolement des racines/sol, lyophilisation, broyage Extraction d ADN génomique Amplification de la région ITS fongique Pyroséquençage 454 (Illumina) Analyses bioinformatiques
Avantages et biais du pyroséquençage 454 Avantages Nombre de séquences important => profondeur importante Traitement de plusieurs échantillons simultanément (multiplexage) Polymorphisme de taille (ITS fongique) => séquences courtes préférentiellement séquencées (modification de l'abondance relative de certains taxa) Erreurs de séquençage non aléatoires (séquences d'homopolymères) Biais Pyroséquençage 454 fructifications Estimation de la richesse en espèces (nombre d'otu) avec le logiciel EstimateS => Inventaire des espèces plus exhaustif avec le pyroséquençage 454 => Surestimation du nombre d'espèce avec le pyroséquençage 454 dû au biais
Effets des erreurs du pyroséquençage 454 Création d'otus artéfactuels : Singletons Nouveaux OTUs Sur-estimation de la diversité Nécessité de corriger les erreurs de séquençage => Necessité sélectionner une série de procédures automatisée permettant de compenser les erreurs du pyroséquençage 454
Méthodologie Combinaison d'outils existants pour compenser les erreurs du pyroséquençage 454 : Bruits => nettoyage des séquences (trimming/denoising) Redondances => plusieurs phases de regroupement (clustering) (Dem) : demultiplexage (T) : Trimming => découpage des séquences de faible qualité (D) : Denoising => retrait du bruit de séquençage [M] : Mothur (logiciel de nettoyage des séquences (reads)) [A] : AmpliconNoise (logiciel de nettoyage des 'reads' gi number : N d'acession du NCBI
Méthodologie Combinaison d'outils existants pour compenser les erreurs du pyroséquençage 454 : Bruits => nettoyage des séquences (trimming/denoising) Redondances => plusieurs phases de regroupement (clustering) (Dem) : demultiplexage (T) : Trimming => découpage des séquences de faible qualité (D) : Denoising => retrait du bruit de séquençage [M] : Mothur (logiciel de nettoyage des séquences (reads)) [A] : AmpliconNoise (logiciel de nettoyage des 'reads' gi number : N d'acession du NCBI
Tests des programmes Test sur 3 jeux de données de ~ 100 000 séquences de 3 écosystèmes différents : Forêt tempérée Forêt tropicale Truffière (inoculée avec Tuber melanosporum) Critères de sélection du pipeline : Nombre de séquences sélectionné aprés nettoyage Nombre d'otu (Operational Taxon Unit) généré : % de singletons Nombre moyen de séquences par OTU Taille moyenne des séquences des OTUs Evaluation de la diversité à l'echelle de l'espèce et de l'ordre(gains/pertes) avec MEGAN Dickie (2010) considère que le Pipeline1 génèrent un trop grand nombre d OTU artéfactuel
Résultats pour les données de la truffière pour les Pipelines 4, 5, 6 Les tendances sont les mêmes pour les deux autres écosystèmes Pipeline 1 (1T) Pipeline 2 (1D + 1 T) Pipeline 3 (1 T) Pipeline 4 (3 D) Pipeline 5 (3 D + 1 T) Pipeline 6 (2D + 1 T) 42,9% 35,2% 21,7% 40,2% 38,7% 7,0% 4954 4005 2352 5434 4770 2268 49,0% 47,4% 46,7% 64.4% 61,8% 51,8% Nb moyen de séquences par OTU 18 18 19 3 3 6 Longueur moyenne des OTUs (pb) 184 187 154 170 179 203 Nombre d'ordres 85 84 73 81 80 61 Nombre d'espèces 1054 958 668 868 834 514 Nb de séquences sélectionnées après nettoyage Nb d'otu généré OTU singleton D = étape de denoising T = étape de trimming Singletons > 50% des OTUs Nombre moyen de séquences par OTU trop faible
Résultats pour les données de la truffière pour les Pipelines 1, 2, 3 Pipeline 1 (1T) Pipeline 2 (1D + 1 T) Pipeline 3 (1 T) Pipeline 4 (3 D) Pipeline 5 (3 D + 1 T) Pipeline 6 (2D + 1 T) 42,9% 35,2% 21,7% 40,2% 38,7% 7,0% 4954 4005 2352 5434 4770 2268 49,0% 47,4% 46,7% 64.4% 61,8% 51,8% Nb moyen de séquences par OTU 18 18 19 3 3 6 Longueur moyenne des OTUs (pb) 184 187 154 170 179 203 Nombre d'ordres 85 84 73 81 80 61 Nombre d'espèces 1054 958 668 868 834 514 Nb de séquences sélectionnées après nettoyage Nb d'otu généré OTU singleton D = étape de denoising T = étape de trimming => Peu de séquences sélectionnées pour le 'clustering' pour le Pipeline 3 => Taille moyenne des OTU faible pour le Pipeline 3
Méthodologie Combinaison d'outils existants pour compenser les erreurs du pyroséquençage 454 : Bruits => nettoyage des séquences (trimming/denoising) Redondances => plusieurs phases de regroupement (clustering) (Dem) : demultiplexage (T) : Trimming => découpage des séquences de faible qualité (D) : Denoising => retrait du bruit de séquençage [M] : Mothur (logiciel de nettoyage des séquences (reads)) [A] : AmpliconNoise (logiciel de nettoyage des 'reads' gi number : N d'acession du NCBI
Intérêt des clusterings successifs Données truffière 4500 4400 Nombre d'otus 4300 4200 4100 4000 3900 3800 3700 3600 1 clustering 2 clusterings 3 clusterings 4 clusterings 5 clusterings => 2 étapes de clustering indispensables au minimum => 3 clusterings => obtention de 100% de séquences uniques 6 clusterings
Améliorations apportées au Pipeline 2 et perspectives Paramétrage du Pipeline pour le traitement d'autres types de séquences : ITS Oomycètes 18S fongiques Ajout de nouvelles fonctionalités: Création d'une matrice d'abondance gi number/échantillon Création de matrices reconnues par R pour générer des AFC Création des fichiers pour générer des courbes de raréfaction Test d'autres combinaisons d'outils de 'trimming'/'denoising' Validation en cours du Pipeline 2 sur un jeu de données issues du séquençage massif d'un assemblage in vitro de différents ADN fongiques connus
Remerciements UMR 1136 Interactixons Arbres-Microorganismes M BUEE F LE TACON F MARTIN A COINCE (thèse 2010-2012) C MURAT E. MORIN Apple