Master research Internship. Rapport bibliographique. Comparaison massive et multiple de métagénomes non assemblés

Transcription

1 Master research Internship Rapport bibliographique Comparaison massive et multiple de métagénomes non assemblés Auteur : Guillaume Holley Encadrant : Pierre Peterlongo GenScale

2 Résumé La nature est d une grande complexité et l étudier l est tout autant. Alors que la biologie se sert des outils bioinformatiques qui sont mis à sa disposition et qui ont permis l avènement de la génomique moderne, de nouveaux challenges sont à notre portée. En effet, nous avons longtemps étudié le génome d espèces à partir d échantillons cultivés en laboratoire et nous savons que cette méthode a ses propres limites. La métagénomique tente d aller plus loin en permettant d étudier des centaines d espèces de micro-organismes différents en même temps. Cette bibliographie fera un bref état de l art sur la métagénomique et abordera chaque aspect du processus. La seconde partie de ce rapport bibliographique se concentrera sur la métagénomique comparative. Nous en ferons un bref état de l art, puis nous présenterons un nouvel outil dans le domaine : Compareads. Table des matières 1 Introduction 1 2 Métagénomique Un processus en plusieurs étapes Les étapes préliminaires Le séquençage L assemblage Analyse du métagénome La métagénomique comparative Compareads Principe Structure utilisée Fonctions de hachage Gestion des faux-positifs lors de l intersection de deux métagénomes Choix des paramètres Calcul de la similarité Résultats Conclusion 11 4 Glossaire 12 Les mots qui seront suivis d un astérisque seront définis dans le Glossaire à la fin de ce rapport. 1

3 1 Introduction La bioinformatique est un domaine dont les trois dernières décennies ont été ponctuées par de nombreuses découvertes. Entre avancées technologiques et nouveaux besoins, la bioinformatique a dû faire face à une explosion des données auquelle il était rapidement nécessaire de trouver des solutions. Vers les années 1970, la première technologie de séquençage voyait le jour et donnait son envol à la génomique. Le Human Genome Project [11] commença en 1990 et s acheva treize ans plus tard avec le premier génome humain dont le coût est estimé à trois milliards de dollars. Aujourd hui, des centaines d espèces différentes ont vu leur génome séquencé, les technologies de séquençage ne cessent de s améliorer avec pour résultat un séquençage de génome qui passe sous la barre des mille dollars. Mais malgré tout, il semble que les défis, les découvertes et les révolutions en matière de bioinformatique continuent : ainsi commence l aventure métagénomique. 2 Métagénomique Pour bien comprendre ce challenge, il est nécessaire d en comprendre le besoin. La génomique est l étude du vivant à l échelle du génome. On peut y voir d une part, toutes les problématiques liées au séquençage du génome et d autre part, l étude fonctionnelle des gènes. La métagénomique consiste quant à elle en l étude collective d un ensemble de génomes d espèces différentes issus d un même métagénome. La génomique a été extrêmement étudié ces trente dernières années et de nombreux génomes ont été découverts : celui de l homme (2003), du chien (2005), de la mouche drosophile, l Arabidopsis Thaliana (2000) ainsi qu environ mille autres génomes. Pourtant, malgré ces découvertes importantes, l homme ne constitue pas la forme de vie dominante de la Terre, pas plus que n importe quel mammifère. La vie microbienne est la forme de vie la plus présente sur la planète, en terme d individus et de biomasse. Cette forme de vie est ancrée absolument partout : des pôles où un froid extrême règne jusqu aux courants marins les plus profonds où la température avoisine 340 C. Elle est aussi la forme de vie dominante... de notre corps! D après l excellente review en matière de métagénomique de Wooley et al. [13], nous possédons environ cellules qui nous sont propres et pourtant, environ cellules bactériennes composent notre corps. Les océans couvrent 70 % de la Terre et peuvent atteindre des profondeurs de m avec une pression de 100MPa (Mega Pascal). Dans ces conditions extrêmement hostiles, seuls les micro-organismes peuvent survivre : ils dominent en nombre et sont responsables de 98 % de la production de matière dans les océans. Leur rôle est extrêmement important. Le vivant se décompose en trois catégories : les bactéries, les archées et les eucaryotes. Les eucaryotes se carac- 1

4 térisent par la présence d un noyau et de mitochondries dans leurs cellules, à l instar des archées et des bactéries qui sont des organismes uniquement unicellulaires. Ces micro-organismes sont les premiers producteurs de matière de la planète. En effet, les cellules procayotes de notre planète conservent pas moins de Pg (10 15 g) de carbone, Pg de nitrogène et 9-14 Pg de phosphore, constituant la plus grande réserve de nutriments de la planète [13]. En milieu marin, les microbes (appellation courante des microorganismes) jouent des rôles clés en terme d éléments nutritifs, de recyclage d autres micro-organismes, de cycle de carbone, d azote et de l énergie. Aussi clairement qu il nous est apparu d une importance capitale de séquencer les espèces de notre planète, il était clair qu il fallait séquencer ses microorganismes. Or, moins de 1 % seulement des microbes peuvent être cultivés en laboratoire suivant les méthodes nécessaires pour un séquençage génomique. Un autre problème majeur est que les microbes interagissent avec leur environnement, ils vivent dans une communauté microbienne qui fait partie intégrante de son hôte. Par exemple, la review de J. Kennedy et al. sur la métagénomique marine [7] nous indique que la bactérie Prochlorococcus marinus avec des conditions au sein de sa niche écologique variant peu, a réduit la taille de son génome à 1.66 Mbps (Mega base pairs) pour obtenir un avantage compétitif dans son environnement. Ainsi, séparer les micro-organismes au sein d un échantillon n est d une part pas possible mais ce serait aussi détruire l intérêt propre de leur étude. La métagénomique possède donc ses propres défis. En effet, un échantillon pris dans le milieu naturel ne représente pas le génome d une espèce de microbe mais de toute la communauté microbienne de cet échantillon, jusqu à plusieurs centaines de milliers d espèces différentes dans le même échantillon. Les techniques de traitement qui suivent le séquençage afin de passer des données physiques aux données numériques ne se posent jamais la question de savoir à qui appartient telle séquence car la question n a pas lieu d être. Il en va autrement en métagénomique : les métagénomes doivent être traités comme des mélanges de génomes. La métagénomique n est pas une science tout à fait nouvelle et des outils existent déjà pour nous aider dans notre tâche, bien que peu nombreux. 2.1 Un processus en plusieurs étapes La métagénomique est un domaine très large dont chaque étape constitue un rôle majeur du processus général. Malgré tout, cette bibliographie n a pas pour vocation de présenter le domaine en entier mais de se concentrer sur la partie faisant l objet de ce stage. La métagénomique comparative sera donc volontairement plus détaillée que les autres parties de ce rapport, tandis que la partie Analyse du métagénome sera volontairement très réduite car complètement hors du contexte de ce stage. 2

5 Figure 1 Exemple avec des données triviales du pipeline des données, de l échantillonnage jusqu à l assemblage. L image en haut à gauche correspond à un échantillon d eau de mer. Le séquençage permet d obtenir des reads (séquences colorées) à partir de cet échantillon. L assemblage permet d obtenir des contigs à partir des reads. Dans cet exemple, un seul contig est généré (séquence de couleur noire). Le processus détaillée dans les prochaines parties permet à partir des échantillons pris sur le terrain d obtenir de longues séquences de nucléotides qui pourront être traitées et analysées. Ce processus passe par plusieurs étapes le séquençage et l assemblage. Le séquençage produit à partir des données physiques (les échantillons) des reads, de courtes séquences qui se chevauchent et dont nous ne connaissons pas la provenance sur le génome. L assemblage produit quant à lui à partir des reads de longues séquences dites contigs (contiguous sequences). Le pipeline des données de ce processus est brièvement décrit en Figure Les étapes préliminaires La première étape consiste à prendre sur le terrain des échantillons. Nous ne connaissons cependant pas quelles espèces sont présentes à l intérieur de ceux-ci. Le nombre d échantillons nécessaires pour la tâche que nous voulons effectuer ne peut-être qu estimé à partir d une courbe de raréfaction [13]. Le filtrage est ensuite l étape permettant de nettoyer les échantillons. Il s agit ici d un filtrage selon la taille. Si l on désire étudier les bactéries, nous allons prendre soin de filtrer tout ce qui est plus gros, au risque de filtrer les bactéries trop larges et de laisser tout ce dont la taille est inférieure ou égale à celle d une bactérie. Un filtrage logiciel peut-être également effectué à partir de mesures de similarité avec des bases de données de génomes connus. Il peut être utilisé pour détecter la contamination d un échantillon par 3

6 exemple. Pour finir, l annotation des échantillons via des méta-données est une étape importante. Les méta-données sont comme leurs noms l indique des données apportant une description des données et ne sont en aucun cas générées automatiquement. Il peut s agir entre autre de caractéristiques géographiques, physiques, chimiques ou temporelles Le séquençage Le séquençage est l étape permettant de passer de données physiques (les échantillons) à des données numériques (des séquences). Cette étape est rendue possible via l utilisation d instruments nommés séquenceurs dont chaque modèle utilise une technologie de séquençage qui lui est propre. La première génération de technologies de séquençage fut développée parallèlement dans les années 1970 aux USA et au Royaume-Uni. La méthode la plus connue est celle de Frederick Sanger, dite Sanger Shotgun [19]. Le principe est de casser le contenu génomique aléatoirement en fragments, dits shotguns qui divergent en taille et en position sur le génome. Ces fragments sont ensuite clonés et cultivés, permettant ainsi d obtenir suffisamment de matériel génomique pour le séquençage. Ce processus est répété plusieurs fois jusqu à ce que tout le génome soit séquencé. Le séquençage métagénomique est effectué de la même manière, sauf que les shotguns peuvent appartenir à des espèces différentes de l échantillon. Cependant, la toxicité de certains vecteur de clonage peut empêcher l expression de certains gènes. Le séquencage produit ainsi des reads de 25 à 1000bps. L année 2005 a connu une petite révolution en matière de séquençage avec les NGS (Next Generation Sequencing) qui sont des méthodes fiables, rapides (massivement parallèles) et peu coûteuses. Ces technologies hautdébits se démarquent par l utilisation de marqueurs fluorescents. Plusieurs centaines d échantillons peuvent ainsi être marqué d un coup (il s agit d un run ). On compte parmi ces technologies les séquenceurs Roche 454 et GS de la société Roche GS FLX utilisant le pyroséquençage. D autres séquenceurs commerciaux mondialement connus sont aussi utilisés, tels que le séquenceur Solexa de la société Illumina, le séquenceur SOLiD de la société Applied Biosystems et le séquenceur Heliscope de chez Helicos Biosciences [19]. Leurs spécificités sont exposés dans la Table 1. Ces technologies de séquençages ne sont cependant pas les seules L assemblage Une fois les reads obtenus, il est nécessaire de les assembler afin d en extraire des connaissances, c est-à-dire appliquer des méthodes d analyse 4

7 Table 1 Comparaison de différentes technologies de séquençage [4] (voir 2.1.4). Il peut s agir, entre autre, de repérer les ORF (Open Reading Frame), les OTU (Operational Taxonomic Unit), les opérons (groupement de gènes et de séquences régulatrices chez les procaryotes),... Le terme assemblage vient du fait que l on assemble les reads par rapport à leurs chevauchements pour créer des contigs, c est-à-dire de longues séquences. En soit, il s agit d une étape déjà compliquée pour un assemblage génomique : les reads sont présents par millions ou par milliards, il y a des répétitions, des erreurs de séquençage,... La couverture exprime la moyenne du nombre de fois où un nucléotide sera séquencé. Une couverture de 5 indique que chaque nucléotide est en moyenne séquencé cinq fois. La couverture est donc entre autre un estimateur de la qualité du séquençage : une couverture faible donne un assemblage de moins bonne qualité. Dû à la fréquence d apparition arbitraire de chaque espèce dans le métagénome, la couverture du métagénome reste généralement assez faible (mais pas systématiquement). Les séquences avec beaucoup de répétitions complexifient les méthodes d assemblages et ne sont généralement pas utilisées, or cela introduit un biais dans les données d un métagénome. Les assembleurs tels que JAZZ [2] et Celera [17] semblent donner malgré tout de bons résultats pour de l assemblage métagénomique utilisant des reads Sanger. [15] Ces assembleurs voient le problème sous forme d un graphe où les reads sont des sommets et un chevauchement entre deux reads est une arête entre deux sommets. Cette représentation sous forme de graphe est trop coûteuse en terme de mémoire et ne passe pas à l échelle sur des données réelles. L assemblage devient alors un problème NP-Complet. On lui préférera une représentation sous forme de graphe de de-bruijn où l assemblage est résolvable en temps linéaire. Chaque read est ici cassé en mots de taille k 1 qui se chevauchent, dits k-mer. Un sommet représente un k-mer et une arête représente le chevauchement du préfixe d un k-mer sur le postfixe d un autre. Ce type de graphe est par exemple utilisé par l assembleur Velvet [8] Analyse du métagénome Il va s en dire qu une fois l assemblage terminé, nous désirons étudier notre métagénome. On souhaite d une part savoir quelles sont les espèces 5

8 présentes et d autre part, savoir ce qu elles font. Cela passe d abord par la prédiction des gènes qui fait référence aux méthodes permettant de d identifier les régions du métagénome qui encodent des gènes. Le binning consiste ensuite à estimer la diversité des espèces des métagénomes. Idéalement, il s agit d associer chaque read à son «bin» représentant son groupe taxonomique*. Enfin, l annotation fonctionnelle consiste à répondre à la question Que font les micro-organismes de l échantillon? Quel est le rôle de la communauté microbienne représentée?. Il s agit de base d une tâche hautement difficile, même dans le cas d une analyse génomique. L annotation fonctionnelle est l une des dernières étapes d un long processus au cours duquel ont été commises des erreurs et prises des décisions fondées sur des hypothèses. 2.2 La métagénomique comparative La métagénomique comparative est un domaine assez peu développé, au regard des études existantes en métagénomique. L analyse du métagénome via des méthodes de prédiction de gènes, de binning et d annotation fonctionnelle est une étape difficile de laquelle on ne peut pas toujours inférer suffisamment d informations de façon certaine. En effet, ces méthodes se basent souvent sur une comparaison avec des banques de séquences contenant un nombre variable de génomes. Bien que ces banques grossissent très rapidement, le nombre de génomes qu elles contiennent est encore trop faible, compte tenu de la diversité des espèces sur la planète. C est ici que la métagénomique comparative entre jeu. L idée derrière ce titre est de comparer les métagénomes issus d échantillons entre eux. Cela permet notamment de mettre en évidence le rôle d une communauté microbienne au sein de son environnement, comment elle impacte ou est impacté par l écosystème environnant ou encore comment elle affecte son hôte (sa santé par exemple). Une comparaison implique donc une mesure de la similarité et plusieurs critères s offrent à nous : la composition des séquences (le contenu génomique), la taille du génome microbien, la taxonomie, le contenu fonctionnel, la diversité phylogénétique (classification selon le degré de parenté)... La taxonomie est le critère de comparaison des métagénomes qui revient généralement le plus souvent. En matière de mesure de similarité basé sur la composition des séquences, les algorithmes BLAST-like sont mondialement utilisés et reconnus comme une valeur sûre. Concrètement, les algorithmes BLAST (Basic Local Alignment Search Tool) [1] se basent sur le principe que des séquences similaires auront un ou plusieurs mots de taille k en commun, dit k-mer. Un algorithme BLAST-like va donc parcourir les k-mers de chacune de séquences requêtes du premier ensemble de séquences. Pour chacun d entre eux, l algorithme va parcourir la base de données indexée du deuxième ensemble de séquences 6

9 à comparer à la recherche de ce k-mer. Lorsqu un alignement de k-mer est trouvé (un hit ), l algorithme effectue un HSP (High Scoring Pair), c està-dire un alignement des séquences supposées similaires des deux ensembles en partant à gauche et à droite du k-mer. Si l alignement est concluant, les séquences sont considérées comme similaires. Cette approche peut-être utilisé dans le cadre de la métagénomique comparative où les ensembles sont deux métagénomes à comparer. Il s agit d une approche très efficace mais malheureusement peu adaptée à la comparaison un à un de métagénomes. En effet, cette méthode n est initialement pas conçue pour cette tâche et ne peut gérer en temps et en mémoire des ensembles de données aussi importants que dans le cadre de la métagénomique. Il existe cependant des algorithmes BLAST-like tel que BLAT [14] (BLAST Like Alignment Tool) qui sont bien plus rapides que BLAST pour la comparaison un à un de génome. Cette méthode diffère de quelques points par rapport à BLAST : BLAT parcourt le génome indexé et non la requête et peut effectuer un HSP sur un hit légèrement inexact. Contrairement à BLAST qui retourne chaque région d homologie entre deux séquences comme des alignements distincts, BLAT les assemblent en un alignement plus grand. Le résultat est que BLAT est bien plus rapide que la plupart des outils d alignements existants et tout aussi précis : l outil prend h CPU pour comparer le génome de l humain avec le génome non assemblé de la souris, ce qui implique environ 7.5 milliards de nucléotides et 15 millions de reads. Une méthode intéressante pour la comparaison de métagénome est le cross-assemblage accompagné de fonctions de distance entre métagénome introduit par Bas E. Dutilh et al. [3] via l outil crass. La première étape est donc le cross-assemblage : il s agit d effectuer un assemblage de novo avec un assembleur classique type Velvet [8] sauf qu ici, on assemble tous les reads issus de chaque échantillon dans un unique métagénome. Le logiciel compte ensuite le nombre de reads issus de chaque échantillon et enfin pour chaque contig du cross-assemblage, le nombre de métagénomes auxquels appartiennent les reads ayant servi à le constituer. Les auteurs proposent ensuite quatre fonctions pour mesurer la distance entre deux métagénomes. Les deux premières servent à mettre en évidence le fait qu une comparaison qualitative de métagénomes peut n avoir aucune valeur. En effet, le nombre de reads de chaque échantillon utilisé pour l assemblage d un contig peut ne pas refléter fidèlement le ratio d abondance de chaque espèce dans la communauté microbienne. De ce fait, ces équations sont des équations de présence/absence de reads. La troisième équation se basent sur la formule statistique de Wootlers (1981) et utilise une mesure de l importance de chaque contig dans chaque échantillon pour caractériser la distance entre ces deux échantillons. La dernière équation reflète la première mais en la différence qu elle se base non pas sur les contigs générés mais sur les reads ayant servi à générer les contigs. En ce sens, cela permet de limiter l impact 7

10 des reads assemblés dans un génome par chance dû à la longueur du read. D autres méthodes sont utilisées pour la comparaison de métagénomes, telles que la PCA (Principal Component Analysis) via l outil SmashCell ( afin d identifier les clusters au sein des données et mettre en évidence les facteurs d influence. Dans le domaine taxonomique, mentionnons l outil MEGAN [6] que nous avions précédemment évoqué pour du binning : celui-ci peut aussi servir pour faire de la comparaison de métagénome. Bien que le logiciel puisse être utilisé avec différents outils de comparaison au niveau des reads, ses concepteurs l ont utilisé avec BLASTX et BLASTZ (des variantes de BLAST) pour l - analyse taxonomique de métagénome. Le logiciel MG-RAST [16] propose une comparaison fonctionnelle des métagénomes et une analyse fondée sur les séquences. UniFRac [9] est aussi un logiciel proposant des comparaisons de métagénomes basés sur la phylogénie. Galaxy [12] est un système de gestion de workflow bioinformatique (permettant d automatiser une suite d opérations à effectuer sur des données) qui peut-être utilisé pour récupérer des informations taxonomique à partir d un alignement effectué par un algorithme type BLAST. Le projet CAMERA [20] met à disposition en ligne un peu plus de 70 métagénomes ainsi que les outils nécessaires pour les analyser, incluant des outils pour comparer les séquences de l utilisateur (dans notre cas un métagénome) contre l un des 70 métagénomes (BLAST). 2.3 Compareads Dans cette partie de la bibliographie, nous détaillerons un peu plus un outil très récent nommé Compareads [18] entièrement dédié à la comparaison de métagénomes. Les spécificités de cet outil sont d une part d avoir une comparaison entièrement basé sur le contenu des séquences, et d autre part d être actuellement le seul à pouvoir gérer en un temps raisonnable (quelques heures) des ensembles de données très importants dans un espace mémoire limité (100 millions de reads Illumina avec 4GB de mémoire vive) Principe Nous avions précédemment évoqué la notion de k-mers qui sont utilisés par exemple pour les algorithmes BLAST-like. Introduisons donc maintenant la notion de similarité utilisée par Compareads. Définition 1 : Pour deux entiers k et t, deux séquences s 1 et s 2 sont dites similaires si et seulement si elles partagent au moins un nombre t de k-mers qui ne se chevauchent pas. 8

11 L algorithme se déroule en deux étapes : la phase d indexation et la phase de requête. Pour deux métagénomes A et B, la phase d indexation consiste à indexer tous les k-mers chevauchants de B. Nous reviendrons plus tard sur la structure permettant d indexer ces k-mers en un espace mémoire limité. Les reads de A sont ensuite parcourus et quand t hits de k-mers entre le read analysé de A et les reads de B apparaissent, le read est stocké dans l ensemble A B. La notation A B est utilisée et non A B car il s agit d une heuristique ayant pour résultat une sur-approximation de A B (voir et 2.3.4). Pour limiter l espace mémoire et contrôler l erreur d approximation dûe à l heuristique, on indexe seulement un nombre limité n de k-mers de B, puis on effectue la phase de requête sur tout le métagénome A. On réitère ce processus jusqu à ce que tout le métagénome B soit indexé. L union de tous les A B est retourné. Cependant, calculer A B est asymétrique. Pour que la comparaison soit totale et symétrique, calculer les reads de A qui sont similaires à ceux de B n est pas suffisant, il faut aussi calculer ceux de B qui sont similaires dans A, c est-à-dire B A. En pratique, des effets de bords dûes à l heuristique nous pousse à appliquer un processus un peu plus complexe qui sera expliqué en Cet algorithme a une complexité de O(n B ) pour l indexation et O(n A + n Bn ) pour la phase de requête (n A et n B sont le nombre de reads respectifs des métagénomes A et B, n le nombre de k-mers que l on indexe à chaque itération) Structure utilisée La structure qui est utilisée pour cet algorithme est une structure probabiliste à base de filtre de Bloom. Celui-ci s avère particulièrement efficace lorsqu il s agit de stocker dans un espace mémoire de taille fixée des données. Il consiste en un tableau de m bits, tous initialisés à 0, et un ensemble de fonction de hachage. Lorsque l on souhaite stocker un k-mer dans ce tableau, tous les bits associés à ce k-mer via les fonctions de hachage passent à 1. Pour tester la présence d un k-mer dans ce tableau, il suffit de regarder si tous ses bits sont à 1. Si ce n est pas le cas, le k-mer n est pas présent. L inconvénient de cette méthode est qu elle génère des faux-positifs : un k-mer absent de la structure peut voir tous ses bits à 1 à cause de l ajout d autres k-mers. Le taux de faux-positifs, qui correspond à la probabilité qu un k-mer soit prédit présent dans la structure alors que ce n est pas le cas est estimé en utilisant une approximation asymptotique de m/n (m bits, n éléments insérés). ln 2 (m/n) fonctions de hachage seront utilisées [10]. Le nombre m de bits nécessaires est de (nlog 2 e log 2 (1/ɛ)) pour un taux de faux-positifs ɛ. 9

12 La structure que nous utilisons ici sera nommée BDS (Bloom Data Structure). BDS ne propose pas un tableau de bits unique mais un tableau de bits par fonction de hachage (disjointes les unes des autres) Fonctions de hachage Les fonctions de hachage doivent être très rapides à calculer, c est pourquoi ces fonctions de hachage sont de type présence/absence. Sept fonctions sont proposées : les trois premières sont dites balancées (équation 1) et les quatres dernières non balancées (équation 2). Les fonctions non balancées génèrent moins de faux positifs que les balancées. Cela est dû au fait que les fonctions balancées distribuent plus uniformément que les fonctions non balancées les codes de hachage sur le tableau de 2 k bits. L avantage des fonctions balancées est qu aucune d elles ne peut générer un code de hachage pour un k-mer identique à une autre fonction balancée : elles sont indépendantes et de ce fait, utiliser ces trois fonctions est très efficace pour réduire le taux de faux positifs. Les assertions précédentes ne tiennent plus pour les fonctions non balancées et le taux de faux-positifs en utilisant les sept fonctions de hachage est presque similaire à celui utilisant quatre fonctions (trois balancées et une non balancées ). Aussi Compareads n utilise que quatre fonctions de hachage et non sept Gestion des faux-positifs lors du calcul de A B et B A Lors du calcul de A B, on cherche pour chaque read de A si B partage t k-mers avec lui et non pas si B a au moins un read qui partage t k-mers avec lui, ce qui est moins rigoureux. Le problème vient du fait que deux k-mers (ou plus) d un read de A peuvent se situer sur deux reads différents dans B (ou plus), ce qui constitue un faux-positif. Ce problème peut-être limité mais pas résolu en effectuant les étapes suivantes pour le calcul de A B et B A (un exemple est donné en Figure 2) : Calculer A B, stocker les résultats dans (A B) Calculer B (A B) ), stocker les résultats dans B A Calculer A (A A)), stocker les résultats dans A B 10

13 Figure 2 Processus de calcul de A B et B A issu de [18]. Il s agit des trois étapes permettant la comparaison symétrique des ensembles de reads A et B. Dans chaque ensemble, un read correspond à une ligne horizontal et un k-mer correspond à un rectangle Choix des paramètres Utiliser quatre fonctions de hachage (trois balancées et une non balancée ) permet d améliorer très légèrement le taux de faux-positifs de la BDS par rapport à l utilisation des sept fonctions. De surcroit, la mémoire se voit réduite à 4*2 k bits au lieu de 7*2 k bits. Un autre paramètre intéressant est la taille de k. En effet, plus k est long, moins le taux de faux-positifs est élevé mais plus la taille de la BDS grossit. Le compromis entre taille de la BDS et taux de faux-positifs est trouvé en prenant k=33, ce qui permet d indexer jusqu à un milliard de 33-mers en assurant un taux de faux-positifs théorique d au plus 0.13%. Compareads n utilise alors que 4GB de mémoire Calcul de la similarité La mesure de la similarité est calculée comme ceci : A B + B A A + B où X représente la cardinalité de l ensemble X Résultats Comparé à un tableau de suffixes afin d indexer un milliard de 33-mers, le tableau de suffixes tient en 4.66GB de mémoire mais le temps de requête, en O(k log n) est plus long. Une table de hachage utiliserait dans les mêmes conditions 16.5 GB de mémoire. Sur un jeu de cent millions de reads de longueur 100bp, comparé à une fonction de hachage connue et performante en utilisant des 33-mers, les fonctions de hachage développées précédemment sont en moyenne 10 fois plus rapide à calculer. Compareads a été comparé à une approche utilisant BLAST sur un ensemble de 15 métagénomes contenant en moyenne reads et

14 nucléotides par read. BLAST a été utilisé pour chercher des alignements d aux moins 80 nucléotides avec 90% de similarité entre eux. Compareads a servi à chercher pour t =1, 4 et 10 des 33-mers. Pour chaque comparaison de métagénome, Compareads est environ 30 fois plus rapide que BLAST. Enfin, Compareads a été testé dans le cadre de projet GOS (Global Ocean Sampling) sur 44 échantillons d eau de mer d environ reads en moyenne par échantillon et 1249 nucléotides par read. Les 990 comparaisons de métagénomes ont été effectuées en 72 heures sur un processeur mono-coeur. Les résultats trouvés sont très similaires à ceux de la publication d origine et permettent de retrouver la classification d origine des métagénomes selon leurs lieux d échantillonage (séparés de plusieurs milliers de kilomètres). 3 Conclusion La métagénomique est un domaine en pleine expansion et qui promet de nombreuses découvertes dans les années à venir. Nous avons pu constater que la métagénomique comparative est un domaine qui reste encore peu développé. Compareads apporte une grande pierre à l édifice pour la comparaison de métagénomes un à un. Cependant, des méthodes de traitement permettant de gérer plus de données en un temps raisonnable sont nécessaires. Tara Oceans est une expédition débutée en 2009 [5] durant laquelle ont été pris de nombreux échantillons le long des kilomètres du périple. Un millier de métagénomes sont attendus et en utilisant Compareads, à raison d environ 10h par comparaison entre deux métagénomes sur un processeur 50 coeurs, pas moins de 578 années seront nécessaires pour faire la comparaison entre tous les métagénomes. Compareads est actuellement l outil le plus adapté pour cette tâche mais malgré sa rapidité, il ne possède pas la scabilité nécessaire pour traiter des données à cette échelle. Il est donc nécessaire de concevoir des méthodes spécifiques à la comparaison métagénomique all-vs-all. De telles méthodes n existent actuellement pas et feront ainsi l objet de ce stage au sein de l équipe GenScale de l INRIA de Rennes. 4 Glossaire Base de données : Entité informatique permettant de stocker l information (les données) de façon structurée. Nucléotides : Molécules organiques qui forment la base de l ADN et l ARN. Ils sont au nombre de 4 pour l ADN et l ARN, représentés par les lettres A, C, G et T/U (T pour l ADN, U pour l ARN). ORF (Open Reading Frame) : un ORF correspond à une séquence d ARN commençant et terminant par un codon-stop, et entre lesquels un 12

15 certain nombre de codons codent potentiellement une protéine. Un codon correspond à une séquence de trois nucléotides sur de l ARNm, tandis qu un codon-stop est l un des trois codons marquants la fin de la traduction d un gène en protéine. OTU (Operational Taxonomic Unit) : Niveau taxonomique de l échantillon en tant qu individu, population, espèce, genre ou souche bactérienne. Phylogénie : Etude des relations de parentés entre différents êtres vivants. Taxonomie (dit aussi taxinomie) : science qui a pour objet de décrire les organismes vivants et de les regrouper en entités appelées taxons afin de les identifier puis les nommer et enfin les classer. Références [1] Miller Wg et al Altschul SF, Gish W. Basic local alignment search tool. Journal of Molecular Biology, 215 : , [2] Stupka E et al Aparicio S, Chapman J. Whole-genome shotgun assembly and analysis of the genome of fugu rubripes. Science, 297 : , [3] Jim Nulton et al Bas E. Dutilh, Robert Schmieder. Referenceindependent comparative metagenomics using cross-assembly : crass. Bioinformatics, 28 : , [4] Andrzej Tretyn Chandra Shekhar Pareek, Rafal Smoczynski. Sequencing technologies and genome sequencing. Journal of Applied Genetics, 52 : , [5] Karsenti E. Towards an oceans systems biology. Molecular Systems Biology, 8(575) :1 2, [6] Huson DE et al. Megan analysis of metagenomic data. Genome Research, 17 : , [7] Kennedy et al. Marine metagenomics. new tools for the study and exploitation of marine microbial metabolism. Marine Drugs, 8, [8] Zerbino DR et Birney E. Velvet : algorithms for de novo short read assembly using de bruijn graphs. Genome Research, 18 : , [9] Lozupone C et Knight R. Unifrac : a new phylogenetic method for comparing microbial communities. Applications to Environnemental Microbiology, 71 : , [10] Broder A et Mitzenmacher M. Network applications of bloom filters : A survey. Internet Mathematics, 1(4) : , [11] Aristide Patrinos Francis S. Collins, Michael Morgan. The human genome project : Lessons from large scale biology. Science 11, 300 : , Avril

16 [12] Hardison RC et al Giardine B, Riemer C. Galaxy : a platform for interactive large-scale genome analysis. Genome Research, 15 : , [13] Iddo Friedberg John C. Wooley, Adam Godzik. A primer on metagenomics. PLoS Computational Biology, 6, Février [14] W. James Kent. Blat : The blast-like alignment tool. Genome Research, 12 : , [15] Barry K et al Mavromatis K, Ivanova N. Use of simulated data sets to evaluate the fidelity of metagenomic processing methods. Nat. Methods, 4 : , [16] D Souza M et al Meyer F, Paarmann D. The metagenomics rast server - a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 9 :386, [17] Delcher AL et al Myers EW, Sutton GG. A whole-genome assembly of drosophila. Science, 287 : , [18] Rayan Chikhi. Dominique Lavenier et Pierre Peterlongo Nicolas Maillet, Claire Lemaitre. Compareads : comparing huge metagenomic experiments. BMC Bioin,formatics, 13 :doi : / S19 S10, [19] Marco A. Marra Olena Morozova. Applications of next-generation sequencing technologies in functional genomics. Genomics, 92 : , [20] Smarr L et al Seshadri R, Kravitz SA. Galaxy : a platform for interactive large-scale genome analysis. PLoS Biology, 5 :e75. doi : /journal.pbio ,