Master research Internship. Rapport bibliographique. Comparaison massive et multiple de métagénomes non assemblés

Dimension: px
Commencer à balayer dès la page:

Download "Master research Internship. Rapport bibliographique. Comparaison massive et multiple de métagénomes non assemblés"

Transcription

1 Master research Internship Rapport bibliographique Comparaison massive et multiple de métagénomes non assemblés Auteur : Guillaume Holley Encadrant : Pierre Peterlongo GenScale

2 Résumé La nature est d une grande complexité et l étudier l est tout autant. Alors que la biologie se sert des outils bioinformatiques qui sont mis à sa disposition et qui ont permis l avènement de la génomique moderne, de nouveaux challenges sont à notre portée. En effet, nous avons longtemps étudié le génome d espèces à partir d échantillons cultivés en laboratoire et nous savons que cette méthode a ses propres limites. La métagénomique tente d aller plus loin en permettant d étudier des centaines d espèces de micro-organismes différents en même temps. Cette bibliographie fera un bref état de l art sur la métagénomique et abordera chaque aspect du processus. La seconde partie de ce rapport bibliographique se concentrera sur la métagénomique comparative. Nous en ferons un bref état de l art, puis nous présenterons un nouvel outil dans le domaine : Compareads. Table des matières 1 Introduction 1 2 Métagénomique Un processus en plusieurs étapes Les étapes préliminaires Le séquençage L assemblage Analyse du métagénome La métagénomique comparative Compareads Principe Structure utilisée Fonctions de hachage Gestion des faux-positifs lors de l intersection de deux métagénomes Choix des paramètres Calcul de la similarité Résultats Conclusion 11 4 Glossaire 12 Les mots qui seront suivis d un astérisque seront définis dans le Glossaire à la fin de ce rapport. 1

3 1 Introduction La bioinformatique est un domaine dont les trois dernières décennies ont été ponctuées par de nombreuses découvertes. Entre avancées technologiques et nouveaux besoins, la bioinformatique a dû faire face à une explosion des données auquelle il était rapidement nécessaire de trouver des solutions. Vers les années 1970, la première technologie de séquençage voyait le jour et donnait son envol à la génomique. Le Human Genome Project [11] commença en 1990 et s acheva treize ans plus tard avec le premier génome humain dont le coût est estimé à trois milliards de dollars. Aujourd hui, des centaines d espèces différentes ont vu leur génome séquencé, les technologies de séquençage ne cessent de s améliorer avec pour résultat un séquençage de génome qui passe sous la barre des mille dollars. Mais malgré tout, il semble que les défis, les découvertes et les révolutions en matière de bioinformatique continuent : ainsi commence l aventure métagénomique. 2 Métagénomique Pour bien comprendre ce challenge, il est nécessaire d en comprendre le besoin. La génomique est l étude du vivant à l échelle du génome. On peut y voir d une part, toutes les problématiques liées au séquençage du génome et d autre part, l étude fonctionnelle des gènes. La métagénomique consiste quant à elle en l étude collective d un ensemble de génomes d espèces différentes issus d un même métagénome. La génomique a été extrêmement étudié ces trente dernières années et de nombreux génomes ont été découverts : celui de l homme (2003), du chien (2005), de la mouche drosophile, l Arabidopsis Thaliana (2000) ainsi qu environ mille autres génomes. Pourtant, malgré ces découvertes importantes, l homme ne constitue pas la forme de vie dominante de la Terre, pas plus que n importe quel mammifère. La vie microbienne est la forme de vie la plus présente sur la planète, en terme d individus et de biomasse. Cette forme de vie est ancrée absolument partout : des pôles où un froid extrême règne jusqu aux courants marins les plus profonds où la température avoisine 340 C. Elle est aussi la forme de vie dominante... de notre corps! D après l excellente review en matière de métagénomique de Wooley et al. [13], nous possédons environ cellules qui nous sont propres et pourtant, environ cellules bactériennes composent notre corps. Les océans couvrent 70 % de la Terre et peuvent atteindre des profondeurs de m avec une pression de 100MPa (Mega Pascal). Dans ces conditions extrêmement hostiles, seuls les micro-organismes peuvent survivre : ils dominent en nombre et sont responsables de 98 % de la production de matière dans les océans. Leur rôle est extrêmement important. Le vivant se décompose en trois catégories : les bactéries, les archées et les eucaryotes. Les eucaryotes se carac- 1

4 térisent par la présence d un noyau et de mitochondries dans leurs cellules, à l instar des archées et des bactéries qui sont des organismes uniquement unicellulaires. Ces micro-organismes sont les premiers producteurs de matière de la planète. En effet, les cellules procayotes de notre planète conservent pas moins de Pg (10 15 g) de carbone, Pg de nitrogène et 9-14 Pg de phosphore, constituant la plus grande réserve de nutriments de la planète [13]. En milieu marin, les microbes (appellation courante des microorganismes) jouent des rôles clés en terme d éléments nutritifs, de recyclage d autres micro-organismes, de cycle de carbone, d azote et de l énergie. Aussi clairement qu il nous est apparu d une importance capitale de séquencer les espèces de notre planète, il était clair qu il fallait séquencer ses microorganismes. Or, moins de 1 % seulement des microbes peuvent être cultivés en laboratoire suivant les méthodes nécessaires pour un séquençage génomique. Un autre problème majeur est que les microbes interagissent avec leur environnement, ils vivent dans une communauté microbienne qui fait partie intégrante de son hôte. Par exemple, la review de J. Kennedy et al. sur la métagénomique marine [7] nous indique que la bactérie Prochlorococcus marinus avec des conditions au sein de sa niche écologique variant peu, a réduit la taille de son génome à 1.66 Mbps (Mega base pairs) pour obtenir un avantage compétitif dans son environnement. Ainsi, séparer les micro-organismes au sein d un échantillon n est d une part pas possible mais ce serait aussi détruire l intérêt propre de leur étude. La métagénomique possède donc ses propres défis. En effet, un échantillon pris dans le milieu naturel ne représente pas le génome d une espèce de microbe mais de toute la communauté microbienne de cet échantillon, jusqu à plusieurs centaines de milliers d espèces différentes dans le même échantillon. Les techniques de traitement qui suivent le séquençage afin de passer des données physiques aux données numériques ne se posent jamais la question de savoir à qui appartient telle séquence car la question n a pas lieu d être. Il en va autrement en métagénomique : les métagénomes doivent être traités comme des mélanges de génomes. La métagénomique n est pas une science tout à fait nouvelle et des outils existent déjà pour nous aider dans notre tâche, bien que peu nombreux. 2.1 Un processus en plusieurs étapes La métagénomique est un domaine très large dont chaque étape constitue un rôle majeur du processus général. Malgré tout, cette bibliographie n a pas pour vocation de présenter le domaine en entier mais de se concentrer sur la partie faisant l objet de ce stage. La métagénomique comparative sera donc volontairement plus détaillée que les autres parties de ce rapport, tandis que la partie Analyse du métagénome sera volontairement très réduite car complètement hors du contexte de ce stage. 2

5 Figure 1 Exemple avec des données triviales du pipeline des données, de l échantillonnage jusqu à l assemblage. L image en haut à gauche correspond à un échantillon d eau de mer. Le séquençage permet d obtenir des reads (séquences colorées) à partir de cet échantillon. L assemblage permet d obtenir des contigs à partir des reads. Dans cet exemple, un seul contig est généré (séquence de couleur noire). Le processus détaillée dans les prochaines parties permet à partir des échantillons pris sur le terrain d obtenir de longues séquences de nucléotides qui pourront être traitées et analysées. Ce processus passe par plusieurs étapes le séquençage et l assemblage. Le séquençage produit à partir des données physiques (les échantillons) des reads, de courtes séquences qui se chevauchent et dont nous ne connaissons pas la provenance sur le génome. L assemblage produit quant à lui à partir des reads de longues séquences dites contigs (contiguous sequences). Le pipeline des données de ce processus est brièvement décrit en Figure Les étapes préliminaires La première étape consiste à prendre sur le terrain des échantillons. Nous ne connaissons cependant pas quelles espèces sont présentes à l intérieur de ceux-ci. Le nombre d échantillons nécessaires pour la tâche que nous voulons effectuer ne peut-être qu estimé à partir d une courbe de raréfaction [13]. Le filtrage est ensuite l étape permettant de nettoyer les échantillons. Il s agit ici d un filtrage selon la taille. Si l on désire étudier les bactéries, nous allons prendre soin de filtrer tout ce qui est plus gros, au risque de filtrer les bactéries trop larges et de laisser tout ce dont la taille est inférieure ou égale à celle d une bactérie. Un filtrage logiciel peut-être également effectué à partir de mesures de similarité avec des bases de données de génomes connus. Il peut être utilisé pour détecter la contamination d un échantillon par 3

6 exemple. Pour finir, l annotation des échantillons via des méta-données est une étape importante. Les méta-données sont comme leurs noms l indique des données apportant une description des données et ne sont en aucun cas générées automatiquement. Il peut s agir entre autre de caractéristiques géographiques, physiques, chimiques ou temporelles Le séquençage Le séquençage est l étape permettant de passer de données physiques (les échantillons) à des données numériques (des séquences). Cette étape est rendue possible via l utilisation d instruments nommés séquenceurs dont chaque modèle utilise une technologie de séquençage qui lui est propre. La première génération de technologies de séquençage fut développée parallèlement dans les années 1970 aux USA et au Royaume-Uni. La méthode la plus connue est celle de Frederick Sanger, dite Sanger Shotgun [19]. Le principe est de casser le contenu génomique aléatoirement en fragments, dits shotguns qui divergent en taille et en position sur le génome. Ces fragments sont ensuite clonés et cultivés, permettant ainsi d obtenir suffisamment de matériel génomique pour le séquençage. Ce processus est répété plusieurs fois jusqu à ce que tout le génome soit séquencé. Le séquençage métagénomique est effectué de la même manière, sauf que les shotguns peuvent appartenir à des espèces différentes de l échantillon. Cependant, la toxicité de certains vecteur de clonage peut empêcher l expression de certains gènes. Le séquencage produit ainsi des reads de 25 à 1000bps. L année 2005 a connu une petite révolution en matière de séquençage avec les NGS (Next Generation Sequencing) qui sont des méthodes fiables, rapides (massivement parallèles) et peu coûteuses. Ces technologies hautdébits se démarquent par l utilisation de marqueurs fluorescents. Plusieurs centaines d échantillons peuvent ainsi être marqué d un coup (il s agit d un run ). On compte parmi ces technologies les séquenceurs Roche 454 et GS de la société Roche GS FLX utilisant le pyroséquençage. D autres séquenceurs commerciaux mondialement connus sont aussi utilisés, tels que le séquenceur Solexa de la société Illumina, le séquenceur SOLiD de la société Applied Biosystems et le séquenceur Heliscope de chez Helicos Biosciences [19]. Leurs spécificités sont exposés dans la Table 1. Ces technologies de séquençages ne sont cependant pas les seules L assemblage Une fois les reads obtenus, il est nécessaire de les assembler afin d en extraire des connaissances, c est-à-dire appliquer des méthodes d analyse 4

7 Table 1 Comparaison de différentes technologies de séquençage [4] (voir 2.1.4). Il peut s agir, entre autre, de repérer les ORF (Open Reading Frame), les OTU (Operational Taxonomic Unit), les opérons (groupement de gènes et de séquences régulatrices chez les procaryotes),... Le terme assemblage vient du fait que l on assemble les reads par rapport à leurs chevauchements pour créer des contigs, c est-à-dire de longues séquences. En soit, il s agit d une étape déjà compliquée pour un assemblage génomique : les reads sont présents par millions ou par milliards, il y a des répétitions, des erreurs de séquençage,... La couverture exprime la moyenne du nombre de fois où un nucléotide sera séquencé. Une couverture de 5 indique que chaque nucléotide est en moyenne séquencé cinq fois. La couverture est donc entre autre un estimateur de la qualité du séquençage : une couverture faible donne un assemblage de moins bonne qualité. Dû à la fréquence d apparition arbitraire de chaque espèce dans le métagénome, la couverture du métagénome reste généralement assez faible (mais pas systématiquement). Les séquences avec beaucoup de répétitions complexifient les méthodes d assemblages et ne sont généralement pas utilisées, or cela introduit un biais dans les données d un métagénome. Les assembleurs tels que JAZZ [2] et Celera [17] semblent donner malgré tout de bons résultats pour de l assemblage métagénomique utilisant des reads Sanger. [15] Ces assembleurs voient le problème sous forme d un graphe où les reads sont des sommets et un chevauchement entre deux reads est une arête entre deux sommets. Cette représentation sous forme de graphe est trop coûteuse en terme de mémoire et ne passe pas à l échelle sur des données réelles. L assemblage devient alors un problème NP-Complet. On lui préférera une représentation sous forme de graphe de de-bruijn où l assemblage est résolvable en temps linéaire. Chaque read est ici cassé en mots de taille k 1 qui se chevauchent, dits k-mer. Un sommet représente un k-mer et une arête représente le chevauchement du préfixe d un k-mer sur le postfixe d un autre. Ce type de graphe est par exemple utilisé par l assembleur Velvet [8] Analyse du métagénome Il va s en dire qu une fois l assemblage terminé, nous désirons étudier notre métagénome. On souhaite d une part savoir quelles sont les espèces 5

8 présentes et d autre part, savoir ce qu elles font. Cela passe d abord par la prédiction des gènes qui fait référence aux méthodes permettant de d identifier les régions du métagénome qui encodent des gènes. Le binning consiste ensuite à estimer la diversité des espèces des métagénomes. Idéalement, il s agit d associer chaque read à son «bin» représentant son groupe taxonomique*. Enfin, l annotation fonctionnelle consiste à répondre à la question Que font les micro-organismes de l échantillon? Quel est le rôle de la communauté microbienne représentée?. Il s agit de base d une tâche hautement difficile, même dans le cas d une analyse génomique. L annotation fonctionnelle est l une des dernières étapes d un long processus au cours duquel ont été commises des erreurs et prises des décisions fondées sur des hypothèses. 2.2 La métagénomique comparative La métagénomique comparative est un domaine assez peu développé, au regard des études existantes en métagénomique. L analyse du métagénome via des méthodes de prédiction de gènes, de binning et d annotation fonctionnelle est une étape difficile de laquelle on ne peut pas toujours inférer suffisamment d informations de façon certaine. En effet, ces méthodes se basent souvent sur une comparaison avec des banques de séquences contenant un nombre variable de génomes. Bien que ces banques grossissent très rapidement, le nombre de génomes qu elles contiennent est encore trop faible, compte tenu de la diversité des espèces sur la planète. C est ici que la métagénomique comparative entre jeu. L idée derrière ce titre est de comparer les métagénomes issus d échantillons entre eux. Cela permet notamment de mettre en évidence le rôle d une communauté microbienne au sein de son environnement, comment elle impacte ou est impacté par l écosystème environnant ou encore comment elle affecte son hôte (sa santé par exemple). Une comparaison implique donc une mesure de la similarité et plusieurs critères s offrent à nous : la composition des séquences (le contenu génomique), la taille du génome microbien, la taxonomie, le contenu fonctionnel, la diversité phylogénétique (classification selon le degré de parenté)... La taxonomie est le critère de comparaison des métagénomes qui revient généralement le plus souvent. En matière de mesure de similarité basé sur la composition des séquences, les algorithmes BLAST-like sont mondialement utilisés et reconnus comme une valeur sûre. Concrètement, les algorithmes BLAST (Basic Local Alignment Search Tool) [1] se basent sur le principe que des séquences similaires auront un ou plusieurs mots de taille k en commun, dit k-mer. Un algorithme BLAST-like va donc parcourir les k-mers de chacune de séquences requêtes du premier ensemble de séquences. Pour chacun d entre eux, l algorithme va parcourir la base de données indexée du deuxième ensemble de séquences 6

9 à comparer à la recherche de ce k-mer. Lorsqu un alignement de k-mer est trouvé (un hit ), l algorithme effectue un HSP (High Scoring Pair), c està-dire un alignement des séquences supposées similaires des deux ensembles en partant à gauche et à droite du k-mer. Si l alignement est concluant, les séquences sont considérées comme similaires. Cette approche peut-être utilisé dans le cadre de la métagénomique comparative où les ensembles sont deux métagénomes à comparer. Il s agit d une approche très efficace mais malheureusement peu adaptée à la comparaison un à un de métagénomes. En effet, cette méthode n est initialement pas conçue pour cette tâche et ne peut gérer en temps et en mémoire des ensembles de données aussi importants que dans le cadre de la métagénomique. Il existe cependant des algorithmes BLAST-like tel que BLAT [14] (BLAST Like Alignment Tool) qui sont bien plus rapides que BLAST pour la comparaison un à un de génome. Cette méthode diffère de quelques points par rapport à BLAST : BLAT parcourt le génome indexé et non la requête et peut effectuer un HSP sur un hit légèrement inexact. Contrairement à BLAST qui retourne chaque région d homologie entre deux séquences comme des alignements distincts, BLAT les assemblent en un alignement plus grand. Le résultat est que BLAT est bien plus rapide que la plupart des outils d alignements existants et tout aussi précis : l outil prend h CPU pour comparer le génome de l humain avec le génome non assemblé de la souris, ce qui implique environ 7.5 milliards de nucléotides et 15 millions de reads. Une méthode intéressante pour la comparaison de métagénome est le cross-assemblage accompagné de fonctions de distance entre métagénome introduit par Bas E. Dutilh et al. [3] via l outil crass. La première étape est donc le cross-assemblage : il s agit d effectuer un assemblage de novo avec un assembleur classique type Velvet [8] sauf qu ici, on assemble tous les reads issus de chaque échantillon dans un unique métagénome. Le logiciel compte ensuite le nombre de reads issus de chaque échantillon et enfin pour chaque contig du cross-assemblage, le nombre de métagénomes auxquels appartiennent les reads ayant servi à le constituer. Les auteurs proposent ensuite quatre fonctions pour mesurer la distance entre deux métagénomes. Les deux premières servent à mettre en évidence le fait qu une comparaison qualitative de métagénomes peut n avoir aucune valeur. En effet, le nombre de reads de chaque échantillon utilisé pour l assemblage d un contig peut ne pas refléter fidèlement le ratio d abondance de chaque espèce dans la communauté microbienne. De ce fait, ces équations sont des équations de présence/absence de reads. La troisième équation se basent sur la formule statistique de Wootlers (1981) et utilise une mesure de l importance de chaque contig dans chaque échantillon pour caractériser la distance entre ces deux échantillons. La dernière équation reflète la première mais en la différence qu elle se base non pas sur les contigs générés mais sur les reads ayant servi à générer les contigs. En ce sens, cela permet de limiter l impact 7

10 des reads assemblés dans un génome par chance dû à la longueur du read. D autres méthodes sont utilisées pour la comparaison de métagénomes, telles que la PCA (Principal Component Analysis) via l outil SmashCell ( afin d identifier les clusters au sein des données et mettre en évidence les facteurs d influence. Dans le domaine taxonomique, mentionnons l outil MEGAN [6] que nous avions précédemment évoqué pour du binning : celui-ci peut aussi servir pour faire de la comparaison de métagénome. Bien que le logiciel puisse être utilisé avec différents outils de comparaison au niveau des reads, ses concepteurs l ont utilisé avec BLASTX et BLASTZ (des variantes de BLAST) pour l - analyse taxonomique de métagénome. Le logiciel MG-RAST [16] propose une comparaison fonctionnelle des métagénomes et une analyse fondée sur les séquences. UniFRac [9] est aussi un logiciel proposant des comparaisons de métagénomes basés sur la phylogénie. Galaxy [12] est un système de gestion de workflow bioinformatique (permettant d automatiser une suite d opérations à effectuer sur des données) qui peut-être utilisé pour récupérer des informations taxonomique à partir d un alignement effectué par un algorithme type BLAST. Le projet CAMERA [20] met à disposition en ligne un peu plus de 70 métagénomes ainsi que les outils nécessaires pour les analyser, incluant des outils pour comparer les séquences de l utilisateur (dans notre cas un métagénome) contre l un des 70 métagénomes (BLAST). 2.3 Compareads Dans cette partie de la bibliographie, nous détaillerons un peu plus un outil très récent nommé Compareads [18] entièrement dédié à la comparaison de métagénomes. Les spécificités de cet outil sont d une part d avoir une comparaison entièrement basé sur le contenu des séquences, et d autre part d être actuellement le seul à pouvoir gérer en un temps raisonnable (quelques heures) des ensembles de données très importants dans un espace mémoire limité (100 millions de reads Illumina avec 4GB de mémoire vive) Principe Nous avions précédemment évoqué la notion de k-mers qui sont utilisés par exemple pour les algorithmes BLAST-like. Introduisons donc maintenant la notion de similarité utilisée par Compareads. Définition 1 : Pour deux entiers k et t, deux séquences s 1 et s 2 sont dites similaires si et seulement si elles partagent au moins un nombre t de k-mers qui ne se chevauchent pas. 8

11 L algorithme se déroule en deux étapes : la phase d indexation et la phase de requête. Pour deux métagénomes A et B, la phase d indexation consiste à indexer tous les k-mers chevauchants de B. Nous reviendrons plus tard sur la structure permettant d indexer ces k-mers en un espace mémoire limité. Les reads de A sont ensuite parcourus et quand t hits de k-mers entre le read analysé de A et les reads de B apparaissent, le read est stocké dans l ensemble A B. La notation A B est utilisée et non A B car il s agit d une heuristique ayant pour résultat une sur-approximation de A B (voir et 2.3.4). Pour limiter l espace mémoire et contrôler l erreur d approximation dûe à l heuristique, on indexe seulement un nombre limité n de k-mers de B, puis on effectue la phase de requête sur tout le métagénome A. On réitère ce processus jusqu à ce que tout le métagénome B soit indexé. L union de tous les A B est retourné. Cependant, calculer A B est asymétrique. Pour que la comparaison soit totale et symétrique, calculer les reads de A qui sont similaires à ceux de B n est pas suffisant, il faut aussi calculer ceux de B qui sont similaires dans A, c est-à-dire B A. En pratique, des effets de bords dûes à l heuristique nous pousse à appliquer un processus un peu plus complexe qui sera expliqué en Cet algorithme a une complexité de O(n B ) pour l indexation et O(n A + n Bn ) pour la phase de requête (n A et n B sont le nombre de reads respectifs des métagénomes A et B, n le nombre de k-mers que l on indexe à chaque itération) Structure utilisée La structure qui est utilisée pour cet algorithme est une structure probabiliste à base de filtre de Bloom. Celui-ci s avère particulièrement efficace lorsqu il s agit de stocker dans un espace mémoire de taille fixée des données. Il consiste en un tableau de m bits, tous initialisés à 0, et un ensemble de fonction de hachage. Lorsque l on souhaite stocker un k-mer dans ce tableau, tous les bits associés à ce k-mer via les fonctions de hachage passent à 1. Pour tester la présence d un k-mer dans ce tableau, il suffit de regarder si tous ses bits sont à 1. Si ce n est pas le cas, le k-mer n est pas présent. L inconvénient de cette méthode est qu elle génère des faux-positifs : un k-mer absent de la structure peut voir tous ses bits à 1 à cause de l ajout d autres k-mers. Le taux de faux-positifs, qui correspond à la probabilité qu un k-mer soit prédit présent dans la structure alors que ce n est pas le cas est estimé en utilisant une approximation asymptotique de m/n (m bits, n éléments insérés). ln 2 (m/n) fonctions de hachage seront utilisées [10]. Le nombre m de bits nécessaires est de (nlog 2 e log 2 (1/ɛ)) pour un taux de faux-positifs ɛ. 9

12 La structure que nous utilisons ici sera nommée BDS (Bloom Data Structure). BDS ne propose pas un tableau de bits unique mais un tableau de bits par fonction de hachage (disjointes les unes des autres) Fonctions de hachage Les fonctions de hachage doivent être très rapides à calculer, c est pourquoi ces fonctions de hachage sont de type présence/absence. Sept fonctions sont proposées : les trois premières sont dites balancées (équation 1) et les quatres dernières non balancées (équation 2). Les fonctions non balancées génèrent moins de faux positifs que les balancées. Cela est dû au fait que les fonctions balancées distribuent plus uniformément que les fonctions non balancées les codes de hachage sur le tableau de 2 k bits. L avantage des fonctions balancées est qu aucune d elles ne peut générer un code de hachage pour un k-mer identique à une autre fonction balancée : elles sont indépendantes et de ce fait, utiliser ces trois fonctions est très efficace pour réduire le taux de faux positifs. Les assertions précédentes ne tiennent plus pour les fonctions non balancées et le taux de faux-positifs en utilisant les sept fonctions de hachage est presque similaire à celui utilisant quatre fonctions (trois balancées et une non balancées ). Aussi Compareads n utilise que quatre fonctions de hachage et non sept Gestion des faux-positifs lors du calcul de A B et B A Lors du calcul de A B, on cherche pour chaque read de A si B partage t k-mers avec lui et non pas si B a au moins un read qui partage t k-mers avec lui, ce qui est moins rigoureux. Le problème vient du fait que deux k-mers (ou plus) d un read de A peuvent se situer sur deux reads différents dans B (ou plus), ce qui constitue un faux-positif. Ce problème peut-être limité mais pas résolu en effectuant les étapes suivantes pour le calcul de A B et B A (un exemple est donné en Figure 2) : Calculer A B, stocker les résultats dans (A B) Calculer B (A B) ), stocker les résultats dans B A Calculer A (A A)), stocker les résultats dans A B 10

13 Figure 2 Processus de calcul de A B et B A issu de [18]. Il s agit des trois étapes permettant la comparaison symétrique des ensembles de reads A et B. Dans chaque ensemble, un read correspond à une ligne horizontal et un k-mer correspond à un rectangle Choix des paramètres Utiliser quatre fonctions de hachage (trois balancées et une non balancée ) permet d améliorer très légèrement le taux de faux-positifs de la BDS par rapport à l utilisation des sept fonctions. De surcroit, la mémoire se voit réduite à 4*2 k bits au lieu de 7*2 k bits. Un autre paramètre intéressant est la taille de k. En effet, plus k est long, moins le taux de faux-positifs est élevé mais plus la taille de la BDS grossit. Le compromis entre taille de la BDS et taux de faux-positifs est trouvé en prenant k=33, ce qui permet d indexer jusqu à un milliard de 33-mers en assurant un taux de faux-positifs théorique d au plus 0.13%. Compareads n utilise alors que 4GB de mémoire Calcul de la similarité La mesure de la similarité est calculée comme ceci : A B + B A A + B où X représente la cardinalité de l ensemble X Résultats Comparé à un tableau de suffixes afin d indexer un milliard de 33-mers, le tableau de suffixes tient en 4.66GB de mémoire mais le temps de requête, en O(k log n) est plus long. Une table de hachage utiliserait dans les mêmes conditions 16.5 GB de mémoire. Sur un jeu de cent millions de reads de longueur 100bp, comparé à une fonction de hachage connue et performante en utilisant des 33-mers, les fonctions de hachage développées précédemment sont en moyenne 10 fois plus rapide à calculer. Compareads a été comparé à une approche utilisant BLAST sur un ensemble de 15 métagénomes contenant en moyenne reads et

14 nucléotides par read. BLAST a été utilisé pour chercher des alignements d aux moins 80 nucléotides avec 90% de similarité entre eux. Compareads a servi à chercher pour t =1, 4 et 10 des 33-mers. Pour chaque comparaison de métagénome, Compareads est environ 30 fois plus rapide que BLAST. Enfin, Compareads a été testé dans le cadre de projet GOS (Global Ocean Sampling) sur 44 échantillons d eau de mer d environ reads en moyenne par échantillon et 1249 nucléotides par read. Les 990 comparaisons de métagénomes ont été effectuées en 72 heures sur un processeur mono-coeur. Les résultats trouvés sont très similaires à ceux de la publication d origine et permettent de retrouver la classification d origine des métagénomes selon leurs lieux d échantillonage (séparés de plusieurs milliers de kilomètres). 3 Conclusion La métagénomique est un domaine en pleine expansion et qui promet de nombreuses découvertes dans les années à venir. Nous avons pu constater que la métagénomique comparative est un domaine qui reste encore peu développé. Compareads apporte une grande pierre à l édifice pour la comparaison de métagénomes un à un. Cependant, des méthodes de traitement permettant de gérer plus de données en un temps raisonnable sont nécessaires. Tara Oceans est une expédition débutée en 2009 [5] durant laquelle ont été pris de nombreux échantillons le long des kilomètres du périple. Un millier de métagénomes sont attendus et en utilisant Compareads, à raison d environ 10h par comparaison entre deux métagénomes sur un processeur 50 coeurs, pas moins de 578 années seront nécessaires pour faire la comparaison entre tous les métagénomes. Compareads est actuellement l outil le plus adapté pour cette tâche mais malgré sa rapidité, il ne possède pas la scabilité nécessaire pour traiter des données à cette échelle. Il est donc nécessaire de concevoir des méthodes spécifiques à la comparaison métagénomique all-vs-all. De telles méthodes n existent actuellement pas et feront ainsi l objet de ce stage au sein de l équipe GenScale de l INRIA de Rennes. 4 Glossaire Base de données : Entité informatique permettant de stocker l information (les données) de façon structurée. Nucléotides : Molécules organiques qui forment la base de l ADN et l ARN. Ils sont au nombre de 4 pour l ADN et l ARN, représentés par les lettres A, C, G et T/U (T pour l ADN, U pour l ARN). ORF (Open Reading Frame) : un ORF correspond à une séquence d ARN commençant et terminant par un codon-stop, et entre lesquels un 12

15 certain nombre de codons codent potentiellement une protéine. Un codon correspond à une séquence de trois nucléotides sur de l ARNm, tandis qu un codon-stop est l un des trois codons marquants la fin de la traduction d un gène en protéine. OTU (Operational Taxonomic Unit) : Niveau taxonomique de l échantillon en tant qu individu, population, espèce, genre ou souche bactérienne. Phylogénie : Etude des relations de parentés entre différents êtres vivants. Taxonomie (dit aussi taxinomie) : science qui a pour objet de décrire les organismes vivants et de les regrouper en entités appelées taxons afin de les identifier puis les nommer et enfin les classer. Références [1] Miller Wg et al Altschul SF, Gish W. Basic local alignment search tool. Journal of Molecular Biology, 215 : , [2] Stupka E et al Aparicio S, Chapman J. Whole-genome shotgun assembly and analysis of the genome of fugu rubripes. Science, 297 : , [3] Jim Nulton et al Bas E. Dutilh, Robert Schmieder. Referenceindependent comparative metagenomics using cross-assembly : crass. Bioinformatics, 28 : , [4] Andrzej Tretyn Chandra Shekhar Pareek, Rafal Smoczynski. Sequencing technologies and genome sequencing. Journal of Applied Genetics, 52 : , [5] Karsenti E. Towards an oceans systems biology. Molecular Systems Biology, 8(575) :1 2, [6] Huson DE et al. Megan analysis of metagenomic data. Genome Research, 17 : , [7] Kennedy et al. Marine metagenomics. new tools for the study and exploitation of marine microbial metabolism. Marine Drugs, 8, [8] Zerbino DR et Birney E. Velvet : algorithms for de novo short read assembly using de bruijn graphs. Genome Research, 18 : , [9] Lozupone C et Knight R. Unifrac : a new phylogenetic method for comparing microbial communities. Applications to Environnemental Microbiology, 71 : , [10] Broder A et Mitzenmacher M. Network applications of bloom filters : A survey. Internet Mathematics, 1(4) : , [11] Aristide Patrinos Francis S. Collins, Michael Morgan. The human genome project : Lessons from large scale biology. Science 11, 300 : , Avril

16 [12] Hardison RC et al Giardine B, Riemer C. Galaxy : a platform for interactive large-scale genome analysis. Genome Research, 15 : , [13] Iddo Friedberg John C. Wooley, Adam Godzik. A primer on metagenomics. PLoS Computational Biology, 6, Février [14] W. James Kent. Blat : The blast-like alignment tool. Genome Research, 12 : , [15] Barry K et al Mavromatis K, Ivanova N. Use of simulated data sets to evaluate the fidelity of metagenomic processing methods. Nat. Methods, 4 : , [16] D Souza M et al Meyer F, Paarmann D. The metagenomics rast server - a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 9 :386, [17] Delcher AL et al Myers EW, Sutton GG. A whole-genome assembly of drosophila. Science, 287 : , [18] Rayan Chikhi. Dominique Lavenier et Pierre Peterlongo Nicolas Maillet, Claire Lemaitre. Compareads : comparing huge metagenomic experiments. BMC Bioin,formatics, 13 :doi : / S19 S10, [19] Marco A. Marra Olena Morozova. Applications of next-generation sequencing technologies in functional genomics. Genomics, 92 : , [20] Smarr L et al Seshadri R, Kravitz SA. Galaxy : a platform for interactive large-scale genome analysis. PLoS Biology, 5 :e75. doi : /journal.pbio ,

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Analyse des données de séquençage massif par des méthodes phylogénétiques

Analyse des données de séquençage massif par des méthodes phylogénétiques Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement

Plus en détail

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION PRINCIPES DE BASE SUR LES DONNEES ET LE CALCUL HAUTE PERFORMANCE Lois de Gray sur l ingénierie des données 1 : Les calculs scientifiques traitent des volumes considérables

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Plus en détail

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Les Rencontres de l Inra au Salon de l agriculture Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Lundi 23 février 2015 Programme 14h30

Plus en détail

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Introduction, présentation de la plateforme South Green. hp://southgreen.cirad.fr/ Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/ SupAgro, Montpellier, 10 février 2014 Le déluge de données NGS Next-generation sequencing Rappel: synthèse de l ADN 5

Plus en détail

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection

Plus en détail

3: Clonage d un gène dans un plasmide

3: Clonage d un gène dans un plasmide 3: Clonage d un gène dans un plasmide Le clonage moléculaire est une des bases du génie génétique. Il consiste à insérer un fragment d'adn (dénommé insert) dans un vecteur approprié comme un plasmide par

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Métriques de performance pour les algorithmes et programmes parallèles

Métriques de performance pour les algorithmes et programmes parallèles Métriques de performance pour les algorithmes et programmes parallèles 11 18 nov. 2002 Cette section est basée tout d abord sur la référence suivante (manuel suggéré mais non obligatoire) : R. Miller and

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Galaxy Training days. Liste des sessions disponibles : http://bioinfo.genotoul.fr. Les formateurs :

Galaxy Training days. Liste des sessions disponibles : http://bioinfo.genotoul.fr. Les formateurs : -- 1 -- Galaxy Training days Durée / Programme : 3 journées. Galaxy : First step. Galaxy : Reads alignment and SNP calling. Galaxy : RNAseq alignment and transcripts assemblies. Public : Personnes souhaitant

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge! Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)

Plus en détail

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Le montant des garanties constituées aux fins du STPGV est-il excessif? Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements

Plus en détail

Stages de recherche dans les formations d'ingénieur. Víctor Gómez Frías. École des Ponts ParisTech, Champs-sur-Marne, France

Stages de recherche dans les formations d'ingénieur. Víctor Gómez Frías. École des Ponts ParisTech, Champs-sur-Marne, France Stages de recherche dans les formations d'ingénieur Víctor Gómez Frías École des Ponts ParisTech, Champs-sur-Marne, France victor.gomez-frias@enpc.fr Résumé Les méthodes de l ingénierie ont été généralement

Plus en détail

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge! Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment. Sommaire Séquence 6 Nous avons vu dans les séances précédentes qu au cours des temps géologiques des espèces différentes se sont succédé, leur apparition et leur disparition étant le résultat de modifications

Plus en détail

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux Damien Stehlé LIP CNRS/ENSL/INRIA/UCBL/U. Lyon Perpignan, Février 2011 Damien Stehlé Problèmes arithmétiques issus de la cryptographie

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 Les Biolangages Thierry Lecroq Université de Rouen FRANCE 2008 2009 Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 BioPerl Ensemble de modules Perl Utilise la programmation objet L objectif est de mettre

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie. Résumé L expansion du secteur de la technologie de l information et des communications (TIC) a rendu nécessaire un plus grand nombre d indicateurs économiques propres à ce secteur. La Division des prix

Plus en détail

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits 2.0 Interprétation des cotes d évaluation des risques relatifs aux produits L interprétation des cotes attribuées dans le cadre des évaluations des risques relatifs aux produits décrite plus loin repose

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Évaluation et optimisation de requêtes

Évaluation et optimisation de requêtes Évaluation et optimisation de requêtes Serge Abiteboul à partir de tranparents de Philippe Rigaux, Dauphine INRIA Saclay April 3, 2008 Serge (INRIA Saclay) Évaluation et optimisation de requêtes April

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique

Plus en détail

Analyse des bruits de clavier d ordinateur

Analyse des bruits de clavier d ordinateur Analyse des bruits de clavier d ordinateur Introduction 1 Enregistrement des bruits de clavier 2 Analyse des bruits de clavier 3 Analyse du niveau de pression acoustique vs. temps 4 Sonie vs. temps 4 Acuité

Plus en détail

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE sommaire MIEUX COMPRENDRE LES CERTIFICATS SSL...1 SSL et certificats SSL : définition...1

Plus en détail

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES

Plus en détail

Une histoire sans fin. Rockpanel certifié BRE Global A+ / A

Une histoire sans fin. Rockpanel certifié BRE Global A+ / A Une histoire sans fin Rockpanel certifié BRE Global A+ / A Rockpanel : la durabilité dans les gènes Le Groupe Rockpanel fait partie de Rockwool International, de par nature, attache une importance primordiale

Plus en détail

Dr YAO Kouassi Patrick www.yaopatrick.e-monsite.com

Dr YAO Kouassi Patrick www.yaopatrick.e-monsite.com Notion de Bases de données et Gestion de données biologiques Dr YAO Kouassi Patrick www.yaopatrick.e-monsite.com Notion de base de données Une base de données est une collection de données interdépendantes

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Manuel de System Monitor

Manuel de System Monitor Chris Schlaeger John Tapsell Chris Schlaeger Tobias Koenig Traduction française : Yves Dessertine Traduction française : Philippe Guilbert Traduction française : Robin Guitton Relecture de la documentation

Plus en détail

COMMENTAiRES/ DECISIONS

COMMENTAiRES/ DECISIONS Plate-forme d'échanges affichage environnemental des PGC Date : 2009-12-21 Assistante: Lydia GIPTEAU Ligne directe : + 33 (0)1 41 62 84 20 Lydia.gipteau@afnor.org GT Méthodologie Numéro du document: N

Plus en détail

Définitions. Numéro à préciser. (Durée : )

Définitions. Numéro à préciser. (Durée : ) Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.

Plus en détail

Comprendre l Univers grâce aux messages de la lumière

Comprendre l Univers grâce aux messages de la lumière Seconde / P4 Comprendre l Univers grâce aux messages de la lumière 1/ EXPLORATION DE L UNIVERS Dans notre environnement quotidien, les dimensions, les distances sont à l échelle humaine : quelques mètres,

Plus en détail

Modélisation du virus informatique Conficker

Modélisation du virus informatique Conficker Mini Projet Calcul Scientifique Modélisation du virus informatique Conficker Worm Defender Engineering Bellot Guillaume Cornil Yoann Courty Arnaud Goldenbaum David Pascal Louis ESILV S4 Introduction :

Plus en détail

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE 1. RAPPEL: L ATOME CONSTITUANT DE LA MATIERE Toute la matière de l univers, toute substance, vivante ou inerte, est constituée à partir de particules

Plus en détail

Comment expliquer ce qu est la NANOTECHNOLOGIE

Comment expliquer ce qu est la NANOTECHNOLOGIE Comment expliquer ce qu est la NANOTECHNOLOGIE Vous vous souvenez que tout est constitué d atomes, non? Une pierre, un stylo, un jeu vidéo, une télévision, un chien et vous également; tout est fait d atomes.

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,

Plus en détail

Vision prospective et obstacles à surmonter pour les assureurs

Vision prospective et obstacles à surmonter pour les assureurs smart solutions for smart leaders Le «Big Data» assurément Rédigé par Pascal STERN Architecte d Entreprise Vision prospective et obstacles à surmonter pour les assureurs Un avis rendu par la cour de justice

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

L ENERGIE CORRECTION

L ENERGIE CORRECTION Technologie Lis attentivement le document ressource mis à ta disposition et recopie les questions posées sur une feuille de cours (réponds au crayon) : 1. Quelles sont les deux catégories d énergie que

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Big data : vers une nouvelle science des risques?

Big data : vers une nouvelle science des risques? Big data : vers une nouvelle science des risques? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques 1 Organisation Big data en bref

Plus en détail

Journée SITG, Genève 15 octobre 2013. Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Journée SITG, Genève 15 octobre 2013. Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique Monitorint spatio-temporel intégré de la mobilité urbaine Monitoring spatio-temporel de l ADN urbain Une réponse aux défis, problèmes, enjeux et risques des milieux urbains Nicolas Lachance-Bernard M.ATDR

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation

Plus en détail

Cellules procaryotes Service histologie Pr.k.mebarek

Cellules procaryotes Service histologie Pr.k.mebarek Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes

Plus en détail

La sécurité dans un réseau Wi-Fi

La sécurité dans un réseau Wi-Fi La sécurité dans un réseau Wi-Fi Par Valérian CASTEL. Sommaire - Introduction : Le Wi-Fi, c est quoi? - Réseau ad hoc, réseau infrastructure, quelles différences? - Cryptage WEP - Cryptage WPA, WPA2 -

Plus en détail

Document d information n o 1 sur les pensions

Document d information n o 1 sur les pensions Document d information n o 1 sur les pensions Importance des pensions Partie 1 de la série La série complète des documents d information sur les pensions se trouve dans Pensions Manual, 4 e édition, que

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

La sécurité dans les grilles

La sécurité dans les grilles La sécurité dans les grilles Yves Denneulin Laboratoire ID/IMAG Plan Introduction les dangers dont il faut se protéger Les propriétés à assurer Les bases de la sécurité Protocoles cryptographiques Utilisation

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE 562 ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE 563 TABLE DES MATIÈRES ANNEXE J... 562 POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Création WEB avec DreamweaverMX

Création WEB avec DreamweaverMX Creation Web avec DreamweaverMX MX Initiation Sommaire.preparation.mise en forme.liens hypertextes.images.liens sur images.images avec zones sensibles.images survolees.liens de type courriel.apercu dans

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Pourquoi disposer d un site Internet mobile n est qu un début

Pourquoi disposer d un site Internet mobile n est qu un début Edition Spéciale 2 Intelligence Applied 1 Avoir un site «responsive design» ou adapté aux mobiles constitue un grand pas en avant. Il ne doit cependant pas être considéré comme le substitut à une véritable

Plus en détail

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Nicolas Dugué, Anthony Perez LIFO - Université d Orléans rue Léonard de Vinci B.P. 6759 F-45067 ORLEANS Cedex 2 FRANCE RÉSUMÉ.

Plus en détail

Initiation à LabView : Les exemples d applications :

Initiation à LabView : Les exemples d applications : Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple

Plus en détail

Détection et prise en charge de la résistance aux antirétroviraux

Détection et prise en charge de la résistance aux antirétroviraux Détection et prise en charge de la résistance aux antirétroviraux Jean Ruelle, PhD AIDS Reference Laboratory, UCLouvain, Bruxelles Corata 2011, Namur, 10 juin 2011 Laboratoires de référence SIDA (Belgique)

Plus en détail

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.

Plus en détail

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

Introduction à l informatique temps réel Pierre-Yves Duval (cppm) Introduction à l informatique temps réel Pierre-Yves Duval (cppm) Ecole d informatique temps réel - La Londes les Maures 7-11 Octobre 2002 -Définition et problématique - Illustration par des exemples -Automatisme:

Plus en détail

Fluorescent ou phosphorescent?

Fluorescent ou phosphorescent? Fluorescent ou phosphorescent? On entend régulièrement ces deux termes, et on ne se préoccupe pas souvent de la différence entre les deux. Cela nous semble tellement complexe que nous préférons rester

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

Eco-système calcul et données

Eco-système calcul et données Eco-système calcul et données M. Daydé Dr du Comité d'orientation pour le Calcul Intensif (COCIN) Délégué Scientifique INS2I en charge HPC / Grille / Cloud Calcul / données : un enjeu stratégique Calcul

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

NOUS SOMMES SUISSE AU NOM DE VOS VALEURS NOUS SOMMES SUISSE DEPUIS

NOUS SOMMES SUISSE AU NOM DE VOS VALEURS NOUS SOMMES SUISSE DEPUIS HONEGGER SA gestion d immeubles et prestations NOUS SOMMES SUISSE AU NOM DE VOS VALEURS NOUS SOMMES SUISSE DEPUIS 1948 HONEGGER NOUS SOMMES SUISSE DEPUIS 1948 HONEGGER Image de gauche: anciens bus de nettoyage

Plus en détail

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n. 41.002-SEVILLA (Espagne). mfpita@cica.

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n. 41.002-SEVILLA (Espagne). mfpita@cica. Un nouvel indice de sécheresse pour les domaines méditerranéens. Application au bassin du Guadalquivir (sudo-uest de l Espagne). En: Un nouvel indice de sécheresse pour les domaines méditerranéens. Application

Plus en détail