Master research Internship. Rapport bibliographique. Comparaison massive et multiple de métagénomes non assemblés
|
|
- Germain Monette
- il y a 8 ans
- Total affichages :
Transcription
1 Master research Internship Rapport bibliographique Comparaison massive et multiple de métagénomes non assemblés Auteur : Guillaume Holley Encadrant : Pierre Peterlongo GenScale
2 Résumé La nature est d une grande complexité et l étudier l est tout autant. Alors que la biologie se sert des outils bioinformatiques qui sont mis à sa disposition et qui ont permis l avènement de la génomique moderne, de nouveaux challenges sont à notre portée. En effet, nous avons longtemps étudié le génome d espèces à partir d échantillons cultivés en laboratoire et nous savons que cette méthode a ses propres limites. La métagénomique tente d aller plus loin en permettant d étudier des centaines d espèces de micro-organismes différents en même temps. Cette bibliographie fera un bref état de l art sur la métagénomique et abordera chaque aspect du processus. La seconde partie de ce rapport bibliographique se concentrera sur la métagénomique comparative. Nous en ferons un bref état de l art, puis nous présenterons un nouvel outil dans le domaine : Compareads. Table des matières 1 Introduction 1 2 Métagénomique Un processus en plusieurs étapes Les étapes préliminaires Le séquençage L assemblage Analyse du métagénome La métagénomique comparative Compareads Principe Structure utilisée Fonctions de hachage Gestion des faux-positifs lors de l intersection de deux métagénomes Choix des paramètres Calcul de la similarité Résultats Conclusion 11 4 Glossaire 12 Les mots qui seront suivis d un astérisque seront définis dans le Glossaire à la fin de ce rapport. 1
3 1 Introduction La bioinformatique est un domaine dont les trois dernières décennies ont été ponctuées par de nombreuses découvertes. Entre avancées technologiques et nouveaux besoins, la bioinformatique a dû faire face à une explosion des données auquelle il était rapidement nécessaire de trouver des solutions. Vers les années 1970, la première technologie de séquençage voyait le jour et donnait son envol à la génomique. Le Human Genome Project [11] commença en 1990 et s acheva treize ans plus tard avec le premier génome humain dont le coût est estimé à trois milliards de dollars. Aujourd hui, des centaines d espèces différentes ont vu leur génome séquencé, les technologies de séquençage ne cessent de s améliorer avec pour résultat un séquençage de génome qui passe sous la barre des mille dollars. Mais malgré tout, il semble que les défis, les découvertes et les révolutions en matière de bioinformatique continuent : ainsi commence l aventure métagénomique. 2 Métagénomique Pour bien comprendre ce challenge, il est nécessaire d en comprendre le besoin. La génomique est l étude du vivant à l échelle du génome. On peut y voir d une part, toutes les problématiques liées au séquençage du génome et d autre part, l étude fonctionnelle des gènes. La métagénomique consiste quant à elle en l étude collective d un ensemble de génomes d espèces différentes issus d un même métagénome. La génomique a été extrêmement étudié ces trente dernières années et de nombreux génomes ont été découverts : celui de l homme (2003), du chien (2005), de la mouche drosophile, l Arabidopsis Thaliana (2000) ainsi qu environ mille autres génomes. Pourtant, malgré ces découvertes importantes, l homme ne constitue pas la forme de vie dominante de la Terre, pas plus que n importe quel mammifère. La vie microbienne est la forme de vie la plus présente sur la planète, en terme d individus et de biomasse. Cette forme de vie est ancrée absolument partout : des pôles où un froid extrême règne jusqu aux courants marins les plus profonds où la température avoisine 340 C. Elle est aussi la forme de vie dominante... de notre corps! D après l excellente review en matière de métagénomique de Wooley et al. [13], nous possédons environ cellules qui nous sont propres et pourtant, environ cellules bactériennes composent notre corps. Les océans couvrent 70 % de la Terre et peuvent atteindre des profondeurs de m avec une pression de 100MPa (Mega Pascal). Dans ces conditions extrêmement hostiles, seuls les micro-organismes peuvent survivre : ils dominent en nombre et sont responsables de 98 % de la production de matière dans les océans. Leur rôle est extrêmement important. Le vivant se décompose en trois catégories : les bactéries, les archées et les eucaryotes. Les eucaryotes se carac- 1
4 térisent par la présence d un noyau et de mitochondries dans leurs cellules, à l instar des archées et des bactéries qui sont des organismes uniquement unicellulaires. Ces micro-organismes sont les premiers producteurs de matière de la planète. En effet, les cellules procayotes de notre planète conservent pas moins de Pg (10 15 g) de carbone, Pg de nitrogène et 9-14 Pg de phosphore, constituant la plus grande réserve de nutriments de la planète [13]. En milieu marin, les microbes (appellation courante des microorganismes) jouent des rôles clés en terme d éléments nutritifs, de recyclage d autres micro-organismes, de cycle de carbone, d azote et de l énergie. Aussi clairement qu il nous est apparu d une importance capitale de séquencer les espèces de notre planète, il était clair qu il fallait séquencer ses microorganismes. Or, moins de 1 % seulement des microbes peuvent être cultivés en laboratoire suivant les méthodes nécessaires pour un séquençage génomique. Un autre problème majeur est que les microbes interagissent avec leur environnement, ils vivent dans une communauté microbienne qui fait partie intégrante de son hôte. Par exemple, la review de J. Kennedy et al. sur la métagénomique marine [7] nous indique que la bactérie Prochlorococcus marinus avec des conditions au sein de sa niche écologique variant peu, a réduit la taille de son génome à 1.66 Mbps (Mega base pairs) pour obtenir un avantage compétitif dans son environnement. Ainsi, séparer les micro-organismes au sein d un échantillon n est d une part pas possible mais ce serait aussi détruire l intérêt propre de leur étude. La métagénomique possède donc ses propres défis. En effet, un échantillon pris dans le milieu naturel ne représente pas le génome d une espèce de microbe mais de toute la communauté microbienne de cet échantillon, jusqu à plusieurs centaines de milliers d espèces différentes dans le même échantillon. Les techniques de traitement qui suivent le séquençage afin de passer des données physiques aux données numériques ne se posent jamais la question de savoir à qui appartient telle séquence car la question n a pas lieu d être. Il en va autrement en métagénomique : les métagénomes doivent être traités comme des mélanges de génomes. La métagénomique n est pas une science tout à fait nouvelle et des outils existent déjà pour nous aider dans notre tâche, bien que peu nombreux. 2.1 Un processus en plusieurs étapes La métagénomique est un domaine très large dont chaque étape constitue un rôle majeur du processus général. Malgré tout, cette bibliographie n a pas pour vocation de présenter le domaine en entier mais de se concentrer sur la partie faisant l objet de ce stage. La métagénomique comparative sera donc volontairement plus détaillée que les autres parties de ce rapport, tandis que la partie Analyse du métagénome sera volontairement très réduite car complètement hors du contexte de ce stage. 2
5 Figure 1 Exemple avec des données triviales du pipeline des données, de l échantillonnage jusqu à l assemblage. L image en haut à gauche correspond à un échantillon d eau de mer. Le séquençage permet d obtenir des reads (séquences colorées) à partir de cet échantillon. L assemblage permet d obtenir des contigs à partir des reads. Dans cet exemple, un seul contig est généré (séquence de couleur noire). Le processus détaillée dans les prochaines parties permet à partir des échantillons pris sur le terrain d obtenir de longues séquences de nucléotides qui pourront être traitées et analysées. Ce processus passe par plusieurs étapes le séquençage et l assemblage. Le séquençage produit à partir des données physiques (les échantillons) des reads, de courtes séquences qui se chevauchent et dont nous ne connaissons pas la provenance sur le génome. L assemblage produit quant à lui à partir des reads de longues séquences dites contigs (contiguous sequences). Le pipeline des données de ce processus est brièvement décrit en Figure Les étapes préliminaires La première étape consiste à prendre sur le terrain des échantillons. Nous ne connaissons cependant pas quelles espèces sont présentes à l intérieur de ceux-ci. Le nombre d échantillons nécessaires pour la tâche que nous voulons effectuer ne peut-être qu estimé à partir d une courbe de raréfaction [13]. Le filtrage est ensuite l étape permettant de nettoyer les échantillons. Il s agit ici d un filtrage selon la taille. Si l on désire étudier les bactéries, nous allons prendre soin de filtrer tout ce qui est plus gros, au risque de filtrer les bactéries trop larges et de laisser tout ce dont la taille est inférieure ou égale à celle d une bactérie. Un filtrage logiciel peut-être également effectué à partir de mesures de similarité avec des bases de données de génomes connus. Il peut être utilisé pour détecter la contamination d un échantillon par 3
6 exemple. Pour finir, l annotation des échantillons via des méta-données est une étape importante. Les méta-données sont comme leurs noms l indique des données apportant une description des données et ne sont en aucun cas générées automatiquement. Il peut s agir entre autre de caractéristiques géographiques, physiques, chimiques ou temporelles Le séquençage Le séquençage est l étape permettant de passer de données physiques (les échantillons) à des données numériques (des séquences). Cette étape est rendue possible via l utilisation d instruments nommés séquenceurs dont chaque modèle utilise une technologie de séquençage qui lui est propre. La première génération de technologies de séquençage fut développée parallèlement dans les années 1970 aux USA et au Royaume-Uni. La méthode la plus connue est celle de Frederick Sanger, dite Sanger Shotgun [19]. Le principe est de casser le contenu génomique aléatoirement en fragments, dits shotguns qui divergent en taille et en position sur le génome. Ces fragments sont ensuite clonés et cultivés, permettant ainsi d obtenir suffisamment de matériel génomique pour le séquençage. Ce processus est répété plusieurs fois jusqu à ce que tout le génome soit séquencé. Le séquençage métagénomique est effectué de la même manière, sauf que les shotguns peuvent appartenir à des espèces différentes de l échantillon. Cependant, la toxicité de certains vecteur de clonage peut empêcher l expression de certains gènes. Le séquencage produit ainsi des reads de 25 à 1000bps. L année 2005 a connu une petite révolution en matière de séquençage avec les NGS (Next Generation Sequencing) qui sont des méthodes fiables, rapides (massivement parallèles) et peu coûteuses. Ces technologies hautdébits se démarquent par l utilisation de marqueurs fluorescents. Plusieurs centaines d échantillons peuvent ainsi être marqué d un coup (il s agit d un run ). On compte parmi ces technologies les séquenceurs Roche 454 et GS de la société Roche GS FLX utilisant le pyroséquençage. D autres séquenceurs commerciaux mondialement connus sont aussi utilisés, tels que le séquenceur Solexa de la société Illumina, le séquenceur SOLiD de la société Applied Biosystems et le séquenceur Heliscope de chez Helicos Biosciences [19]. Leurs spécificités sont exposés dans la Table 1. Ces technologies de séquençages ne sont cependant pas les seules L assemblage Une fois les reads obtenus, il est nécessaire de les assembler afin d en extraire des connaissances, c est-à-dire appliquer des méthodes d analyse 4
7 Table 1 Comparaison de différentes technologies de séquençage [4] (voir 2.1.4). Il peut s agir, entre autre, de repérer les ORF (Open Reading Frame), les OTU (Operational Taxonomic Unit), les opérons (groupement de gènes et de séquences régulatrices chez les procaryotes),... Le terme assemblage vient du fait que l on assemble les reads par rapport à leurs chevauchements pour créer des contigs, c est-à-dire de longues séquences. En soit, il s agit d une étape déjà compliquée pour un assemblage génomique : les reads sont présents par millions ou par milliards, il y a des répétitions, des erreurs de séquençage,... La couverture exprime la moyenne du nombre de fois où un nucléotide sera séquencé. Une couverture de 5 indique que chaque nucléotide est en moyenne séquencé cinq fois. La couverture est donc entre autre un estimateur de la qualité du séquençage : une couverture faible donne un assemblage de moins bonne qualité. Dû à la fréquence d apparition arbitraire de chaque espèce dans le métagénome, la couverture du métagénome reste généralement assez faible (mais pas systématiquement). Les séquences avec beaucoup de répétitions complexifient les méthodes d assemblages et ne sont généralement pas utilisées, or cela introduit un biais dans les données d un métagénome. Les assembleurs tels que JAZZ [2] et Celera [17] semblent donner malgré tout de bons résultats pour de l assemblage métagénomique utilisant des reads Sanger. [15] Ces assembleurs voient le problème sous forme d un graphe où les reads sont des sommets et un chevauchement entre deux reads est une arête entre deux sommets. Cette représentation sous forme de graphe est trop coûteuse en terme de mémoire et ne passe pas à l échelle sur des données réelles. L assemblage devient alors un problème NP-Complet. On lui préférera une représentation sous forme de graphe de de-bruijn où l assemblage est résolvable en temps linéaire. Chaque read est ici cassé en mots de taille k 1 qui se chevauchent, dits k-mer. Un sommet représente un k-mer et une arête représente le chevauchement du préfixe d un k-mer sur le postfixe d un autre. Ce type de graphe est par exemple utilisé par l assembleur Velvet [8] Analyse du métagénome Il va s en dire qu une fois l assemblage terminé, nous désirons étudier notre métagénome. On souhaite d une part savoir quelles sont les espèces 5
8 présentes et d autre part, savoir ce qu elles font. Cela passe d abord par la prédiction des gènes qui fait référence aux méthodes permettant de d identifier les régions du métagénome qui encodent des gènes. Le binning consiste ensuite à estimer la diversité des espèces des métagénomes. Idéalement, il s agit d associer chaque read à son «bin» représentant son groupe taxonomique*. Enfin, l annotation fonctionnelle consiste à répondre à la question Que font les micro-organismes de l échantillon? Quel est le rôle de la communauté microbienne représentée?. Il s agit de base d une tâche hautement difficile, même dans le cas d une analyse génomique. L annotation fonctionnelle est l une des dernières étapes d un long processus au cours duquel ont été commises des erreurs et prises des décisions fondées sur des hypothèses. 2.2 La métagénomique comparative La métagénomique comparative est un domaine assez peu développé, au regard des études existantes en métagénomique. L analyse du métagénome via des méthodes de prédiction de gènes, de binning et d annotation fonctionnelle est une étape difficile de laquelle on ne peut pas toujours inférer suffisamment d informations de façon certaine. En effet, ces méthodes se basent souvent sur une comparaison avec des banques de séquences contenant un nombre variable de génomes. Bien que ces banques grossissent très rapidement, le nombre de génomes qu elles contiennent est encore trop faible, compte tenu de la diversité des espèces sur la planète. C est ici que la métagénomique comparative entre jeu. L idée derrière ce titre est de comparer les métagénomes issus d échantillons entre eux. Cela permet notamment de mettre en évidence le rôle d une communauté microbienne au sein de son environnement, comment elle impacte ou est impacté par l écosystème environnant ou encore comment elle affecte son hôte (sa santé par exemple). Une comparaison implique donc une mesure de la similarité et plusieurs critères s offrent à nous : la composition des séquences (le contenu génomique), la taille du génome microbien, la taxonomie, le contenu fonctionnel, la diversité phylogénétique (classification selon le degré de parenté)... La taxonomie est le critère de comparaison des métagénomes qui revient généralement le plus souvent. En matière de mesure de similarité basé sur la composition des séquences, les algorithmes BLAST-like sont mondialement utilisés et reconnus comme une valeur sûre. Concrètement, les algorithmes BLAST (Basic Local Alignment Search Tool) [1] se basent sur le principe que des séquences similaires auront un ou plusieurs mots de taille k en commun, dit k-mer. Un algorithme BLAST-like va donc parcourir les k-mers de chacune de séquences requêtes du premier ensemble de séquences. Pour chacun d entre eux, l algorithme va parcourir la base de données indexée du deuxième ensemble de séquences 6
9 à comparer à la recherche de ce k-mer. Lorsqu un alignement de k-mer est trouvé (un hit ), l algorithme effectue un HSP (High Scoring Pair), c està-dire un alignement des séquences supposées similaires des deux ensembles en partant à gauche et à droite du k-mer. Si l alignement est concluant, les séquences sont considérées comme similaires. Cette approche peut-être utilisé dans le cadre de la métagénomique comparative où les ensembles sont deux métagénomes à comparer. Il s agit d une approche très efficace mais malheureusement peu adaptée à la comparaison un à un de métagénomes. En effet, cette méthode n est initialement pas conçue pour cette tâche et ne peut gérer en temps et en mémoire des ensembles de données aussi importants que dans le cadre de la métagénomique. Il existe cependant des algorithmes BLAST-like tel que BLAT [14] (BLAST Like Alignment Tool) qui sont bien plus rapides que BLAST pour la comparaison un à un de génome. Cette méthode diffère de quelques points par rapport à BLAST : BLAT parcourt le génome indexé et non la requête et peut effectuer un HSP sur un hit légèrement inexact. Contrairement à BLAST qui retourne chaque région d homologie entre deux séquences comme des alignements distincts, BLAT les assemblent en un alignement plus grand. Le résultat est que BLAT est bien plus rapide que la plupart des outils d alignements existants et tout aussi précis : l outil prend h CPU pour comparer le génome de l humain avec le génome non assemblé de la souris, ce qui implique environ 7.5 milliards de nucléotides et 15 millions de reads. Une méthode intéressante pour la comparaison de métagénome est le cross-assemblage accompagné de fonctions de distance entre métagénome introduit par Bas E. Dutilh et al. [3] via l outil crass. La première étape est donc le cross-assemblage : il s agit d effectuer un assemblage de novo avec un assembleur classique type Velvet [8] sauf qu ici, on assemble tous les reads issus de chaque échantillon dans un unique métagénome. Le logiciel compte ensuite le nombre de reads issus de chaque échantillon et enfin pour chaque contig du cross-assemblage, le nombre de métagénomes auxquels appartiennent les reads ayant servi à le constituer. Les auteurs proposent ensuite quatre fonctions pour mesurer la distance entre deux métagénomes. Les deux premières servent à mettre en évidence le fait qu une comparaison qualitative de métagénomes peut n avoir aucune valeur. En effet, le nombre de reads de chaque échantillon utilisé pour l assemblage d un contig peut ne pas refléter fidèlement le ratio d abondance de chaque espèce dans la communauté microbienne. De ce fait, ces équations sont des équations de présence/absence de reads. La troisième équation se basent sur la formule statistique de Wootlers (1981) et utilise une mesure de l importance de chaque contig dans chaque échantillon pour caractériser la distance entre ces deux échantillons. La dernière équation reflète la première mais en la différence qu elle se base non pas sur les contigs générés mais sur les reads ayant servi à générer les contigs. En ce sens, cela permet de limiter l impact 7
10 des reads assemblés dans un génome par chance dû à la longueur du read. D autres méthodes sont utilisées pour la comparaison de métagénomes, telles que la PCA (Principal Component Analysis) via l outil SmashCell ( afin d identifier les clusters au sein des données et mettre en évidence les facteurs d influence. Dans le domaine taxonomique, mentionnons l outil MEGAN [6] que nous avions précédemment évoqué pour du binning : celui-ci peut aussi servir pour faire de la comparaison de métagénome. Bien que le logiciel puisse être utilisé avec différents outils de comparaison au niveau des reads, ses concepteurs l ont utilisé avec BLASTX et BLASTZ (des variantes de BLAST) pour l - analyse taxonomique de métagénome. Le logiciel MG-RAST [16] propose une comparaison fonctionnelle des métagénomes et une analyse fondée sur les séquences. UniFRac [9] est aussi un logiciel proposant des comparaisons de métagénomes basés sur la phylogénie. Galaxy [12] est un système de gestion de workflow bioinformatique (permettant d automatiser une suite d opérations à effectuer sur des données) qui peut-être utilisé pour récupérer des informations taxonomique à partir d un alignement effectué par un algorithme type BLAST. Le projet CAMERA [20] met à disposition en ligne un peu plus de 70 métagénomes ainsi que les outils nécessaires pour les analyser, incluant des outils pour comparer les séquences de l utilisateur (dans notre cas un métagénome) contre l un des 70 métagénomes (BLAST). 2.3 Compareads Dans cette partie de la bibliographie, nous détaillerons un peu plus un outil très récent nommé Compareads [18] entièrement dédié à la comparaison de métagénomes. Les spécificités de cet outil sont d une part d avoir une comparaison entièrement basé sur le contenu des séquences, et d autre part d être actuellement le seul à pouvoir gérer en un temps raisonnable (quelques heures) des ensembles de données très importants dans un espace mémoire limité (100 millions de reads Illumina avec 4GB de mémoire vive) Principe Nous avions précédemment évoqué la notion de k-mers qui sont utilisés par exemple pour les algorithmes BLAST-like. Introduisons donc maintenant la notion de similarité utilisée par Compareads. Définition 1 : Pour deux entiers k et t, deux séquences s 1 et s 2 sont dites similaires si et seulement si elles partagent au moins un nombre t de k-mers qui ne se chevauchent pas. 8
11 L algorithme se déroule en deux étapes : la phase d indexation et la phase de requête. Pour deux métagénomes A et B, la phase d indexation consiste à indexer tous les k-mers chevauchants de B. Nous reviendrons plus tard sur la structure permettant d indexer ces k-mers en un espace mémoire limité. Les reads de A sont ensuite parcourus et quand t hits de k-mers entre le read analysé de A et les reads de B apparaissent, le read est stocké dans l ensemble A B. La notation A B est utilisée et non A B car il s agit d une heuristique ayant pour résultat une sur-approximation de A B (voir et 2.3.4). Pour limiter l espace mémoire et contrôler l erreur d approximation dûe à l heuristique, on indexe seulement un nombre limité n de k-mers de B, puis on effectue la phase de requête sur tout le métagénome A. On réitère ce processus jusqu à ce que tout le métagénome B soit indexé. L union de tous les A B est retourné. Cependant, calculer A B est asymétrique. Pour que la comparaison soit totale et symétrique, calculer les reads de A qui sont similaires à ceux de B n est pas suffisant, il faut aussi calculer ceux de B qui sont similaires dans A, c est-à-dire B A. En pratique, des effets de bords dûes à l heuristique nous pousse à appliquer un processus un peu plus complexe qui sera expliqué en Cet algorithme a une complexité de O(n B ) pour l indexation et O(n A + n Bn ) pour la phase de requête (n A et n B sont le nombre de reads respectifs des métagénomes A et B, n le nombre de k-mers que l on indexe à chaque itération) Structure utilisée La structure qui est utilisée pour cet algorithme est une structure probabiliste à base de filtre de Bloom. Celui-ci s avère particulièrement efficace lorsqu il s agit de stocker dans un espace mémoire de taille fixée des données. Il consiste en un tableau de m bits, tous initialisés à 0, et un ensemble de fonction de hachage. Lorsque l on souhaite stocker un k-mer dans ce tableau, tous les bits associés à ce k-mer via les fonctions de hachage passent à 1. Pour tester la présence d un k-mer dans ce tableau, il suffit de regarder si tous ses bits sont à 1. Si ce n est pas le cas, le k-mer n est pas présent. L inconvénient de cette méthode est qu elle génère des faux-positifs : un k-mer absent de la structure peut voir tous ses bits à 1 à cause de l ajout d autres k-mers. Le taux de faux-positifs, qui correspond à la probabilité qu un k-mer soit prédit présent dans la structure alors que ce n est pas le cas est estimé en utilisant une approximation asymptotique de m/n (m bits, n éléments insérés). ln 2 (m/n) fonctions de hachage seront utilisées [10]. Le nombre m de bits nécessaires est de (nlog 2 e log 2 (1/ɛ)) pour un taux de faux-positifs ɛ. 9
12 La structure que nous utilisons ici sera nommée BDS (Bloom Data Structure). BDS ne propose pas un tableau de bits unique mais un tableau de bits par fonction de hachage (disjointes les unes des autres) Fonctions de hachage Les fonctions de hachage doivent être très rapides à calculer, c est pourquoi ces fonctions de hachage sont de type présence/absence. Sept fonctions sont proposées : les trois premières sont dites balancées (équation 1) et les quatres dernières non balancées (équation 2). Les fonctions non balancées génèrent moins de faux positifs que les balancées. Cela est dû au fait que les fonctions balancées distribuent plus uniformément que les fonctions non balancées les codes de hachage sur le tableau de 2 k bits. L avantage des fonctions balancées est qu aucune d elles ne peut générer un code de hachage pour un k-mer identique à une autre fonction balancée : elles sont indépendantes et de ce fait, utiliser ces trois fonctions est très efficace pour réduire le taux de faux positifs. Les assertions précédentes ne tiennent plus pour les fonctions non balancées et le taux de faux-positifs en utilisant les sept fonctions de hachage est presque similaire à celui utilisant quatre fonctions (trois balancées et une non balancées ). Aussi Compareads n utilise que quatre fonctions de hachage et non sept Gestion des faux-positifs lors du calcul de A B et B A Lors du calcul de A B, on cherche pour chaque read de A si B partage t k-mers avec lui et non pas si B a au moins un read qui partage t k-mers avec lui, ce qui est moins rigoureux. Le problème vient du fait que deux k-mers (ou plus) d un read de A peuvent se situer sur deux reads différents dans B (ou plus), ce qui constitue un faux-positif. Ce problème peut-être limité mais pas résolu en effectuant les étapes suivantes pour le calcul de A B et B A (un exemple est donné en Figure 2) : Calculer A B, stocker les résultats dans (A B) Calculer B (A B) ), stocker les résultats dans B A Calculer A (A A)), stocker les résultats dans A B 10
13 Figure 2 Processus de calcul de A B et B A issu de [18]. Il s agit des trois étapes permettant la comparaison symétrique des ensembles de reads A et B. Dans chaque ensemble, un read correspond à une ligne horizontal et un k-mer correspond à un rectangle Choix des paramètres Utiliser quatre fonctions de hachage (trois balancées et une non balancée ) permet d améliorer très légèrement le taux de faux-positifs de la BDS par rapport à l utilisation des sept fonctions. De surcroit, la mémoire se voit réduite à 4*2 k bits au lieu de 7*2 k bits. Un autre paramètre intéressant est la taille de k. En effet, plus k est long, moins le taux de faux-positifs est élevé mais plus la taille de la BDS grossit. Le compromis entre taille de la BDS et taux de faux-positifs est trouvé en prenant k=33, ce qui permet d indexer jusqu à un milliard de 33-mers en assurant un taux de faux-positifs théorique d au plus 0.13%. Compareads n utilise alors que 4GB de mémoire Calcul de la similarité La mesure de la similarité est calculée comme ceci : A B + B A A + B où X représente la cardinalité de l ensemble X Résultats Comparé à un tableau de suffixes afin d indexer un milliard de 33-mers, le tableau de suffixes tient en 4.66GB de mémoire mais le temps de requête, en O(k log n) est plus long. Une table de hachage utiliserait dans les mêmes conditions 16.5 GB de mémoire. Sur un jeu de cent millions de reads de longueur 100bp, comparé à une fonction de hachage connue et performante en utilisant des 33-mers, les fonctions de hachage développées précédemment sont en moyenne 10 fois plus rapide à calculer. Compareads a été comparé à une approche utilisant BLAST sur un ensemble de 15 métagénomes contenant en moyenne reads et
14 nucléotides par read. BLAST a été utilisé pour chercher des alignements d aux moins 80 nucléotides avec 90% de similarité entre eux. Compareads a servi à chercher pour t =1, 4 et 10 des 33-mers. Pour chaque comparaison de métagénome, Compareads est environ 30 fois plus rapide que BLAST. Enfin, Compareads a été testé dans le cadre de projet GOS (Global Ocean Sampling) sur 44 échantillons d eau de mer d environ reads en moyenne par échantillon et 1249 nucléotides par read. Les 990 comparaisons de métagénomes ont été effectuées en 72 heures sur un processeur mono-coeur. Les résultats trouvés sont très similaires à ceux de la publication d origine et permettent de retrouver la classification d origine des métagénomes selon leurs lieux d échantillonage (séparés de plusieurs milliers de kilomètres). 3 Conclusion La métagénomique est un domaine en pleine expansion et qui promet de nombreuses découvertes dans les années à venir. Nous avons pu constater que la métagénomique comparative est un domaine qui reste encore peu développé. Compareads apporte une grande pierre à l édifice pour la comparaison de métagénomes un à un. Cependant, des méthodes de traitement permettant de gérer plus de données en un temps raisonnable sont nécessaires. Tara Oceans est une expédition débutée en 2009 [5] durant laquelle ont été pris de nombreux échantillons le long des kilomètres du périple. Un millier de métagénomes sont attendus et en utilisant Compareads, à raison d environ 10h par comparaison entre deux métagénomes sur un processeur 50 coeurs, pas moins de 578 années seront nécessaires pour faire la comparaison entre tous les métagénomes. Compareads est actuellement l outil le plus adapté pour cette tâche mais malgré sa rapidité, il ne possède pas la scabilité nécessaire pour traiter des données à cette échelle. Il est donc nécessaire de concevoir des méthodes spécifiques à la comparaison métagénomique all-vs-all. De telles méthodes n existent actuellement pas et feront ainsi l objet de ce stage au sein de l équipe GenScale de l INRIA de Rennes. 4 Glossaire Base de données : Entité informatique permettant de stocker l information (les données) de façon structurée. Nucléotides : Molécules organiques qui forment la base de l ADN et l ARN. Ils sont au nombre de 4 pour l ADN et l ARN, représentés par les lettres A, C, G et T/U (T pour l ADN, U pour l ARN). ORF (Open Reading Frame) : un ORF correspond à une séquence d ARN commençant et terminant par un codon-stop, et entre lesquels un 12
15 certain nombre de codons codent potentiellement une protéine. Un codon correspond à une séquence de trois nucléotides sur de l ARNm, tandis qu un codon-stop est l un des trois codons marquants la fin de la traduction d un gène en protéine. OTU (Operational Taxonomic Unit) : Niveau taxonomique de l échantillon en tant qu individu, population, espèce, genre ou souche bactérienne. Phylogénie : Etude des relations de parentés entre différents êtres vivants. Taxonomie (dit aussi taxinomie) : science qui a pour objet de décrire les organismes vivants et de les regrouper en entités appelées taxons afin de les identifier puis les nommer et enfin les classer. Références [1] Miller Wg et al Altschul SF, Gish W. Basic local alignment search tool. Journal of Molecular Biology, 215 : , [2] Stupka E et al Aparicio S, Chapman J. Whole-genome shotgun assembly and analysis of the genome of fugu rubripes. Science, 297 : , [3] Jim Nulton et al Bas E. Dutilh, Robert Schmieder. Referenceindependent comparative metagenomics using cross-assembly : crass. Bioinformatics, 28 : , [4] Andrzej Tretyn Chandra Shekhar Pareek, Rafal Smoczynski. Sequencing technologies and genome sequencing. Journal of Applied Genetics, 52 : , [5] Karsenti E. Towards an oceans systems biology. Molecular Systems Biology, 8(575) :1 2, [6] Huson DE et al. Megan analysis of metagenomic data. Genome Research, 17 : , [7] Kennedy et al. Marine metagenomics. new tools for the study and exploitation of marine microbial metabolism. Marine Drugs, 8, [8] Zerbino DR et Birney E. Velvet : algorithms for de novo short read assembly using de bruijn graphs. Genome Research, 18 : , [9] Lozupone C et Knight R. Unifrac : a new phylogenetic method for comparing microbial communities. Applications to Environnemental Microbiology, 71 : , [10] Broder A et Mitzenmacher M. Network applications of bloom filters : A survey. Internet Mathematics, 1(4) : , [11] Aristide Patrinos Francis S. Collins, Michael Morgan. The human genome project : Lessons from large scale biology. Science 11, 300 : , Avril
16 [12] Hardison RC et al Giardine B, Riemer C. Galaxy : a platform for interactive large-scale genome analysis. Genome Research, 15 : , [13] Iddo Friedberg John C. Wooley, Adam Godzik. A primer on metagenomics. PLoS Computational Biology, 6, Février [14] W. James Kent. Blat : The blast-like alignment tool. Genome Research, 12 : , [15] Barry K et al Mavromatis K, Ivanova N. Use of simulated data sets to evaluate the fidelity of metagenomic processing methods. Nat. Methods, 4 : , [16] D Souza M et al Meyer F, Paarmann D. The metagenomics rast server - a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 9 :386, [17] Delcher AL et al Myers EW, Sutton GG. A whole-genome assembly of drosophila. Science, 287 : , [18] Rayan Chikhi. Dominique Lavenier et Pierre Peterlongo Nicolas Maillet, Claire Lemaitre. Compareads : comparing huge metagenomic experiments. BMC Bioin,formatics, 13 :doi : / S19 S10, [19] Marco A. Marra Olena Morozova. Applications of next-generation sequencing technologies in functional genomics. Genomics, 92 : , [20] Smarr L et al Seshadri R, Kravitz SA. Galaxy : a platform for interactive large-scale genome analysis. PLoS Biology, 5 :e75. doi : /journal.pbio ,
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche
Plus en détailBig data et sciences du Vivant L'exemple du séquençage haut débit
Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme
Plus en détailAnalyse des données de séquençage massif par des méthodes phylogénétiques
Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement
Plus en détailDÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION
DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION PRINCIPES DE BASE SUR LES DONNEES ET LE CALCUL HAUTE PERFORMANCE Lois de Gray sur l ingénierie des données 1 : Les calculs scientifiques traitent des volumes considérables
Plus en détailCHAPITRE 3 LA SYNTHESE DES PROTEINES
CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés
Plus en détaile-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
Plus en détailMise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC
Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens
Plus en détailDr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires
Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique
Plus en détailUTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailMaster de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Plus en détailIntrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?
Les Rencontres de l Inra au Salon de l agriculture Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Lundi 23 février 2015 Programme 14h30
Plus en détailIntroduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/
Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/ SupAgro, Montpellier, 10 février 2014 Le déluge de données NGS Next-generation sequencing Rappel: synthèse de l ADN 5
Plus en détailGénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection
Plus en détail3: Clonage d un gène dans un plasmide
3: Clonage d un gène dans un plasmide Le clonage moléculaire est une des bases du génie génétique. Il consiste à insérer un fragment d'adn (dénommé insert) dans un vecteur approprié comme un plasmide par
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailVision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailMétriques de performance pour les algorithmes et programmes parallèles
Métriques de performance pour les algorithmes et programmes parallèles 11 18 nov. 2002 Cette section est basée tout d abord sur la référence suivante (manuel suggéré mais non obligatoire) : R. Miller and
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailGalaxy Training days. Liste des sessions disponibles : http://bioinfo.genotoul.fr. Les formateurs :
-- 1 -- Galaxy Training days Durée / Programme : 3 journées. Galaxy : First step. Galaxy : Reads alignment and SNP calling. Galaxy : RNAseq alignment and transcripts assemblies. Public : Personnes souhaitant
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailIndexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!
Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)
Plus en détailLe montant des garanties constituées aux fins du STPGV est-il excessif?
Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements
Plus en détailStages de recherche dans les formations d'ingénieur. Víctor Gómez Frías. École des Ponts ParisTech, Champs-sur-Marne, France
Stages de recherche dans les formations d'ingénieur Víctor Gómez Frías École des Ponts ParisTech, Champs-sur-Marne, France victor.gomez-frias@enpc.fr Résumé Les méthodes de l ingénierie ont été généralement
Plus en détailIndexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!
Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailSéquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.
Sommaire Séquence 6 Nous avons vu dans les séances précédentes qu au cours des temps géologiques des espèces différentes se sont succédé, leur apparition et leur disparition étant le résultat de modifications
Plus en détailProblèmes arithmétiques issus de la cryptographie reposant sur les réseaux
Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux Damien Stehlé LIP CNRS/ENSL/INRIA/UCBL/U. Lyon Perpignan, Février 2011 Damien Stehlé Problèmes arithmétiques issus de la cryptographie
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailLes Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16
Les Biolangages Thierry Lecroq Université de Rouen FRANCE 2008 2009 Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 BioPerl Ensemble de modules Perl Utilise la programmation objet L objectif est de mettre
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailDans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.
Résumé L expansion du secteur de la technologie de l information et des communications (TIC) a rendu nécessaire un plus grand nombre d indicateurs économiques propres à ce secteur. La Division des prix
Plus en détail2.0 Interprétation des cotes d évaluation des risques relatifs aux produits
2.0 Interprétation des cotes d évaluation des risques relatifs aux produits L interprétation des cotes attribuées dans le cadre des évaluations des risques relatifs aux produits décrite plus loin repose
Plus en détailNombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailÉvaluation et optimisation de requêtes
Évaluation et optimisation de requêtes Serge Abiteboul à partir de tranparents de Philippe Rigaux, Dauphine INRIA Saclay April 3, 2008 Serge (INRIA Saclay) Évaluation et optimisation de requêtes April
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailINTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique
Plus en détailAnalyse des bruits de clavier d ordinateur
Analyse des bruits de clavier d ordinateur Introduction 1 Enregistrement des bruits de clavier 2 Analyse des bruits de clavier 3 Analyse du niveau de pression acoustique vs. temps 4 Sonie vs. temps 4 Acuité
Plus en détailMieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE
Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE sommaire MIEUX COMPRENDRE LES CERTIFICATS SSL...1 SSL et certificats SSL : définition...1
Plus en détailMASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)
MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES
Plus en détailUne histoire sans fin. Rockpanel certifié BRE Global A+ / A
Une histoire sans fin Rockpanel certifié BRE Global A+ / A Rockpanel : la durabilité dans les gènes Le Groupe Rockpanel fait partie de Rockwool International, de par nature, attache une importance primordiale
Plus en détailDr YAO Kouassi Patrick www.yaopatrick.e-monsite.com
Notion de Bases de données et Gestion de données biologiques Dr YAO Kouassi Patrick www.yaopatrick.e-monsite.com Notion de base de données Une base de données est une collection de données interdépendantes
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détailManuel de System Monitor
Chris Schlaeger John Tapsell Chris Schlaeger Tobias Koenig Traduction française : Yves Dessertine Traduction française : Philippe Guilbert Traduction française : Robin Guitton Relecture de la documentation
Plus en détailCOMMENTAiRES/ DECISIONS
Plate-forme d'échanges affichage environnemental des PGC Date : 2009-12-21 Assistante: Lydia GIPTEAU Ligne directe : + 33 (0)1 41 62 84 20 Lydia.gipteau@afnor.org GT Méthodologie Numéro du document: N
Plus en détailDéfinitions. Numéro à préciser. (Durée : )
Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.
Plus en détailComprendre l Univers grâce aux messages de la lumière
Seconde / P4 Comprendre l Univers grâce aux messages de la lumière 1/ EXPLORATION DE L UNIVERS Dans notre environnement quotidien, les dimensions, les distances sont à l échelle humaine : quelques mètres,
Plus en détailModélisation du virus informatique Conficker
Mini Projet Calcul Scientifique Modélisation du virus informatique Conficker Worm Defender Engineering Bellot Guillaume Cornil Yoann Courty Arnaud Goldenbaum David Pascal Louis ESILV S4 Introduction :
Plus en détailTHEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE
THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE 1. RAPPEL: L ATOME CONSTITUANT DE LA MATIERE Toute la matière de l univers, toute substance, vivante ou inerte, est constituée à partir de particules
Plus en détailComment expliquer ce qu est la NANOTECHNOLOGIE
Comment expliquer ce qu est la NANOTECHNOLOGIE Vous vous souvenez que tout est constitué d atomes, non? Une pierre, un stylo, un jeu vidéo, une télévision, un chien et vous également; tout est fait d atomes.
Plus en détailConcevoir et déployer un data warehouse
Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailLES DECIMALES DE π BERNARD EGGER
LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,
Plus en détailRappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Plus en détailNe laissez pas le stockage cloud pénaliser votre retour sur investissement
Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de
Plus en détailModule Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique
Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailComment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,
Plus en détailVision prospective et obstacles à surmonter pour les assureurs
smart solutions for smart leaders Le «Big Data» assurément Rédigé par Pascal STERN Architecte d Entreprise Vision prospective et obstacles à surmonter pour les assureurs Un avis rendu par la cour de justice
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailService On Line : Gestion des Incidents
Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailL ENERGIE CORRECTION
Technologie Lis attentivement le document ressource mis à ta disposition et recopie les questions posées sur une feuille de cours (réponds au crayon) : 1. Quelles sont les deux catégories d énergie que
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailBig data : vers une nouvelle science des risques?
Big data : vers une nouvelle science des risques? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques 1 Organisation Big data en bref
Plus en détailJournée SITG, Genève 15 octobre 2013. Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique
Monitorint spatio-temporel intégré de la mobilité urbaine Monitoring spatio-temporel de l ADN urbain Une réponse aux défis, problèmes, enjeux et risques des milieux urbains Nicolas Lachance-Bernard M.ATDR
Plus en détailCOURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume
COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation
Plus en détailCellules procaryotes Service histologie Pr.k.mebarek
Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes
Plus en détailLa sécurité dans un réseau Wi-Fi
La sécurité dans un réseau Wi-Fi Par Valérian CASTEL. Sommaire - Introduction : Le Wi-Fi, c est quoi? - Réseau ad hoc, réseau infrastructure, quelles différences? - Cryptage WEP - Cryptage WPA, WPA2 -
Plus en détailDocument d information n o 1 sur les pensions
Document d information n o 1 sur les pensions Importance des pensions Partie 1 de la série La série complète des documents d information sur les pensions se trouve dans Pensions Manual, 4 e édition, que
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailLa sécurité dans les grilles
La sécurité dans les grilles Yves Denneulin Laboratoire ID/IMAG Plan Introduction les dangers dont il faut se protéger Les propriétés à assurer Les bases de la sécurité Protocoles cryptographiques Utilisation
Plus en détailArithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot
Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,
Plus en détailANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE
562 ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE 563 TABLE DES MATIÈRES ANNEXE J... 562 POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailCréation WEB avec DreamweaverMX
Creation Web avec DreamweaverMX MX Initiation Sommaire.preparation.mise en forme.liens hypertextes.images.liens sur images.images avec zones sensibles.images survolees.liens de type courriel.apercu dans
Plus en détailAnnexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document
Plus en détailPourquoi disposer d un site Internet mobile n est qu un début
Edition Spéciale 2 Intelligence Applied 1 Avoir un site «responsive design» ou adapté aux mobiles constitue un grand pas en avant. Il ne doit cependant pas être considéré comme le substitut à une véritable
Plus en détailLes capitalistes sociaux sur Twitter : détection via des mesures de similarité
Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Nicolas Dugué, Anthony Perez LIFO - Université d Orléans rue Léonard de Vinci B.P. 6759 F-45067 ORLEANS Cedex 2 FRANCE RÉSUMÉ.
Plus en détailInitiation à LabView : Les exemples d applications :
Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple
Plus en détailDétection et prise en charge de la résistance aux antirétroviraux
Détection et prise en charge de la résistance aux antirétroviraux Jean Ruelle, PhD AIDS Reference Laboratory, UCLouvain, Bruxelles Corata 2011, Namur, 10 juin 2011 Laboratoires de référence SIDA (Belgique)
Plus en détailIBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur
IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.
Plus en détailIntroduction à l informatique temps réel Pierre-Yves Duval (cppm)
Introduction à l informatique temps réel Pierre-Yves Duval (cppm) Ecole d informatique temps réel - La Londes les Maures 7-11 Octobre 2002 -Définition et problématique - Illustration par des exemples -Automatisme:
Plus en détailFluorescent ou phosphorescent?
Fluorescent ou phosphorescent? On entend régulièrement ces deux termes, et on ne se préoccupe pas souvent de la différence entre les deux. Cela nous semble tellement complexe que nous préférons rester
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailLes OGM. 5 décembre 2008. Nicole Mounier
Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert
Plus en détailEco-système calcul et données
Eco-système calcul et données M. Daydé Dr du Comité d'orientation pour le Calcul Intensif (COCIN) Délégué Scientifique INS2I en charge HPC / Grille / Cloud Calcul / données : un enjeu stratégique Calcul
Plus en détailChapitre 7. Récurrences
Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,
Plus en détailFormavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...
Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au
Plus en détailNOUS SOMMES SUISSE AU NOM DE VOS VALEURS NOUS SOMMES SUISSE DEPUIS
HONEGGER SA gestion d immeubles et prestations NOUS SOMMES SUISSE AU NOM DE VOS VALEURS NOUS SOMMES SUISSE DEPUIS 1948 HONEGGER NOUS SOMMES SUISSE DEPUIS 1948 HONEGGER Image de gauche: anciens bus de nettoyage
Plus en détailM. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n. 41.002-SEVILLA (Espagne). mfpita@cica.
Un nouvel indice de sécheresse pour les domaines méditerranéens. Application au bassin du Guadalquivir (sudo-uest de l Espagne). En: Un nouvel indice de sécheresse pour les domaines méditerranéens. Application
Plus en détail