présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :
|
|
- Julie Fortier
- il y a 8 ans
- Total affichages :
Transcription
1 N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale : Composante universitaire : INSERM Unité 522, Rennes Vie-Agronomie-Santé Université de Rennes 1, S.V.E. TITRE DE LA THÈSE : INTÉGRATION DE DONNÉES POUR L ANALYSE DE TRANSCRIPTOME : MISE EN ŒUVRE PAR L ENTREPÔT GEDAW (GENE EXPRESSION DATA WAREHOUSE) SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d Examen COMPOSITION DU JURY : M P. BESSIÈRES Directeur de Recherches à l INRA, Jouy en Josas Rapporteur M me M.D. DEVIGNES Chargée de Recherches au LORIA, Nancy Rapporteur M J. LÉGER Directeur de Recherches à l INSERM Unité 533, Nantes Examinateur M me F. MOUSSOUNI Maître de Conférences à l Université de Rennes 1 Examinateur M D. LAVENIER Directeur de Recherches à l IRISA, Rennes Co-Directeur de thèse M me C. GUILLOUZO Directeur de Recherches à l INSERM Unité 522, Rennes Directeur de thèse
2 REMERCIEMENTS Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse. Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m avoir fait part de ses remarques pour mener à bien mes recherches. Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m avoir accueillie si chaleureusement dans son équipe de recherche. Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d avoir accepter d examiner mon travail. J exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l aboutissement de ma thèse. Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m avoir si bien initiée à l informatique et de m avoir toujours fait confiance. Merci à tous les membres de l INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe «Fer Foie», pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail. Merci à Claude Boisseau et Christian Delamarche avec qui j ai eu l honneur de travailler dans le cadre de mes enseignements dispensés à l Université de Rennes 1. Merci de m avoir si bien accueillie dans vos équipes et de m avoir donné goût à l enseignement. Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales. Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical. A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine. Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants. Merci à Michel, Christine, Galou et Sara pour votre soutien permanent. A mes parents, merci de m avoir encouragée à faire des études, je crois que c est chose faite. Merci à vous ainsi qu à François et Charlotte pour le réconfort familial permanent que vous m apportez, et ce malgré la distance. A Yohann, d être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m ont rassuré et permis d avancer durant ces quatre années de thèse. Ton attention et ta patience au cours de ces derniers mois auront été remarquables.
3 SOMMAIRE
4 INTRODUCTION I. DE L AVÈNEMENT DE LA POST-GÉNOMIQUE À L EXPLOSION DES SOURCES DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE Naissance de la génomique Séquençage des génomes Prochain enjeu : donner un sens au génome Identifier les gènes Rechercher la fonction des gènes Besoin de la post-génomique LA PROFUSION DES SOURCES DE DONNÉES Naissance des banques généralistes Émergence des banques spécialisées... 9 II. VERS L INTÉGRATION DES SOURCES DE DONNÉES DES DONNÉES AUX CONNAISSANCES LES DÉFIS DE L INTÉGRATION DE DONNÉES BIOLOGIQUES Diversité des données biologiques à intégrer Autonomie et hétérogénéité des sources de données Autonomie des sources Hétérogénéité des sources ÉLÉMENTS DE STANDARDISATION XML Définition Utilisation de XML en bioinformatique Ontologies Définitions d Ontologie Ontologies dans le domaine biomédical Nomenclature fournie par le HGNC III. LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE POINTS DE VARIATION ENTRE LES APPROCHES D INTÉGRATION Formats des données intégrées : structurées, semi-structurées ou non-structurées Intégration serrée versus intégration lâche L intégration serrée L intégration lâche Le modèle de données du système d intégration Les types d intégration sémantique Le niveau de transparence Ascendante (Bottom-up) versus descendante (top-down) Intégration virtuelle versus matérialisée Accès aux données LES APPROCHES EN BIOINFORMATIQUE L approche non matérialisée La médiation L approche navigationnelle L approche matérialisée : entrepôt de données Principe de l approche entrepôt de données Les entrepôts de données en bioinformatique DISCUSSION SUR LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE IV. INTÉGRATION POUR L ANALYSE DU TRANSCRIPTOME PUCES À ADN POUR L ANALYSE DE TRANSCRIPTOME Définition des puces à ADN Principe des puces à ADN pour l étude du transcriptome... 63
5 1.3. Technologies des puces à ADN ÉTAPES REQUISES POUR L ANALYSE DES DONNÉES Acquisition des données d expression Traitement des images par logiciel d analyse d images Traitement des données primaires Mise en évidence de gènes différentiellement exprimés Gestion et partage des données Gestion des données Partage des données Analyse des données d expression Classification des données d expression Extraction de connaissance CADRE ET BUTS DU TRAVAIL Page BIOMEKE I. BIOMEKE POUR L ANNOTATION BIOMÉDICALE DE GÈNES INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE 1 79 BioMeKE: a UMLS-based system useful for biomedical annotation of genes L'ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L ENTREPÔT GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Data warehouse approach to extract knowledge from microarray data DISCUSSION Pages GLOSSAIRE Pages BIBLIOGRAPHIE Pages RÉFÉRENCES INTERNET Pages LISTE DES PUBLICATIONS PERSONNELLES Pages
6 INDEX DES FIGURES ET DES TABLES FIGURES Figure 1... page 2 La double hélice d ADN Figure page 4 Objectif de la détection de gènes Figure 3....page 6 Le fonctionnement cellulaire : de l ADN aux protéines Figure 4....page 9 Croissance de la banque de données GenBank de 1982 à 2004 Figure page 20 Extrait du graphe orienté acyclique de Gene Ontology Figure page 22 Domaines biomédicaux intégrés dans l UMLS Figure page 23 Représentation schématique de la transferrine dans l UMLS Figure page 27 Exemple de résultat de requête effectuée sur Genew Figure page 33 Architecture d un système médiateur Figure page 34 Les approches GAV (Global As View) et LAV (Local As View) Figure page 37 Connection entre deux sources via une référence Figure page 38 Graphe de liens entre les sources du NCBI Figure page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13 Figure page 41 Exemple de schéma de médiation Figure page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données Figure page 46 Architecture d un entrepôt de données
7 Figure page 47 Architecture des données dans un entrepôt Figure 18 page 48 Exemple de cube de données Figure page 49 Les différents schémas pour la représentation de données multidimensionnelles Figure 20 page 51 La rotation Figure page 51 L extraction Figure page 52 Application des opérations roll-up et drill-down sur la dimension Protéine Figure page 54 Vue opérationnelle des composants utilisés pour la construction d entrepôts de données Figure page 58 Schéma étoile de Columba Figure page 63 Principe de l étude de transcriptome par la technologie des puces à ADN Figure page 68 Relations entre les projets MIAME, MAGE et MGED Ontology TABLES Table page 10 Catégories de banques de données Table page 14 Conflit nom d attribut valeur d attribut Table page 21 Origine de l annotation des produits de gènes Table page 25 Liste des ontologies biomédicales OBO Table page 60 Table récapitulative des systèmes d intégration décrits en section III.2 et de leurs points de variation
8 ABRÉVIATIONS ADN: Acide DésoxyriboNucléique ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface ARN: Acide RiboNucléique ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1 BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology CPL: Collection Programming Language CUI: Concept Unique Identifier DAG: Directed Acyclic Graph dbest: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX GO: Gene Ontology GOA: Gene Ontology Annotation GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project HTML: HyperText Markup Language HUGO: Human Genome Organisation ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View MAGE-ML: MicroArray and Gene Expression-Markup Language
9 MeSH: Medical Subject Headings MGD :Mouse Genome Database MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank RDF: Resource Description Framework RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire) ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database SMD: Stanford Microarray Database SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology UBC: University of British Columbia UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: extensible Markup Language
10 INTRODUCTION
11 I. DE L AVÈNEMENT DE LA POST- GÉNOMIQUE À L EXPLOSION DES SOURCES 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE 1.1. NAISSANCE DE LA GÉNOMIQUE La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927). Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM ) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'adn (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'adn par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1). 1
12 Figure 1 - La double hélice d ADN (extrait de U.S. Department of Energy Office of Science 1 ) La double hélice d ADN se compose d une suite de nucléotides*. Chaque nucléotide est dénommé par l initiale du nom de la base azotée spécifique qui le compose, et l information portée par le génome est contenue dans ce long texte près de 4 milliards pour l homme, écrit dans l alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s est opéré en biologie. Savoir que l information génétique de tout organisme vivant est contenue dans une séquence nucléique, l ADN, ouvre les portes de nombreuses recherches en génétique. Depuis les dernières trente années, avec l essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d isoler, de cloner et de séquencer les gènes SÉQUENÇAGE DES GÉNOMES Le séquençage des acides nucléiques débute en 1977 avec l apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d amplification génétique ou PCR* (Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain. L'objectif du déchiffrage de notre «patrimoine génétique» et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et 1 2
13 thérapie géniques, nouveaux médicaments...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization 2 ) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989). En 1990, le Projet Génome Humain (HGP 3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE 4 (Department Of Energy) et la NIH 5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d organismes modèles. En 1995, l équipe de Craig Venter au TIGR 6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000). En 1998, Craig Venter, PDG de l entreprise Celera Genomics, annonce le séquençage du génome humain pour Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour C est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004) PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME La mise à disposition publique des séquences de génomes marque le début d un long travail d analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d un point de vue biologique, il s agit de l annotation des génomes. Cette annotation exhaustive requiert l aide de solutions bioinformatiques (Lewis et al., 2000), et n est pas triviale (Claverie et al., 1997)
14 Identifier les gènes Il faut dans un premier temps identifier les gènes contenus dans les génomes, c est ce qu on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l ensemble des protéines potentiellement produites à partir d une séquence d ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l origine de la production des protéines. Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5 du gène. Les régions transcrites sont composées d exons et d introns, les derniers étant éliminés au cours de l épissage* conduisant à la production de l ARNm mature. Dans l ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d initiation de la traduction* (UTR 5 ) et en aval du site de terminaison de la traduction* (UTR 3 ). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l expression génique (Mignone et al., 2002). A l intérieur ou à l extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l épissage, la polyadénylation* (sites polya) et la traduction* (site d initiation de la traduction, codons STOP). Un logiciel de détection de gène prend en entrée une séquence d ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2). Figure 2 Objectif de la détection de gènes A partir d une séquence génomique brute (en haut), identifier sa structure génique (en bas). Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002). On distingue les méthodes extrinsèques qui utilisent la recherche d homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI 7 (National Center for Biotechnology Information) (Altschul et al., 1990). Aujourd hui de nombreux programmes sont disponibles, la plupart d entre eux sont référencés sur le site Web maintenu à jour par Wentian Li ( 7 * Les termes associés à une astérisque sont définis dans le glossaire 4
15 Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002). A l issue du séquençage, le nombre de gènes constituant notre génome a été estimé à (Hogenesch et al., 2001), même si aujourd hui de nouvelles estimations réduisent ce chiffre à (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'adn ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes Rechercher la fonction des gènes La démarche suivie pour découvrir la fonction d un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction. La comparaison du génome humain avec celui d organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l origine d hypothèses sur la fonctions de gènes (Jackson, 2001). Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l ensemble des informations disponibles sur le gène étudié et son environnement. C est là tout l apport de l intégration de données, développé tout au long de ce manuscrit Besoin de la post-génomique Le manque d homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001). De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos). C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s exprime. Il faut de plus caractériser l activité des protéines produites ainsi que leurs interactions. La post génomique passe par l étude du transcriptome* et du protéome*, définissant respectivement l ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données. 5
16 Figure 3 Le fonctionnement cellulaire : de l ADN aux protéines (extrait de U.S. Department of Energy Office of Science) L expression des gènes débute dans le noyau par la production d ARNm à partir de l ADN. C est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique Analyser le transcriptome A l inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l homme, sur environ ARNm transcrits, seuls à sont exprimés dans une cellule spécialisée, et parmi ces transcrits, à semblent spécifiques de ce type cellulaire. Ainsi, l étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules. Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d identifier et de localiser une séquence nucléotidique (respectivement l ADN et l ARN) dans un génome entier, ou tout mélange complexe d ADN (Southern, 1975). Ces techniques se limitent à l analyse d un petit nombre de gènes et ne permettent pas d appréhender la complexité au niveau cellulaire. Aussi, d autres techniques plus globales permettant l analyse de l expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l étude du niveau d expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d étudier la séquence des gènes, les mutations et le polymorphisme. 6
17 Analyser le protéome Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d autant vrai que le niveau des ARNm n est pas toujours corrélé avec le niveau des protéines, et que l analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit. Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de «double hybride*» est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989) Simuler les réseaux d interaction Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules Prédire la structure tridimensionnelle des protéines La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB 8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model 9 (Schwede et al., 2003), Geno3D 10 (Combet et al., 2002)
18 2. LA PROFUSION DES SOURCES DE DONNÉES Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l annotation des génomes, les technologies de gestion de l information et de l Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données NAISSANCE DES BANQUES GÉNÉRALISTES Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l amélioration des techniques de séquençage. L EMBL 11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH 12 (National Institute of Health), la banque nucléique GenBank 13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ 14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences. Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l influence du NBRF 15 (National Biomedical Research Foundation) est la PIR- PSD 16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot 17, constituée à l université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB 18 (Swiss Institute of bioinformatics), l EBI 19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt 20 (Universal Protein Resource) (Bairoch et al., 2005)
19 2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées. Figure 4 Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank) Il s agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d expression des gènes, de données protéomiques ou immunologiques. 9
20 Catégorie Exemple Nom ou description URL GenBank Toutes séquences nucléotidiques connues Banques de séquences nucléotidiques TRANSFAC Transcritpion factors and binding sites Banques de séquences d'arn HuSiDa Human sirna database Banques de séquences protéiques UniProt Universal protein knowledgebase: merged data from Swiss- Prot, TrEMBL and PIR protein sequence databases PROSITE Biologically significant protein patterns and profiles ChEBI Chemical entities of biological interest Banques de structures PDB Protein structure databank Banques génomiques (non humaines) FlyBase Séquences et informations génomiques de la drosophile BRENDA Noms d'enzymes et propriétés biochimiques Réseaux métaboliques et enzymes KEGG Pathway Réseaux métoboliques et de régulation Génomes humains et d'autres vertébrés PhenomicDB Comparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèles Gènes et maladies (humain) OMIM Online Mendelian inheritance in man, un catalogue des troubles génétiques humains Banques d'expression de gènes et données de puces à ADN ArrayExpress Données d'expression de puces à ADN Banques protéomiques 2D-PAGE Banque de protéome Autres banques de biologie moléculaire PubMed Citations et résumés de litérature biomédicale Banques d'organelle HMPD Human mitochondrial protein database FLAGdb++ Banque intégrée sur les génomes de plantes Banques de plantes TAIR The A rabidopsis information resource Banques immunologiques IMGT International immunogenetics information system Table 1 Catégories de banques de données (adpaté de (Galperin, 2005)) 10
Introduction aux bases de données: application en biologie
Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,
Plus en détailCHAPITRE 3 LA SYNTHESE DES PROTEINES
CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés
Plus en détailLa gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche
Plus en détailBase de données bibliographiques Pubmed-Medline
Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction
Plus en détailMaster de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Plus en détailDr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires
Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique
Plus en détailet les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Plus en détail! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)
Introduction à la Bioinformatique Introduction! Les bases de données jouent un rôle crucial dans l organisation des connaissances biologiques.! Nous proposons ici un tour rapide des principales bases de
Plus en détailBig data et sciences du Vivant L'exemple du séquençage haut débit
Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme
Plus en détailChapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailConférence technique internationale de la FAO
Décembre 2009 ABDC-10/7.2 F Conférence technique internationale de la FAO Biotechnologies agricoles dans les pays en développement: choix et perspectives pour les cultures, les forêts, l élevage, les pêches
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailBases de Données Avancées
1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,
Plus en détailMise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?
Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Dr Xavier Manival, Laboratoire IMoPA, CR, CNRS Françoise Tisserand-Bedri, Documentaliste, Inist-CNRS
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailArchitectures d'intégration de données
Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration
Plus en détailSemestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»
Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,
Plus en détailIntégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr
Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception
Plus en détailEvolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.
Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques
Plus en détailBiomarqueurs en Cancérologie
Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines
Plus en détailGénétique et génomique Pierre Martin
Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée
Plus en détailRecherche et veille documentaire scientifique
Recherche et veille documentaire scientifique Élodie Chattot BU Médecine Pharmacie juin 2006 Introduction Le but de cet atelier est de vous initier à la méthodologie de recherche documentaire scientifique,
Plus en détailLes ressources numériques
Les ressources numériques Les ressources numériques sont diverses et regroupent entre autres, les applications, les bases de données et les infrastructures informatiques. C est un ensemble de ressources
Plus en détailMYRIAD. l ADN isolé n est à présent plus brevetable!
MYRIAD La Cour Suprême des Etats-Unis revient sur plus de 30 ans de pratique : l ADN isolé n est à présent plus brevetable! Mauvaise passe pour les inventions en biotechnologies sur le territoire américain.
Plus en détailMise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC
Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens
Plus en détailChapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Plus en détailbasée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes
Plus en détailContrôle de l'expression génétique : Les régulations post-transcriptionnelles
Contrôle de l'expression génétique : Les régulations post-transcriptionnelles http://perso.univ-rennes1.fr/serge.hardy/ utilisateur : biochimie mot de passe : 2007 L'ARNm, simple intermédiaire entre le
Plus en détailBases de données et outils bioinformatiques utiles en génétique
Bases de données et outils bioinformatiques utiles en génétique Collège National des Enseignants et Praticiens de Génétique Médicale C. Beroud Date de création du document 2010-2011 Table des matières
Plus en détailCours Base de données relationnelles. M. Boughanem, IUP STRI
Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),
Plus en détailUniversité d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse
Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes Thèse Présentée pour obtenir le grade de Docteur en sciences de l université d Evry-Val d Essonne Spécialité Bioinformatique par
Plus en détailJe catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs
Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon
Plus en détailFormavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...
Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au
Plus en détailLES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Plus en détailInformation utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailLes Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16
Les Biolangages Thierry Lecroq Université de Rouen FRANCE 2008 2009 Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 BioPerl Ensemble de modules Perl Utilise la programmation objet L objectif est de mettre
Plus en détailOASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication
Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité
Plus en détailPrésentation générale du projet data.bnf.fr
Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données
Plus en détailMise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information
Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information IMGT The international ImMunoGeneTics information system Joumana Jabado-Michaloud IE Bioinformatique,
Plus en détailBases de données Outils de gestion
11/03/2010 Bases de données Outils de gestion Mise en place d outils pour gérer, stocker et utiliser les informations d une recherche biomédicale ent réalisé par L. QUINQUIS d épidémiologie et de biostatistique
Plus en détailContrôle de l'expression génétique :
Contrôle de l'expression génétique : Les régulations post-transcriptionnelles L'ARNm, simple intermédiaire entre le génome et les protéines? gène protéine L'ARNm, simple intermédiaire entre le génome et
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailLa gestion des données de référence ou comment exploiter toutes vos informations
La gestion des données de référence ou comment exploiter toutes vos informations La tour de Babel numérique La gestion des données de référence (appelée MDM pour Master Data Management) se veut la réponse
Plus en détailModule Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique
Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z
Plus en détailXML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million
XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailGMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan
M Bioinformatique, Connaissances et Données Année 24-25 GMIN206 Info. Biologique et Outils bioinformatiques Banques de données biologiques (3h de Cours +,5h de TD + 4h de TP) Elodie Cassan Anne-Muriel
Plus en détailUTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier
Plus en détailIntroduction à Microsoft InfoPath 2010
Introduction à Microsoft InfoPath 2010 Couplé à Microsoft SharePoint Designer 2010, InfoPath 2010 simplifie la création de solutions de bout en bout sur SharePoint Server 2010, qui contiennent des formulaires
Plus en détailPartie II Approche théorique
Partie II Approche théorique De nombreux phénomènes ont été mis en évidence lors des différentes enquêtes, nous amenant à diverses interrogations pouvant être résumées et transcrites en une problématique.
Plus en détailGénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection
Plus en détailEcole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
Plus en détailUE 8 Systèmes d information de gestion Le programme
UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications
Plus en détail7. Recherche des essais
7. Recherche des essais Le chapitre précédent a insisté sur la nécessité de réaliser une recherche des essais aussi exhaustive que possible. Seule la conjonction de tous les moyens disponibles peut laisser
Plus en détailPetite définition : Présentation :
Petite définition : Le Web 2.0 est une technologie qui permet la création de réseaux sociaux, de communautés, via divers produits (des sites communautaires, des blogs, des forums, des wiki ), qui vise
Plus en détailSGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)
SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailPrésentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Plus en détailINF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude
INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude
Plus en détaile-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
Plus en détailPROSOP : un système de gestion de bases de données prosopographiques
PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la
Plus en détaildes banques pour la recherche
ADN, cellules, tissus... des banques pour la recherche FÉVRIER 2009 Les banques d échantillons de matériel biologique (tissus, cellules, ADN ), appelées biobanques, mettent à disposition des chercheurs
Plus en détailPlan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation
Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions
Plus en détailConvergence, Communication Unifiée, Nouvelle ère logicielle Microsoft 2007: quelles perspectives d adoption pour l entreprise?
Dossier Spécial Technologies Microsoft 2007 GROUPE PERMIS INFORMATIQUE Livre Blanc par Thierry Choserot, Responsable des Partenariats D I S C E R N E R L I N T E R E T D E S T E C H N O L O G I E S 2 0
Plus en détailDOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?
DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre
Plus en détailQu est-ce que la maladie de Huntington?
Qu est-ce que la maladie de Huntington? Description sommaire Qu est-ce que la maladie de Huntington? La maladie de Huntington (MH) est une maladie neurodégénérative longtemps connue sous le nom de Chorée
Plus en détailCATALOGUE DES PRESTATIONS DE LA
1/23 La plate-forme Biopuces et Séquençage de Strasbourg est équipée des technologies Affymetrix et Agilent pour l étude du transcriptome et du génome sur puces à ADN. SOMMAIRE ANALYSE TRANSCRIPTIONNELLE...
Plus en détailTD de Biochimie 4 : Coloration.
TD de Biochimie 4 : Coloration. Synthèse de l expérience 2 Les questions posées durant l expérience 2 Exposé sur les méthodes de coloration des molécules : Générique Spécifique Autres Questions Pourquoi
Plus en détailExtraction d information des bases de séquences biologiques avec R
Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)
Plus en détailARCHIVAGE DES BASES DE
ARCHIVAGE DES BASES DE DONNEES ARNAUD HULSTAERT ET GRÉGORY OGONOWSKI MANAGEMENT SUMMARY SECTION RECHERCHE 04/2013 1. Introduction La croissance continue des volumes de données stockés dans les bases de
Plus en détailProgramme international de formation
Programme international de formation La science n a pas de patrie, car la connaissance appartient à l humanité, c est un flambeau qui illumine le monde. Louis Pasteur Le Réseau International des Instituts
Plus en détailConsensus Scientifique sur. les. Champs statiques
page 1/8 Consensus Scientifique sur Source : OMS (2006) les Champs statiques Résumé & Détails: GreenFacts Contexte - Les équipements d imagerie médicale par résonance magnétique (IRM), les trains et les
Plus en détailMASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE
MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE SANTE Spécialité
Plus en détailINTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES
INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information
Plus en détailSéquence 2. L expression du patrimoine génétique. Sommaire
Séquence 2 L expression du patrimoine génétique Sommaire 1. La synthèse des protéines 2. Phénotypes, génotypes et environnement Synthèse de la séquence 2 Exercices de la séquence 2 Glossaire des séquences
Plus en détailArchitecture d'entreprise : Guide Pratique de l'architecture Logique
Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam
Plus en détailChapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Plus en détailGarantir une meilleure prestation de services et une expérience utilisateur optimale
LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service
Plus en détailEntrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016
Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques
Plus en détailVue d ensemble : Office of Cellular, Tissue and Gene Therapies
Vue d ensemble : Office of Cellular, Tissue and Gene Therapies DIAPOSITIVE 1 Cette présentation fournit une vue d ensemble de l Office of Cellular, Tissue, and Gene Therapies (bureau des thérapies cellulaires,
Plus en détailIntroduction aux concepts d ez Publish
Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailL axe 5 du Cancéropole Nord Ouest
L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société
Plus en détailISTEX, vers des services innovants d accès à la connaissance
ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions
Plus en détailWHITE PAPER Une revue de solution par Talend & Infosense
WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION
Plus en détailUrbanisation des SI-NFE107
OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailMise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique
Rapport de stage de deuxième année de DUT Génie Biologique option Bioinformatique Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes
Plus en détailUtiliser Access ou Excel pour gérer vos données
Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que
Plus en détailBUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise
BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la
Plus en détailLes renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer
Information importante pour les personnes atteintes d un cancer du poumon non à petites cellules de stade avancé Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic
Plus en détailRecherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines
18. Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines KARILA LAURENT - APPRENTISSAGE DE L EXERCICE MÉDICAL + Objectifs
Plus en détailBigdata et Web sémantique. les données + l intelligence= la solution
Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailAnalyse structurée de solutions pour BMC Remedy IT Service Management v 7
LIVRE BLANC SUR LES PRATIQUES ITIL Analyse structurée de solutions pour BMC Remedy IT Service Management v 7 Exploiter le potentiel des pratiques ITIL grâce aux ateliers d analyse de solutions organisés
Plus en détailÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE
ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE COMME EXIGENCE PARTIELLE À L OBTENTION DE LA MAÎTRISE EN GÉNIE PAR Sébastien SERVOLES
Plus en détail