présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Dimension: px
Commencer à balayer dès la page:

Download "présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :"

Transcription

1 N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale : Composante universitaire : INSERM Unité 522, Rennes Vie-Agronomie-Santé Université de Rennes 1, S.V.E. TITRE DE LA THÈSE : INTÉGRATION DE DONNÉES POUR L ANALYSE DE TRANSCRIPTOME : MISE EN ŒUVRE PAR L ENTREPÔT GEDAW (GENE EXPRESSION DATA WAREHOUSE) SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d Examen COMPOSITION DU JURY : M P. BESSIÈRES Directeur de Recherches à l INRA, Jouy en Josas Rapporteur M me M.D. DEVIGNES Chargée de Recherches au LORIA, Nancy Rapporteur M J. LÉGER Directeur de Recherches à l INSERM Unité 533, Nantes Examinateur M me F. MOUSSOUNI Maître de Conférences à l Université de Rennes 1 Examinateur M D. LAVENIER Directeur de Recherches à l IRISA, Rennes Co-Directeur de thèse M me C. GUILLOUZO Directeur de Recherches à l INSERM Unité 522, Rennes Directeur de thèse

2 REMERCIEMENTS Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse. Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m avoir fait part de ses remarques pour mener à bien mes recherches. Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m avoir accueillie si chaleureusement dans son équipe de recherche. Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d avoir accepter d examiner mon travail. J exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l aboutissement de ma thèse. Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m avoir si bien initiée à l informatique et de m avoir toujours fait confiance. Merci à tous les membres de l INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe «Fer Foie», pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail. Merci à Claude Boisseau et Christian Delamarche avec qui j ai eu l honneur de travailler dans le cadre de mes enseignements dispensés à l Université de Rennes 1. Merci de m avoir si bien accueillie dans vos équipes et de m avoir donné goût à l enseignement. Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales. Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical. A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine. Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants. Merci à Michel, Christine, Galou et Sara pour votre soutien permanent. A mes parents, merci de m avoir encouragée à faire des études, je crois que c est chose faite. Merci à vous ainsi qu à François et Charlotte pour le réconfort familial permanent que vous m apportez, et ce malgré la distance. A Yohann, d être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m ont rassuré et permis d avancer durant ces quatre années de thèse. Ton attention et ta patience au cours de ces derniers mois auront été remarquables.

3 SOMMAIRE

4 INTRODUCTION I. DE L AVÈNEMENT DE LA POST-GÉNOMIQUE À L EXPLOSION DES SOURCES DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE Naissance de la génomique Séquençage des génomes Prochain enjeu : donner un sens au génome Identifier les gènes Rechercher la fonction des gènes Besoin de la post-génomique LA PROFUSION DES SOURCES DE DONNÉES Naissance des banques généralistes Émergence des banques spécialisées... 9 II. VERS L INTÉGRATION DES SOURCES DE DONNÉES DES DONNÉES AUX CONNAISSANCES LES DÉFIS DE L INTÉGRATION DE DONNÉES BIOLOGIQUES Diversité des données biologiques à intégrer Autonomie et hétérogénéité des sources de données Autonomie des sources Hétérogénéité des sources ÉLÉMENTS DE STANDARDISATION XML Définition Utilisation de XML en bioinformatique Ontologies Définitions d Ontologie Ontologies dans le domaine biomédical Nomenclature fournie par le HGNC III. LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE POINTS DE VARIATION ENTRE LES APPROCHES D INTÉGRATION Formats des données intégrées : structurées, semi-structurées ou non-structurées Intégration serrée versus intégration lâche L intégration serrée L intégration lâche Le modèle de données du système d intégration Les types d intégration sémantique Le niveau de transparence Ascendante (Bottom-up) versus descendante (top-down) Intégration virtuelle versus matérialisée Accès aux données LES APPROCHES EN BIOINFORMATIQUE L approche non matérialisée La médiation L approche navigationnelle L approche matérialisée : entrepôt de données Principe de l approche entrepôt de données Les entrepôts de données en bioinformatique DISCUSSION SUR LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE IV. INTÉGRATION POUR L ANALYSE DU TRANSCRIPTOME PUCES À ADN POUR L ANALYSE DE TRANSCRIPTOME Définition des puces à ADN Principe des puces à ADN pour l étude du transcriptome... 63

5 1.3. Technologies des puces à ADN ÉTAPES REQUISES POUR L ANALYSE DES DONNÉES Acquisition des données d expression Traitement des images par logiciel d analyse d images Traitement des données primaires Mise en évidence de gènes différentiellement exprimés Gestion et partage des données Gestion des données Partage des données Analyse des données d expression Classification des données d expression Extraction de connaissance CADRE ET BUTS DU TRAVAIL Page BIOMEKE I. BIOMEKE POUR L ANNOTATION BIOMÉDICALE DE GÈNES INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE 1 79 BioMeKE: a UMLS-based system useful for biomedical annotation of genes L'ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L ENTREPÔT GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Data warehouse approach to extract knowledge from microarray data DISCUSSION Pages GLOSSAIRE Pages BIBLIOGRAPHIE Pages RÉFÉRENCES INTERNET Pages LISTE DES PUBLICATIONS PERSONNELLES Pages

6 INDEX DES FIGURES ET DES TABLES FIGURES Figure 1... page 2 La double hélice d ADN Figure page 4 Objectif de la détection de gènes Figure 3....page 6 Le fonctionnement cellulaire : de l ADN aux protéines Figure 4....page 9 Croissance de la banque de données GenBank de 1982 à 2004 Figure page 20 Extrait du graphe orienté acyclique de Gene Ontology Figure page 22 Domaines biomédicaux intégrés dans l UMLS Figure page 23 Représentation schématique de la transferrine dans l UMLS Figure page 27 Exemple de résultat de requête effectuée sur Genew Figure page 33 Architecture d un système médiateur Figure page 34 Les approches GAV (Global As View) et LAV (Local As View) Figure page 37 Connection entre deux sources via une référence Figure page 38 Graphe de liens entre les sources du NCBI Figure page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13 Figure page 41 Exemple de schéma de médiation Figure page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données Figure page 46 Architecture d un entrepôt de données

7 Figure page 47 Architecture des données dans un entrepôt Figure 18 page 48 Exemple de cube de données Figure page 49 Les différents schémas pour la représentation de données multidimensionnelles Figure 20 page 51 La rotation Figure page 51 L extraction Figure page 52 Application des opérations roll-up et drill-down sur la dimension Protéine Figure page 54 Vue opérationnelle des composants utilisés pour la construction d entrepôts de données Figure page 58 Schéma étoile de Columba Figure page 63 Principe de l étude de transcriptome par la technologie des puces à ADN Figure page 68 Relations entre les projets MIAME, MAGE et MGED Ontology TABLES Table page 10 Catégories de banques de données Table page 14 Conflit nom d attribut valeur d attribut Table page 21 Origine de l annotation des produits de gènes Table page 25 Liste des ontologies biomédicales OBO Table page 60 Table récapitulative des systèmes d intégration décrits en section III.2 et de leurs points de variation

8 ABRÉVIATIONS ADN: Acide DésoxyriboNucléique ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface ARN: Acide RiboNucléique ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1 BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology CPL: Collection Programming Language CUI: Concept Unique Identifier DAG: Directed Acyclic Graph dbest: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX GO: Gene Ontology GOA: Gene Ontology Annotation GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project HTML: HyperText Markup Language HUGO: Human Genome Organisation ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View MAGE-ML: MicroArray and Gene Expression-Markup Language

9 MeSH: Medical Subject Headings MGD :Mouse Genome Database MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank RDF: Resource Description Framework RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire) ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database SMD: Stanford Microarray Database SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology UBC: University of British Columbia UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: extensible Markup Language

10 INTRODUCTION

11 I. DE L AVÈNEMENT DE LA POST- GÉNOMIQUE À L EXPLOSION DES SOURCES 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE 1.1. NAISSANCE DE LA GÉNOMIQUE La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927). Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM ) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'adn (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'adn par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1). 1

12 Figure 1 - La double hélice d ADN (extrait de U.S. Department of Energy Office of Science 1 ) La double hélice d ADN se compose d une suite de nucléotides*. Chaque nucléotide est dénommé par l initiale du nom de la base azotée spécifique qui le compose, et l information portée par le génome est contenue dans ce long texte près de 4 milliards pour l homme, écrit dans l alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s est opéré en biologie. Savoir que l information génétique de tout organisme vivant est contenue dans une séquence nucléique, l ADN, ouvre les portes de nombreuses recherches en génétique. Depuis les dernières trente années, avec l essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d isoler, de cloner et de séquencer les gènes SÉQUENÇAGE DES GÉNOMES Le séquençage des acides nucléiques débute en 1977 avec l apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d amplification génétique ou PCR* (Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain. L'objectif du déchiffrage de notre «patrimoine génétique» et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et 1 2

13 thérapie géniques, nouveaux médicaments...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization 2 ) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989). En 1990, le Projet Génome Humain (HGP 3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE 4 (Department Of Energy) et la NIH 5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d organismes modèles. En 1995, l équipe de Craig Venter au TIGR 6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000). En 1998, Craig Venter, PDG de l entreprise Celera Genomics, annonce le séquençage du génome humain pour Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour C est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004) PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME La mise à disposition publique des séquences de génomes marque le début d un long travail d analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d un point de vue biologique, il s agit de l annotation des génomes. Cette annotation exhaustive requiert l aide de solutions bioinformatiques (Lewis et al., 2000), et n est pas triviale (Claverie et al., 1997)

14 Identifier les gènes Il faut dans un premier temps identifier les gènes contenus dans les génomes, c est ce qu on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l ensemble des protéines potentiellement produites à partir d une séquence d ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l origine de la production des protéines. Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5 du gène. Les régions transcrites sont composées d exons et d introns, les derniers étant éliminés au cours de l épissage* conduisant à la production de l ARNm mature. Dans l ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d initiation de la traduction* (UTR 5 ) et en aval du site de terminaison de la traduction* (UTR 3 ). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l expression génique (Mignone et al., 2002). A l intérieur ou à l extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l épissage, la polyadénylation* (sites polya) et la traduction* (site d initiation de la traduction, codons STOP). Un logiciel de détection de gène prend en entrée une séquence d ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2). Figure 2 Objectif de la détection de gènes A partir d une séquence génomique brute (en haut), identifier sa structure génique (en bas). Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002). On distingue les méthodes extrinsèques qui utilisent la recherche d homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI 7 (National Center for Biotechnology Information) (Altschul et al., 1990). Aujourd hui de nombreux programmes sont disponibles, la plupart d entre eux sont référencés sur le site Web maintenu à jour par Wentian Li ( 7 * Les termes associés à une astérisque sont définis dans le glossaire 4

15 Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002). A l issue du séquençage, le nombre de gènes constituant notre génome a été estimé à (Hogenesch et al., 2001), même si aujourd hui de nouvelles estimations réduisent ce chiffre à (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'adn ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes Rechercher la fonction des gènes La démarche suivie pour découvrir la fonction d un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction. La comparaison du génome humain avec celui d organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l origine d hypothèses sur la fonctions de gènes (Jackson, 2001). Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l ensemble des informations disponibles sur le gène étudié et son environnement. C est là tout l apport de l intégration de données, développé tout au long de ce manuscrit Besoin de la post-génomique Le manque d homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001). De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos). C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s exprime. Il faut de plus caractériser l activité des protéines produites ainsi que leurs interactions. La post génomique passe par l étude du transcriptome* et du protéome*, définissant respectivement l ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données. 5

16 Figure 3 Le fonctionnement cellulaire : de l ADN aux protéines (extrait de U.S. Department of Energy Office of Science) L expression des gènes débute dans le noyau par la production d ARNm à partir de l ADN. C est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique Analyser le transcriptome A l inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l homme, sur environ ARNm transcrits, seuls à sont exprimés dans une cellule spécialisée, et parmi ces transcrits, à semblent spécifiques de ce type cellulaire. Ainsi, l étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules. Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d identifier et de localiser une séquence nucléotidique (respectivement l ADN et l ARN) dans un génome entier, ou tout mélange complexe d ADN (Southern, 1975). Ces techniques se limitent à l analyse d un petit nombre de gènes et ne permettent pas d appréhender la complexité au niveau cellulaire. Aussi, d autres techniques plus globales permettant l analyse de l expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l étude du niveau d expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d étudier la séquence des gènes, les mutations et le polymorphisme. 6

17 Analyser le protéome Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d autant vrai que le niveau des ARNm n est pas toujours corrélé avec le niveau des protéines, et que l analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit. Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de «double hybride*» est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989) Simuler les réseaux d interaction Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules Prédire la structure tridimensionnelle des protéines La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB 8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model 9 (Schwede et al., 2003), Geno3D 10 (Combet et al., 2002)

18 2. LA PROFUSION DES SOURCES DE DONNÉES Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l annotation des génomes, les technologies de gestion de l information et de l Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données NAISSANCE DES BANQUES GÉNÉRALISTES Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l amélioration des techniques de séquençage. L EMBL 11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH 12 (National Institute of Health), la banque nucléique GenBank 13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ 14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences. Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l influence du NBRF 15 (National Biomedical Research Foundation) est la PIR- PSD 16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot 17, constituée à l université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB 18 (Swiss Institute of bioinformatics), l EBI 19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt 20 (Universal Protein Resource) (Bairoch et al., 2005)

19 2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées. Figure 4 Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank) Il s agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d expression des gènes, de données protéomiques ou immunologiques. 9

20 Catégorie Exemple Nom ou description URL GenBank Toutes séquences nucléotidiques connues Banques de séquences nucléotidiques TRANSFAC Transcritpion factors and binding sites Banques de séquences d'arn HuSiDa Human sirna database Banques de séquences protéiques UniProt Universal protein knowledgebase: merged data from Swiss- Prot, TrEMBL and PIR protein sequence databases PROSITE Biologically significant protein patterns and profiles ChEBI Chemical entities of biological interest Banques de structures PDB Protein structure databank Banques génomiques (non humaines) FlyBase Séquences et informations génomiques de la drosophile BRENDA Noms d'enzymes et propriétés biochimiques Réseaux métaboliques et enzymes KEGG Pathway Réseaux métoboliques et de régulation Génomes humains et d'autres vertébrés PhenomicDB Comparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèles Gènes et maladies (humain) OMIM Online Mendelian inheritance in man, un catalogue des troubles génétiques humains Banques d'expression de gènes et données de puces à ADN ArrayExpress Données d'expression de puces à ADN Banques protéomiques 2D-PAGE Banque de protéome Autres banques de biologie moléculaire PubMed Citations et résumés de litérature biomédicale Banques d'organelle HMPD Human mitochondrial protein database FLAGdb++ Banque intégrée sur les génomes de plantes Banques de plantes TAIR The A rabidopsis information resource Banques immunologiques IMGT International immunogenetics information system Table 1 Catégories de banques de données (adpaté de (Galperin, 2005)) 10

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

! Séquence et structure des macromolécules.  Séquences protéiques (UniProt)  Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ) Introduction à la Bioinformatique Introduction! Les bases de données jouent un rôle crucial dans l organisation des connaissances biologiques.! Nous proposons ici un tour rapide des principales bases de

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Conférence technique internationale de la FAO

Conférence technique internationale de la FAO Décembre 2009 ABDC-10/7.2 F Conférence technique internationale de la FAO Biotechnologies agricoles dans les pays en développement: choix et perspectives pour les cultures, les forêts, l élevage, les pêches

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Dr Xavier Manival, Laboratoire IMoPA, CR, CNRS Françoise Tisserand-Bedri, Documentaliste, Inist-CNRS

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

Biomarqueurs en Cancérologie

Biomarqueurs en Cancérologie Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines

Plus en détail

Génétique et génomique Pierre Martin

Génétique et génomique Pierre Martin Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée

Plus en détail

Recherche et veille documentaire scientifique

Recherche et veille documentaire scientifique Recherche et veille documentaire scientifique Élodie Chattot BU Médecine Pharmacie juin 2006 Introduction Le but de cet atelier est de vous initier à la méthodologie de recherche documentaire scientifique,

Plus en détail

Les ressources numériques

Les ressources numériques Les ressources numériques Les ressources numériques sont diverses et regroupent entre autres, les applications, les bases de données et les infrastructures informatiques. C est un ensemble de ressources

Plus en détail

MYRIAD. l ADN isolé n est à présent plus brevetable!

MYRIAD. l ADN isolé n est à présent plus brevetable! MYRIAD La Cour Suprême des Etats-Unis revient sur plus de 30 ans de pratique : l ADN isolé n est à présent plus brevetable! Mauvaise passe pour les inventions en biotechnologies sur le territoire américain.

Plus en détail

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles Contrôle de l'expression génétique : Les régulations post-transcriptionnelles http://perso.univ-rennes1.fr/serge.hardy/ utilisateur : biochimie mot de passe : 2007 L'ARNm, simple intermédiaire entre le

Plus en détail

Bases de données et outils bioinformatiques utiles en génétique

Bases de données et outils bioinformatiques utiles en génétique Bases de données et outils bioinformatiques utiles en génétique Collège National des Enseignants et Praticiens de Génétique Médicale C. Beroud Date de création du document 2010-2011 Table des matières

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes Thèse Présentée pour obtenir le grade de Docteur en sciences de l université d Evry-Val d Essonne Spécialité Bioinformatique par

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 Les Biolangages Thierry Lecroq Université de Rouen FRANCE 2008 2009 Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 BioPerl Ensemble de modules Perl Utilise la programmation objet L objectif est de mettre

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Présentation générale du projet data.bnf.fr

Présentation générale du projet data.bnf.fr Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données

Plus en détail

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information IMGT The international ImMunoGeneTics information system Joumana Jabado-Michaloud IE Bioinformatique,

Plus en détail

Bases de données Outils de gestion

Bases de données Outils de gestion 11/03/2010 Bases de données Outils de gestion Mise en place d outils pour gérer, stocker et utiliser les informations d une recherche biomédicale ent réalisé par L. QUINQUIS d épidémiologie et de biostatistique

Plus en détail

Contrôle de l'expression génétique :

Contrôle de l'expression génétique : Contrôle de l'expression génétique : Les régulations post-transcriptionnelles L'ARNm, simple intermédiaire entre le génome et les protéines? gène protéine L'ARNm, simple intermédiaire entre le génome et

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

La gestion des données de référence ou comment exploiter toutes vos informations

La gestion des données de référence ou comment exploiter toutes vos informations La gestion des données de référence ou comment exploiter toutes vos informations La tour de Babel numérique La gestion des données de référence (appelée MDM pour Master Data Management) se veut la réponse

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan M Bioinformatique, Connaissances et Données Année 24-25 GMIN206 Info. Biologique et Outils bioinformatiques Banques de données biologiques (3h de Cours +,5h de TD + 4h de TP) Elodie Cassan Anne-Muriel

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

Introduction à Microsoft InfoPath 2010

Introduction à Microsoft InfoPath 2010 Introduction à Microsoft InfoPath 2010 Couplé à Microsoft SharePoint Designer 2010, InfoPath 2010 simplifie la création de solutions de bout en bout sur SharePoint Server 2010, qui contiennent des formulaires

Plus en détail

Partie II Approche théorique

Partie II Approche théorique Partie II Approche théorique De nombreux phénomènes ont été mis en évidence lors des différentes enquêtes, nous amenant à diverses interrogations pouvant être résumées et transcrites en une problématique.

Plus en détail

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

7. Recherche des essais

7. Recherche des essais 7. Recherche des essais Le chapitre précédent a insisté sur la nécessité de réaliser une recherche des essais aussi exhaustive que possible. Seule la conjonction de tous les moyens disponibles peut laisser

Plus en détail

Petite définition : Présentation :

Petite définition : Présentation : Petite définition : Le Web 2.0 est une technologie qui permet la création de réseaux sociaux, de communautés, via divers produits (des sites communautaires, des blogs, des forums, des wiki ), qui vise

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail

des banques pour la recherche

des banques pour la recherche ADN, cellules, tissus... des banques pour la recherche FÉVRIER 2009 Les banques d échantillons de matériel biologique (tissus, cellules, ADN ), appelées biobanques, mettent à disposition des chercheurs

Plus en détail

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions

Plus en détail

Convergence, Communication Unifiée, Nouvelle ère logicielle Microsoft 2007: quelles perspectives d adoption pour l entreprise?

Convergence, Communication Unifiée, Nouvelle ère logicielle Microsoft 2007: quelles perspectives d adoption pour l entreprise? Dossier Spécial Technologies Microsoft 2007 GROUPE PERMIS INFORMATIQUE Livre Blanc par Thierry Choserot, Responsable des Partenariats D I S C E R N E R L I N T E R E T D E S T E C H N O L O G I E S 2 0

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Qu est-ce que la maladie de Huntington?

Qu est-ce que la maladie de Huntington? Qu est-ce que la maladie de Huntington? Description sommaire Qu est-ce que la maladie de Huntington? La maladie de Huntington (MH) est une maladie neurodégénérative longtemps connue sous le nom de Chorée

Plus en détail

CATALOGUE DES PRESTATIONS DE LA

CATALOGUE DES PRESTATIONS DE LA 1/23 La plate-forme Biopuces et Séquençage de Strasbourg est équipée des technologies Affymetrix et Agilent pour l étude du transcriptome et du génome sur puces à ADN. SOMMAIRE ANALYSE TRANSCRIPTIONNELLE...

Plus en détail

TD de Biochimie 4 : Coloration.

TD de Biochimie 4 : Coloration. TD de Biochimie 4 : Coloration. Synthèse de l expérience 2 Les questions posées durant l expérience 2 Exposé sur les méthodes de coloration des molécules : Générique Spécifique Autres Questions Pourquoi

Plus en détail

Extraction d information des bases de séquences biologiques avec R

Extraction d information des bases de séquences biologiques avec R Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)

Plus en détail

ARCHIVAGE DES BASES DE

ARCHIVAGE DES BASES DE ARCHIVAGE DES BASES DE DONNEES ARNAUD HULSTAERT ET GRÉGORY OGONOWSKI MANAGEMENT SUMMARY SECTION RECHERCHE 04/2013 1. Introduction La croissance continue des volumes de données stockés dans les bases de

Plus en détail

Programme international de formation

Programme international de formation Programme international de formation La science n a pas de patrie, car la connaissance appartient à l humanité, c est un flambeau qui illumine le monde. Louis Pasteur Le Réseau International des Instituts

Plus en détail

Consensus Scientifique sur. les. Champs statiques

Consensus Scientifique sur. les. Champs statiques page 1/8 Consensus Scientifique sur Source : OMS (2006) les Champs statiques Résumé & Détails: GreenFacts Contexte - Les équipements d imagerie médicale par résonance magnétique (IRM), les trains et les

Plus en détail

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE SANTE Spécialité

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Séquence 2. L expression du patrimoine génétique. Sommaire

Séquence 2. L expression du patrimoine génétique. Sommaire Séquence 2 L expression du patrimoine génétique Sommaire 1. La synthèse des protéines 2. Phénotypes, génotypes et environnement Synthèse de la séquence 2 Exercices de la séquence 2 Glossaire des séquences

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

Vue d ensemble : Office of Cellular, Tissue and Gene Therapies

Vue d ensemble : Office of Cellular, Tissue and Gene Therapies Vue d ensemble : Office of Cellular, Tissue and Gene Therapies DIAPOSITIVE 1 Cette présentation fournit une vue d ensemble de l Office of Cellular, Tissue, and Gene Therapies (bureau des thérapies cellulaires,

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

L axe 5 du Cancéropole Nord Ouest

L axe 5 du Cancéropole Nord Ouest L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

WHITE PAPER Une revue de solution par Talend & Infosense

WHITE PAPER Une revue de solution par Talend & Infosense WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION

Plus en détail

Urbanisation des SI-NFE107

Urbanisation des SI-NFE107 OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique Rapport de stage de deuxième année de DUT Génie Biologique option Bioinformatique Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer

Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer Information importante pour les personnes atteintes d un cancer du poumon non à petites cellules de stade avancé Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic

Plus en détail

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines 18. Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines KARILA LAURENT - APPRENTISSAGE DE L EXERCICE MÉDICAL + Objectifs

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Analyse structurée de solutions pour BMC Remedy IT Service Management v 7

Analyse structurée de solutions pour BMC Remedy IT Service Management v 7 LIVRE BLANC SUR LES PRATIQUES ITIL Analyse structurée de solutions pour BMC Remedy IT Service Management v 7 Exploiter le potentiel des pratiques ITIL grâce aux ateliers d analyse de solutions organisés

Plus en détail

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE COMME EXIGENCE PARTIELLE À L OBTENTION DE LA MAÎTRISE EN GÉNIE PAR Sébastien SERVOLES

Plus en détail