présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Transcription

1 N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale : Composante universitaire : INSERM Unité 522, Rennes Vie-Agronomie-Santé Université de Rennes 1, S.V.E. TITRE DE LA THÈSE : INTÉGRATION DE DONNÉES POUR L ANALYSE DE TRANSCRIPTOME : MISE EN ŒUVRE PAR L ENTREPÔT GEDAW (GENE EXPRESSION DATA WAREHOUSE) SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d Examen COMPOSITION DU JURY : M P. BESSIÈRES Directeur de Recherches à l INRA, Jouy en Josas Rapporteur M me M.D. DEVIGNES Chargée de Recherches au LORIA, Nancy Rapporteur M J. LÉGER Directeur de Recherches à l INSERM Unité 533, Nantes Examinateur M me F. MOUSSOUNI Maître de Conférences à l Université de Rennes 1 Examinateur M D. LAVENIER Directeur de Recherches à l IRISA, Rennes Co-Directeur de thèse M me C. GUILLOUZO Directeur de Recherches à l INSERM Unité 522, Rennes Directeur de thèse

2 REMERCIEMENTS Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse. Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m avoir fait part de ses remarques pour mener à bien mes recherches. Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m avoir accueillie si chaleureusement dans son équipe de recherche. Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d avoir accepter d examiner mon travail. J exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l aboutissement de ma thèse. Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m avoir si bien initiée à l informatique et de m avoir toujours fait confiance. Merci à tous les membres de l INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe «Fer Foie», pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail. Merci à Claude Boisseau et Christian Delamarche avec qui j ai eu l honneur de travailler dans le cadre de mes enseignements dispensés à l Université de Rennes 1. Merci de m avoir si bien accueillie dans vos équipes et de m avoir donné goût à l enseignement. Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales. Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical. A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine. Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants. Merci à Michel, Christine, Galou et Sara pour votre soutien permanent. A mes parents, merci de m avoir encouragée à faire des études, je crois que c est chose faite. Merci à vous ainsi qu à François et Charlotte pour le réconfort familial permanent que vous m apportez, et ce malgré la distance. A Yohann, d être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m ont rassuré et permis d avancer durant ces quatre années de thèse. Ton attention et ta patience au cours de ces derniers mois auront été remarquables.

3 SOMMAIRE

4 INTRODUCTION I. DE L AVÈNEMENT DE LA POST-GÉNOMIQUE À L EXPLOSION DES SOURCES DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE Naissance de la génomique Séquençage des génomes Prochain enjeu : donner un sens au génome Identifier les gènes Rechercher la fonction des gènes Besoin de la post-génomique LA PROFUSION DES SOURCES DE DONNÉES Naissance des banques généralistes Émergence des banques spécialisées... 9 II. VERS L INTÉGRATION DES SOURCES DE DONNÉES DES DONNÉES AUX CONNAISSANCES LES DÉFIS DE L INTÉGRATION DE DONNÉES BIOLOGIQUES Diversité des données biologiques à intégrer Autonomie et hétérogénéité des sources de données Autonomie des sources Hétérogénéité des sources ÉLÉMENTS DE STANDARDISATION XML Définition Utilisation de XML en bioinformatique Ontologies Définitions d Ontologie Ontologies dans le domaine biomédical Nomenclature fournie par le HGNC III. LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE POINTS DE VARIATION ENTRE LES APPROCHES D INTÉGRATION Formats des données intégrées : structurées, semi-structurées ou non-structurées Intégration serrée versus intégration lâche L intégration serrée L intégration lâche Le modèle de données du système d intégration Les types d intégration sémantique Le niveau de transparence Ascendante (Bottom-up) versus descendante (top-down) Intégration virtuelle versus matérialisée Accès aux données LES APPROCHES EN BIOINFORMATIQUE L approche non matérialisée La médiation L approche navigationnelle L approche matérialisée : entrepôt de données Principe de l approche entrepôt de données Les entrepôts de données en bioinformatique DISCUSSION SUR LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE IV. INTÉGRATION POUR L ANALYSE DU TRANSCRIPTOME PUCES À ADN POUR L ANALYSE DE TRANSCRIPTOME Définition des puces à ADN Principe des puces à ADN pour l étude du transcriptome... 63

5 1.3. Technologies des puces à ADN ÉTAPES REQUISES POUR L ANALYSE DES DONNÉES Acquisition des données d expression Traitement des images par logiciel d analyse d images Traitement des données primaires Mise en évidence de gènes différentiellement exprimés Gestion et partage des données Gestion des données Partage des données Analyse des données d expression Classification des données d expression Extraction de connaissance CADRE ET BUTS DU TRAVAIL Page BIOMEKE I. BIOMEKE POUR L ANNOTATION BIOMÉDICALE DE GÈNES INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE 1 79 BioMeKE: a UMLS-based system useful for biomedical annotation of genes L'ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L ENTREPÔT GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Data warehouse approach to extract knowledge from microarray data DISCUSSION Pages GLOSSAIRE Pages BIBLIOGRAPHIE Pages RÉFÉRENCES INTERNET Pages LISTE DES PUBLICATIONS PERSONNELLES Pages

6 INDEX DES FIGURES ET DES TABLES FIGURES Figure 1... page 2 La double hélice d ADN Figure page 4 Objectif de la détection de gènes Figure 3....page 6 Le fonctionnement cellulaire : de l ADN aux protéines Figure 4....page 9 Croissance de la banque de données GenBank de 1982 à 2004 Figure page 20 Extrait du graphe orienté acyclique de Gene Ontology Figure page 22 Domaines biomédicaux intégrés dans l UMLS Figure page 23 Représentation schématique de la transferrine dans l UMLS Figure page 27 Exemple de résultat de requête effectuée sur Genew Figure page 33 Architecture d un système médiateur Figure page 34 Les approches GAV (Global As View) et LAV (Local As View) Figure page 37 Connection entre deux sources via une référence Figure page 38 Graphe de liens entre les sources du NCBI Figure page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13 Figure page 41 Exemple de schéma de médiation Figure page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données Figure page 46 Architecture d un entrepôt de données

7 Figure page 47 Architecture des données dans un entrepôt Figure 18 page 48 Exemple de cube de données Figure page 49 Les différents schémas pour la représentation de données multidimensionnelles Figure 20 page 51 La rotation Figure page 51 L extraction Figure page 52 Application des opérations roll-up et drill-down sur la dimension Protéine Figure page 54 Vue opérationnelle des composants utilisés pour la construction d entrepôts de données Figure page 58 Schéma étoile de Columba Figure page 63 Principe de l étude de transcriptome par la technologie des puces à ADN Figure page 68 Relations entre les projets MIAME, MAGE et MGED Ontology TABLES Table page 10 Catégories de banques de données Table page 14 Conflit nom d attribut valeur d attribut Table page 21 Origine de l annotation des produits de gènes Table page 25 Liste des ontologies biomédicales OBO Table page 60 Table récapitulative des systèmes d intégration décrits en section III.2 et de leurs points de variation

8 ABRÉVIATIONS ADN: Acide DésoxyriboNucléique ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface ARN: Acide RiboNucléique ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1 BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology CPL: Collection Programming Language CUI: Concept Unique Identifier DAG: Directed Acyclic Graph dbest: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX GO: Gene Ontology GOA: Gene Ontology Annotation GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project HTML: HyperText Markup Language HUGO: Human Genome Organisation ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View MAGE-ML: MicroArray and Gene Expression-Markup Language

9 MeSH: Medical Subject Headings MGD :Mouse Genome Database MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank RDF: Resource Description Framework RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire) ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database SMD: Stanford Microarray Database SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology UBC: University of British Columbia UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: extensible Markup Language

10 INTRODUCTION

11 I. DE L AVÈNEMENT DE LA POST- GÉNOMIQUE À L EXPLOSION DES SOURCES 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE 1.1. NAISSANCE DE LA GÉNOMIQUE La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927). Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM ) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'adn (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'adn par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1). 1

12 Figure 1 - La double hélice d ADN (extrait de U.S. Department of Energy Office of Science 1 ) La double hélice d ADN se compose d une suite de nucléotides*. Chaque nucléotide est dénommé par l initiale du nom de la base azotée spécifique qui le compose, et l information portée par le génome est contenue dans ce long texte près de 4 milliards pour l homme, écrit dans l alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s est opéré en biologie. Savoir que l information génétique de tout organisme vivant est contenue dans une séquence nucléique, l ADN, ouvre les portes de nombreuses recherches en génétique. Depuis les dernières trente années, avec l essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d isoler, de cloner et de séquencer les gènes SÉQUENÇAGE DES GÉNOMES Le séquençage des acides nucléiques débute en 1977 avec l apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d amplification génétique ou PCR* (Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain. L'objectif du déchiffrage de notre «patrimoine génétique» et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et 1 2

13 thérapie géniques, nouveaux médicaments...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization 2 ) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989). En 1990, le Projet Génome Humain (HGP 3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE 4 (Department Of Energy) et la NIH 5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d organismes modèles. En 1995, l équipe de Craig Venter au TIGR 6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000). En 1998, Craig Venter, PDG de l entreprise Celera Genomics, annonce le séquençage du génome humain pour Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour C est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004) PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME La mise à disposition publique des séquences de génomes marque le début d un long travail d analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d un point de vue biologique, il s agit de l annotation des génomes. Cette annotation exhaustive requiert l aide de solutions bioinformatiques (Lewis et al., 2000), et n est pas triviale (Claverie et al., 1997)

14 Identifier les gènes Il faut dans un premier temps identifier les gènes contenus dans les génomes, c est ce qu on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l ensemble des protéines potentiellement produites à partir d une séquence d ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l origine de la production des protéines. Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5 du gène. Les régions transcrites sont composées d exons et d introns, les derniers étant éliminés au cours de l épissage* conduisant à la production de l ARNm mature. Dans l ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d initiation de la traduction* (UTR 5 ) et en aval du site de terminaison de la traduction* (UTR 3 ). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l expression génique (Mignone et al., 2002). A l intérieur ou à l extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l épissage, la polyadénylation* (sites polya) et la traduction* (site d initiation de la traduction, codons STOP). Un logiciel de détection de gène prend en entrée une séquence d ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2). Figure 2 Objectif de la détection de gènes A partir d une séquence génomique brute (en haut), identifier sa structure génique (en bas). Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002). On distingue les méthodes extrinsèques qui utilisent la recherche d homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI 7 (National Center for Biotechnology Information) (Altschul et al., 1990). Aujourd hui de nombreux programmes sont disponibles, la plupart d entre eux sont référencés sur le site Web maintenu à jour par Wentian Li ( 7 * Les termes associés à une astérisque sont définis dans le glossaire 4

15 Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002). A l issue du séquençage, le nombre de gènes constituant notre génome a été estimé à (Hogenesch et al., 2001), même si aujourd hui de nouvelles estimations réduisent ce chiffre à (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'adn ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes Rechercher la fonction des gènes La démarche suivie pour découvrir la fonction d un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction. La comparaison du génome humain avec celui d organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l origine d hypothèses sur la fonctions de gènes (Jackson, 2001). Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l ensemble des informations disponibles sur le gène étudié et son environnement. C est là tout l apport de l intégration de données, développé tout au long de ce manuscrit Besoin de la post-génomique Le manque d homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001). De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos). C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s exprime. Il faut de plus caractériser l activité des protéines produites ainsi que leurs interactions. La post génomique passe par l étude du transcriptome* et du protéome*, définissant respectivement l ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données. 5

16 Figure 3 Le fonctionnement cellulaire : de l ADN aux protéines (extrait de U.S. Department of Energy Office of Science) L expression des gènes débute dans le noyau par la production d ARNm à partir de l ADN. C est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique Analyser le transcriptome A l inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l homme, sur environ ARNm transcrits, seuls à sont exprimés dans une cellule spécialisée, et parmi ces transcrits, à semblent spécifiques de ce type cellulaire. Ainsi, l étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules. Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d identifier et de localiser une séquence nucléotidique (respectivement l ADN et l ARN) dans un génome entier, ou tout mélange complexe d ADN (Southern, 1975). Ces techniques se limitent à l analyse d un petit nombre de gènes et ne permettent pas d appréhender la complexité au niveau cellulaire. Aussi, d autres techniques plus globales permettant l analyse de l expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l étude du niveau d expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d étudier la séquence des gènes, les mutations et le polymorphisme. 6

17 Analyser le protéome Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d autant vrai que le niveau des ARNm n est pas toujours corrélé avec le niveau des protéines, et que l analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit. Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de «double hybride*» est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989) Simuler les réseaux d interaction Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules Prédire la structure tridimensionnelle des protéines La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB 8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model 9 (Schwede et al., 2003), Geno3D 10 (Combet et al., 2002)

18 2. LA PROFUSION DES SOURCES DE DONNÉES Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l annotation des génomes, les technologies de gestion de l information et de l Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données NAISSANCE DES BANQUES GÉNÉRALISTES Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l amélioration des techniques de séquençage. L EMBL 11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH 12 (National Institute of Health), la banque nucléique GenBank 13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ 14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences. Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l influence du NBRF 15 (National Biomedical Research Foundation) est la PIR- PSD 16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot 17, constituée à l université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB 18 (Swiss Institute of bioinformatics), l EBI 19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt 20 (Universal Protein Resource) (Bairoch et al., 2005)

19 2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées. Figure 4 Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank) Il s agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d expression des gènes, de données protéomiques ou immunologiques. 9

20 Catégorie Exemple Nom ou description URL GenBank Toutes séquences nucléotidiques connues Banques de séquences nucléotidiques TRANSFAC Transcritpion factors and binding sites Banques de séquences d'arn HuSiDa Human sirna database Banques de séquences protéiques UniProt Universal protein knowledgebase: merged data from Swiss- Prot, TrEMBL and PIR protein sequence databases PROSITE Biologically significant protein patterns and profiles ChEBI Chemical entities of biological interest Banques de structures PDB Protein structure databank Banques génomiques (non humaines) FlyBase Séquences et informations génomiques de la drosophile BRENDA Noms d'enzymes et propriétés biochimiques Réseaux métaboliques et enzymes KEGG Pathway Réseaux métoboliques et de régulation Génomes humains et d'autres vertébrés PhenomicDB Comparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèles Gènes et maladies (humain) OMIM Online Mendelian inheritance in man, un catalogue des troubles génétiques humains Banques d'expression de gènes et données de puces à ADN ArrayExpress Données d'expression de puces à ADN Banques protéomiques 2D-PAGE Banque de protéome Autres banques de biologie moléculaire PubMed Citations et résumés de litérature biomédicale Banques d'organelle HMPD Human mitochondrial protein database FLAGdb++ Banque intégrée sur les génomes de plantes Banques de plantes TAIR The A rabidopsis information resource Banques immunologiques IMGT International immunogenetics information system Table 1 Catégories de banques de données (adpaté de (Galperin, 2005)) 10

Montrer encore