présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Dimension: px
Commencer à balayer dès la page:

Download "présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :"

Transcription

1 N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale : Composante universitaire : INSERM Unité 522, Rennes Vie-Agronomie-Santé Université de Rennes 1, S.V.E. TITRE DE LA THÈSE : INTÉGRATION DE DONNÉES POUR L ANALYSE DE TRANSCRIPTOME : MISE EN ŒUVRE PAR L ENTREPÔT GEDAW (GENE EXPRESSION DATA WAREHOUSE) SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d Examen COMPOSITION DU JURY : M P. BESSIÈRES Directeur de Recherches à l INRA, Jouy en Josas Rapporteur M me M.D. DEVIGNES Chargée de Recherches au LORIA, Nancy Rapporteur M J. LÉGER Directeur de Recherches à l INSERM Unité 533, Nantes Examinateur M me F. MOUSSOUNI Maître de Conférences à l Université de Rennes 1 Examinateur M D. LAVENIER Directeur de Recherches à l IRISA, Rennes Co-Directeur de thèse M me C. GUILLOUZO Directeur de Recherches à l INSERM Unité 522, Rennes Directeur de thèse

2 REMERCIEMENTS Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse. Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m avoir fait part de ses remarques pour mener à bien mes recherches. Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m avoir accueillie si chaleureusement dans son équipe de recherche. Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d avoir accepter d examiner mon travail. J exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l aboutissement de ma thèse. Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m avoir si bien initiée à l informatique et de m avoir toujours fait confiance. Merci à tous les membres de l INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe «Fer Foie», pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail. Merci à Claude Boisseau et Christian Delamarche avec qui j ai eu l honneur de travailler dans le cadre de mes enseignements dispensés à l Université de Rennes 1. Merci de m avoir si bien accueillie dans vos équipes et de m avoir donné goût à l enseignement. Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales. Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical. A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine. Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants. Merci à Michel, Christine, Galou et Sara pour votre soutien permanent. A mes parents, merci de m avoir encouragée à faire des études, je crois que c est chose faite. Merci à vous ainsi qu à François et Charlotte pour le réconfort familial permanent que vous m apportez, et ce malgré la distance. A Yohann, d être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m ont rassuré et permis d avancer durant ces quatre années de thèse. Ton attention et ta patience au cours de ces derniers mois auront été remarquables.

3 SOMMAIRE

4 INTRODUCTION I. DE L AVÈNEMENT DE LA POST-GÉNOMIQUE À L EXPLOSION DES SOURCES DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE Naissance de la génomique Séquençage des génomes Prochain enjeu : donner un sens au génome Identifier les gènes Rechercher la fonction des gènes Besoin de la post-génomique LA PROFUSION DES SOURCES DE DONNÉES Naissance des banques généralistes Émergence des banques spécialisées... 9 II. VERS L INTÉGRATION DES SOURCES DE DONNÉES DES DONNÉES AUX CONNAISSANCES LES DÉFIS DE L INTÉGRATION DE DONNÉES BIOLOGIQUES Diversité des données biologiques à intégrer Autonomie et hétérogénéité des sources de données Autonomie des sources Hétérogénéité des sources ÉLÉMENTS DE STANDARDISATION XML Définition Utilisation de XML en bioinformatique Ontologies Définitions d Ontologie Ontologies dans le domaine biomédical Nomenclature fournie par le HGNC III. LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE POINTS DE VARIATION ENTRE LES APPROCHES D INTÉGRATION Formats des données intégrées : structurées, semi-structurées ou non-structurées Intégration serrée versus intégration lâche L intégration serrée L intégration lâche Le modèle de données du système d intégration Les types d intégration sémantique Le niveau de transparence Ascendante (Bottom-up) versus descendante (top-down) Intégration virtuelle versus matérialisée Accès aux données LES APPROCHES EN BIOINFORMATIQUE L approche non matérialisée La médiation L approche navigationnelle L approche matérialisée : entrepôt de données Principe de l approche entrepôt de données Les entrepôts de données en bioinformatique DISCUSSION SUR LES APPROCHES D INTÉGRATION EN BIOINFORMATIQUE IV. INTÉGRATION POUR L ANALYSE DU TRANSCRIPTOME PUCES À ADN POUR L ANALYSE DE TRANSCRIPTOME Définition des puces à ADN Principe des puces à ADN pour l étude du transcriptome... 63

5 1.3. Technologies des puces à ADN ÉTAPES REQUISES POUR L ANALYSE DES DONNÉES Acquisition des données d expression Traitement des images par logiciel d analyse d images Traitement des données primaires Mise en évidence de gènes différentiellement exprimés Gestion et partage des données Gestion des données Partage des données Analyse des données d expression Classification des données d expression Extraction de connaissance CADRE ET BUTS DU TRAVAIL Page BIOMEKE I. BIOMEKE POUR L ANNOTATION BIOMÉDICALE DE GÈNES INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE 1 79 BioMeKE: a UMLS-based system useful for biomedical annotation of genes L'ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L ENTREPÔT GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW INTRODUCTION MISE EN ŒUVRE ET DISCUSSION ARTICLE Data warehouse approach to extract knowledge from microarray data DISCUSSION Pages GLOSSAIRE Pages BIBLIOGRAPHIE Pages RÉFÉRENCES INTERNET Pages LISTE DES PUBLICATIONS PERSONNELLES Pages

6 INDEX DES FIGURES ET DES TABLES FIGURES Figure 1... page 2 La double hélice d ADN Figure page 4 Objectif de la détection de gènes Figure 3....page 6 Le fonctionnement cellulaire : de l ADN aux protéines Figure 4....page 9 Croissance de la banque de données GenBank de 1982 à 2004 Figure page 20 Extrait du graphe orienté acyclique de Gene Ontology Figure page 22 Domaines biomédicaux intégrés dans l UMLS Figure page 23 Représentation schématique de la transferrine dans l UMLS Figure page 27 Exemple de résultat de requête effectuée sur Genew Figure page 33 Architecture d un système médiateur Figure page 34 Les approches GAV (Global As View) et LAV (Local As View) Figure page 37 Connection entre deux sources via une référence Figure page 38 Graphe de liens entre les sources du NCBI Figure page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13 Figure page 41 Exemple de schéma de médiation Figure page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données Figure page 46 Architecture d un entrepôt de données

7 Figure page 47 Architecture des données dans un entrepôt Figure 18 page 48 Exemple de cube de données Figure page 49 Les différents schémas pour la représentation de données multidimensionnelles Figure 20 page 51 La rotation Figure page 51 L extraction Figure page 52 Application des opérations roll-up et drill-down sur la dimension Protéine Figure page 54 Vue opérationnelle des composants utilisés pour la construction d entrepôts de données Figure page 58 Schéma étoile de Columba Figure page 63 Principe de l étude de transcriptome par la technologie des puces à ADN Figure page 68 Relations entre les projets MIAME, MAGE et MGED Ontology TABLES Table page 10 Catégories de banques de données Table page 14 Conflit nom d attribut valeur d attribut Table page 21 Origine de l annotation des produits de gènes Table page 25 Liste des ontologies biomédicales OBO Table page 60 Table récapitulative des systèmes d intégration décrits en section III.2 et de leurs points de variation

8 ABRÉVIATIONS ADN: Acide DésoxyriboNucléique ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface ARN: Acide RiboNucléique ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1 BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology CPL: Collection Programming Language CUI: Concept Unique Identifier DAG: Directed Acyclic Graph dbest: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX GO: Gene Ontology GOA: Gene Ontology Annotation GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project HTML: HyperText Markup Language HUGO: Human Genome Organisation ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View MAGE-ML: MicroArray and Gene Expression-Markup Language

9 MeSH: Medical Subject Headings MGD :Mouse Genome Database MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank RDF: Resource Description Framework RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire) ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database SMD: Stanford Microarray Database SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology UBC: University of British Columbia UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: extensible Markup Language

10 INTRODUCTION

11 I. DE L AVÈNEMENT DE LA POST- GÉNOMIQUE À L EXPLOSION DES SOURCES 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE 1.1. NAISSANCE DE LA GÉNOMIQUE La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927). Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM ) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'adn (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'adn par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1). 1

12 Figure 1 - La double hélice d ADN (extrait de U.S. Department of Energy Office of Science 1 ) La double hélice d ADN se compose d une suite de nucléotides*. Chaque nucléotide est dénommé par l initiale du nom de la base azotée spécifique qui le compose, et l information portée par le génome est contenue dans ce long texte près de 4 milliards pour l homme, écrit dans l alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s est opéré en biologie. Savoir que l information génétique de tout organisme vivant est contenue dans une séquence nucléique, l ADN, ouvre les portes de nombreuses recherches en génétique. Depuis les dernières trente années, avec l essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d isoler, de cloner et de séquencer les gènes SÉQUENÇAGE DES GÉNOMES Le séquençage des acides nucléiques débute en 1977 avec l apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d amplification génétique ou PCR* (Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain. L'objectif du déchiffrage de notre «patrimoine génétique» et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et 1 2

13 thérapie géniques, nouveaux médicaments...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization 2 ) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989). En 1990, le Projet Génome Humain (HGP 3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE 4 (Department Of Energy) et la NIH 5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d organismes modèles. En 1995, l équipe de Craig Venter au TIGR 6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000). En 1998, Craig Venter, PDG de l entreprise Celera Genomics, annonce le séquençage du génome humain pour Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour C est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004) PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME La mise à disposition publique des séquences de génomes marque le début d un long travail d analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d un point de vue biologique, il s agit de l annotation des génomes. Cette annotation exhaustive requiert l aide de solutions bioinformatiques (Lewis et al., 2000), et n est pas triviale (Claverie et al., 1997)

14 Identifier les gènes Il faut dans un premier temps identifier les gènes contenus dans les génomes, c est ce qu on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l ensemble des protéines potentiellement produites à partir d une séquence d ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l origine de la production des protéines. Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5 du gène. Les régions transcrites sont composées d exons et d introns, les derniers étant éliminés au cours de l épissage* conduisant à la production de l ARNm mature. Dans l ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d initiation de la traduction* (UTR 5 ) et en aval du site de terminaison de la traduction* (UTR 3 ). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l expression génique (Mignone et al., 2002). A l intérieur ou à l extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l épissage, la polyadénylation* (sites polya) et la traduction* (site d initiation de la traduction, codons STOP). Un logiciel de détection de gène prend en entrée une séquence d ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2). Figure 2 Objectif de la détection de gènes A partir d une séquence génomique brute (en haut), identifier sa structure génique (en bas). Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002). On distingue les méthodes extrinsèques qui utilisent la recherche d homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI 7 (National Center for Biotechnology Information) (Altschul et al., 1990). Aujourd hui de nombreux programmes sont disponibles, la plupart d entre eux sont référencés sur le site Web maintenu à jour par Wentian Li (http://www.nslij-genetics.org/dnacorr/). 7 * Les termes associés à une astérisque sont définis dans le glossaire 4

15 Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002). A l issue du séquençage, le nombre de gènes constituant notre génome a été estimé à (Hogenesch et al., 2001), même si aujourd hui de nouvelles estimations réduisent ce chiffre à (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'adn ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes Rechercher la fonction des gènes La démarche suivie pour découvrir la fonction d un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction. La comparaison du génome humain avec celui d organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l origine d hypothèses sur la fonctions de gènes (Jackson, 2001). Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l ensemble des informations disponibles sur le gène étudié et son environnement. C est là tout l apport de l intégration de données, développé tout au long de ce manuscrit Besoin de la post-génomique Le manque d homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001). De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos). C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s exprime. Il faut de plus caractériser l activité des protéines produites ainsi que leurs interactions. La post génomique passe par l étude du transcriptome* et du protéome*, définissant respectivement l ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données. 5

16 Figure 3 Le fonctionnement cellulaire : de l ADN aux protéines (extrait de U.S. Department of Energy Office of Science) L expression des gènes débute dans le noyau par la production d ARNm à partir de l ADN. C est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique Analyser le transcriptome A l inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l homme, sur environ ARNm transcrits, seuls à sont exprimés dans une cellule spécialisée, et parmi ces transcrits, à semblent spécifiques de ce type cellulaire. Ainsi, l étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules. Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d identifier et de localiser une séquence nucléotidique (respectivement l ADN et l ARN) dans un génome entier, ou tout mélange complexe d ADN (Southern, 1975). Ces techniques se limitent à l analyse d un petit nombre de gènes et ne permettent pas d appréhender la complexité au niveau cellulaire. Aussi, d autres techniques plus globales permettant l analyse de l expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l étude du niveau d expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d étudier la séquence des gènes, les mutations et le polymorphisme. 6

17 Analyser le protéome Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d autant vrai que le niveau des ARNm n est pas toujours corrélé avec le niveau des protéines, et que l analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit. Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de «double hybride*» est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989) Simuler les réseaux d interaction Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules Prédire la structure tridimensionnelle des protéines La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB 8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model 9 (Schwede et al., 2003), Geno3D 10 (Combet et al., 2002)

18 2. LA PROFUSION DES SOURCES DE DONNÉES Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l annotation des génomes, les technologies de gestion de l information et de l Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données NAISSANCE DES BANQUES GÉNÉRALISTES Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l amélioration des techniques de séquençage. L EMBL 11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH 12 (National Institute of Health), la banque nucléique GenBank 13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ 14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences. Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l influence du NBRF 15 (National Biomedical Research Foundation) est la PIR- PSD 16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot 17, constituée à l université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB 18 (Swiss Institute of bioinformatics), l EBI 19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt 20 (Universal Protein Resource) (Bairoch et al., 2005)

19 2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées. Figure 4 Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank) Il s agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d expression des gènes, de données protéomiques ou immunologiques. 9

20 Catégorie Exemple Nom ou description URL GenBank Toutes séquences nucléotidiques connues Banques de séquences nucléotidiques TRANSFAC Transcritpion factors and binding sites Banques de séquences d'arn HuSiDa Human sirna database Banques de séquences protéiques UniProt Universal protein knowledgebase: merged data from Swiss- Prot, TrEMBL and PIR protein sequence databases PROSITE Biologically significant protein patterns and profiles ChEBI Chemical entities of biological interest Banques de structures PDB Protein structure databank Banques génomiques (non humaines) FlyBase Séquences et informations génomiques de la drosophile BRENDA Noms d'enzymes et propriétés biochimiques Réseaux métaboliques et enzymes KEGG Pathway Réseaux métoboliques et de régulation Génomes humains et d'autres vertébrés PhenomicDB Comparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèles Gènes et maladies (humain) OMIM Online Mendelian inheritance in man, un catalogue des troubles génétiques humains Banques d'expression de gènes et données de puces à ADN ArrayExpress Données d'expression de puces à ADN Banques protéomiques 2D-PAGE Banque de protéome Autres banques de biologie moléculaire PubMed Citations et résumés de litérature biomédicale Banques d'organelle HMPD Human mitochondrial protein database FLAGdb++ Banque intégrée sur les génomes de plantes Banques de plantes TAIR The A rabidopsis information resource Banques immunologiques IMGT International immunogenetics information system Table 1 Catégories de banques de données (adpaté de (Galperin, 2005)) 10

Quelques termes-clef de biologie moléculaire et leur définition

Quelques termes-clef de biologie moléculaire et leur définition Acide aminé (AA) Quelques termes-clef de biologie moléculaire et leur définition Isabelle Quinkal INRIA Rhône-Alpes Septembre 2003 Petite molécule dont l enchaînement compose les protéines - on dit qu

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription.

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Résumé de thèse de David Kieffer Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Dans le cadre de la lutte contre le cancer, l'entreprise Genclis (Genomic

Plus en détail

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype.

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Les maladies génétiques comme la drépanocytose ou l'albinisme sont liées à des modifications du génotype des individus

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Notions de bioinformatique

Notions de bioinformatique Notions de bioinformatique Souvent les avancées des biotechnologies ont été possibles du fait d avancées technologiques relevant d autres domaines que la biologie. - En juillet 1995 le séquençage d Haemophilus

Plus en détail

Cahier de texte de la classe 1 ère 4 - SVT

Cahier de texte de la classe 1 ère 4 - SVT Cahier de texte de la classe 1 ère 4 - SVT DATE SEQUENCE lundi 12 : revoir la fiche méthodologique «utiliser le microscope optique» (disponible sur le site du lycée) Lundi 12 1 er contact avec les élèves.

Plus en détail

Tutoriel pour les enseignants de lycée. Rappel du contenu des programmes au lycée en classe de seconde

Tutoriel pour les enseignants de lycée. Rappel du contenu des programmes au lycée en classe de seconde Tutoriel pour les enseignants de lycée Ce document sert à l enseignant pour préparer différentes séquences pédagogiques afin d aborder : les questions de la génétique, des maladies génétiques, et les métiers

Plus en détail

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale Chapitre 10 L isolement et la manipulation de gènes Injection d ADN étranger dans une cellule animale Comment amplifier un gène d intérêt? Amplification in vivo à l aide du clonage d ADN L ensemble formé

Plus en détail

Sommaire. Première partie Les concepts de base

Sommaire. Première partie Les concepts de base Sommaire Préface à la troisième édition... Préface à la deuxième édition... Avant-propos à la troisième édition... Avant-propos à la deuxième édition... Avant-propos à la première édition... XV XVII XIX

Plus en détail

LA SYNTHÈSE DES PROTÉINES

LA SYNTHÈSE DES PROTÉINES LA SYNTHÈSE DES PROTÉINES La transcription Information : dans le noyau (sous forme d'adn) Synthèse des protéines : dans le cytoplasme (au niveau des ribosomes du reticulum endoplasmique) L'ADN ne sort

Plus en détail

Cahier de texte de la classe 1 ère 3 - SVT

Cahier de texte de la classe 1 ère 3 - SVT Cahier de texte de la classe 1 ère 3 - SVT DATE SEQUENCE jeudi 8 : revoir la fiche méthodologique «utiliser le microscope optique» (disponible sur le site du lycée) Jeudi 8 1 er contact avec les élèves.

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

TD Révision BIO57. Connaissance et Technique du gène

TD Révision BIO57. Connaissance et Technique du gène TD Révision BIO57 Connaissance et Technique du gène Novembre 2007 Cécile BAUDOT cecile.baudot@medecine.univ-mrs.fr INSERM 910 «Génétique Médicale et Génomique Fonctionnelle» Maladies Neuromusculaires Le

Plus en détail

THEME 1 A EXPRESSION, STABILITE ET VARIATION DU PATRIMOINE GENETIQUE

THEME 1 A EXPRESSION, STABILITE ET VARIATION DU PATRIMOINE GENETIQUE THEME 1 A EXPRESSION, STABILITE ET VARIATION DU PATRIMOINE GENETIQUE CHAPITRE 3 L EXPRESSION DU PATRIMOINE GENETIQUE I. LA RELATION GENES-PROTEINES Les protéines interviennent dans le fonctionnement d

Plus en détail

Chapitre 1 La révolution des sciences de la vie par la génétique

Chapitre 1 La révolution des sciences de la vie par la génétique Chapitre 1 La révolution des sciences de la vie par la génétique Variation génétique de la couleur des grains de maïs. Chaque grain représente un individu de constitution génétique distincte. La sélection

Plus en détail

Etude du transcriptome et du protéome en Neurooncologie

Etude du transcriptome et du protéome en Neurooncologie Etude du transcriptome et du protéome en Neurooncologie Principes, aspects pratiques, applications cliniques François Ducray Neurologie Mazarin, Unité Inserm U711 Groupe hospitalier Pitié-Salpêtrière Etude

Plus en détail

Génie génétique. Définition : Outils nécessaires : Techniques utilisées : Application du génie génétique : - Production de protéines

Génie génétique. Définition : Outils nécessaires : Techniques utilisées : Application du génie génétique : - Production de protéines Génie génétique Définition : Ensemble de méthodes d investigation et d expérimentation sur les gènes. Outils nécessaires : ADN recombinant, enzyme de restriction, vecteur, banque ADNc, sonde nucléique...

Plus en détail

I. TOUITOU (Mise ligne 15/10/08 LIPCOM-RM) Faculté de Médecine Montpellier-Nîmes

I. TOUITOU (Mise ligne 15/10/08 LIPCOM-RM) Faculté de Médecine Montpellier-Nîmes er cycle PCEM MI5 Génétique moléculaire et clinique Année Universitaire 008-009 Comment apprécier la composante héréditaire des maladies?. Excès de cas familiaux - Les études familiales - - La plupart

Plus en détail

Web sémantique, données libres et liées, UNT

Web sémantique, données libres et liées, UNT Web sémantique, données libres et liées, UNT Yolaine Bourda September 20, 2012 Web sémantique De nombreux documents sont présents sur le Web. Pourtant il est parfois difficile d avoir des réponses à des

Plus en détail

Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome

Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome Mercredi 23 Octobre LECLERCQ Barbara L2 GM Pr Krahn 10 pages Principe des études moléculaires en génétique médicale Méthodes d analyse des microlésions du génome Plan A. Introduction B. Techniques courantes

Plus en détail

Université Bordeaux Segalen - PACES 2012-2013 ED UE9s Avril 2013

Université Bordeaux Segalen - PACES 2012-2013 ED UE9s Avril 2013 Sélectionner les propositions exactes Université Bordeaux Segalen - PACES 2012-2013 ED UE9s Avril 2013 QCM 1 La plupart des techniques de biologie moléculaire repose sur le principe de complémentarité

Plus en détail

Expérience de Griffith, Avery, Mac Leod,...

Expérience de Griffith, Avery, Mac Leod,... Expérience de Griffith, Avery, Mac Leod,... En 1928, un microbiologiste anglais, Fred Griffith, qui recherchait un vaccin contre la pneumonie, démontra que des pneumocoques tués par la chaleur pouvaient

Plus en détail

L'ordre et la nature des acides aminés (ou séquence) d un polypeptide dépend de la séquence des nucléotides de l ADN du gène qui le code.

L'ordre et la nature des acides aminés (ou séquence) d un polypeptide dépend de la séquence des nucléotides de l ADN du gène qui le code. L'ordre et la nature des acides aminés (ou séquence) d un polypeptide dépend de la séquence des nucléotides de l ADN du gène qui le code. Une mutation, peut entraîner une modification de la séquence des

Plus en détail

Série : STL Spécialité biotechnologies SESSION 2014 BACCALAURÉAT TECHNOLOGIQUE

Série : STL Spécialité biotechnologies SESSION 2014 BACCALAURÉAT TECHNOLOGIQUE BACCALAURÉAT TECHNLGIQUE Série : STL Spécialité biotechnologies SESSIN 2014 CBSV : sous épreuve coefficient 4 Biotechnologies : sous épreuve coefficient 4 Durée totale de l épreuve: 4 heures Les sujets

Plus en détail

Chapitre 14: La génétique

Chapitre 14: La génétique Chapitre 14: La génétique A) Les gènes et les protéines, ça te gêne? 1) a) Quel est l élément de base des vivants? Les cellules b) Qu a-t-elle en son centre? Un noyau c) Qu y retrouve-t-on sous forme de

Plus en détail

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits PROSITE banque de motifs et de profils caractéristiques de domaines ou de

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Les microarrays: technologie pour interroger le génome

Les microarrays: technologie pour interroger le génome Les microarrays: technologie pour interroger le génome Patrick DESCOMBES patrick.descombes@frontiers-in-genetics.org Plate forme génomique NCCR Frontiers in Genetics Université de Genève http://genomics.frontiers-in-genetics.org

Plus en détail

Fiche de présentation

Fiche de présentation Fiche de présentation Classe : 1 ère STL Enseignement : Chimie-biochimie-sciences du vivant THEME du programme : 4 Sous-thème : 4.1 Les propriétés informatives de l ADN sont liées à sa structure Présentation

Plus en détail

Analyse informatique des données moléculaires

Analyse informatique des données moléculaires 6 - Bioinformatique F. CORPET, C. CHEVALET INRA, Laboratoire de Génétique Cellulaire, BP 27, 31326 Castanet-Tolosan cedex e-mail : chevalet@toulouse.inra.fr Analyse informatique des données moléculaires

Plus en détail

Les défis de la Bioinformatique:

Les défis de la Bioinformatique: Les défis de la Bioinformatique: Une introduction à la Journée du 19 octobre Marie-Paule LEFRANC Journées du CINES 19-21 octobre 2004 organisées par Laetitia Regnier Importance des facteurs génétiques

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Architectures web pour la gestion de données

Architectures web pour la gestion de données Architectures web pour la gestion de données Dan VODISLAV Université de Cergy-Pontoise Plan Le Web Intégration de données Architectures distribuées Page 2 Le Web Internet = réseau physique d'ordinateurs

Plus en détail

GENETIQUE. la division cellule. durant la division cellule. Ai Aristote Mendel. Platon. Information génétique. Chromosome

GENETIQUE. la division cellule. durant la division cellule. Ai Aristote Mendel. Platon. Information génétique. Chromosome Molécules ADN Division cellulaire Synthèse des protéines. En Lien: Campbell, Reece,2déd./Biologie./chap.13 1 En Lien: Campbell, Reece,2déd./Biologie./chap.13 2 1 Chromosome Phénotype: l'apparence : structures

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Outils de gestion des ressources biologiques

Outils de gestion des ressources biologiques Le Cahier des Techniques de l INRA 2015 (84) N 1 Outils de gestion des ressources biologiques Frédéric Sanchez 1 *, Tou Cheu Xiong 1 Résumé. Les recherches en biologie génèrent un grand nombre d échantillons

Plus en détail

Obtention de données génétiques à grande échelle

Obtention de données génétiques à grande échelle Obtention de données génétiques à grande échelle Stéphanie FERREIRA Ph.D. Campus de l Institut Pasteur de Lille 1, rue du Professeur Calmette 59000 LILLE Tel : 03 20 87 71 53 Fax : 03 20 87 72 64 contact@genoscreen.fr

Plus en détail

Chapitre 1. La cellule : unité morphologique et fonctionnelle

Chapitre 1. La cellule : unité morphologique et fonctionnelle Chapitre 1. La cellule : unité morphologique et fonctionnelle 1. Historique de la biologie : Les premières cellules eucaryotes sont apparues il y a 3 milliards d années. Les premiers Homo Sapiens apparaissent

Plus en détail

L annotation des séquences en immunogénétique: la stratégie d IMGT basée sur IMGT-ONTOLOGY.

L annotation des séquences en immunogénétique: la stratégie d IMGT basée sur IMGT-ONTOLOGY. L annotation des séquences en immunogénétique: la stratégie d IMGT basée sur IMGT-ONTOLOGY. Véronique Giudicelli 1, Joumana Jabado-Michaloud 1, Denys Chaume 1 et Marie-Paule Lefranc 1,2 1 IMGT, the international

Plus en détail

THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE. CHAPITRE 1 : la relation entre ADN et protéines

THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE. CHAPITRE 1 : la relation entre ADN et protéines THÈME 3 : DU GÉNOTYPE AU PHÉNOTYPE CHAPITRE 1 : la relation entre ADN et protéines Les caractères d un individu dépendent de plusieurs facteurs : certains dépendent des caractères présents dans la famille

Plus en détail

ECUE 2 (L 1 -S 2 ) : Microbiologie générale Microbiologie générale

ECUE 2 (L 1 -S 2 ) : Microbiologie générale Microbiologie générale Unité d enseignement UE 8 : Biologie Moléculaire - Microbiologie ECUE 2 (L 1 -S 2 ) : Microbiologie générale Microbiologie générale 1h30 de cours et 1h15 de Travaux pratiques Un examen écrit ; un examen

Plus en détail

I. Histoire de la biologie moléculaire (Q1 à Q5)

I. Histoire de la biologie moléculaire (Q1 à Q5) I. Histoire de la biologie moléculaire (Q1 à Q5) Q1. Concernant les premières lois sur l hérédité : Elles ont été établies grâce à des expériences menées sur la drosophile (Drosophila melanogaster). Elles

Plus en détail

La synthèse des protéines transcription code génétique traduction

La synthèse des protéines transcription code génétique traduction CEC André-Chavanne BIO 3 OS La synthèse des protéines transcription code génétique traduction I. La «Transcription» : de l ADN à l ARNm. L'adresse suivante permet d accéder à une ANIMATION sur la TRANSCRIPTION.

Plus en détail

L3-BH01 Cours n 10 Modifications post-transcriptionnelles

L3-BH01 Cours n 10 Modifications post-transcriptionnelles L3-BH01 Cours n 10 Modifications post-transcriptionnelles Ce cours est présent sur le web à l adresse suivante : http://www.univ-orleans.fr/sciences/biochimie/l/ressources.htm Plan (cours n 10 & 11) Introduction

Plus en détail

! recenser, extraire, saisir l informa3on u3le d un document !!! Que code un gène? Comment? Activité 1 :

! recenser, extraire, saisir l informa3on u3le d un document !!! Que code un gène? Comment? Activité 1 : Que code un gène? Comment? C2 recenser, extraire, saisir l informa3on u3le d un document C12 C26 C27 savoir exploiter un logiciel déduire interpréter Activité 1 : Le phénotype de la maladie héréditaire

Plus en détail

Méthodes et techniques de la biologie du développement

Méthodes et techniques de la biologie du développement Méthodes et techniques de la biologie du développement 1. Etude de l expression des gènes : Détecter les transcrits et les protéines au cours de l ontogenèse l outil anticorps 1.1. La RT-PCR La réaction

Plus en détail

Expression des gènes Comparatif entre procaryotes et eucaryotes

Expression des gènes Comparatif entre procaryotes et eucaryotes Comparaison procaryotes/ 2TSbc Expression des gènes Comparatif entre procaryotes et eucaryotes La majeure partie des connaissances de biologie moléculaire a d'abord débuté par l'étude des phénomènes chez

Plus en détail

L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder

L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder Christine CARAPITO, Alexandre BUREL, Patrick GUTERL, Alexandre WALTER, Jérôme PANSANEL, Fabrice VARRIER,

Plus en détail

La base de données MEDLINE

La base de données MEDLINE La base de données MEDLINE La base de données MEDLINE est produite par la National Library of Medicine (NLM) aux Etats-Unis. Elle couvre tous les domaines biomédicaux : médecine, biologie, toxicologie,

Plus en détail

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire Vous aurez besoin des programmes suivant : d un éditeur de séquence d un visualiseur de structure 3D (PyMOL) Avant-propos

Plus en détail

Bioinformatique. Ressources et banques de données internationales

Bioinformatique. Ressources et banques de données internationales Bioinformatique Ressources et banques de données internationales Frédéric Lecerf frederic.lecerf@agrocampus-ouest.fr UMR PEGASE Equipe Génétique & Génomique Bioinformatique Plan du module 1. Présentation

Plus en détail

Du génotype au phénotype, relation avec l environnement

Du génotype au phénotype, relation avec l environnement Du génotype au phénotype, relation avec l environnement Pré-requis (troisième et seconde) : Chaque individu présente les caractères de l'espèce avec des variations qui lui sont propres. C'est le résultat

Plus en détail

Cours de Biologie Cellulaire L1 2006/2007

Cours de Biologie Cellulaire L1 2006/2007 Cours de Biologie Cellulaire L1 2006/2007 Qu est ce que la biologie cellulaire? La biologie cellulaire étudie les cellules et leurs organites, les processus vitaux qui s'y déroulent ainsi que les mécanismes

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

LA TRANSCRIPTION. Introduction. I. Modalité générale de la transcription. II. Transcription chez les Procaryotes

LA TRANSCRIPTION. Introduction. I. Modalité générale de la transcription. II. Transcription chez les Procaryotes LA TRANSCRIPTION Introduction I. Modalité générale de la transcription II. Transcription chez les Procaryotes 1. L'ARN polymérase 2. Etapes de la transcription a. Initiation b. Elongation c. Terminaison

Plus en détail

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA

POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA POPULATION D ADN COMPLEXE - ADN génomique ou - copie d ARNm = CDNA Amplification spécifique Détection spécifique Clonage dans des vecteurs Amplification in vitro PCR Hybridation moléculaire - hôte cellulaire

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Eléments primordiaux de biologie moléculaire

Eléments primordiaux de biologie moléculaire Eléments primordiaux de biologie moléculaire Pourquoi s intéresser au matériel génétique? Base de l information génétique Tissu Cellule Noyau Organisme entier Lieu où est localisé l ADN Mol d ADN qui est

Plus en détail

Ontologies et l éditeur Protégé - Application à la formalisation des concepts de description d IMGT-ONTOLOGY

Ontologies et l éditeur Protégé - Application à la formalisation des concepts de description d IMGT-ONTOLOGY Ontologies et l éditeur Protégé - Application à la formalisation des concepts de description d IMGT-ONTOLOGY Véronique Giudicelli LIGM, IGH, UPR CNRS 1142 141 rue de la Cardonille 34296 Montpellier Cedex

Plus en détail

MASTER (LMD) - SCIENCES ET NUMÉRIQUE POUR LA SANTÉ (ANCIEN STIC SANTÉ)

MASTER (LMD) - SCIENCES ET NUMÉRIQUE POUR LA SANTÉ (ANCIEN STIC SANTÉ) MASTER (LMD) - SCIENCES ET NUMÉRIQUE POUR LA SANTÉ (ANCIEN STIC SANTÉ) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé SAVOIR FAIRE ET COMPÉTENCES

Plus en détail

Formation Génomique et élevage. Glossaire de génétique moléculaire (animale)

Formation Génomique et élevage. Glossaire de génétique moléculaire (animale) Formation Génomique et élevage Rennes 21-23 novembre 2005 Glossaire de génétique moléculaire (animale) Version 1.1 Français (anglais) Les mots soulignés sont des entrées de ce glossaire ADN (DNA) : acide

Plus en détail

CERTIFICAT DE COMPÉTENCES EN BIO-INFORMATIQUE

CERTIFICAT DE COMPÉTENCES EN BIO-INFORMATIQUE CERTIFICAT DE COMPÉTENCES EN BIO-INFORMATIQUE Organisé par l équipe pédagogique : Statistique bioinformatique du département IMATH Responsable de la formation : Pr. Jean-François Zagury Coordinateur des

Plus en détail

Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques

Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques Bases moléculaires des mutations et Bases moléculaires du mode de transmission des maladies génétiques Collège National des Enseignants et Praticiens de Génétique Médicale Martin Krahn Département de Génétique

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Comment la Souris fait de la souris avec des graines?

Comment la Souris fait de la souris avec des graines? Comment la Souris fait de la souris avec des graines? d après «10 clés pour la Biologie» de J. Tavlitzki «[ ] La Souris, l Ecureuil, le Lapin mangent des graines. La Souris fait de la souris, l Ecureuil

Plus en détail

Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles. Séquençage de l ADN

Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles. Séquençage de l ADN Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles Séquençage de l ADN 1- Un brin complémentaire de l ADN à séquencer est fabriqué

Plus en détail

Microbiologie BIOL 3253. L évolution, la taxinomie et la diversité microbienne

Microbiologie BIOL 3253. L évolution, la taxinomie et la diversité microbienne Microbiologie BIOL 3253 L évolution, la taxinomie et la diversité microbienne Introduction générale et vue d ensemble Taxinomie Science de la classification biologique. Constituée de 3 parties séparées

Plus en détail

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base)

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) 1. Généralités sur l'information et sur sa Représentation 1.1 Informations et données : a. Au sen de la vie : C

Plus en détail

Intégration de données multiéchelles pour caractériser la. qualité des fruits

Intégration de données multiéchelles pour caractériser la. qualité des fruits Intégration de données multiéchelles pour caractériser la qualité des fruits Workshop IN-OVIVE - PAFIA 02/07/2013 Julie Bourbeillon et François Vallée Contexte La pomme 1er fruit dans le panier de la ménagère

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Présentation ADN Fishbase. Jolien Bamps

Présentation ADN Fishbase. Jolien Bamps Présentation ADN Fishbase Jolien Bamps Les lois de Mendel et la transmission de l hérédité Gregor Mendel Moine et botaniste hongrois (1822-1884), en charge de maintenir le potager de son monastère Considéré

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

Voyage Au Cœur Du Génome

Voyage Au Cœur Du Génome Voyage Au Cœur Du Génome Jean-Philippe.Vert@ensmp.fr ENSMP - CG - Bioinformatique 17 mars 2005 Une brève histoire 1866 : Lois de l hérédité (Mendel) 1909 : Morgan et les drosophilistes 1944 : L ADN est

Plus en détail

L INSTITUT DE RECHERCHE EN

L INSTITUT DE RECHERCHE EN 1 L INSTITUT DE RECHERCHE EN IMMUNOLOGIE ET EN CANCÉROLOGIE COMMERCIALISATION DE LA RECHERCHE VISION Être un centre reconnu internationalement pour ses activités de maximisation de la valeur de la recherche

Plus en détail

Médecine 4P Prédictive, Préventive, Personnalisée, Participative Les enjeux

Médecine 4P Prédictive, Préventive, Personnalisée, Participative Les enjeux Médecine 4P Prédictive, Préventive, Personnalisée, Participative Les enjeux Unité Inserm UMR 1087-CNRS UMR 6291 Hervé Le Marec Evolution de la médecine et de la recherche biomédicale développement de traitements

Plus en détail

Lettres: A, T, G, C. Mots: à 3 lettres (codons) Phrase: gène (information pour synthétiser une protéine). Ponctuation

Lettres: A, T, G, C. Mots: à 3 lettres (codons) Phrase: gène (information pour synthétiser une protéine). Ponctuation 2- Les molécules d ADN constituent le génome 2-1 La séquence d ADN représente l information génétique Lettres: A, T, G, C Mots: à 3 lettres (codons) Phrase: gène (information pour synthétiser une protéine).

Plus en détail

L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE

L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE KASPRIC Nicolas Thèse débutée en février 2013 Equipe Amuvi Encadrants : Muriel BONNET Brigitte PICARD Avec l appui

Plus en détail

Marc DELPECH. CORATA La Rochelle le 21 mai 2008

Marc DELPECH. CORATA La Rochelle le 21 mai 2008 Marc DELPECH CORATA La Rochelle le 21 mai 2008 En 24 ans les progrès ont été considérables Premières utilisation des techniques de génétique moléculaire en diagnostic : 1984 Une palette de techniques très

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

La biologie synthétique: enjeux et défis

La biologie synthétique: enjeux et défis Buts de la biologie synthétique La biologie synthétique: enjeux et défis - Créer des microorganismes de synthèse: châssis vivant, de comportement connu (modélisable), modifiable à façon pour des tâches

Plus en détail

Amgen A propos de la biotechnologie

Amgen A propos de la biotechnologie Amgen A propos de la biotechnologie A propos de la biotechnologie La biotechnologie a permis de découvrir et de développer une nouvelle génération de médicaments à usage humain. Grâce aux progrès réalisés

Plus en détail

Analyse des génomes. Module de Bioinformatique Appliquée. A. Les projets Génome : a) Qu est-ce qu un projet génome? Cours Analyse des génomes

Analyse des génomes. Module de Bioinformatique Appliquée. A. Les projets Génome : a) Qu est-ce qu un projet génome? Cours Analyse des génomes Module de Bioinformatique Appliquée GB3-2012 Cours Analyse des génomes 0 Analyse des génomes 1 Les objectifs des projets génomes sont : Assemblagedes cartes physiques et génétiques sur le génome de l organisme

Plus en détail

Annotation in silico de séquences biologiques

Annotation in silico de séquences biologiques Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique

Plus en détail

Introduction à la biologie moléculaire et à la bio-informatique

Introduction à la biologie moléculaire et à la bio-informatique Introduction à la biologie moléculaire et à la bio-informatique Cours de Master Recherche M2, 2004/2005 Jean-Philippe Vert Jean-Philippe.Vert@mines.org Master Recherche M2 c 2003-2005 Jean-Philippe Vert,

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

exemple de végétaux exposés au benzène atmosphérique Sylvain Dumez sylvain.dumez@univ-lille2.fr

exemple de végétaux exposés au benzène atmosphérique Sylvain Dumez sylvain.dumez@univ-lille2.fr Approches écotoxicogénomiques et application à la biosurveillance exemple de végétaux exposés au benzène atmosphérique Sylvain Dumez sylvain.dumez@univ-lille2.fr Laboratoire des Sciences végétales et fongiques,

Plus en détail

De l Acquisition des Données de Puces à ADN vers leur Interprétation : Importance du Traitement des Données Primaires

De l Acquisition des Données de Puces à ADN vers leur Interprétation : Importance du Traitement des Données Primaires UNIVERSITE DE NANTES FACULTE DE MEDECINE De l Acquisition des Données de Puces à ADN vers leur Interprétation : Importance du Traitement des Données Primaires THESE DE DOCTORAT Ecole Doctorale CHIMIE BIOLOGIE

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000 Nadia El-Mabrouk DIRO, Université de Montréal Qu est-ce que la Bioinformatique? Qu est-ce que la Bio-informatique? Champs multi-disciplinaire

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Les principes du sequençage haut-débit

Les principes du sequençage haut-débit Les principes du sequençage haut-débit Mardi 23 avril 2013 Dr H. EL HOUSNI Organisation Génomique Podhala'et'al.'Trends'in'genetics'2012' Costa V et al. J BioMed BioTech 2010 32 ans Costa V et al. J BioMed

Plus en détail

L épissage alternatif : un gène, combien de protéines?

L épissage alternatif : un gène, combien de protéines? L épissage alternatif : un gène, combien de protéines? Avant la publication de la séquence complète de l ADN du génome humain, au début des années 2000, on estimait le nombre de gènes à environ 300.000.

Plus en détail

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Statisticiens: Sophie Lamarre Steve Van Ginkel Sébastien Déjean - Magali San Cristobal Matthieu Vignes Biologistes: Stéphane

Plus en détail

La nutrigénomique: l avenir en nutrition animale

La nutrigénomique: l avenir en nutrition animale La nutrigénomique: l avenir en nutrition animale Yves Tarte, dmv Vétérinaire chargé du développement vétérinaire Hill s Pet Nutrition Canada Inc A.T.S.A.Q. Février 2009 La nutrigénomique Science toute

Plus en détail

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction

Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire. LA P.C.R. Polymerase Chain Reaction Licence d Informatique Année 2001-2002 Option: Introduction à la biologie moléculaire LA P.C.R. Polymerase Chain Reaction "chercher une aiguille dans une meule de foin"? Chercher à repérer un gène particulier

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail