Bases de données biologiques

Dimension: px
Commencer à balayer dès la page:

Download "Bases de données biologiques"

Transcription

1 Bases de données biologiques Marie-Dominique Devignes CR CNRS LORIA (ORPAILLEUR) M1 UE Génétique Humaine M.SVS mars 2009 Introduction (1/5) : Quelles données? Génomique et Post-Génomique Biologie des systèmes à l édifice Métabolome Connaissances Interactome Protéome Modèles Transcriptome Génome Données Des briques. 2 1

2 Introduction (2/5) : Quelles données? Illustration 1 : Croissance de EMBL Quantité! EST non-est WGS March, 2009 :«This morning the EMBL Database contained 246,661,404,752 nucleotides in 155,587,665 entries.» 3 Introduction (3/5) : Quelles données? Illustration 2 : Accès aux données du génome humain Complexité! 4 2

3 Introduction (4/5) : Dans quelles bases de données (BD)? Bref historique 1965 : Atlas of Protein Sequences and Structures : Margaret Dayhoff PIR en 1986 (Université Georgetown) 1980 s : EMBL/GenBank/DDBJ ; SwissProt 2000 : Compilation Nucleic Acids Research (Janvier) Janv 2003 : > 300 BD Janv 2004 : > 500 BD Janv 2005 : > 700 BD Janv 2006 : > 800 BD Janv 2008 : > 1000 BD 5 Introduction (5/5) : Dans quelles bases de données (BD)? Banques de séquences d ADN EMBL Data Library (1980) - EBI GenBank, homologue américain (1982) + RefSeq NCBI DDBJ (1986) - Japon Banques de séquences de protéines PIR-NBRF (USA,1986) SwissProt, correction et annotation des séquences de PIR (1993) UniProt (2003) : unification de SwissProt et PIR Banque de références bibliographiques MedLine Banque de structures 3D de protéines PDB BD sur les gènes et les maladies humaines OMIM BD sur récepteurs couplés aux protéines G GPCR-DB Généraliste + point de vue Organisme particulier Fonction particulière etc. etc. etc. 6 3

4 Plan du cours I. Multiplicité et hétérogénéité des BD biologiques II. Deux stratégies d unification 7 I. Multiplicité et hétérogénéité des BD biologiques 1. Formats 2. Contenus 3. Accès 8 4

5 1. Formats a. Définitions Base de données : Ensemble structuré et organisé de données permettant le stockage de grandes quantités d'informations afin d'en faciliter l'exploitation (ajout, mise à jour, recherche de données). Evite la redondance. Physiquement = ensemble de fichiers sur disque. Système de gestion de base de données : ensemble de programmes qui permettent l'accès à une base de données : transactions, intégrité, sécurité, administration. Un index : structure de données permettant au SGBD d'accéder de manière efficace au contenu d une base de données. Attention, un index améliore les performances d'accès en interrogation mais pénalise les mises à jour et prend de la place sur le disque. Une banque de données : ensemble (pas forcément structuré) d informations, parfois seulement le stockage de références sur des documents. Cousine de la base de données, mais sans contraintes fortes (redondance, cohérence, sécurité, etc.). Les banques de données sont souvent de «gros amas d infos en ligne» produits par des institutions Formats b. Historique des BD Programme Apollo (années 60) : hiérarchie de fichiers Base de données réseaux (années 70) Base de données relationnelles (années 80) Edgar Franck Codd avait proposé le modèle dès 1970! : Tables ou relations pour stocker des données reliées entre elles ; inventeur de l algèbre relationnelle (théorie des ensembles) Premier SGBD : IBM vers : Standard Query Language (SQL) : créer de nouvelles relations en appliquant des opérations telles que union, intersection, jointure, projection, etc. Diversification : BD orientées objet, semi-structurées (XML), multi-media etc. 10 5

6 1. Formats c. Les BD biologiques Au début, plutôt des banques de données (GenBank, EMBL, etc.) Notion de Format Bases de données Banques de données Produit Fournisseur Entrée 1 Entrée 2 Client Entrée 3 => Modèle de données -conceptuel - logique - physique Entrée 4 Etc. => Format de fichier plat («flat file») Formats d. Exemple de formats pour les gènes Exemple de 3 banques : KEGG (Kyoto, Japon) GENE (NCBI, Washington) a remplacé LocusLink GeneCards (Weizman Institute, Israël), 12 6

7 1. Formats d. Exemple de formats pour les gènes (1/3) : KEGG Fichier texte lettré, autoexplicatif Formats d. Exemple de formats pour les gènes (2/3) : Gene (NCBI) Format HTML mais modèle de données et format XML disponibles (cf "EntrezGene Specification«) 14 7

8 1. Formats d. Exemple de formats pour les gènes (3/3) : GeneCards Format HTML modèle de données indisponible Formats e. Exemple de formats pour les notices bibliographiques (1/3) MedLine BD en ligne; de références bibliographiques «médicales» et biologiques Organisme responsable : National Library of Medicine (NLM) Plus de 4000 journaux bio-médicaux publiés dans plus de 70 pays la majorité des références sont en anglais ou résumées en anglais PubMed : Outil d interrogation en ligne 16 8

9 1. Formats e. Exemple de formats pour les notices bibliographiques (2/3) Formats e. Exemple de formats pour les notices bibliographiques (3/3) PMID OWN - NLM STAT- Publisher DA FAU - Reichelt, Joachim IS AU - Reichelt J DP Nov FAU 16 - Dieterich, Guido MH - Amino Acid Sequence TI - BRAGI: AU linking - Dieterich and visualization G of database information in a 3D-viewer MH - Computer Graphics and modelling FAU - Kvesic, tool. Marsel MH - Computer Simulation AB - SUMMARY: AU BRAGI - Kvesic is a M well-established package for viewing and modelling of MH - *Database Management Systems 3Dstructures FAU - Schomburg, of biological Dietmar macromolecules. A new version of BRAGI has been MH - *Databases, Protein developed AU - that Schomburg is supported D on Windows, Linux and SGI. The user interface MH - Imaging, Three-Dimensional/*methods has been FAU rewritten - Heinz, Dirk to give W the standard "look and feel" of the chosen MH - Information Storage and Retrieval/methods operating AU - system Heinz and DW to provide a more intuitive, easier usage. A large MH - Models, Chemical number LA of - new eng features have been added. Information from public databases MH - *Models, Molecular such as PT SWISS-PROT, - Journal Article InterPro, DALI and OMIM can be displayed in the 3D MH - Molecular Sequence Data viewer. DEP Structures can be searched for homologous sequences using the NCBI MH - Proteins/*analysis/*chemistry blast PL server. - England AVAILABILITY: Freeware, licensed: MH - Sequence Analysis, Protein/methods SUPPLEMENTARY TA - Bioinformatics INFORMATION: MH - *Software AD - Division JT of - Bioinformatics Structural Biology, (Oxford, German England) Research Centre for Biotechnology MH - *User-Computer Interface (GBF), JID Mascheroder Weg 1, D-38124, Braunschweig, Germany. EDAT- 2004/11/18 09:00 // RN - 0 (Proteins) SB - IM // MHDA- 2005/07/13 09:00 PHST- 2004/11/16 [aheadofprint] AID - bti138 [pii] AID /bioinformatics/bti138 [doi] PST - ppublish SO - Bioinformatics Apr 1;21(7): Epub 2004 Nov

10 1. Formats f. MeSH :Vocabulaire pour indexer les notices bibliographiques MeSH : vocabulaire contrôlé de la NLM Initié en 1960 et mis à jour annuellement, Environ concepts ( descriptors ) But : Indexer des documents bibliographiques permet de retrouver des articles utilisant des termes différents pour les mêmes concepts 15 catégories organisées de façon hiérarchiques Outil : «MeSH browser» Formats g. Conclusion partielle Multiplicité et hétérogénéité des formats de données Difficultés pour interroger les sources de données Difficultés pour manipuler des données issues de sources différentes Scripts adaptés à chaque source (exemple : BioPerl) Intégration Conversion de formats Evolution des formats Nouvelles versions (release) des banques : «What s new?» Adapter les outils les scripts 20 10

11 I. Multiplicité et hétérogénéité des BD biologiques 1. Formats 2. Contenus 3. Accès Contenus a. Comment classer les BD biologiques? BD nucléiques / BD protéiques BD généralistes / BD spécialisées dédiées à un (micro)organisme E.Coli, B. Subtilis C. Elegans levure Humain, souris, rat etc. ou dédiées à une thématique métabolisme enzymes structure BD primaires / BD secondaires Etc

12 2. Contenus b. Les classifications disponibles (1/3) Portails : BioNetBook à l Institut Pasteur ( Expasy Life Science Directory Bioinformatics.net Etc Contenus b. Les classifications disponibles (2/3) Nucleic Acids Research, numéro de janvier depuis 2004 Compilation par Galperin 24 12

13 2. Contenus b. Les classifications disponibles (3/3) 25 I. Multiplicité et hétérogénéité des BD biologiques 1. Formats 2. Contenus 3. Accès 26 13

14 3. Accès aux BD et à leurs contenus a. Modalités d accès aux BD sur Internet b. Accès par le web c. Trouver la BD souhaitée d. Interroger une BD Accès aux BD et à leurs contenus a. Modalités d accès sur Internet (1/2) L échange de fichiers : FTP Objectif : permettre l échange de programmes et de données, par téléchargement à distance. Le World Wide Web (Web ou WWWW ou W3) Objectif : faciliter l accès à l information par navigation hypertextuelle dans des pages multimédia. Attention! ne pas confondre Internet et Web Internet = réseau physique, support matériel Web = réseau applicatif, support de communication 28 14

15 3. Accès aux BD et à leurs contenus a. Modalités d accès sur Internet (2/2) Fonctionnement en mode client/serveur 1. Construction d une requête ex web : CLIENT 5. Mise en forme / visualisation de la réponse Logiciel client (ex : Navigateur) utilisé par un consommateur de ressources envoie les requêtes au serveur affiche les résultats reçus 2. Envoi de la requête TCP/IP 4. Renvoi de la ressource souhaitée Pour le web : Protocole HTTP SERVEUR WEB 3. Interprétation / Exécution de la requête -trouver une page HTML -interroger une BD -exécuter un programme Logiciel serveur utilisé par un producteur de ressources attend les requêtes des clients et fournit les ressources Accès aux BD et à leurs contenus b. Accès par le web (1/4) Origine et définition CERN, 1989, projet World Wide Web : Tim Berners-Lee Système universel de diffusion et d accès à l information Fondé sur 3 standards Protocole entre client et serveur WEB : HTTP HyperText Transfer Protocol Langage de définition de document : HTML HyperTextMarkup Language Schéma pour nommer les ressources : URL Universal resource Locator URI Universal Resource Identifier Le W3C consortium : World Wide Web : Nombreux organismes privés (Microsoft, Netscape, Sun, IBM, ) publics (INRIA, MIT, ) Objectifs Développement et promotion du web Travaux de standardisation (HTML, HTTP, XML ) 30 15

16 3. Accès aux BD et à leurs contenus b. Accès par le web (2/4) URL : Uniform Ressource Locator «adresse réticulaire ou universelle» Exemple d URL (1) : - adresse FQDN (fully qualified domain name) - permet de repérer de façon unique une machine sur le réseau des réseaux. - syntaxe : Hôte.Domaine.TLD Hôte : bioinfo (nom de la machine serveur) Domaine : loria TLD : fr, org, com etc. (top level domain) - ce qui est retourné par le serveur est la page d accueil de la machine Exemple d URL (2) : - adresse FQDN suivie du chemin pour accéder à un fichier sur la machine - cf l adresse pour récupérer le cours : Accès aux BD et à leurs contenus b. Accès par le web (3/4) Exemple d URL (3) : URL «requête» pour une recherche dans GeneCards adresse FQDN Chemin vers un script Perl Paramètres pour l exécution du script 32 16

17 3. Accès aux BD et à leurs contenus b. Accès par le web (4/4) Interrogation par le web : schéma du flux de données 1. Formulaire HTML Construction d une URL requête Selection du mode GET ou POST Client web (navigateur) 7. Affichage de la réponse 2. URL requête Internet/HTTP 6. Envoi du document HTML 3. Interprétation de l URL Script + paramètres 4. Appel d un script Serveur web 5.Document Réponse Base de données extraction de données cgi PHP Document HTML Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (1/6) Comment trouver une BD biologique sur le web? Moteurs de recherche à base de mots-clés et/ou thématiques problème de bruit, de redondance, de silence 34 17

18 3. Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (2/6) Ex 1 : Moteur de recherche Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (3/6) Comment trouver une BD biologique sur le web? Moteurs de recherche à base de mots-clés et/ou thématiques problème de bruit, de redondance, de silence Portails d accès ex: BioNetbook, Expasy Classification pré-définie = navigation imposée 36 18

19 3. Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (4/6) Ex 2 : Portail Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (5/6) Comment trouver une BD biologique sur le web? Moteurs de recherche à base de mots-clés et/ou thématiques problème de bruit, de redondance, de silence Portails d accès (voir II et TP) ex: Infobiogen, Bioweb, Expasy Classification pré-définie = navigation imposée Catalogues BioNetBook (Institut Pasteur), NAR Modes d interrogation peu flexibles Problème d exhaustivité et de mise à jour : silence Lié à des problématiques de «fouille du web» et de veille technologique 38 19

20 3. Accès aux BD et à leurs contenus c. Trouver la BD souhaitée (6/6) Accès aux BD et à leurs contenus d. Exemples d interface (1/2) Ex 1 : Interface PubMed pour accéder à MedLine 40 20

21 3. Accès aux BD et à leurs contenus d. Exemples d interface (2/2) Ex 2 : Accès à une «vraie» BD : Flybase Query or Browse? Accès aux BD et à leurs contenus Conclusion sur l accès aux données Grande diversité des interfaces HTML Pour l utilisateur : indépendant du système de gestion de données Help, Documentation, pour exploiter au mieux les interfaces Interrogation ou navigation Définition du vocabulaire pour les requêtes Présentation du contenu de la base Travail sur les données Intérêt de connaître la structure des données (formats, modèles de BD) Téléchargement de la base de données : ftp Traitements locaux, scripts, sql 42 21

22 Conclusion de la première partie Multiplicité et Hétérogénéité des BD biologiques Richesse Problèmes d intégration Cohérence Qualité des données Mises à jour Complexité des données Donc de leur représentation... et de l interrogation Deux types de solutions Accès unifié Bases de données intégrées 43 Plan du cours I. Multiplicité et hétérogénéité des BD biologiques II. Deux stratégies d unification 44 22

23 II. Deux stratégies d unification 1. Contexte 2. Portails et interfaces d interrogation dédiées 3. Bases de données intégrées Contexte a. Exemples de besoin? Recherche de nouvelles cibles thérapeutiques Trouver les séquences de GenBank similaires (60 % sur 50 aa) à une séquence donnée de canal sodium dans SwissProt, et qui ont une référence publiée depuis 1995 dans PubMed? Inventaire de gènes candidats Trouver les gènes du chromosome X qui sont exprimés dans le cerveau? Fouiller la littérature récente Trouver les entrées récentes de PubMed traitant de données d expression reliées à la sérotonine et liées à des séquences de GenBank 46 23

24 Utilisateur 1. Contexte b. Deux groupes de solutions Utilisateur Interrogation unifiée Interrogation Indexation commune Explicitation des liens entre les sources Schema global 1 : ACCES UNIFIE Systèmes multi-bases unifiant l accès (croisé) à plusieurs sources (PBIL, Entrez, SRS, BioMart ) 2 : BD UNIFIEE Intégration de plusieurs sources en une seule (GeneCards, InterPro, UDB,GDB ) 47 II. Deux stratégies d unification 1. Contexte 2. Portails et interfaces d interrogation dédiées 3. Bases de données intégrées 48 24

25 2. Portails a. Un exemple PBIL (1/2) PBIL : Pôle BioInformatique Lyon-Gerland Origine Créé en laboratoires : BBE (M. Gouy), IBCP (G. Deleage), Helix (F. Rechenmann) Activités de services en lien avec une activité de recherche Services proposés Portail a. Un exemple PBIL (2/2) Motivations Garder une trace des recherches sur le web Faire le lien entre sélection d une séquence et analyse de séquence Pouvoir lancer des traitements sur plusieurs séquences à la fois Architecture BD généralistes + BD maisons : indexées avec ACNUC ACNUC (dès 1985) pour l accès aux séquences (fichiers plats, GenBank,EMBL, SwissProt ou sous-sections, etc.) SRS depuis 2005 Interrogation par famille de protéines (propre à PBIL, FamFetch) Espace de travail utililisateur Utilisation Tournée vers l analyse des séquences et structures protéiques 50 25

26 2. Portail b. Généralités Autres exemples BIOWEB Institut Pasteur ExPASy Life Science Directory etc. Avantages A la fois des BD et des logiciels à partir d une page unique Couverture parfois très large Possibilité de mémoriser et tracer les recherches Inconvénients Pas d interrogation commune des BD Peu d infos sur les BD -> aller voir! Interface d interrogation dédiée : Entrez (1/3) ENTREZ ( Entrez = ensemble des BD de biologie moléculaire du NCBI + un système d interrogation particulier associé à ces banques 52 26

27 3. Interface d interrogation dédiée : Entrez (2/3) Types de données accessibles par navigation à l aide d Entrez Interface d interrogation dédiée : Entrez (3/3) Interrogation des différentes BD par des requêtes booléennes Exemple sur PubMed : p53[title] AND Science[JOURNAL] Exemple sur Protein : human[orgn] AND 400:500[SLEN] (found : 24445, january 9, 2006) Chaque document retrouvé peut constituer le point de départ d une exploration (d où Entrez) Liens hypertextes pour des références croisées simples seq. ADN protéine structure réf. biblio Liens hypertextes basés sur des similarités calculées entres les données (voisinage directe de chaque donnée) seq. ADN liste des 100 séquences s alignant au sens de BLAST réf. MEDLINE liste des références les plus «proches» (métriques basées sur des méthodes statistiques appliquées aux textes) 54 27

28 Conclusion sur la partie Portails et interfaces d interrogation dédiées Avantages Accès unifié aux BD hétérogènes Liens entre les BD Préserve l autonomie des BD Utilisation facile, intuitive Exportation dans divers formats Constitution d un jeu de données personnelles Existence de systèmes ouverts, personnalisables en terme de nombre et nature des BD interfacées (SRS, BioMart) Limites NCBI-Entrez : système fermé, seulement les BD du NCBI Nécessité de ré-indexer régulièrement pour tenir compte des mises à jours Manque d indications sur la qualité des sources interrogées 55 II. Deux stratégies d unification 1. Contexte 2. Portails et interfaces d interrogation dédiées 3. Bases de données intégrées 56 28

29 Rappel : les deux solutions au problème de l hétérogénéité des BD biologiques Utilisateur Utilisateur Interrogation unifiée Interrogation Indexation commune Explicitation des liens entre les sources Schéma global 1 : ACCES UNIFIE Systèmes multi-bases unifiant l accès (croisé) à plusieurs sources (PBIL, Entrez, SRS, BioMart ) 2 : BD UNIFIEE Intégration de plusieurs sources en une seule (GeneCards, InterPro, Genome Browser, Ensembl ) 57 Plan 1. Généralités sur l intégration des BD 2. Exemple de 3 BD intégrées (travail personnel conseillé) 58 29

30 1. Intégration des BD a. Définition et Motivations b. Conception des BD intégrées c. Maintenance d. Difficultés liées aux BD biologiques Intégration des BD a. Définition et Motivations Définition d une BD intégrée Système conçu et construit à partir d un schéma (modèle de données) global qui fournit une représentation du domaine considéré. Chaque élément du schéma global est mis en correspondance (mapping) avec les éléments des schémas des BD sources. Motivations Nettoyage des données, résolution des conflits entre les données L utilisateur n a pas besoin de connaître les détails des modèles de données de chacune des BD sources 60 30

31 1. Intégration des BD b. Conception et réalisation (1/4) Conception d un système intégré Schémas des BD sources Requêtes sur les BD sources Conception d un système intégré Schéma global Correspondance (Mapping) entre le schéma global et les schémas des BD sources Affectation (Mapping) sur les BD sources des requêtes adressées au schéma global Intégration des BD b. Conception et réalisation (2/4) Editeur Ouvrage Université Address Nom Exemple simplifié : 2 bases de données documentaires BD1 BD2 Sujet Titre Nom Nom Pays Liste des tâches à accomplir : 1. Identifier Sujet et Keywords 2. Transformer Editeur en Entité dans schéma 2 3. Lui rajouter un attribut Nom 4. Fusionner les schémas 5. Rajouter les propriétés résultant de la fusion Titre Publication Keyword Titre Code Editeur Code Domaine de recherche 62 31

32 1. Intégration des BD b. Conception et réalisation (3/4) Deux modes d implantation du schéma global Mode matérialisé les données sont effectivement rapatriées dans une nouvelle base de données ou entrepôt de données («data warehouse») = c est ce qu on étudiera dans le cours Mode non matérialisé les données restent dans les BD sources, un médiateur (système de médiation, fédération de BD) gère l accès distant aux sources en fonction des requêtes Bien en théorie, encore peu fonctionnel en pratique pour les données biologiques Intégration des BD b. Conception et réalisation (4/4) Mode matérialisé : entrepôt de données Schéma global Utilisateur BD : évaluation et optimisation des requêtes Avantages : -Robustesse -Rapidité d accès -Volumes traités -Nettoyage des données Vues sur chaque BD source Wrapper A Wrapper B Wrapper C Vue A Vue B Vue C A B C 64 32

33 1. Intégration des BD c. Maintenance Problème des mises à jour des BD sources Mode non matérialisé Adapter le wrapper si le schéma a changé Mode matérialisé Repérer dans le schéma global les données affectées par les mises à jour. Refaire la migration. Processus coûteux Intégration des BD d. Difficultés propres aux BD biologiques Complexité des données Schéma global complexe (Bio-ontologies) Hétérogénéité syntaxique et sémantique Détecter les contradictions, les résoudre Qualité des données Nécessité de tracer l origine des données Critères de confiance dans les données Evolution constante des BD sources Formats (schémas) Contenus 66 33

34 Plan 1. Généralités sur l intégration des BD 2. Exploration de 3 BD intégrées (travail personnel conseillé) Exploration de 3 BD intégrées (1/2) Il s agit ici d un questionnaire-guide pour un TD, transformé en travail personnel, recommandé mais non obligatoire (faute de temps). Les 3 bases de données à étudier sont les suivantes 1. InterPro : exemple de BD intégrée centrée sur les protéines 2. GeneCards : exemple de BD intégrée centrée sur les gènes humains 3. GenomBrowser : exemple de BD intégrée centrée sur les génomes

35 2. Exploration de 3 BD intégrées (2/2) Pour chaque base de données intégrée, on essaiera de répondre aux questions suivantes : 1. Résumer en une phrase, le sujet couvert par la BD 2. Indiquer le site web, le laboratoire ou l université responsable de la maintenance, son pays et sa ville. 3. Quelle est la date de dernière mise à jour du site? Quelle est la version en ligne de la BD («release»)? 4. Indiquer l adresse web de la documentation. Est-ce qu elle propose le schéma (modèle) de la BD intégrée? Si oui sous quel format? Y-a-t-il un «tutorial»?, une entrée-type à visualiser? 5. Quelles sont les bases de données sources, à l origine des données intégrées dans la BD intégrée? Combien y-en-a-t-il? 6. Sur une entrée-type comment repère-t-on l origine des données. Vérifier si on retrouve des données venant de toutes les BD sources. 7. Quelles sont les modalités d interrogation («Quick Search, Advanced Search, etc.)? 8. Quels traitements additionnels sont proposés par l interface pour présenter les données? Ne pas hésiter à me contacter par mail si vous avez des questions (sur le cours ou les TP) devignes@loria.fr 69 Conclusion Hétérogénéité des systèmes existants Distance entre les solutions informatiques et ce qui rend vraiment service aux Biologistes (nombre et nature des BD sources) Notion de scénario d interrogation Définir une séquence d étapes Automatisation de l exécution Choix des chemins selon : Préférences utilisateur Qualité des sources Autres critères 70 35