Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL, 2009
introduction Toute activité humaine génère des données: Ex: Au sein d une entreprise, les données manipulées ont souvent la même structure: nom, prénom, sexe, date de naissance... Si ces données sont générées par des moyens informatiques: base de données (BDD Database) Définition: Une base de données est un ensemble structuré de données, géré à l aide d un ordinateur. Capable de gérer des volumes très importants. Exhaustivité: la base contient toutes les informations requises pour le service que l on en attend Unicité: la même information n est présente qu une seule fois
Motivation introduction Accumulation des données biologiques Séquences génomiques Données de génomique fonctionnelle Organisation et intégration des données Annotations fonctionnelles Modélisation explicative et prédictive
Rapide historique Nombreuse DB apparues dans les années 80. EMBL Nucleotide Sequence Database, Hamm GH et al (1986) Nucleic Acids Res., 19, 5-9 GenBank genetic sequence databank, Bilofsky HS et al (1986) Nucleic Acids Res., 14, 1-4. Face aux nombreuses applications des banques moins généralistes ont vu le jour (PROSITE, BLOCKS, TRANSFAC,...).
Quelques bases de données. Séquences nucléiques: EMBL, GenBank, DDBJ (DNA Data Bank),... Séquences protéiques: SwissProt,... Motifs protéiques: PROSITE, Pfam,... Motifs nucléiques: TRANSFAC, JASPAR,... Génomes annotés: NCBI, ENSEMBL,... Structures: PDB, DALI,... Métabolisme: KEGG, ipath (EMBL),... Annotation: Gene Ontology,... Transcriptome: ArrayExpress, GEO, TranscriptomeBrowser,... Signalisation: KEGG, BIOCARTA,GenMAPP,... Interaction: BIND, DIP, HPRD, APID, STRING... Proteomics: ExPASy,...
NAR database issue The current issue of Nucleic Acids Research includes descriptions of 179 databases, of which 95 are new. These databases (along with several molecular biology databases described in other journals) have been included in the Nucleic Acids Research online Molecular Biology Database Collection, bringing the total number of databases in the collection to 1170
(DataBase Management System DBMS) Tous les SGBD ont à peu près les mêmes fonctionalités. Leurs différences: coût, volume de traitement, nombre d utilisateurs simultanés,... Principaux SGBD ORACLE (Oracle Corporation), Microsoft SQL Server (Sybase/Microsoft) DB2 (IBM), mysql (open source), PostgreSQL (open source).
Le logiciel: SGBD. Apports escomptés d un SGBD? Centralisation des données. Assurer un stockage pérenne des données. Mise en relation des données. Assurer un accès rapide aux données. Gestion de très gros volumes de données Assurer le respect des règles de cohérence définies sur les données. être une interface entre une application et les données (ex: procédure). Assurer la confidentialité des données.
Le logiciel: SGBD. Les bases de données du modèle «relationnel» sont les plus répandues. Il existe d autres modèles (place minime sur le marché): hiérarchique (largement utilisé dans les premiers SGBD). En réseau (un graphe où les entités sont reliées entre elles à l aide de pointeurs logiques). Orienté objet. Relationnel objet... Plus d information...http://fr.wikipedia.org/wiki/base_de_données
(source wikipédia) En 1970, Edgar Frank Codd publia un article où il proposait de stocker des données hétérogènes dans des tables, dont la structure permet d établir des relations entre elles. En 1970, cette idée était considérée comme une curiosité intellectuelle. On doutait alors que les tables puissent être jamais gérées de manière efficace par un ordinateur. Ce scepticisme n a cependant pas empêché E.F. Codd de poursuivre ses recherches. Un premier prototype de Système de gestion de bases de données relationnelles (SGBDR) est construit dans les laboratoires d IBM. Depuis les années 1980, cette technologie a mûri et a été adoptée par l industrie. En 1987, le langage SQL, est standardisé. Malgré le succès du langage SQL qui a suivi, Codd dénoncera cet outil qu il considère comme une interprétation incorrecte de ses théories. À l heure actuelle, les SGBDR sont présents dans de nombreux logiciels, sont très répandus dans les bases de données et représentent une industrie de plusieurs milliards de dollars.
Données de structure identique > stockées dans une même table. Ex: Liste de gènes entrezid genesymbol genename chromosome 916 CD3E CD3E antigen, epsilon polypeptide 11 Attention: toutes les données d une même colonne sont du même type. Ex: float, char, int..., (!= tableur) les lignes sont des enregistrements.