Introduction aux bases de données: application en biologie



Documents pareils
! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Information utiles. webpage : Google+ : digiusto/

Bases de données relationnelles : Introduction

Master I Génie Logiciel

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Présentation du module Base de données spatio-temporelles

INTRODUCTION AUX BASES de DONNEES

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Bases de données Outils de gestion

Base de données bibliographiques Pubmed-Medline

Mercredi 15 Janvier 2014

La problématique de la Préservation des Bases de Données. Olivier ROUCHON CINES Groupe PIN Jeudi 7 Octobre

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Bases de données Cours 1 : Généralités sur les bases de données

Les bases de données Page 1 / 8

Introduction aux bases de données Cours 1 : Généralités sur les bases de données

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

CHAPITRE 1. Introduction aux bases de données

1 Introduction et installation

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

CESI Bases de données

et les Systèmes Multidimensionnels

Dossier I Découverte de Base d Open Office

Gestion des bases de données

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Systèmes d information et bases de données (niveau 1)

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Bases de Données. Plan

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Les bases de données. Historique

Le langage SQL Rappels

Introduction aux SGBDR

Bibliographie Introduction à la bioinformatique

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Le langage SQL (première partie) c Olivier Caron

Introduction aux bases de données

La Business Intelligence en toute simplicité :

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

Conception des bases de données : Modèle Entité-Association

Evry - M2 MIAGE Entrepôt de données

UE 8 Systèmes d information de gestion Le programme

Introduction aux Bases de Données

MABioVis. Bio-informatique et la

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

A QUOI SERVENT LES BASES DE DONNÉES?

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Module BDR Master d Informatique (SAR)

Visual Paradigm Contraintes inter-associations

MyReport, LE REPORTING SOUS EXCEL

Procédure d'installation de Oracle Database pour Windows

Base de Données et Langage SQL

Les Géodatabases en 9.2

Bases de données cours 1

Séance 1 Introduction aux bases de données

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Glossaire. base de données géographiques Voir géodatabase (GDB).

Compte Rendu d intégration d application

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

CATALOGUE FORMATIONS DOMAINE Bases de données

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Du 10 Fév. au 14 Mars 2014

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

Spécialité Compétence complémentaire en informatique

IFT3030 Base de données. Chapitre 1 Introduction

THOT - Extraction de données et de schémas d un SGBD

UNIVERSITE DE CONSTANTINE 1 FACULTE DES SIENCES DE LA TECHNOLOGIE DEPARTEMENT D ELECTRONIQUE 3 ème année LMD ELECTRONIQUE MEDICALE

Introduction aux Bases de Données

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Cours Bases de données

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Bases de Données Avancées

IBM Cognos Disclosure Management

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

Gestion électronique de documents

Rappel sur les bases de données

Partie II Cours 3 (suite) : Sécurité de bases de données

1/ Présentation de SQL Server :

LES SOLUTIONS DE CONNECTIVITÉ 4D

Assises Métallerie ERP GPAO en métallerie: quelle offres, comment bien choisir son outil de gestion?

Bases de Données relationnelles et leurs systèmes de Gestion

Bases de données relationnelles

Big Data. Concept et perspectives : la réalité derrière le "buzz"

IBM Tivoli Compliance Insight Manager

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes. Partenaires du projet :

Qu est-ce que ArcGIS?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Introduction à JDBC. Accès aux bases de données en Java

Transcription:

Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL, 2009

introduction Toute activité humaine génère des données: Ex: Au sein d une entreprise, les données manipulées ont souvent la même structure: nom, prénom, sexe, date de naissance... Si ces données sont générées par des moyens informatiques: base de données (BDD Database) Définition: Une base de données est un ensemble structuré de données, géré à l aide d un ordinateur. Capable de gérer des volumes très importants. Exhaustivité: la base contient toutes les informations requises pour le service que l on en attend Unicité: la même information n est présente qu une seule fois

Motivation introduction Accumulation des données biologiques Séquences génomiques Données de génomique fonctionnelle Organisation et intégration des données Annotations fonctionnelles Modélisation explicative et prédictive

Rapide historique Nombreuse DB apparues dans les années 80. EMBL Nucleotide Sequence Database, Hamm GH et al (1986) Nucleic Acids Res., 19, 5-9 GenBank genetic sequence databank, Bilofsky HS et al (1986) Nucleic Acids Res., 14, 1-4. Face aux nombreuses applications des banques moins généralistes ont vu le jour (PROSITE, BLOCKS, TRANSFAC,...).

Quelques bases de données. Séquences nucléiques: EMBL, GenBank, DDBJ (DNA Data Bank),... Séquences protéiques: SwissProt,... Motifs protéiques: PROSITE, Pfam,... Motifs nucléiques: TRANSFAC, JASPAR,... Génomes annotés: NCBI, ENSEMBL,... Structures: PDB, DALI,... Métabolisme: KEGG, ipath (EMBL),... Annotation: Gene Ontology,... Transcriptome: ArrayExpress, GEO, TranscriptomeBrowser,... Signalisation: KEGG, BIOCARTA,GenMAPP,... Interaction: BIND, DIP, HPRD, APID, STRING... Proteomics: ExPASy,...

NAR database issue The current issue of Nucleic Acids Research includes descriptions of 179 databases, of which 95 are new. These databases (along with several molecular biology databases described in other journals) have been included in the Nucleic Acids Research online Molecular Biology Database Collection, bringing the total number of databases in the collection to 1170

(DataBase Management System DBMS) Tous les SGBD ont à peu près les mêmes fonctionalités. Leurs différences: coût, volume de traitement, nombre d utilisateurs simultanés,... Principaux SGBD ORACLE (Oracle Corporation), Microsoft SQL Server (Sybase/Microsoft) DB2 (IBM), mysql (open source), PostgreSQL (open source).

Le logiciel: SGBD. Apports escomptés d un SGBD? Centralisation des données. Assurer un stockage pérenne des données. Mise en relation des données. Assurer un accès rapide aux données. Gestion de très gros volumes de données Assurer le respect des règles de cohérence définies sur les données. être une interface entre une application et les données (ex: procédure). Assurer la confidentialité des données.

Le logiciel: SGBD. Les bases de données du modèle «relationnel» sont les plus répandues. Il existe d autres modèles (place minime sur le marché): hiérarchique (largement utilisé dans les premiers SGBD). En réseau (un graphe où les entités sont reliées entre elles à l aide de pointeurs logiques). Orienté objet. Relationnel objet... Plus d information...http://fr.wikipedia.org/wiki/base_de_données

(source wikipédia) En 1970, Edgar Frank Codd publia un article où il proposait de stocker des données hétérogènes dans des tables, dont la structure permet d établir des relations entre elles. En 1970, cette idée était considérée comme une curiosité intellectuelle. On doutait alors que les tables puissent être jamais gérées de manière efficace par un ordinateur. Ce scepticisme n a cependant pas empêché E.F. Codd de poursuivre ses recherches. Un premier prototype de Système de gestion de bases de données relationnelles (SGBDR) est construit dans les laboratoires d IBM. Depuis les années 1980, cette technologie a mûri et a été adoptée par l industrie. En 1987, le langage SQL, est standardisé. Malgré le succès du langage SQL qui a suivi, Codd dénoncera cet outil qu il considère comme une interprétation incorrecte de ses théories. À l heure actuelle, les SGBDR sont présents dans de nombreux logiciels, sont très répandus dans les bases de données et représentent une industrie de plusieurs milliards de dollars.

Données de structure identique > stockées dans une même table. Ex: Liste de gènes entrezid genesymbol genename chromosome 916 CD3E CD3E antigen, epsilon polypeptide 11 Attention: toutes les données d une même colonne sont du même type. Ex: float, char, int..., (!= tableur) les lignes sont des enregistrements.