Les principales bases de données en bioinformatique

Documents pareils
Introduction aux bases de données: application en biologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Base de données bibliographiques Pubmed-Medline

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Bibliographie Introduction à la bioinformatique

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

MABioVis. Bio-informatique et la

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Bases de données et outils bioinformatiques utiles en génétique

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Big data et sciences du Vivant L'exemple du séquençage haut débit

Génétique et génomique Pierre Martin

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive.

Identification de nouveaux membres dans des familles d'interleukines

Perl Orienté Objet BioPerl There is more than one way to do it

Biomarqueurs en Cancérologie

TD de Biochimie 4 : Coloration.

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Cellules procaryotes Service histologie Pr.k.mebarek

CATALOGUE DES PRESTATIONS DE LA

Univers Vivant Révision. Notions STE

Séquence 2. L expression du patrimoine génétique. Sommaire

Contrôle de l'expression génétique :

À l'intention des parents

TP N 3 La composition chimique du vivant

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Création et développement d une base de données sur le VIH

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

Les OGM. 5 décembre Nicole Mounier

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

Le rôle de l endocytose dans les processus pathologiques

Les tests génétiques à des fins médicales

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Introduction à la Génomique Fonctionnelle

Eco-système calcul et données

Extraction d information des bases de séquences biologiques avec R

Gènes Diffusion - EPIC 2010

VI- Expression du génome

Les cytokines et leurs récepteurs. Laurence Guglielmi

Les bases de données transcriptionnelles en ligne

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Structure quantique cohérente et incohérente de l eau liquide

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

Analyse des données de séquençage massif par des méthodes phylogénétiques

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Big Data et la santé

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

MYRIAD. l ADN isolé n est à présent plus brevetable!

Biologie Computationnelle

Big data : vers une nouvelle science des risques?

Compléments ments alimentaires Les règles du jeu - SCL / Strasbourg-Illkirch 14 octobre 2011

Banque Agro-Veto Session 2014 Rapport sur les concours A filière BCPST

Gènes de prédisposition au diabète, une belle avancée!

Bases moléculaires des mutations Marc Jeanpierre

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Un outil de visualisation de classifications et d intégration de données phénotypiques et génétiques pour faciliter le codage des maladies rares

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Ministère de la Santé Publique et de l'assurance Maladie. Mission des Médicaments Orphelins

La PCR quantitative (qpcr) et le guide de bonnes pratiques MIQE : adaptation et pertinence dans le contexte de la biologie clinique

Annales de Biologie Cellulaire QCM (niveau SVT 1 er année)

TEST DE DÉTECTION DE LA PRODUCTION D INTERFÉRON γ POUR LE DIAGNOSTIC DES INFECTIONS TUBERCULEUSES

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

TS 31 ATTAQUE DE FOURMIS!

L analyse documentaire : Comment faire des recherches, évaluer, synthétiser et présenter les preuves

Génomique Comparative et intégrative

Epreuve de biologie... 2 Annexe : Liste des sujets de la session

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Transport des gaz dans le sang

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Catalogue des formations Médecine et paramédical

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

La Vache qui rit. CHARTE D ENGAGEMENT VOLONTAIRE DE PROGRÈS NUTRITIONNELS - Résultats -

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

SERVICES DE SEQUENÇAGE

Table des matières Introduction Chapitre*1*:*De*la*matière*sérieuse Chapitre*2*:*Clair*comme*de*l eau*de*roche

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

STRUCTURE ET FONCTION DES PLURICELLULAIRES

Thématiques Questions possibles berufsfeld/fach

Recherche et veille documentaire scientifique

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

Dossier d'étude technique

Note de présentation RC Evénementiel

Master professionnel aliments, microbiologie, assurance qualité

Transcription:

Bases de données en bioinformatique Les principales bases de données en bioinformatique Nombreuses bases de données en bioinformatique Données issues d'expériences, de publications, d'analyses faites à la main par des chercheurs Données issues d'extractions ou de raisonnements automatiques La plupart de ces bases sont accessibles librement sur Internet Banque de données : base de données orientée vers la consultation et le recueil des données Chaque base propose un accès simplifié via un site oueb spécifique qui propose des fonctions de : Recherche Visualisation des données Lien vers d'autres bases 142 Ces techniques fonctionnent dans les moteurs de recherche généraliste sur Internet (Google,...) Recherche sodium transporting ATPase Et aussi sodium/potassium-transporting ATPase Tree of life grand dictionnaire terminologique Pubmed Transcription Gène (ADN) Transcript (ARNm) EMBL (séquences) Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression) Agit sur Maladie génétique Recherche sodium transporting ATPase Mais exclut sodium/potassium-transporting ATPase OMIM (génétique) Orphanet (clinique) Le grand dictionnaire terminologique Dictionnaire français-anglais Avec des traductions spécifique à différents domaines (biologie, médecine, aéronautique,...) Attention : dictionnaire français québécois! http://granddictionaire.com/ Traduction Cause 144 Article (bibliographie) Ex : "sodium transporting" Dictionnaires Ex : sodium transporting 143 Espèce Mais aussi dans la plupart des moteurs de recherche de bases de données bioinformatiques Guillemets : pour rechercher des mots à la suite les un des autres => Les différentes bases sont inter-connectées entre elles Beaucoup de redondance d'une base à l'autre Résumé des différentes bases Techniques de recherche 146 Soigne Protéine EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Médicament DrugBank (cibles) Thériaque (clinique) 145

Pubmed / Medline http://www.ncbi.nlm.nih.gov/pubmed Medline : base de données bibliographiques en médecine / biologie Pubmed : interface permettant de consulter la base Lien vers le texte des articles disponibles en ligne 149 EMBL / Nucleotide / DDB Séquences de nucléotides (ADN) : EMBL (European Molecular Biology Laboratory DNA database) http://www.ebi.ac.uk/ Nucleotide (anciennement appelé GenBank) DNA Database of Japan EMBL http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide Contiennent toutes les séquences de nucléotides librement disponibles et leurs traductions en protéines Les séquences d'adn proviennent de séquençages Les séquences de protéines proviennent de la traduction automatique des séquences d'adn correspondantes Les 3 banques sont synchronisées => même contenu Cependant l'interface et les fonctions proposées par les 3 banques sont un peu différentes Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce 150 Génome entier Gène / ADN Protéine Type de résultats Pour rechercher un gène codant une protéine => coding sequence Release : dernière version publiée Update : ajout depuis la dernière «release»

Format des séquences Il existe différent format pour les séquences Le format FASTA est le plus utilisé EPD Séquence d'adn, d'arn, de protéine,... Exemple de séquence protéique au format FASTA : Identifiant de la base de données (sp = SwissProt) Identifiant de la séquence dans la base EPD : Eukaryotic Promoter Database : Nom de la séquence et de l'espèce http://www.epd.isb-sib.ch/ Base de données sur les séquences promoteurs : séquence d'adn déclenchant la transcription Uniquement pour les eucaryotes Données expérimentales >sp P05231 IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM 156 157 La transcription commence ici Liste des gènes utilisant ce promoteur

Ensembl Ensembl : http://www.ensembl.org Base de données sur la transcription des gènes Traduit en protéine ARNm (Transcripts) Introns, exons, séquences codantes,... Reste dans le noyau (intron) Annotation manuelle en partant des séquences de gènes dans la base EMBL, notamment chez l'homme Quitte le noyau mais n'est pas traduit 160 Gène Intron Exon Séquence non-codante Séquence codante Intron (épissage alternatif) Pourquoi les 4 derniers transcripts ne sont pas traduits en protéine? Domaines protéiques

Unigen Unigen : http://www.ncbi.nlm.nih.gov/unigene Base de données sur l'expression des gènes Quels gènes sont exprimés dans quel organe, dans quel maladie, à quel moment? Données issues de la recherche de marqueurs de séquences exprimées (Expressed Sequence Tags, EST) EST = séquence d'adnc (= ARNm rétro-transcrit) courte considérée comme caractéristique d'un ou plusieurs gènes => données expérimentales mais assez peu fiables! 166 Uniprot Uniprot http://www.uniprot.org/ Les données proviennent de deux sources : La base de données SwissProt, remplie manuellement à partir de publications La traduction automatique des séquences d'adn issues de la base EMBL Il est plus facile de séquencer un gène qu'une protéine! Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce 169 Uniprot Uniprot

En bleu : source automatique non vérifiée par un expert => méfiance! En jaune : source revu manuellement par un expert PDB PDB (BrookHaven Protein DataBank) http://www.rcsb.org Séquences et structures des protéines Visualisation en 3D Les données proviennent de cristallographie, de RMN,... Pour certaines protéines, plusieurs structures sont disponibles Structure de la protéine seule ou avec ligand Structure de la protéine dans différents milieux Structure obtenue avec des méthodes expérimentales différentes 173 PDB : structure secondaires PDB : séquence des protéines PDB : structure tertiaires

PDB : structure tertiaires PROSITE PROSITE PROSITE : http://www.expasy.ch/prosite/ Base de données sur les domaines des protéines, les familles protéiques et les fonctions biologiques associées Un domaine = une région d'une protéine ayant une fonction biologique propre, que l'on retrouve sur plusieurs protéines Ex : plusieurs enzymes ont un même domaine avec une fonction d'hydrolyse de l'atp Les motifs des domaines ont été déterminés de manière manuelle Recherche par nom de protéine, nom de domaine, fonction biologique,... Identifiants : PDOC... => domaine P... => protéine 180 PROSITE PROSITE

PROSITE Permet d'accéder au motif du domaine Motif du domaine Qualité du motif Recherche des «architectures» (= suite de domaines) dans les protéines de la base Swiss Prot Recherche toutes les protéines Ayant ce domaine dans Uniprot Liste des 22 acides aminés Une ligne par résidu dans le motif Résidu n 1 Résidu n 2 Résidu n 3... Acide aminé le plus fréquent en position n 1 Fréquence de l'acide aminé E en position n 3 PROSITE : architecture de protéines Protéine «Légo»! Ici, des transporteurs actifs Afficher les 33 autres protéines Recherche du domaine dans Uniprot Distance en nombre de résidus Attention! Il s'agit de rechercher toutes les protéines dont la séquence contient le motif du domaine! Cela ne garantit pas à 100% que la protéine a la fonction biologique associée au domaine!

Recherche par séquence PFAM PFAM (Protein Family) : http://pfam.sanger.ac.uk/ Base de données sur les familles de protéines et les «clans» (= super familles) Problème : on a séquencé un gène, Est-il est déjà connu? Sous quel nom? Existe-t-il des gènes de séquences proches déjà connu? => recherche par séquence Par rapport à PROSITE : > 230 000 000 de séquences connues Construit à partir des séquences de la base Uniprot PFAM-A : annotation manuelle PFAM-B : annotation automatique, à partir de recherche de domaines dans les séquences, de similarités... Site oueb plus joli... Mais moteur de recherche moins bon! 190 191 Recherche par séquence BLAST Le programme BLAST permet de faire des recherches par séquence Il est disponible sur Internet Plusieurs variantes : Problème du nombre de séquences connues Problème des variations entre séquences Mutations, variations individuelles, erreurs de séquençage => Utilisation de moteurs de recherche spécifiques http://blast.ncbi.nlm.nih.gov/blast.cgi Blast n : recherche d'une séquence nucléotidique dans une banque d'adn Blast p : recherche d'une séquence protéique dans une banque de protéine... 193 192 BLAST sur Internet Séquence à rechercher Base de données où la recherche est effectuée Rechercher seulement chez certaines espèces Lancer le BLAST!

BLAST sur Internet BLAST sur Internet Nombre maximum de séquences affichées Nombre d'erreur que l'on accepte (E-value) E-value = 10 => parmi les résultats, statistiquement en moyenne 10 alignement de séquence seront dus au hasard BLAST sur Internet BLAST sur Internet Séquence requête 14 séquences retrouvées par BLAST La position des barres indique les alignements locaux La couleur indique le score d'alignement Gene Ontology BLAST sur Internet Gene Ontology (GO) : http://www.geneontology.org/ Ontologie : Plus qu'une base de données, une base de connaissance Ensemble structuré des concepts et des relations entre ces concepts dans un domaine de connaissance donné Ensemble => On recherche une certaine exhaustivité pour avoir toutes les connaissances d'un domaine Structuré => des traitements automatiques sont possibles Un cours peut contenir l'ensemble des connaissances d'un domaine mais il n'est pas structuré (d'un point de vue informatique) => pas de traitement automatique possible 201

Gene Ontology Ontologie Exemple de raisonnement sur une ontologie sur les écosystèmes et les chaînes alimentaires Animal Gene Ontology (GO) : http://www.geneontology.org/ Attention, ce n'est pas vraiment une ontologie! Polluant est-un est-un est-un Homme mange est-un Brochet mange se concentre dans Gardon Seulement quelques types de relations : PCB habite habite habite présent dans Ville Lac Est-un Partie-de Régule Régule positivement Régule négativement => pour avoir une «vraie» ontologie, il manque des relations : stocke, détruit,... L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles) rejeté dans les eaux? 203 202 Gene Ontology Gene Ontology Gene Ontology (GO) : Termes : Gènes : Composants de la cellule Cellule partie-de Membrane Cytoplasme Noyau Nucléole... Vésicule sécrétoire Processus biologiques Processus métaboliques est-un Métabolisme des lipides Mort cellulaire... n tatio anno Insuline (homme) BMP2 (poisson zèbre)... (...) Fonctions moléculaires Activité catabolique Activité anti-oxydante Régulateur de transcription... 204 Gene Ontology Gene Ontology

Gene Ontology Gene Ontology partie de est-un Régulation Mapping Gene Ontology Liste des domaines protéiques concernant le transport du sodium

KEGG KEGG : Kyoto Encyclopedia of Genes and Genomes : http://www.genome.jp/kegg/ Ontologie Portant principalement sur les voies métaboliques Mais aussi sur les gènes, les protéines, les maladies, les médicaments Très complexe! 214 Tree of life Tree of life : http://tolweb.org Base de données de taxonomie Classification des êtres vivants Avec des photos! 219

Tree of life OMIM (MIM) OMIM (Online Mendelian Inheritance in Man) : http://www.ncbi.nlm.nih.gov/omim Base de données sur les maladies génétiques chez l'homme Données issues d'articles, d'expériences,... Recherche par nom de maladie ou nom de gène 221 OMIM : gène OMIM : maladie Lien vers les gènes ou les portions de chromosome responsables de la maladie OMIM : variants allèliques OMIM : SMP dans Ensembl Un T remplace un C SNP = Single Nucleotide Polymorphisme = Mutation concernant un seul nucélotide (les plus fréquentes)

OrphaNet OrphaNet : http://www.orpha.net Base de données sur les maladies orphelines Informations sur les gènes concernés (pour les maladies génétiques), similaire à OMIM Mais aussi des informations cliniques Essais cliniques de nouveaux médicaments Base française! 226 DrugBank Base de données sur les médicaments http://www.drugbank.ca Information sur les cibles des médicaments Attention : base américaine => médicaments américains! 228 DrugBank Thériaque / Thésorimed Base de données sur les médicaments http://www.theriaque.org Accessible gratuitement, mais il faut s'inscrire! Informations cliniques : Contre-indications, effets indésirables,... Base française => médicaments français 231

Résumé des différentes bases Données expérimentales Données calculées Mélange des deux Espèce Tree of life Transcription Gène (ADN) Transcript (ARNm) EMBL (séquences) Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression) Article (bibliographie) Pubmed Traduction Cause Agit sur Soigne Maladie génétique OMIM (génétique) Orphanet (clinique) Il est très important de savoir évaluer la qualité des données Y compris pour les données que l'on récupère sur Internet! Y compris pour les logiciels! Les informations «de base» (auteur, date,...) sont-elles disponibles? Les sources sont-elles disponibles? Auteur : Transparence : Qui est à l'origine des données? Quel est son statut? A-t-il des intérêts particuliers? Les données sont-elles récentes? Sont-elles à jour? Fonction biologique DrugBank (cibles) Thériaque (clinique) Gene Ontology PROSITE (domaines) PFAM (domaines) 233 Parfois des approximations : diminution de la qualité des résultats au profit de la rapidité Recherche d une solution parmi un ensemble infini de possibilités Ce n est pas toujours la solution la meilleure qui est trouvée! Les banques de données : Ne les croyez pas systématiquement!!! Les données se sont pas toujours fiables ou à jour. Différence entre réalité mathématique et réalité biologique Date et péremption : Médicament Les logiciels : Ne les croyez pas systématiquement!!! Quelques critères d'évaluation : 234 => cf TP1 Les ordinateurs ne font pas de biologie, ils calculent vite! Exemple pratique Question : EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Qualité des données Qualité des données Protéine Quels sont les maladies génétiques pouvant être causées chez l'homme par une déficience des transporteurs potassiques transmembranaires? Comment répondre en combinant les différentes bases de données vues précédemment? 236 Puis ontology 235

6046 gènes / protéines...

6046 gènes / protéines...

.../... MIM = OMIM

Exemple pratique Nous avons combiné les informations de 4 bases entre elles Attention aux limites des différentes bases Seules les connaissances connues sont présentes dans les bases! Il reste beaucoup d'inconnu en biologie Lorsqu'il y a beaucoup de gènes à rechercher : Possibilité d'automatiser les recherches à l'aide de scripts (programmation) 259 Pour l'examen Exercice comme ceux vu en cours et en TP Les documents sont autorisés Pensez à les amener! Les calculatrices, les ordinateurs, les téléphones portables et les livres sont interdits 260