S1133: Bases de données en bioinformatique

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Base de données bibliographiques Pubmed-Medline

Introduction aux bases de données: application en biologie

Bases de données et outils bioinformatiques utiles en génétique

Introduc)on à Ensembl/ Biomart : Par)e pra)que

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

MABioVis. Bio-informatique et la

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Big data et sciences du Vivant L'exemple du séquençage haut débit

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Recherche et veille documentaire scientifique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Eco-système calcul et données

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Les bases de données transcriptionnelles en ligne

Gènes Diffusion - EPIC 2010

Big Data et la santé

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Génétique et génomique Pierre Martin

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Ingénieur R&D en bio-informatique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Big Data et Graphes : Quelques pistes de recherche

Développer des Applications Internet Riches (RIA) avec les API d ArcGIS Server. Sébastien Boutard Thomas David

Biologie Computationnelle

Détection et prise en charge de la résistance aux antirétroviraux

Big data : vers une nouvelle science des risques?

Outil de suivi du monitoring

Bases de données des mutations

CATALOGUE DES PRESTATIONS DE LA

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Identification de nouveaux membres dans des familles d'interleukines

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Big Data et Graphes : Quelques pistes de recherche

Ebauche Rapport finale

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

SysFera. Benjamin Depardon

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

DIRECTEUR ADJOINT DES VENTES

Bibliographie Introduction à la bioinformatique

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Les Parcours Scientifiques et les Ecoles Doctorales

Analyse de performance, monitoring

Recherche bibliographique avec PubMed/MedLine

Génomique Comparative et intégrative

Extraction d information des bases de séquences biologiques avec R

Guide d utilisation de BMJ Journals. journals.bmj.com

: l IDRIS a vingt ans!

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Les tests génétiques à des fins médicales

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

SERVICES DE SEQUENÇAGE

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

IMI : Avantages et Inconvénients L exemple du projet COMBACTE

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Les outils de création de sites web

PUBMED. Vous pouvez rentrer l adresse de ce support dans vos favoris :

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Physiopathologie : de la Molécule à l'homme

La recherche documentaire

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Biomarqueurs en Cancérologie

Plan national maladies rares. Axes, Mesures, Actions. Qualité de la prise en charge, Recherche, Europe : une ambition renouvelée

ANNEXE 2. L interconnexion REFDOC-SUPEB (Web services)

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Mise en oeuvre d'une base de données mono-utilisateur avec SQLite

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

Bases de données Outils de gestion

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

Université Paris Saclay De quoi parle t-on?

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Les tests de génétique moléculaire pour l accès aux thérapies ciblées en France en 2011

18 TCP Les protocoles de domaines d applications

Hépatite chronique B Moyens thérapeutiques

Qu est-ce qu un test génétique?

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

1. Présentation de la base de données

Cadre pour un partage responsable des données génomiques et des données de santé

BIRT (Business Intelligence and Reporting Tools)

Introduction au Data-Mining

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Transcription:

S1133: Bases de données en bioinformatique Chloé-Agathe Azencott 2016 Objectifs Savoir où et comment chercher un type spécifique d information sur un gène, une protéine, ou une mutation. Connaître les différentes bases de données disponibles. Appréhender la complexité de l univers des bases de données bioinformatiques. De nombreuses bases de données Données publiques issues de : publications expériences analyses manuelles extraction automatique prédiction automatique. Ces bases de données, typiquement construites avec un usage particulier en tête, sont souvent partiellement redondantes. Chaque base de données propose (généralement) Un accès simplifié via une interface web : recherche visualisation lien vers d autres bases Une API (Application Program Interface) pour interagir automatiquement avec la base de données Le téléchargement via FTP (File Transfer Protocol) pour l analyse en local. Cas d étude Nous allons essayer de collecter des informations au sujet du gène appelé récepteur 2 du facteur de croissance épidermique humain soit Human Epidermal Growth Factor Receptor 2 en anglais. Bases de données bibliographiques Pubmed http://www.ncbi.nlm.nih.gov/pubmed/ Plus de 26 millions de références de la littérature biomédicale, de la base de données MED- LINE, de revues de sciences de la vie, et d ouvrages en ligne. Bases de données non spécifiques : Google Scholar https://scholar.google.com Wikipedia http://wikipedia.org 1

Q.1 Qu avez-vous appris sur le récepteur 2 du facteur de croissance épidermique humain? Q.2 Pouvez-vous trouver un symbole / une abbréviation pour ce gène? Bases de données de gènes NCBI Gene http://www.ncbi.nlm.nih.gov/gene/ Base de données du National Center for Biotechnology Information, une division du National Institutes of Health (NIH, institutions nationales pour la recherche médicale et biomédicale des États-Unis). NCBI Gene intègre des informations diverses sur les gènes d un grand nombre d espèces : nomenclature Q.3 Quel est l identifiant du récepteur 2 du facteur de croissance épidermique humain dans NCBI Gene? Q.4 Dans quelles autres bases de données trouve-t-on ce gène? séquence(s) de référence : le génome de référence déterminé en 2000 par le Human Genome Project est toujours sujet à de nouvelles améliorations. En effet, le séquençage de l ADN humain est fait par morceaux, qui doivent ensuite être assemblés. Le séquençage de morceaux manquants ou la mise au point de nouveaux algorithmes d assemblage donnent lieu à de nouvelles version du génome de référence (ex. hg18, hg19 ou GRCh37, GRCh38). Q.5 Sur quel chromosome est-il localisé? voies biologiques : voies métaboliques, voies de signalisation mutations phénotypes médicaux Q.6 À quelles affections est-il associé? Peut servir de point d entrée vers de nombreuses autres bases. GeneCards http://www.genecards.org Comme NCBI Gene, recense et résume des informations variées provenant de diverses autres bases de données. Q.7 Dans quels compartiments cellulaires notre gène est-il exprimé? Ensembl http://www.ensembl.org/ une base de données d annotation de gènes : transcrits, orthologues, ontologies, mutations, régulation, etc. HGNC (HUGO Gene Nomenclature Committee) http://www.genenames.org/ est le consortium chargé de définir un unique nom et symbole pour chaque gène, afin de faciliter la communication entre scientifiques et les requêtes dans les bases de données. Q.8 Quel est le nom officiel de notre gène? Bases de données de séquences d ADN Visualiser une séquence génétique Naviguer dans le génome Ensembl http://www.ensembl.org Vega http://vega.sanger.ac.uk Télécharger la séquence Faire une recherche BLAST (Basic Local Alignment Search Tool) pour trouver des séquences similaires à celle du gène (ou de la séquence) auquel on s intéresse. UCSC Genome Browser http://genome-euro.ucsc.edu/ Annotations organisées en tracks Intégration verticale d information Taille de fenêtre variable Visualisation de données fournies par l utilisateur. 2

Bases de données de protéines HPRD (Human Protein Reference Database) http://www.hprd.org une base de données d information sur les protéines Ontologies : Q.9 Dans quels processus biologiques ce gène est-il impliqué? Q.10 Quelle est sa fonction moléculaire? Expression protéique Q.11 Dans quels tissus ce gène est-il exprimé? Modifications post-traductionnelles (PTMs) Uniprot http://www.uniprot.org Q.12 Combien il y a-t-il d isoformes connus de la protéine codée par notre gène? Pfam http://pfam.xfam.org/ Domaines des protéines (i.e. régions fonctionnelles) Familles de protéines représentées par des alignements de séquences multiples (en particulier HMMs.) Visualisable depuis la fiche Uniprot Q.13 Combien de domaines ont-ils été identifiés dans notre protéine? Bases de données de structure de protéines PDB (Protein Data Bank) http://www.rcsb.org/pdb/home/home.do Q.14 Combien de structures correspondant à notre protéine sont-elles enregistrées à la PDB? Q.15 Quelles sont les différences entre ces différentes structures? Protein structure classification SCOPe http://scop2.mrc-lmb.cam.ac.uk/ Structural Classification of Proteins CATH http://www.cathdb.info/ Class, Architecture, Topology, Homology Q.16 À quelles super-familles la structure PDB 1mfg appartient-elle? Bases de données de voies biologiques Répertorient les mécanismes biologiques (voies métaboliques, voies de signalisation, voies de régulation, etc.) KEGG http://www.genome.jp/kegg/pathway.html Q.17 Quelles sont les voies biologiques dans lesquelles notre gène est impliqué? Reactome http://www.reactome.org/ Visualisation dans le Reactome Pathway Browser Wiki Pathways http://www.wikipathways.org Pathway Commons http://www.pathwaycommons.org/ Visualisation dans PCViz Bases de données d interactions Réseaux d interactions : Les voies biologiques ( biological pathways ) représentent une cascade d interactions moléculaires conduisant à un résultat final. Par contraste, les réseaux d interactions (PPIN, ou Protein-Protein Interaction Networks ) peuvent représenter toutes les interactions concernant un ou plusieurs gènes. De tels réseaux sont des graphes, dont les nœuds (sommets) représentent une protéine / un gène, et les arêtes représentent une interaction physique, une co-expression, une co-régulation, etc. entre les gènes / protéines qu elles relient. 3

BioGRID http://thebiogrid.org/ The Biological General Repository for Interaction Datasets Construite à partir de la litérature Interactions physiques Interactions génétiques, quand la mutation ou la sur- ou sous-expression de deux gènes résulte en un phénotype surprenant au vu des effets de chacune de ces modifications considérée individuellement. Q.18 Combien de molécules interagissent avec notre gène? STRING http://string-db.org/ Interactions connues (listées dans des bases de données validées manuellement ou déterminées expérimentalement) Interactions prédites : fusion (les gènes qui sont fusionnés dans d autres espèces sont susceptibles d avoir des fonctionalités identiques ou liées.) voisinage conservé (les gènes sont proches sur la séquence génétique dans de multiples espèces, ce qui suggère que leurs fonctions sont liées) co-occurence (protéines qui apparaissent dans la même voie métabolique) co-expression automatiquement extraites d articles scientifiques Q.19 Combien de gènes interagissent avec le notre? HPRD http://www.hprd.org/ Bases de données de phénotypes médicaux OMIM Online Mendelian Inheritance in Man http://omim.org/ Informations sur toutes les maladies génétiques connues Entrées = gènes ou phénotypes Q.20 À quelles maladies notre gène est-il lié? Orphanet http://www.orpha.net/ Maladies orphelines : des maladies trop rares pour générer beaucoup d intérêt de la part des chercheurs, des organismes de financement ou des industries pharmaceutiques. Q.21 Notre gène est-il lié à des maladies rares? GeneCards Bases de données de mutations dbvar http://www.ncbi.nlm.nih.gov/dbvar Variations structurales : Copy Number Variations (CNVs), inversion, délétion, duplication, translocation, etc. dbsnp http://www.ncbi.nlm.nih.gov/snp SNPs : Single Nucleotide Polymorphims, i.e. simples variations génomiques d une seule paire de bases. ClinVar (Clinically Associated Human Variations) https://www.ncbi.nlm.nih.gov/clinvar/ Variants observés Preuves cliniques et expérimentales de leur effet phénotypique HGMD (The Human Gene Mutation Database) http://www.hgmd.cf.ac.uk/ac/index. php GWAS catalog https://www.ebi.ac.uk/gwas/ Q.22 À quelles maladies des mutations de notre gène ont-elles été associées? SNPedia http://www.snpedia.com/index.php/snpedia DECIPHER https://decipher.sanger.ac.uk/ : Données patients partagées. 4

Bases de données de ligands et médicaments BindingDB http://www.bindingdb.org ChEMBL https://www.ebi.ac.uk/chembldb/ DrugBank http://www.drugbank.ca/ Q.23 Quels sont les inibiteurs de notre protéine approuvés pour l usage clinique? Par quels laboratoires sont-ils commercialisés au Canada? Pour répondre à cette question pour la France, croiser avec la base de données publique des médicaments http://base-donnees-publique.medicaments.gouv.fr. Quelques exemples d autres bases de données Facteurs de transcription : TRANSFAC http://www.gene-regulation.com/pub/databases. html, JASPAR http://jaspar.genereg.net/ Micro-ARNs : mirbase http://www.mirbase.org/ Cancer genomics data : The Cancer Genome Atlas (TCGA) http://cancergenome.nih. gov/ 5