Bases de données et ressources pour la protéomique



Documents pareils
Biomarqueurs en Cancérologie

Big data et sciences du Vivant L'exemple du séquençage haut débit

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

EMME : un environnement de gestion des métadonnées expérimentales

Bibliographie Introduction à la bioinformatique

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

MABioVis. Bio-informatique et la

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Bases de données et outils bioinformatiques utiles en génétique

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Eco-système calcul et données

OpenStack Le cloud libre. Thierry Carrez Release Manager, OpenStack

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Surveiller et contrôler vos applications à travers le Web

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Les bases de données transcriptionnelles en ligne

Creation de Contenus Numériques pour

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Architecture Technique

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Architecture de la grille

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Architectures d implémentation de Click&DECiDE NSI

Procédure normalisée de fonctionnement du RCBT Systèmes de sauvegarde des bases de données Version f1.0

Title Text. Outil intégré de collecte, d'analyse et de visualisation de données de mobilité

Hervé Couturier EVP, SAP Technology Development

Masses de données et calcul : à l IRIT. 8 octobre 2013

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Electricité : caractéristiques et point de fonctionnement d un circuit

ENRICHISSEZ VOS REFERENCES BANCAIRES!

Intégration des connaissances en neurosciences dans un environnement multi-centrique

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Calcul intensif pour la biologie

Big Data et Graphes : Quelques pistes de recherche

Génétique et génomique Pierre Martin

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 Suisse

Bases de données des mutations

Nouveaux enjeux, Risque en évolution : Comment transformer la gestion du risque? Patrick Schraut Senior Manager Professional Services

SysFera. Benjamin Depardon

COTISATIONS VSNET 2015

<Insert Picture Here>ApExposé. Cédric MYLLE 05 Février Exposé Système et Réseaux : ApEx, Application Express d Oracle

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Identification de nouveaux membres dans des familles d'interleukines

Dive Center Manager. Outil de gestion clients pour Centre de plongée

Renforcement de la surveillance des installations hydrauliques EDF HYDRAULIQUE Astrid HOTELLIER (EDF-DTG)

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Gènes Diffusion - EPIC 2010

REF01 Référentiel de labellisation des laboratoires de recherche_v3

Introduction aux bases de données: application en biologie

Programme TechDay Romandie

Utilisation du logiciel Gwyddion

Algorithmique répartie

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Programme international de formation

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 France

Environmental Research and Innovation ( ERIN )

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Mesure de la surface spécifique

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Contrôle de l'expression génétique :

BUILDING REGIONAL DATA ARCHIVES: The African Census Analysis Project (ACAP) Tours, July 18-23, Professor Tukufu Zuberi

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Agile&:&de&quoi&s agit0il&?&

Responsabilités du client

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

JDev Atelier Datalift

Prestations de conseil en SRM (Storage Ressource Management)

Analyse de performance, monitoring

FILIÈRE TRAVAIL COLLABORATIF

Introduction de la journée

modèles génériques applicables à la synthèse de contrôleurs discrets pour l Internet des Objets

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

CCI Génie Logiciel UFR - IMA. Objectifs du cours d'aujourd'hui. Génie Logiciel Validation par le test. Qu est-ce que tester un programme?

TRANSFORM IT + BUSINESS + YOURSELF

Anticiper et prédire les sinistres avec une approche Big Data

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Big Data et Graphes : Quelques pistes de recherche

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Transcription:

Bases de données et ressources pour la protéomique Lydie LANE, Swiss Institute of Bioinformatics (SIB), CALIPHO Group 25 septembre 2012, Workshop «Protéomique et Maladies Rares»

Bases de données et protéomique sont indissociables Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» Entrepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

1- Sauvegarde des données brutes de protéomique Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» Entrepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

http://www.ebi.ac.uk/pride/

http://www.peptideatlas.org/

http://www.proteomexchange.org/

ProteomeCentral for ProteomeXchange 8 datasets released and announced 16 identifiers reserved for datasets in process

2- Identification de protéines Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» Entrepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

La base de données de séquences utilisée pour l identification des peptides à partir des spectres doit être «complète» pour un organisme donné

Comment définir un protéome humain complet? ~ 20 000 protein coding-genes alternative splicing of mrna 2-5 fold increase post-translational modifications of proteins (PTMs) 50-100 fold increase ~ 5'000'000 different proteins ~ 50 to 100 000 transcripts (mrnas)

Le protéome humain dans 20 225 entrées (~gènes codants); 16 000 isoformes d épissage dans 8 100 entrées: 50 000 séquences protéiques; 65 000 variants; 22 500 liés à des maladies; les autres sont des polymorphismes 80 000 PTMs (50% prouvées expérimentalement).

Une ressource spécifique pour les protéines humaines Ne remplace pas UniProtKB/Swiss-prot qui reste la base de référence pour les séquences humaines Vise à intégrer des résultats d expériences à haut débit en transcriptomique, protéomique etc Avec un souci constant de qualité www.nextprot.org

83 600 PTMs > 320 000 variants [= UniProtKB (65 000) + dbsnp + COSMIC]

nextprot est la première ressource à avoir implémenté le format PEFF = Proteomics-enriched FASTA format, ce qui devrait permettre aux outils d identification un accès plus facile aux informations de variants et de PTM. >nxp:q9hcu4 \NcbiTaxId=9606 \Pname=Cadherin EGF LAG seven-pass G-type receptor 2 \Gname=CELSR2 \Processed=(1 31 SIGNAL)(32 2923 CHAIN) \ModRes=(1591 MOD:00035) (1810 MOD:00035) \Variant=(1066 1066 Q)(1639 1639 H)(1992 1992 R)(2387 2387 A) MRSPATGVPL PTPPPPLLLL LLLLLPPPLL GDQVGPCRSL GSRGRGSSGA CAPMGWLCPS SASNLWLYTS RCRDAGTELT GHLVPHHDGL RVWCPESEAH IPLPPAPEGC PWSCRLLGIG GHLSPQGKLT LPEEHPCLKA PRLRCQSCKL AQAPGLRAGE RSPEESLGGR RKRNVNTAPQ FQPPSYQATV PENQPAGTPV ASLRAIDPDE GEAGRLEYTM DALFDSRSNQ FFSLDPVTGA VTTAEELDRE TKSTHVFRVT AQDHGMPRRS ALATLTILVT DTNDHDPVFE QQEYKESLRE NLEVGYEVLT VRATDGDAPP NANILYRLLE GSGGSPSEVF EIDPRSGVIR TRGPVDREEV ESYQLTVEAS DQGRDPGPRS TTAAVFLSVE DDNDNAPQFS EKRYVVQVRE DVTPGAPVLR VTASDRDKGS NAVVHYSIMS GNARGQFYLD AQTGALDVVS PLDYETTKEY TLRVRAQDGG RPPLSNVSGL VTVQVLDIND NAPIFVSTPF QATVLESVPL GYLVLHVQAI DADAGDNARL EYRLAGVGHD FPFTINNGTG WISVAAELDR EEVDFYSFGV EARDHGTPAL TASASVSVTV LDVNDNNPTF TQPEYTVRLN EDAAVGTSVV TVSAVDRDAH SVITYQITSG NTRNRFSITS

3- Filtrage des résultats d identification Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» En^trepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

Différentes vues pour une même protéine

Exemple : dans la vue «Expression», les données obtenues au niveau mrna et protéine ont été intégrées et unifiées

Accès par programme Toutes les données inclues dans nextprot (expression, localisation subcellulaire, variants et PTM) peuvent être explorées par une application dédiée www.nextprot.org/rest/

3- Analyse des résultats d identification Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» Entrepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

Outils d analyse de listes de protéines De nombreux outils bioinformatiques proposent une analyse statistique du contenu en annotation. La plupart analysent les termes GO présents dans les entrées (DAVID, AmiGO etc..) http://david.abcc.ncifcrf.gov nextprot va proposer prochainement un outil mesurant l enrichissement de tout type d annotation

Outil d enrichissement (beta test) Exemple : Liste de 49 partenaires de Lyn Enrichissement en UniProt KWs :

4- Intégration des données de protéomique Question biologique? Expérience de protéomique Echantillon, instrumentation = «Metadata» Entrepôts de données Spectres = «Données brutes» Bases de données de séquences Résultat biologique Protéines d intérêt Protéines identifiées Outils d analyse (graphes, enrichissement ) Bases de données d annotation (fonction, localisation, modifications )

Vue proteomique

Infrastructures bioinformatiques pour le HUPO Human Proteome Project Ab/IHC data MS data identifications study metadata mass spec output files ProteomeXchange EBI PRIDE (MS/MS) ISB PASSEL (SRM) PeptideAtlas reprocessing Raw storage

Remerciements ProteomExchange consortium UniProtKB consortium The Human Protein Atlas GO consortium nextprot et tous les biocurateurs qui maintiennent ces ressources utilisables gratuitement par la communauté