L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder



Documents pareils
Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Biomarqueurs en Cancérologie

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

MABioVis. Bio-informatique et la

Big data et sciences du Vivant L'exemple du séquençage haut débit

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Gènes Diffusion - EPIC 2010

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 France

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Eco-système calcul et données

Génétique et génomique Pierre Martin

Actes des journées. Journées scientifiques mésocentres et France Grilles

Les audits de l infrastructure des SI

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Calcul intensif pour la biologie

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Thermo Scientific Training Courses. La clé de la réussite pour votre laboratoire. Catalogue Formations 2015 Suisse

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

TD de Biochimie 4 : Coloration.

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Masses de données et calcul : à l IRIT. 8 octobre 2013

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Infrastructure de calcul du CRRI

Infrastructures Parallèles de Calcul

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Environmental Research and Innovation ( ERIN )

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Introduction aux bases de données: application en biologie

Extraction d information des bases de séquences biologiques avec R

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Contrôle de l'expression génétique :

Colloque Calcul IN2P3

Stages - le calendrier

ASA-Advanced Solutions Accelerator. Solution pour la gestion des données des laboratoires et des plateformes de service

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Mass Spec/tacular. performance, productivité et fiabilité. Systèmes CPL/SM Agilent série Our measure is your success.

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

SysFera. Benjamin Depardon

Les datas = le fuel du 21ième sicècle

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

OBJECTIFS. Une démarche E-science

Physiopathologie : de la Molécule à l'homme

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Architecture Technique

Bases de données des mutations

Concept Paper: Quantification de Protéines Spécifiques par SRM/MRM Perspectives d Application et Limitations Actuelles

Ingénieur R&D en bio-informatique

Limitations of the Playstation 3 for High Performance Cluster Computing

Conférence technique internationale de la FAO

Identification de nouveaux membres dans des familles d'interleukines

AGREGATION DE BIOCHIMIE GENIE BIOLOGIQUE

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Architecture de la grille

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Séquence 2. L expression du patrimoine génétique. Sommaire

Les Maladies Tropicales, la Société de Pathologie Exotique. et l Institut Pasteur

Introduction au Data-Mining

Hépatite chronique B Moyens thérapeutiques

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

La présentation qui suit respecte la charte graphique de l entreprise GMF

EMME : un environnement de gestion des métadonnées expérimentales

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Fouillez facilement dans votre système Big Data. Olivier TAVARD

LE STOCKAGE UNIFIÉ ASSOCIÉ À LA VIRTUALISATION D'ENTREPRISE

Présentation du module Base de données spatio-temporelles

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Colorimètres et spectrophotomètres UV-Visible

pour Une étude LES DÉFIS DES DSI Avril 2013

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

Anticiper et prédire les sinistres avec une approche Big Data

Consolidation Stockage.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

SharePoint et la continuité de services

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Tableau 1. Liste (non exhaustive) des protéines se localisant dans les P-Bodies

Efficacité énergétique pour les particuliers : une solution pour le monitoring énergétique

Entrez dans l ère du Numérique Très Haut Débit

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Disponibilité et fiabilité des services et des systèmes

La fédération des infrastructures cloud

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Qu est ce que le Cloud Computing?

Transcription:

L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder Christine CARAPITO, Alexandre BUREL, Patrick GUTERL, Alexandre WALTER, Jérôme PANSANEL, Fabrice VARRIER, Fabrice BERTILE, Alain VAN DORSSELAER, Christelle ROY

Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Code à 4 lettres A, T, G, C Le code génétique Code à 20 lettres 20 acides aminés

Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Premier génome séquencé en 1995: Haemophilus influenza (Taille 1,8.10 6 bps) Génome de la levure en 1996: Saccharomyces cerevisiae (Taille 14.10 6 bps) Premier draft du génome humain 2001: Homo sapiens (Taille 3,2.10 9 bps) Nature, 2001 Science, 2001

Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines http://genomesonline.org Aujourd hui: 12 724 génomes complets 25 708 projets en cours

Les 3 principales omiques: une complexité croissante Gènes Génome Humain: 20 000 gènes Transcription Epissage alternatif ARNs Traduction Modifications posttraductionnelles (PTM) / Processing Protéines Protéome Humain: ~ 5 millions de protéines différentes

Le protéome est évolutif et dynamique Un génome plusieurs protéomes!

L analyse protéomique Définition: C est l analyse de l ensemble des protéines exprimées par un type cellulaire, un tissu ou un fluide biologique, à un instant donné et avec un historique donné. Technique: L analyse protéomique repose sur l interprétation des données de Spectrométrie de Masse. Instruments de type Quadrupole-TOF, Triple-TOF, Orbitrap, Triple quadrupoles,

Principes de l analyse protéomique Extrait protéique Coupure enzymatique Mélange de peptides Séparation Electrophorèse, Chromatographie, Analyse MS/MS Spectrométrie de masse 1 protéine 50 peptides 10 000 protéines par type cellulaire 500 000 peptides

L interprétation des données de l analyse protéomique Spectre MS/MS Banques de données de séquences protéiques >Albumin ILPMVCCDEKTISHEDAVFRPMLVC KHFDIYTREHPKSQDCWATTPMKF HLKETIPRHVVCDETR Séquences connues ou «théoriques»: Jusqu à 1Go de fichier texte Liste de masses expérimentales Liste de masses théoriques MS 546,45 MS/MS 789,67 876,43 999,12 1018,98 1342,34 1597,09 1678,95 2202,22 Algorithmes d identification Comparaison (confrontation) des listes de masses expérimentales/théoriques MS 546,43 MS/MS 789,69 876,41 987,50 999,14 1018,97 1342,30 1597,11 1678,99 1987,60 2202,24 Bioinformatique

Notre problématique 10 instruments 24h/24h Un instrument : 10 000 spectres MS/MS par heure 2 millions de spectres MS/MS par jour (Big Data) 1/ Stockage Archivage sécurisé 2/ Interprétation

Notre problématique D après R. Aebersold, «A stress test for mass spectrometry-based proteomics», Nature Methods, 6 (6), 411-412, June 2009. L interprétation des données est reconnue comme un verrou majeur de l analyse protéomique!

Une solution pour l interprétation des données Développement d une suite logicielle pour l interprétation des données MS/MS utilisant la grille de calcul http://msda.unistra.fr Cluster DSA Grille Tier 2 IPHC Vigrid France Grille VO Biomed Carapito et al Actes J. S. Mésocentres et France Grilles, 2012. Carapito et al. Proteomics, Accepted 15 Janvier 2014.

Une solution pour l interprétation des données Un avantage: Chaque spectre MS/MS peut être interprété individuellement dans la banque de données de séquences protéiques choisie. Utilisation de la grille adaptée (nombreux jobs relativement courts) Avec néanmoins une exigence: Un unique spectre MS/MS peut être à l origine de l identification de LA protéine d intérêt (le biomarqueur par exemple). Pas d échec/non retour autorisé Développement de Vigrid (supervision de la distribution des jobs, optimisation des temps de latence des jobs, gestion des pannes)

Une solution pour l interprétation des données Apports de l utilisation de la grille Un gain de temps net Processing time for database searches Local computing Grid computing (vo biomed, EGI grid) 74.6 h 0.98 h 5.8 h net time gain up to 99% 3.6 h 0.40 h 0.35 h 0.25 h 0.3 h HRT HRS LRT LRS HRT HRS LRT LRS

Une solution pour l interprétation des données Apports de l utilisation de la grille Un gain de temps global Serveur local Plus de file d attente Plus il y a d utilisateurs, plus le gain de temps est important Des études trop gourmandes en ressources auparavant deviennent envisageables Grille de calcul

Une solution pour l interprétation des données Couverture fonctionnelle, développement d un ensemble d outils bioinformatiques (http://msda.unistra.fr) Carapito et al. Proteomics, Accepted 15 Janvier 2014.

La problématique des -omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Métabolomique Complexomique Interactomique Métagénomique Métaprotéomique Protéogénomique,

La problématique des -omiques 1/ Stockage Archivage sécurisé Les sciences -omiques Big Data 2/ Interprétation 3/ Data Mining

Merci! Alexandre Walter Alexandre Burel Fabrice Bertile Patrick Guterl Alain Van Dorsselaer Christelle Roy Stéphane Genaud Jérôme Pansanel