L'analyse protéomique et les sciences -omiques: des données massives à interpréter et sauvegarder Christine CARAPITO, Alexandre BUREL, Patrick GUTERL, Alexandre WALTER, Jérôme PANSANEL, Fabrice VARRIER, Fabrice BERTILE, Alain VAN DORSSELAER, Christelle ROY
Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Code à 4 lettres A, T, G, C Le code génétique Code à 20 lettres 20 acides aminés
Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Premier génome séquencé en 1995: Haemophilus influenza (Taille 1,8.10 6 bps) Génome de la levure en 1996: Saccharomyces cerevisiae (Taille 14.10 6 bps) Premier draft du génome humain 2001: Homo sapiens (Taille 3,2.10 9 bps) Nature, 2001 Science, 2001
Les 3 principales omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines http://genomesonline.org Aujourd hui: 12 724 génomes complets 25 708 projets en cours
Les 3 principales omiques: une complexité croissante Gènes Génome Humain: 20 000 gènes Transcription Epissage alternatif ARNs Traduction Modifications posttraductionnelles (PTM) / Processing Protéines Protéome Humain: ~ 5 millions de protéines différentes
Le protéome est évolutif et dynamique Un génome plusieurs protéomes!
L analyse protéomique Définition: C est l analyse de l ensemble des protéines exprimées par un type cellulaire, un tissu ou un fluide biologique, à un instant donné et avec un historique donné. Technique: L analyse protéomique repose sur l interprétation des données de Spectrométrie de Masse. Instruments de type Quadrupole-TOF, Triple-TOF, Orbitrap, Triple quadrupoles,
Principes de l analyse protéomique Extrait protéique Coupure enzymatique Mélange de peptides Séparation Electrophorèse, Chromatographie, Analyse MS/MS Spectrométrie de masse 1 protéine 50 peptides 10 000 protéines par type cellulaire 500 000 peptides
L interprétation des données de l analyse protéomique Spectre MS/MS Banques de données de séquences protéiques >Albumin ILPMVCCDEKTISHEDAVFRPMLVC KHFDIYTREHPKSQDCWATTPMKF HLKETIPRHVVCDETR Séquences connues ou «théoriques»: Jusqu à 1Go de fichier texte Liste de masses expérimentales Liste de masses théoriques MS 546,45 MS/MS 789,67 876,43 999,12 1018,98 1342,34 1597,09 1678,95 2202,22 Algorithmes d identification Comparaison (confrontation) des listes de masses expérimentales/théoriques MS 546,43 MS/MS 789,69 876,41 987,50 999,14 1018,97 1342,30 1597,11 1678,99 1987,60 2202,24 Bioinformatique
Notre problématique 10 instruments 24h/24h Un instrument : 10 000 spectres MS/MS par heure 2 millions de spectres MS/MS par jour (Big Data) 1/ Stockage Archivage sécurisé 2/ Interprétation
Notre problématique D après R. Aebersold, «A stress test for mass spectrometry-based proteomics», Nature Methods, 6 (6), 411-412, June 2009. L interprétation des données est reconnue comme un verrou majeur de l analyse protéomique!
Une solution pour l interprétation des données Développement d une suite logicielle pour l interprétation des données MS/MS utilisant la grille de calcul http://msda.unistra.fr Cluster DSA Grille Tier 2 IPHC Vigrid France Grille VO Biomed Carapito et al Actes J. S. Mésocentres et France Grilles, 2012. Carapito et al. Proteomics, Accepted 15 Janvier 2014.
Une solution pour l interprétation des données Un avantage: Chaque spectre MS/MS peut être interprété individuellement dans la banque de données de séquences protéiques choisie. Utilisation de la grille adaptée (nombreux jobs relativement courts) Avec néanmoins une exigence: Un unique spectre MS/MS peut être à l origine de l identification de LA protéine d intérêt (le biomarqueur par exemple). Pas d échec/non retour autorisé Développement de Vigrid (supervision de la distribution des jobs, optimisation des temps de latence des jobs, gestion des pannes)
Une solution pour l interprétation des données Apports de l utilisation de la grille Un gain de temps net Processing time for database searches Local computing Grid computing (vo biomed, EGI grid) 74.6 h 0.98 h 5.8 h net time gain up to 99% 3.6 h 0.40 h 0.35 h 0.25 h 0.3 h HRT HRS LRT LRS HRT HRS LRT LRS
Une solution pour l interprétation des données Apports de l utilisation de la grille Un gain de temps global Serveur local Plus de file d attente Plus il y a d utilisateurs, plus le gain de temps est important Des études trop gourmandes en ressources auparavant deviennent envisageables Grille de calcul
Une solution pour l interprétation des données Couverture fonctionnelle, développement d un ensemble d outils bioinformatiques (http://msda.unistra.fr) Carapito et al. Proteomics, Accepted 15 Janvier 2014.
La problématique des -omiques Transcription Traduction Génome Transcriptome Protéome ADN ARNm Protéines Métabolomique Complexomique Interactomique Métagénomique Métaprotéomique Protéogénomique,
La problématique des -omiques 1/ Stockage Archivage sécurisé Les sciences -omiques Big Data 2/ Interprétation 3/ Data Mining
Merci! Alexandre Walter Alexandre Burel Fabrice Bertile Patrick Guterl Alain Van Dorsselaer Christelle Roy Stéphane Genaud Jérôme Pansanel