Quelle (bio)informatique pour la protéomique? Christophe Bruley - CEA Grenoble 1
Informatique pour la spectrométrie de masse Positionnement et activité de l équipe (bio)informatique Pas d activité qui ne soit motivée par un besoin en spectrométrie de masse Développement d outils destinés à un réel usage et pas seulement des «preuves de concepts» Organisation en groupes de travail thématiques Suivi du développement (dicté par la demande) Effort particulier d utilisabilité Mise en place et administration de l infrastructure logicielle et matérielle 2
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT 3
Gestion des données de spectrométrie de masse Besoin Volumétrie analyses MS et MS/MS induite par : Le nombre de personnes soumettant des échantillons Le nombre et la nature des instruments utilisés sur la plate-forme La complexité des échantillons (durée des LC) Démarche qualité Traçabilité des expérimentations Suivi de l activité 4
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Pims Annotation Comparaison spectres Marquage Sans Marquage AMT C. Pineau, R. Lavigne, D. Ousmanou Infrastructure informatique et bioinformatique pour l identification haut-débit. 5
Gestion des données de spectrométrie PIMS Fonctionnalités Organisation de l activité du laboratoire Recherche des études ou des acquisitions Accès aux données électroniques associées à une étude Gestion des échantillons Gestion des archivages sur bandes Génération d états de sortie Statut actuel En interne Mise en service de l infrastructure logicielle et matérielle en novembre 2004 Utilisé pour tous les instruments de la plate-forme à l exception du MALDI Gère à ce jour 267 études 4500 échantillons analysés Création d un groupe de travail «LIMS» 6
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation PepLine Comparaison spectres Marquage Sans Marquage AMT 7
Protéomique et annotation des génomes Contexte Annotation du génome de Chlamydomonas reinhardtii Principe Interprétation partielle des spectres MSMS en PST Localisation des PST sur le génome Regroupement des PST pour localiser les gènes MS/MS Outil PepLine Collaboration CEA INRIA Rhône-Alpes Genome Express Futur GénoProtéo Intégration de PepLine dans la plate-forme Genostar (iogma) Confrontation des annotations issues de données expérimentales avec les prédictions obtenues in-silico Encadrement d un ingénieur informaticien (12 mois de CDD financé par ACI IMPBio) Améliorations PepLine Développement du module de Genostar 8
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT 9
Analyses différentielles ou quantitatives Analyse différentielle Comparer le contenu (peptides) de 2 analyses MS Comparaison de cartes peptidiques Comparaison de liste de peptides Marquage isotopique Principe : une unique analyse en masse d un mélange de deux échantillons différentiellement marqués Co-élution des peptides marqués et non-marqués en nanolc puis quantification» Nombre de peptides fragmentés» Signal MS puis identification» Signal MS Co-fragmentation des peptides marqués et non-marqués en MS/MS» Pics MS/MS Peptides marqueurs 10
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT E. Mouton, A. Gonzalez de Peredo Tri et d'analyse Proteomiques. B. Schwikowski Comparative LC Proteomics. 11
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation RMI Comparaison spectres Marquage MIME Sans Marquage Map.. AMT 12
par marquage isotopique Contexte Application à l étude de la différenciation des cellules souches totipotentes embryonnaires murines. Analyse par marquage SILAC (sept 2004) Principe Co-élution des peptides marqués et non-marqués Différence de masse constante Cellules ES totipotentes Corps embryoïde 13
Stratégies d analyses par marquage isotopique par nanolc-ms/ms par nanolc- MS/MS Liste de peptides potentiellement intéressants Liste de peptides d abondance différentielle sur l analyse nanolc- MS Vérification et quantification sur analyse nanolc-ms (ou trace MS) Appariement des peptides Recherche des peptides sur l analyse nanolc-ms 14
par marquage isotopique par nanolc-ms/ms MIME (intégration résultats identification) Liste de peptides d abondance différentielle MIME (génération de listes d inclusion) sur l analyse nanolc-ms MIME Appariement des peptides RMI Recherche des peptides sur l analyse nanolc-ms 15
par marquage isotopique Statut actuel Détection des peptides (RMI) Utilisé pour l analyse des échantillons SILAC Tests préliminaires pour les analyses avec marquage N15 Détection des paires (MIME) Futur Utilisé pour l analyse des échantillons SILAC Comparaison d analyses MS sans marquage Chaque point de la carte peptidique est un peptide dont on connaît désormais les caractéristiques (MapMatcher) Méthodes d alignement de listes de peptides Détection de peptides (RMI) Extension du modèle pour prendre en compte le temps de rétention (détection en 2D) Masse monoisotopique Charge Temps de rétention 16
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT 17
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT C. Rolando, J.C. Boisson, L. Jourdan, E-G. Talbi ASCQ_ME: Un nouveau moteur de recherche en protéomique. 18
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT 19
des identifications 100 159.09 % 0 288.14 272.17 554.33 685.37 871.46 1000.49 200 400 600 800 1000 1200 K.SGDTPLSVEPPR.V R.TFFDALEQLTDDK.G R.ALFDLNAVTR.E R.ENSLELPGVAIFDR.F K.GVIVTEPFLAPPGVR.H TgGlmHMM_3281 TgGlmHMM_3958 Besoins Filtrer les résultats proposés par Mascot /Sequest / Selon des critère pré-définis manuellement Juger de l adéquation spectre - séquence peptidique protéine Accès au spectre matché sur la séquence peptidique Accès à la description de la protéine (NCBI, SwissProt, etc) Re-soumettre une recherche pour affiner un résultat Rendre des résultats d identification complets, cohérents et validés Maintien de la cohérence des regroupements peptides protéine Re-calcul des pourcentages de couverture peptides protéine 20
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT E. Barillot, P. Poullet ProMS: a Web server for the validation and management of mass spectrometry experiments. E. Mouton, A. Gonzalez de Peredo Tri et d'analyse Proteomiques. 21
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage IRMa AMT 22
des identifications IRMa Fonctionnalités Relecture directe des fichiers de résultats Mascot Filtrage automatique / manuel Possibilités d exports Statut actuel Utilisé en routine sur la plate-forme Ajout fréquent de nouvelles fonctionnalités Installation au Service de Biochimie post-génomique & Toxicologie Nucléaire (CEA Marcoule) 23
Informatique pour la spectrométrie de masse Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT 24
Méthode AMT la méthode AMT pour les informaticiens Phase I Echantillon biologique Marquage isotopique différentiel Phase II Echantillon Condition B. Echantillon Condition A. HPLC-MS/MS HPLC-FTMS 100 90 80 70 60 50 40 30 20 10 95 100 105 110 Time (min) 115 en DB (ex. Uniprot) Mw. Temps Ret. Base de données AMT (IRMa) Ratio d abondances C12C13_PNB6_FT_3ITMSMS_pairs # 4081 RT: 42.96 AV: 1 NL: 3.99E5 F: FTMS + p NSI Full ms [ 400.00-2000.00] 100 90 80 70 60 50 40 30 20 10 0 1114 1116 1118 1120 1122 1124 m/z Relative Abundance Traitement de données Relative Abundance Haute précision Haute résolution 25
Intégration de données Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT base intégrative données expérimentales 26
Intégration de données Besoins Études à l échelle d un organisme ou d un compartiment cellulaire Analyse exploratoire (fouille de données) Collecte et structuration des données relatives à un projet En spectrométrie de masse s en spectrométrie de masse Caractéristiques des échantillons Résultats de quantification D autres natures Génomique Métabolique Transcriptomique 27
Intégration de données Données Spectrométrie Exploitation Gestion Annotation Comparaison spectres Marquage Sans Marquage AMT base intégrative données expérimentales base intégrative référentielle J. Joets ProticDB. E. Barillot, P. Poullet ProMS: a Web server for the validation and management of mass spectrometry experiments. 28
Intégration de données Autour d Arabidopsis Thaliana (Collaboration BIM CEA Grenoble) Toxicologie Nucléaire Protéines de l enveloppe du chloroplaste Données Spectrométrie Exploitation Gestion Pims Annotation Comparaison spectres Marquage Sans Marquage IRMa AMT base intégrative données expérimentales base intégrative référentielle 29
Laboratoire Laboratoire d Etude d Etude de de la la Dynamique Dynamique des des Protéomes Protéomes ERM 0201 CEA/INSERM/UJF ERM 0201 CEA/INSERM/UJF Jérôme Jérôme GARIN GARIN CePRA Service Administratif Equipe «Lysosome» Equipe «Protéomique» Equipe «Informatique et Bio-informatique» Céline FLEURY Agnès CHAPEL Lucie CREPIN Magali CHEMALI Alain DUPUIS Anaïs JENSEN Agnès JOURNET Annie ADRAIT Christophe BRULEY Sabine BRUGIERE Véronique DUPIERRIS Virginie BRUN Magali COURT Mimi GREBICI Myriam FERRO Jérémie TURBET Marianne TARDIF Maighread GALLAGHER Michel JAQUINOD Sylvie JAQUINOD-KIEFFER Alexandra KRAUT Lauriane KUHN Mathilde LOUWAGIE Marlène MARCELLIN Christophe MASSELON Laurent KELLNER 30