Métabolomique TP2 Traitement et Analyse de données métabolomiques Professeurs: Christian Baron & Christine des Rosiers 1
BCM2003-H15 Métabolomique Démonstratrice: Sarah Cherkaoui Questions: Par courriel: sarah.cherkaoui@umontreal.ca Disponibilités sur rdv (courriel) 2
Horaire Séance Contenu 19 Mars 26 Mars 2 Avril Bases de données métaboliques et voies métaboliques (pathways) Traitement et Analyse de données métabolomiques Analyse de données et de voies métaboliques 9 Avril Flux de travail et Mini Projet 3
Les approches: ciblé vs. non ciblé - Ciblée (targeted) : Nombre limité de métabolites (de plusieurs classes ou de la même classe de métabolites).précis et reproductible, mais nombre de métabolites limité. - Non-ciblée (non-targeted): très grand potentiel de découverte, mais plus complexe dans l analyse et traitement des données. Métabolites non identifiés. 4
Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données collecte extraction 3) Traitement des données Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et visualisation 5
Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données 3) Traitement des données collecte extraction Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et et visualisation 6
Traitement des données Étapes 1. Conversion des données 2. Détection des «feature» 3. Alignement 4. Mise à l échelle et normalisation 5. Identification Contrôle de qualité à chaque étape Figure 1. Un exemple de flux de traitement de données de MS (étapes varient selon design expérimental) 7
Traitement des données Données multidimensionnelles - ratio masse/charge (m/z) temps de rétention - intensité 8
TP: Visulatisation Matrice de profil - ratio masse/charge (m/z) temps de rétention intensité (couleur) S il y a un metabolite, Il y aura un «peak» (l inverse n est pas nécessairement vrai) Commandes R > ssh esilbac4 > /usr/local/r-3.2/bin/r > library(metabodemo) > ExProfMat() 9
Traitement des données 1. Conversion des données v Du format binaire à un format plus commun (mzml, mzxml, mzdata) v Permettre le traitement avec un système d exploitation et un logiciel indépendant v Problème de taille et de structure u Filtre (enlever pics de faible intensité) u Développer un format de fichier binaire qui permet l accès rapide aux chromatogrammes et aux spectres http://proteowizard.sourceforge.net/ 10
Traitement des données 2. Détection des «feature» v v Conversion des données tridimensionnelles (temps de rétention, m/z et intensité) Données bidimensionnelles grâce à l extraction des ions (le long de l axe m/z) v v Réduction du bruit de fond et smoothing Réduire faux positifs v Identification des pics grâce au maximum local dʼ intensité et à la forme du pic 11
TP: Détection des «feature» Visualiser selon la masse EIT : Extracted Ion Traces Commandes R library(metabodemo) ExMF() Parametre: step (pas de masse) et sntresh (bruit de fond) 12
Traitement des données 3. Alignement u Réduire les décalages de temps entre les ensembles de données. Variance non linéaire Ø Correction du temps de rétention par des algorithmes (non linéaire) 13
TP: Alignement Correction du temps de rétention selon les acquisitions en utilisant des «hook» groupes 14 Alignement Commandes R library(metabodemo) ExRetcor() ExMissing() Groupement Commandes R ExGroup()
Traitement des données 4. Identification Indispensable pour fournir de l information métabolique Technique Comparer le spectre avec ceux de bases de données pour trouver un métabolite identifié Utilisation d outil permettant la fragmentation des composé (MS/MS ) Masse/temps de rétention «Feature» Recherche masse base de données (Metlin) MS/MS Annotation Identification 15
TP: Annotation Selon la masse Visualiser EIC : Extracted Ion Chromatogram Commandes R library(metabodemo) ExEit() Chercher les métabolites: u Acide Malique (133.08) u Catechin (289.2) u Votre métabolite préféré (HMDB) monoisomic mass -1 16
Traitement des données 5. Mise à l échelle (scaling) et normalisation Essentiel pour éliminer les biais systématiques (variation de concentration ou déviation dans l intensité du signal) et garder les différences biologiques Normalisation échantillons (selon ligne) : Par la somme ou total des pics (aires) Par un composé de référence Par un échantillon de référence Normalisation des entités feature (selon colonne) : Transformation Mise à l échelle Scaling 17
Traitement des données 6. Contrôle de qualité Permet d évaluer la qualité de chaque algorithme à chaque étape du traitement de données Vérifier l algorithme et ses différents paramètres Exemple de contrôle: Évaluation de la qualité de l annotation se fait grâce au taux de fausses découvertes (FDR) Taux de faux négatifs 18
Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données collecte extraction 3) Traitement des données Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et visualisation 19
Analyse des données Vue d ensemble: Matrice de données (produit des données brutes) Identifier les variations entre les groupes de données 2 phases d analyses : Ø Ø Exploration des données par analyse multivariée Evaluation des métabolites individuellement par analyse univariée 20
Structure des données univarié: une seule variable (1-Dimension) bivarié: deux variables (2-Dimensions) multivarié: 2 > variables (m-dimensions) Variables (métabolites) Types de données continues discrètes binaires échantillons Nom Composé Glucose comp2 comp3 comp4 comp5 Temps rétention 85 42 24 24 63 PubChem CID c74678 c5435 c8944 c57489 x543759 Patient Statut Intensités John Malade 4555 34545 45652 56521 3535 David Sain 452 564 4546 465 546 Julie Sain 456 355 526 456 562 21
Univarié vs. Multivarié univarié/bivarié controls Heart failure vs. multivarié Lactate 12 27 10 8 1 Valeurs extrêmes/aberrantes? t[2] 6 4 2 0-2 -4-6 97 70 116 21 114 40 55 23 25 142 106 89 143 129 72 90 122 75 56 3 130 30 48 141 153 154 105 35 134 158 78 45 42 81 33 103 137 76 150 51 41 83 69 132 68 96 139 160 155 18 5864 161 140 47 119 43 108 156 77311717 144 79 6749 12 61 15146 5438 15 118 10 19 8 60 86 101 74 63 37 71 46 13 65 94 73 131 145 152 147 93 50 102 126 111 148 66 149 127 16 44 121 57 28 36 135 157 123 110 113 34 85 107 120 100 98 99 62 26 2 136 52 39 11 14 128 80 20 159 124 87 22 6 82 HF no HF -8-10 -8-6 -4-2 0 2 4 6 8 10 t[1] R2X[1] = 0,236 R2X[2] = 0,105 Ellipse: Hotelling's T2 (95%) 22
Analyse de Données: Buts Ø Ø Exploration Classification Prédiction Y a-t-il des tendances dans mes données? Ø Sources analytiques Ø Metadonnées Méthodes Utiles Ø Principal Component Analysis (PCA) Ø Analyse de Cluster Ø Ø Différences/similarités entre groupes? Ø Changement significatif, classification Méthodes Utiles Ø Analysis of variance (ANOVA) Ø Partial least squares discriminant analysis (O-/PLS-DA) Ø Ce qui est relié ou prédit par ma variable(s) d intérêt? Ø Régression, corrélation Ø Méthodes Utiles Ø Corrélation Ø partial least squares (O-/PLS) 23
TP Workflow GC/LC-MS raw spectra MS / NMR peak lists MS / NMR spectra bins Metabolite concentrations Peak detection Retention time correction Baseline filtering Peak alignment Data integrity check Missing value imputation Data normaliza,on Row- wise normaliza0on Column- wise normaliza0on Enrichment analysis Over representa0on analysis Single sample profiling Quan0ta0ve enrichment analysis Pathway analysis Enrichment analysis Topology analysis Interac0ve visualiza0on Sta,s,cal analysis Univariate analysis Dimension reduc0on Feature selec0on Cluster analysis Classifica0on Time- series /two factor Clustering Two- way ANOVA ASCA Temporal Comparison 24
MetaboAnalyst GC/LC-MS raw spectra MS / NMR peak lists MS / NMR spectra bins Metabolite concentrations Peak detection Retention time correction Baseline filtering Peak alignment Data integrity check Missing value imputation Data normaliza,on Row- wise normaliza0on Column- wise normaliza0on Enrichment analysis Over representa0on analysis Single sample profiling Quan0ta0ve enrichment analysis Pathway analysis Enrichment analysis Topology analysis Interac0ve visualiza0on Sta,s,cal analysis Univariate analysis Dimension reduc0on Feature selec0on Cluster analysis Classifica0on Time- series /two factor Clustering Two- way ANOVA ASCA Temporal Comparison 25
TP: MetaboAnalyst Données : Chercher Humain-cancer sur le site : http://www-bac.esi.umontreal.ca/~dbcm2003/ Variables (métabolites) Concentrations métabolites 78 échantillons d urine Patients atteints de cancer Répondant à un traitement Mesuré par NMR patients 26
TP: MetaboAnalyst Importer les données 27
TP: MetaboAnalyst Imputation des valeurs manquantes 28
TP: MetaboAnalyst Mise à l echelle et Normalisation 29
TP: MetaboAnalyst Mise à l échelle (scaling) et normalisation Essentiel pour éliminer les biais systématiques (variation de concentration ou déviation dans l intensité du signal) et garder les différences biologiques Normalisation échantillons (selon ligne) : Par la somme ou total des pics (aires) Par un composé de référence Par un échantillon de référence Normalisation des entités feature (selon colonne) : Transformation Mise à l échelle Scaling 30
TP: MetaboAnalyst Mise à l échelle (scaling) et normalisation 31
TP: MetaboAnalyst Exploration Question: Y a-t-il des tendances dans mes données? 32
TP: MetaboAnalyst Analyse par composantes principales (PCA) Convertit des données de grande dimension (beaucoup de variables corrélées) en données de dimension moindre (peu de variables décorrélées) afin de visualisées les données, tout en conservant leur variance. Les dimensions produites sont alors les composantes. Ø Méthode non-supervisé Ø Projection des données afin de maximiser la variance 33
TP: MetaboAnalyst Visualisation: Ø Ø Score Plot : variation entre les échantillons selon les composantes Loadind Plot : variation entre les métabolites selon les composantes Valeurs: eigenvalues = variance expliquée scores = nouvelles coordonnées des échantillons loadings = combinaison linéaire des variables 34
TP: MetaboAnalyst Analyse par composantes principales (PCA) 35
TP: MetaboAnalyst PCA Score Plot 36
TP: MetaboAnalyst PCA Loading Plot Composés responsables de la séparation 37
TP: MetaboAnalyst Analyse par composantes principales (PCA) Pour le TP: u Faire une PCA sur tous les échantillons Chercher composés discriminant les 2 groupes u Sur chacun des 2 groupes Quel est la tendance de vos données? Il y a t-il des valeurs aberrantes «outliers»? 38
TP: MetaboAnalyst Exploration Question: Y a-t-il des tendances dans mes données? 39
TP: MetaboAnalyst Visualisation par Heatmap 40
TP: MetaboAnalyst Visualisation par Heatmap 41
TP: MetaboAnalyst Inspection des données : Contrôle de qualité Valeurs aberrantes «outliers»? 42
TP: MetaboAnalyst Contrôle de qualité : Retirer les valeurs aberrantes «outlier» 43
Références Melamud, E., Vastag, L. & Rabinowitz, J. D. Metabolomic analysis and visualization engine for LC-MS data. Anal. Chem. 82, 9818 26 (2010). Broadhurst, D. I. & Kell, D. B. Statistical strategies for avoiding false discoveries in metabolomics and related experiments. Metabolomics 2, 171 196 (2006). Sugimoto, M., Kawakami, M., Robert, M., Soga, T. & Tomita, M. Bioinformatics Tools for Mass Spectroscopy-Based Metabolomic Data Processing and Analysis. Curr. Bioinform. 7, 96 108 (2012). Zhou, B., Xiao, J. F., Tuli, L. & Ressom, H. W. LC-MS-based metabolomics. Mol. Biosyst. 8, 470 81 (2012). Johnson CH, Ivanisevic J, Benton HP, Siuzdak G. Bioinformatics: the next frontier of metabolomics. Anal Chem. 6;87(1):147-56. (2015) 44