Métabolomique TP2 Traitement et Analyse de données métabolomiques



Documents pareils
Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La classification automatique de données quantitatives

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

INF6304 Interfaces Intelligentes

PROGRAMME (Susceptible de modifications)

LES MODELES DE SCORE

données en connaissance et en actions?

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Mesure agnostique de la qualité des images.

Pentaho Business Analytics Intégrer > Explorer > Prévoir

INTRODUCTION AU DATA MINING

ESIEA PARIS

Mémo d utilisation de ADE-4

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Introduction au Data-Mining

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

Introduction au Data-Mining

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Agenda de la présentation

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Apprentissage Automatique

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Enjeux mathématiques et Statistiques du Big Data

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Logiciel XLSTAT version rue Damrémont PARIS

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

BIRT (Business Intelligence and Reporting Tools)

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Analyse des correspondances avec colonne de référence

L analyse de la gestion de la clientèle

Chaine de transmission

TRAVAUX DE RECHERCHE DANS LE

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Item 169 : Évaluation thérapeutique et niveau de preuve

Introduction aux outils BI de SQL Server Tutoriel sur SQL Server Integration Services (SSIS)

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Initiation à l analyse en composantes principales

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Intérêt du découpage en sous-bandes pour l analyse spectrale

Complet Intuitif Efficace. Références

TP SIN Traitement d image

Data Tier Application avec SQL Server 2008 R2

Raisonnement probabiliste

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Introduction à l approche bootstrap

Lire ; Compter ; Tester... avec R

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au datamining

Entreprise et Big Data

Business-Insight Company Presentation

Mesures et incertitudes

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Mass Spec/tacular. performance, productivité et fiabilité. Systèmes CPL/SM Agilent série Our measure is your success.

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Analyse de grandes bases de données en santé

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Fiche 19 La couleur des haricots verts et cuisson

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Une comparaison de méthodes de discrimination des masses de véhicules automobiles


Aide-mémoire de statistique appliquée à la biologie

Résonance Magnétique Nucléaire : RMN

Conception de Médicament

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Anticiper et prédire les sinistres avec une approche Big Data

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Exemple PLS avec SAS

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Traitement bas-niveau

1: généralités; 2: l évaluation par l opérateur; 3: l analyse d image; 4: la densitométrie en absorbance et en fluorescence; 5: la conclusion.

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Exercice : la frontière des portefeuilles optimaux sans actif certain

Projet de Traitement du Signal Segmentation d images SAR

FORMATIONS OpenERP/Odoo ORIENTEES METIERS. THEME : COMMENT OpenERP/ODOO PEUT AMELIORER LES PERFORMANCES DE VOTRE ENTREPRISE

Why Software Projects Escalate: The Importance of Project Management Constructs

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

L apprentissage automatique

Transcription:

Métabolomique TP2 Traitement et Analyse de données métabolomiques Professeurs: Christian Baron & Christine des Rosiers 1

BCM2003-H15 Métabolomique Démonstratrice: Sarah Cherkaoui Questions: Par courriel: sarah.cherkaoui@umontreal.ca Disponibilités sur rdv (courriel) 2

Horaire Séance Contenu 19 Mars 26 Mars 2 Avril Bases de données métaboliques et voies métaboliques (pathways) Traitement et Analyse de données métabolomiques Analyse de données et de voies métaboliques 9 Avril Flux de travail et Mini Projet 3

Les approches: ciblé vs. non ciblé - Ciblée (targeted) : Nombre limité de métabolites (de plusieurs classes ou de la même classe de métabolites).précis et reproductible, mais nombre de métabolites limité. - Non-ciblée (non-targeted): très grand potentiel de découverte, mais plus complexe dans l analyse et traitement des données. Métabolites non identifiés. 4

Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données collecte extraction 3) Traitement des données Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et visualisation 5

Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données 3) Traitement des données collecte extraction Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et et visualisation 6

Traitement des données Étapes 1. Conversion des données 2. Détection des «feature» 3. Alignement 4. Mise à l échelle et normalisation 5. Identification Contrôle de qualité à chaque étape Figure 1. Un exemple de flux de traitement de données de MS (étapes varient selon design expérimental) 7

Traitement des données Données multidimensionnelles - ratio masse/charge (m/z) temps de rétention - intensité 8

TP: Visulatisation Matrice de profil - ratio masse/charge (m/z) temps de rétention intensité (couleur) S il y a un metabolite, Il y aura un «peak» (l inverse n est pas nécessairement vrai) Commandes R > ssh esilbac4 > /usr/local/r-3.2/bin/r > library(metabodemo) > ExProfMat() 9

Traitement des données 1. Conversion des données v Du format binaire à un format plus commun (mzml, mzxml, mzdata) v Permettre le traitement avec un système d exploitation et un logiciel indépendant v Problème de taille et de structure u Filtre (enlever pics de faible intensité) u Développer un format de fichier binaire qui permet l accès rapide aux chromatogrammes et aux spectres http://proteowizard.sourceforge.net/ 10

Traitement des données 2. Détection des «feature» v v Conversion des données tridimensionnelles (temps de rétention, m/z et intensité) Données bidimensionnelles grâce à l extraction des ions (le long de l axe m/z) v v Réduction du bruit de fond et smoothing Réduire faux positifs v Identification des pics grâce au maximum local dʼ intensité et à la forme du pic 11

TP: Détection des «feature» Visualiser selon la masse EIT : Extracted Ion Traces Commandes R library(metabodemo) ExMF() Parametre: step (pas de masse) et sntresh (bruit de fond) 12

Traitement des données 3. Alignement u Réduire les décalages de temps entre les ensembles de données. Variance non linéaire Ø Correction du temps de rétention par des algorithmes (non linéaire) 13

TP: Alignement Correction du temps de rétention selon les acquisitions en utilisant des «hook» groupes 14 Alignement Commandes R library(metabodemo) ExRetcor() ExMissing() Groupement Commandes R ExGroup()

Traitement des données 4. Identification Indispensable pour fournir de l information métabolique Technique Comparer le spectre avec ceux de bases de données pour trouver un métabolite identifié Utilisation d outil permettant la fragmentation des composé (MS/MS ) Masse/temps de rétention «Feature» Recherche masse base de données (Metlin) MS/MS Annotation Identification 15

TP: Annotation Selon la masse Visualiser EIC : Extracted Ion Chromatogram Commandes R library(metabodemo) ExEit() Chercher les métabolites: u Acide Malique (133.08) u Catechin (289.2) u Votre métabolite préféré (HMDB) monoisomic mass -1 16

Traitement des données 5. Mise à l échelle (scaling) et normalisation Essentiel pour éliminer les biais systématiques (variation de concentration ou déviation dans l intensité du signal) et garder les différences biologiques Normalisation échantillons (selon ligne) : Par la somme ou total des pics (aires) Par un composé de référence Par un échantillon de référence Normalisation des entités feature (selon colonne) : Transformation Mise à l échelle Scaling 17

Traitement des données 6. Contrôle de qualité Permet d évaluer la qualité de chaque algorithme à chaque étape du traitement de données Vérifier l algorithme et ses différents paramètres Exemple de contrôle: Évaluation de la qualité de l annotation se fait grâce au taux de fausses découvertes (FDR) Taux de faux négatifs 18

Flux de travail global ( workflow ) Volet expérimental 1) Échantillons 2) Acquisition des données collecte extraction 3) Traitement des données Quantificatoin et validation 6) Interprétation biologique 5) Identification des métabolites, quantification et validation ((non-ciblée) Liste d entités MS/MS R1 R2 R3 R R 1 2 4) Analyse: Statistique et visualisation 19

Analyse des données Vue d ensemble: Matrice de données (produit des données brutes) Identifier les variations entre les groupes de données 2 phases d analyses : Ø Ø Exploration des données par analyse multivariée Evaluation des métabolites individuellement par analyse univariée 20

Structure des données univarié: une seule variable (1-Dimension) bivarié: deux variables (2-Dimensions) multivarié: 2 > variables (m-dimensions) Variables (métabolites) Types de données continues discrètes binaires échantillons Nom Composé Glucose comp2 comp3 comp4 comp5 Temps rétention 85 42 24 24 63 PubChem CID c74678 c5435 c8944 c57489 x543759 Patient Statut Intensités John Malade 4555 34545 45652 56521 3535 David Sain 452 564 4546 465 546 Julie Sain 456 355 526 456 562 21

Univarié vs. Multivarié univarié/bivarié controls Heart failure vs. multivarié Lactate 12 27 10 8 1 Valeurs extrêmes/aberrantes? t[2] 6 4 2 0-2 -4-6 97 70 116 21 114 40 55 23 25 142 106 89 143 129 72 90 122 75 56 3 130 30 48 141 153 154 105 35 134 158 78 45 42 81 33 103 137 76 150 51 41 83 69 132 68 96 139 160 155 18 5864 161 140 47 119 43 108 156 77311717 144 79 6749 12 61 15146 5438 15 118 10 19 8 60 86 101 74 63 37 71 46 13 65 94 73 131 145 152 147 93 50 102 126 111 148 66 149 127 16 44 121 57 28 36 135 157 123 110 113 34 85 107 120 100 98 99 62 26 2 136 52 39 11 14 128 80 20 159 124 87 22 6 82 HF no HF -8-10 -8-6 -4-2 0 2 4 6 8 10 t[1] R2X[1] = 0,236 R2X[2] = 0,105 Ellipse: Hotelling's T2 (95%) 22

Analyse de Données: Buts Ø Ø Exploration Classification Prédiction Y a-t-il des tendances dans mes données? Ø Sources analytiques Ø Metadonnées Méthodes Utiles Ø Principal Component Analysis (PCA) Ø Analyse de Cluster Ø Ø Différences/similarités entre groupes? Ø Changement significatif, classification Méthodes Utiles Ø Analysis of variance (ANOVA) Ø Partial least squares discriminant analysis (O-/PLS-DA) Ø Ce qui est relié ou prédit par ma variable(s) d intérêt? Ø Régression, corrélation Ø Méthodes Utiles Ø Corrélation Ø partial least squares (O-/PLS) 23

TP Workflow GC/LC-MS raw spectra MS / NMR peak lists MS / NMR spectra bins Metabolite concentrations Peak detection Retention time correction Baseline filtering Peak alignment Data integrity check Missing value imputation Data normaliza,on Row- wise normaliza0on Column- wise normaliza0on Enrichment analysis Over representa0on analysis Single sample profiling Quan0ta0ve enrichment analysis Pathway analysis Enrichment analysis Topology analysis Interac0ve visualiza0on Sta,s,cal analysis Univariate analysis Dimension reduc0on Feature selec0on Cluster analysis Classifica0on Time- series /two factor Clustering Two- way ANOVA ASCA Temporal Comparison 24

MetaboAnalyst GC/LC-MS raw spectra MS / NMR peak lists MS / NMR spectra bins Metabolite concentrations Peak detection Retention time correction Baseline filtering Peak alignment Data integrity check Missing value imputation Data normaliza,on Row- wise normaliza0on Column- wise normaliza0on Enrichment analysis Over representa0on analysis Single sample profiling Quan0ta0ve enrichment analysis Pathway analysis Enrichment analysis Topology analysis Interac0ve visualiza0on Sta,s,cal analysis Univariate analysis Dimension reduc0on Feature selec0on Cluster analysis Classifica0on Time- series /two factor Clustering Two- way ANOVA ASCA Temporal Comparison 25

TP: MetaboAnalyst Données : Chercher Humain-cancer sur le site : http://www-bac.esi.umontreal.ca/~dbcm2003/ Variables (métabolites) Concentrations métabolites 78 échantillons d urine Patients atteints de cancer Répondant à un traitement Mesuré par NMR patients 26

TP: MetaboAnalyst Importer les données 27

TP: MetaboAnalyst Imputation des valeurs manquantes 28

TP: MetaboAnalyst Mise à l echelle et Normalisation 29

TP: MetaboAnalyst Mise à l échelle (scaling) et normalisation Essentiel pour éliminer les biais systématiques (variation de concentration ou déviation dans l intensité du signal) et garder les différences biologiques Normalisation échantillons (selon ligne) : Par la somme ou total des pics (aires) Par un composé de référence Par un échantillon de référence Normalisation des entités feature (selon colonne) : Transformation Mise à l échelle Scaling 30

TP: MetaboAnalyst Mise à l échelle (scaling) et normalisation 31

TP: MetaboAnalyst Exploration Question: Y a-t-il des tendances dans mes données? 32

TP: MetaboAnalyst Analyse par composantes principales (PCA) Convertit des données de grande dimension (beaucoup de variables corrélées) en données de dimension moindre (peu de variables décorrélées) afin de visualisées les données, tout en conservant leur variance. Les dimensions produites sont alors les composantes. Ø Méthode non-supervisé Ø Projection des données afin de maximiser la variance 33

TP: MetaboAnalyst Visualisation: Ø Ø Score Plot : variation entre les échantillons selon les composantes Loadind Plot : variation entre les métabolites selon les composantes Valeurs: eigenvalues = variance expliquée scores = nouvelles coordonnées des échantillons loadings = combinaison linéaire des variables 34

TP: MetaboAnalyst Analyse par composantes principales (PCA) 35

TP: MetaboAnalyst PCA Score Plot 36

TP: MetaboAnalyst PCA Loading Plot Composés responsables de la séparation 37

TP: MetaboAnalyst Analyse par composantes principales (PCA) Pour le TP: u Faire une PCA sur tous les échantillons Chercher composés discriminant les 2 groupes u Sur chacun des 2 groupes Quel est la tendance de vos données? Il y a t-il des valeurs aberrantes «outliers»? 38

TP: MetaboAnalyst Exploration Question: Y a-t-il des tendances dans mes données? 39

TP: MetaboAnalyst Visualisation par Heatmap 40

TP: MetaboAnalyst Visualisation par Heatmap 41

TP: MetaboAnalyst Inspection des données : Contrôle de qualité Valeurs aberrantes «outliers»? 42

TP: MetaboAnalyst Contrôle de qualité : Retirer les valeurs aberrantes «outlier» 43

Références Melamud, E., Vastag, L. & Rabinowitz, J. D. Metabolomic analysis and visualization engine for LC-MS data. Anal. Chem. 82, 9818 26 (2010). Broadhurst, D. I. & Kell, D. B. Statistical strategies for avoiding false discoveries in metabolomics and related experiments. Metabolomics 2, 171 196 (2006). Sugimoto, M., Kawakami, M., Robert, M., Soga, T. & Tomita, M. Bioinformatics Tools for Mass Spectroscopy-Based Metabolomic Data Processing and Analysis. Curr. Bioinform. 7, 96 108 (2012). Zhou, B., Xiao, J. F., Tuli, L. & Ressom, H. W. LC-MS-based metabolomics. Mol. Biosyst. 8, 470 81 (2012). Johnson CH, Ivanisevic J, Benton HP, Siuzdak G. Bioinformatics: the next frontier of metabolomics. Anal Chem. 6;87(1):147-56. (2015) 44