INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE. Application aux données transcriptomiques

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

ESIEA PARIS

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Statistique Descriptive Multidimensionnelle. (pour les nuls)

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Cycle de formation certifiante Sphinx

1 Complément sur la projection du nuage des individus

SANTÉ. E-BOOK équilibre. stop. cholesterol diabete hypertension. Réduire le cholestérol, l hypertension et le diabète SANS MEDICAMENT!

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté


Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

Initiation à l algorithmique

Extraction d informations stratégiques par Analyse en Composantes Principales


FORMULAIRE DE STATISTIQUES

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Analyse en Composantes Principales

EnergyOatSnack barre Banana Bread

DEMANDE D INFORMATION RFI (Request for information)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Développement de lois et de structures de réglages destinées à la téléopération avec retour d effort

Analyse des correspondances avec colonne de référence

Aucune frontière entre. Jean-Louis Aimar

L'analyse des données à l usage des non mathématiciens

La Vache qui rit. CHARTE D ENGAGEMENT VOLONTAIRE DE PROGRÈS NUTRITIONNELS - Résultats -

Relation entre deux variables : estimation de la corrélation linéaire

Charte PNNS Groupe CASINO Résultats

DATA MINING - Analyses de données symboliques sur les restaurants

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Plan du cours Cours théoriques. 29 septembre 2014

MATHÉMATIQUES ET SCIENCES HUMAINES

Rappel sur les bases de données

The Exploration of HIV Fitness Landscapes

ATELIER SANTE PREVENTION N 2 : L ALIMENTATION

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Exemple PLS avec SAS

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Cours Bases de données 2ème année IUT

GT lipides CHOCOLAT. 19 février 2008

Allégations relatives à la teneur nutritive

ACP Voitures 1- Méthode

Agile&:&de&quoi&s agit0il&?&

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Profits et rendements maximum.

1 ROLE ET DESCRIPTION DES DIESELS D ULTIME SECOURS

Travail de projet sur VBA

Table des matières. I Mise à niveau 11. Préface

Corrigé des TD 1 à 5

Introduction à Business Objects. J. Akoka I. Wattiau

Logiciel XLSTAT version rue Damrémont PARIS

Base de données bibliographiques Pubmed-Medline

Cuves pour Spectrophotomètres

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Initiation à l analyse en composantes principales

Les aliments de l intelligence

BAREME sur 40 points. Informatique - session 2 - Master de psychologie 2006/2007

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

FONC N T C IONN N E N L E S

à lever : pyrophosphate de soude, bicarbonate de soude, sorbate de potassium, sel fin, xanthane

Introduction. Préambule. Le contexte

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Introduction au datamining

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Nutrition et santé : suivez le guide

Métrologie réseaux GABI LYDIA GORGO GAEL

Panorama des solutions analytiques existantes

Exercices Corrigés Premières notions sur les espaces vectoriels

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Chapitre 2 : Caractéristiques du mouvement d un solide

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

1 Première section: La construction générale

Définition de profils nutritionnels pour l accès aux allégations nutritionnelles et de santé : propositions et arguments Juin 2008

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

MAÎTRISER LA LECTURE DES ÉTIQUETTES NUTRITIONNELLES

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

données en connaissance et en actions?

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Instructions Installation ELLIS Business: Vidéo Local Windows 2003 & XP poste de Travail

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

FORMATION ASSURANCE QUALITE ET CONTROLES DES MEDICAMENTS QUALIFICATION DES EQUIPEMENTS EXEMPLE : SPECTROPHOTOMETRE UV/VISIBLE

Gestion Electronique de Document (ECM/GED)

La goutte la maladie des rois

L emprunt indivis - généralités

La classification automatique de données quantitatives

CH.6 Propriétés des langages non contextuels

Etude MAPT (Multidomain Alzheimer Preventive Trial)

Apprentissage Automatique

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Improving the breakdown of the Central Credit Register data by category of enterprises

Cours 4 : Agrégats et GROUP BY

Mise en pratique : Etude de spectres

Transcription:

INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE Application aux données transcriptomiques

Objectifs Comprendre ce que l on peut attendre des tableaux multiples Comprendre les motivations et le cadre de l analyse canonique Comprendre l analyse canonique généralisée Comprendre l apport de l analyse factorielle multiple vs. ACG

Plan Ce que vous savez faire Ce que vous avez envie de faire et pourquoi vous en avez envie Comment le faire Comment le mettre en pratique

Les données 40 souris 2 génotypes (sauvages, PPARα-déficientes) 5 régimes (dha, efad, lin, ref, tsol) 120 gènes (données d expression) 21 concentration d acides gras hépathiques

PPARα Le peroxisome proliferator-activated receptor est une protéine liant naturellement les lipides et agissant comme facteur de transcription des gènes cibles impliqués notamment dans le métabolisme et l'adipogénèse. (alpha) - exprimé dans le foie, les reins, le cœur, les muscles, le tissu adipeux, et autres.

Les régimes dha : régime enrichi en acides gras de la famille Oméga 3 et particulièrement en acide docosahexaénoïque (DHA), à base d huile de poisson ; efad (Essential Fatty Acid Deficient) : régime constitué uniquement d acides gras saturés, à base d huile de coco hydrogénée ; lin : régime riche en Oméga 3, à base d huile de lin ; ref : régime dont l apport en Oméga 6 et en Oméga 3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d Oméga 6 que d Oméga 3 ; tsol : riche en Oméga 6, à base d huile de tournesol.

Problématique

Le tableau de données

Le tableau de données X

Les données

Individuals factor map (PCA) 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 408 281 303 285 430 342 325 321 305 437 394 438 295 290 121 13089 403 88 294 307 319 432135 10111 10269 118 68 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)

Individuals factor map (PCA) 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 121 13089 efad 408 281 303 285 430 342 403 88 Genotype 1 325 321 ref lin Genotype 2 294 dha 307 319 432135 305 437 10111 102 118 69 68 394 438 tournesol 295 290 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)

Individuals factor map (PCA) 1 2 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 121 13089 408 281 303 285 430 342 403 88 Genotype 1 325 321 Genotype 2 294 307 319 432135 305 437 10111 102 118 69 68 394 438 295 290 90 92 120 67 75 123 9996-4 -2 0 2 4 6 8 Dimension 1 (34.66%)

Individuals factor map (PCA) Dimension 2 (20.47%) -6-4 -2 0 2 4 dha efad lin ref tournesol 285 290 408 281 325 295 341 342 303 305 437 394 efad 430 98 121 13089 403 88 321 ref lin 294 307 319 432135 10111 438 tournesol 102 118 69 68 dha 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)

Variables factor map (PCA) Dimension 2 (20.47%) -1.0-0.5 0.0 0.5 1.0 C18.1n.9 C18.1n.7 C18.2n.6 Lpin1 S14 C20.4n.6 C22.5n.6 C16.0 THIOL GSTmu C22.5n.3 PMDCI CYP3A1 CYP4A10 C20.5n.3 CYP4A14 C22.6n.3 GSTpi2 C18.0-1.0-0.5 0.0 0.5 1.0 Dimension 1 (34.66%)

Les données X 1 X 2

Les données X 1 X 2

Individuals factor map (PCA) 102 Dimension 2 (26.56%) -2 0 2 4 118 68 69 438 290 111 88 295 135101 394 305 7599 89 98 130 40319 285 294 325342 303 121 437 408 281 430 321 307 123 432 96 67 120 90 92 341-4 -2 0 2 4 Dimension 1 (36.89%)

Individuals factor map (PCA) 102 Dimension 2 (26.56%) -2 0 2 4 341 408 281 98 130 285 325342 303 efad 118 68 69 438 tournesol 290 111 88 295 135101 394 Genotype 1 ref 123 432 96 305 75 dha 99 Genotype 89 2 40319 294 121 437 430 321 307 67 120 90 92 lin -4-2 0 2 4 Dimension 1 (36.89%)

Individuals factor map (PCA) 1 2 102 Dimension 2 (26.56%) -2 0 2 4 98 130 285 325342 303 408 281 118 68 69 438 290 111 88 295 135101 394 Genotype 1 305 7599 Genotype 89 2 121 437 430 40319 294 321 307 123 432 96 67 120 90 92 341-4 -2 0 2 4 Dimension 1 (36.89%)

Individuals factor map (PCA) Dimension 2 (26.56%) -2 0 2 4 dha efad lin ref tournesol 102 118 68 69 438 tournesol 290 111 88 295 135101 394 ref 123 432 96 305 75 dha 99 89 98 67 120 130 40319 285 294 90 92 325342 303 efad 121 437 lin 408 281 430 321 307 341-4 -2 0 2 4 Dimension 1 (36.89%)

Variables factor map (PCA) Dimension 2 (26.56%) -1.0-0.5 0.0 0.5 1.0 C18.1n.7 C18.1n.9 C22.5n.6 S14 C20.4n.6 C18.2n.6 Lpin1 Lpin C18.0 PMDCI CYP4A10 GSTpi2 C16.0 THIOL CYP4A14 CYP3A11 C22.6n.3 GSTmu C20.5n.3 C22.5n.3 C18.3n.3-1.0-0.5 0.0 0.5 1.0 Dimension 1 (36.89%)

Les données X 1 X 2

Les données X 1 X 2

Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 290 89 121 341130 98 88 285 403 303 430 408 321 342 432 319 294 111 102 281 307 437 101 135 305 438 325 394 295 69 90 120 92 118 68 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)

Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 290 89 121 341130 98 88 403 efad 285 303 430 408 321 342 ref Genotype 1 432 319 294 111 102 lin 90 120 dha 92 Genotype 281 307 2 437 101 135 118 305 438 69 68 325 394 295 tournesol 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)

Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 dha efad lin ref tournesol 290 89 121 341130 98 88 403 efad 285 303 430 408 321 342 ref 432 319 294 111 102 lin 281 307 437 101 135 305 438 325 394 295 tournesol 90 120 dha 92 118 69 68 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)

Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 1 2 290 89 121 341130 98 88 285 403 303 430 408 321 342 Genotype 1 432 319 294 111 102 90 120 92 Genotype 281 307 2 437 101 135 118 305 438 69 68 325 394 295 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)

Variables factor map (PCA) Dimension 2 (25.8%) -1.0-0.5 0.0 0.5 1.0 Lpin1 C18.1n.9 C18.1n.7 C18.3n.3 C18.2n.6 S14 C20.4n.6 C22.5n.6 C22.5n.3 C16.0 THIOL GSTmu C20.5n.3 C22.6n.3 C18.0 GSTpi2 CYP3A11 PMDCI CYP4A1 CYP4A14-1.0-0.5 0.0 0.5 1.0 Dimension 1 (48.72%)

Les données

Les données

Qu est ce qu un canon?

Qu est ce qu un canon? Le mot canon vient du grec ώ / kanôn signifiant «règle, modèle», lui même emprunté à l'hébreu qaneh («roseau, mesure, canne») En mathématiques, canonique qualifie ce qui semble à tous comme le plus simple, le plus porteur de sens ou ce qui facilitera des manipulations ultérieures. Dans le cadre de la formalisation des mathématiques, la recherche et la création d'objets canoniques prend une grande importance

Qu est ce que l analyse canonique? X 1 X 2

Qu est ce que l analyse canonique? Consiste à comprendre les combinaisons linéaires qui existent entre deux groupes de variables Lorsque n individus sont décrits par deux ensembles de variables, on cherche à examiner les liens existant entre ces deux ensembles afin de savoir s'ils décrivent ou non les mêmes propriétés On s'intéresse aux positions relatives de ces deux espaces de données en cherchant les éléments les plus proches La démarche de l'analyse canonique consiste à rechercher des couples de variables en corrélation maximale

cancor(lip,gen) L 1 = 0.028c18.1.n-9+0.032c18.1.n-7+ +0.012c18.3.n-3 Attention : variables canoniques G 1 = 0.51PMDCI+0.63THIOL+ -0.30CYP4A14

Qu a-t-on envie de regarder? Les corrélations entre les acides gras et leurs composantes canoniques Les corrélations entre les expressions génétiques et leurs composantes canoniques Les corrélations entre les acides gras et les composantes canoniques «génétiques» Les corrélations entre les expressions génétiques et les composantes canoniques «lipidiques»

Qu a-t-on envie de regarder? La part de variance des acides gras expliquée par les composantes canoniques La part de variance des expressions génétiques expliquée par les composantes canoniques

Qu a-t-on envie de regarder? Le R 2 entre un acide gras et les composantes canoniques Le R 2 entre une expression génétique et les composantes canoniques

Qu a-t-on envie de regarder? G 1 = 0.51PMDCI+0.63THIOL+ +0.26LPIN-0.27LPIN1+ -0.30CYP4A14 r(lpin,lpin1) = 0.97

L analyse canonique généralisée

L analyse canonique généralisée

L analyse canonique généralisée

Variables canoniques z s P j (z s ) X j

L analyse factorielle multiple

Objectifs Recherche de facteurs communs et représentant des directions de forte inertie Comparaison des principaux facteurs de variabilité Bilan des structures communes

Propriétés Elle équilibre l influence de chacun des groupes Chaque variable du groupe j est pondérée par 1/ λ j 1 Aucun groupe ne peut engendrer à lui seul le premier axe Un groupe multidimensionnel contribue à un plus grand nombre d axes qu un groupe unidimensionnel

Propriétés

Représentation des variables Correlation circle Dim 2 (20.47 %) -1.0-0.5 0.0 0.5 1.0 group.1 group.2 MFA C18.1n.9 Lpin1 C18.1n.7 S14 C20.4n.6 C22.5n.6 C18.2n.6 C16.0 THIOL GSTmu C22.5n.3 PMDCI CYP3A11 CYP4A10 C20.5n.3 CYP4A14 C22.6n.3 GSTpi2 C18.0-1.0-0.5 0.0 0.5 1.0 Dim 1 (34.04 %)

Représentation des individus Une représentation des individus caractérisés par l ensemble des variables : nuage des points moyens

Représentation des individus Individual factor map 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 408 281 303 430 285 342 403 325 321 88 294 307 319 432 135 305 437 10111 102 69118 68 394 438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)

Représentation des individus Individual factor map 1 2 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 efad 408 281 303 430 285 342 403 325 Genotype 321 88 lin 1 294 dha Genotype ref 2 307 319 432 135 305 437 10111 102 69118 68 394 438 tournesol 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)

Représentation des individus Individual factor map Dim 2 (20.47 %) -2-1 0 1 2 dha 341 efad lin ref tournesol 408 98 121 13089 efad 281 303 430 285 342 403 325 Genotype 321 88 lin 1 294 dha Genotype ref 2 307 319 432 135 305 437 10111 69118 102 68 394 438 tournesol 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)

Représentation des individus Une représentation superposée des J nuages de points caractérisés chacun par un seul groupe de variables : nuage des points partiels

Représentation des individus partiels Individual factor map Dim 2 (20.47 %) -3-2 -1 0 1 2 3 341 98 130 121 89 408 281 303 430 285 342 325 403 321 88 294 307 319 432 135 305 437 101 111 102 69118 68 394438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 4 Dim 1 (34.04 %)

Représentation des individus Individual factor map 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 408 281 303 430 285 342 403 325 321 88 294 307 319 432 135 305 437 101 111 102 69 118 68 394 438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)

Représentation des groupes Groups representation Dim 2 (20.47 %) 0.0 0.2 0.4 0.6 0.8 1.0 group.1 group.2 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (34.04 %)

Bilan des structures communes Partial axes Dim 2 (20.47 %) -1.0-0.5 0.0 0.5 1.0 Dim2.group.2 Dim4.group.1 Dim5.group.1 Dim3.group.1 Dim5.group.2 Dim4.group.2 Dim2.group.1 Dim3.group.2 Dim1.gro Dim1.group -1.0-0.5 0.0 0.5 1.0 Dim 1 (34.04 %)

Gestion des variables illustratives Individual factor map Dim 2 (20.47 %) -2-1 0 1 2 efad Genotype ref 2 tournesol Genotype lin 1 dha -2-1 0 1 2 Dim 1 (34.04 %)

Gestion des groupes illustratifs Groups representation Dim 2 (20.47 %) 0.0 0.2 0.4 0.6 0.8 1.0 group.1 group.2 group.3 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (34.04 %)

ADDING SUPPLEMENTARY INFORMATION IN AN OMICS FRAMEWORK Bonus track

Annotations Gene Ontology - Cellular Component - Molecular Function - Biological Process (BP) Genes could be grouped by GO BP terms

Annotations

Mice 1 1 j 1 J 1 1 j 2 J 2 i I -omics data

Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 I -omics data => Integration of the modules as groups of supplementary variables

Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 M2 I -omics data => Integration of the modules as groups of supplementary variables

Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 M2 M3.. I -omics data Modules => Integration of the modules as groups of supplementary variables

Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > I 2 R <z 1,z 1 >

Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R <z 1,z 1 > Scalar products matrices between mice

Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R <z 1,z 1 > Scalar products matrices between mice

Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R L g (z 1,M1) <z 1,z 1 > Scalar products matrices between mice

THANK YOU FOR BEING HERE http://www.ted.com/talks/ john_francis_walks_the_earth.html