INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE Application aux données transcriptomiques
Objectifs Comprendre ce que l on peut attendre des tableaux multiples Comprendre les motivations et le cadre de l analyse canonique Comprendre l analyse canonique généralisée Comprendre l apport de l analyse factorielle multiple vs. ACG
Plan Ce que vous savez faire Ce que vous avez envie de faire et pourquoi vous en avez envie Comment le faire Comment le mettre en pratique
Les données 40 souris 2 génotypes (sauvages, PPARα-déficientes) 5 régimes (dha, efad, lin, ref, tsol) 120 gènes (données d expression) 21 concentration d acides gras hépathiques
PPARα Le peroxisome proliferator-activated receptor est une protéine liant naturellement les lipides et agissant comme facteur de transcription des gènes cibles impliqués notamment dans le métabolisme et l'adipogénèse. (alpha) - exprimé dans le foie, les reins, le cœur, les muscles, le tissu adipeux, et autres.
Les régimes dha : régime enrichi en acides gras de la famille Oméga 3 et particulièrement en acide docosahexaénoïque (DHA), à base d huile de poisson ; efad (Essential Fatty Acid Deficient) : régime constitué uniquement d acides gras saturés, à base d huile de coco hydrogénée ; lin : régime riche en Oméga 3, à base d huile de lin ; ref : régime dont l apport en Oméga 6 et en Oméga 3 est adapté des Apports Nutritionnels Conseillés pour la population française, sept fois plus d Oméga 6 que d Oméga 3 ; tsol : riche en Oméga 6, à base d huile de tournesol.
Problématique
Le tableau de données
Le tableau de données X
Les données
Individuals factor map (PCA) 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 408 281 303 285 430 342 325 321 305 437 394 438 295 290 121 13089 403 88 294 307 319 432135 10111 10269 118 68 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)
Individuals factor map (PCA) 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 121 13089 efad 408 281 303 285 430 342 403 88 Genotype 1 325 321 ref lin Genotype 2 294 dha 307 319 432135 305 437 10111 102 118 69 68 394 438 tournesol 295 290 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)
Individuals factor map (PCA) 1 2 341 98 Dimension 2 (20.47%) -6-4 -2 0 2 4 121 13089 408 281 303 285 430 342 403 88 Genotype 1 325 321 Genotype 2 294 307 319 432135 305 437 10111 102 118 69 68 394 438 295 290 90 92 120 67 75 123 9996-4 -2 0 2 4 6 8 Dimension 1 (34.66%)
Individuals factor map (PCA) Dimension 2 (20.47%) -6-4 -2 0 2 4 dha efad lin ref tournesol 285 290 408 281 325 295 341 342 303 305 437 394 efad 430 98 121 13089 403 88 321 ref lin 294 307 319 432135 10111 438 tournesol 102 118 69 68 dha 123 90 92 120 67 9996 75-4 -2 0 2 4 6 8 Dimension 1 (34.66%)
Variables factor map (PCA) Dimension 2 (20.47%) -1.0-0.5 0.0 0.5 1.0 C18.1n.9 C18.1n.7 C18.2n.6 Lpin1 S14 C20.4n.6 C22.5n.6 C16.0 THIOL GSTmu C22.5n.3 PMDCI CYP3A1 CYP4A10 C20.5n.3 CYP4A14 C22.6n.3 GSTpi2 C18.0-1.0-0.5 0.0 0.5 1.0 Dimension 1 (34.66%)
Les données X 1 X 2
Les données X 1 X 2
Individuals factor map (PCA) 102 Dimension 2 (26.56%) -2 0 2 4 118 68 69 438 290 111 88 295 135101 394 305 7599 89 98 130 40319 285 294 325342 303 121 437 408 281 430 321 307 123 432 96 67 120 90 92 341-4 -2 0 2 4 Dimension 1 (36.89%)
Individuals factor map (PCA) 102 Dimension 2 (26.56%) -2 0 2 4 341 408 281 98 130 285 325342 303 efad 118 68 69 438 tournesol 290 111 88 295 135101 394 Genotype 1 ref 123 432 96 305 75 dha 99 Genotype 89 2 40319 294 121 437 430 321 307 67 120 90 92 lin -4-2 0 2 4 Dimension 1 (36.89%)
Individuals factor map (PCA) 1 2 102 Dimension 2 (26.56%) -2 0 2 4 98 130 285 325342 303 408 281 118 68 69 438 290 111 88 295 135101 394 Genotype 1 305 7599 Genotype 89 2 121 437 430 40319 294 321 307 123 432 96 67 120 90 92 341-4 -2 0 2 4 Dimension 1 (36.89%)
Individuals factor map (PCA) Dimension 2 (26.56%) -2 0 2 4 dha efad lin ref tournesol 102 118 68 69 438 tournesol 290 111 88 295 135101 394 ref 123 432 96 305 75 dha 99 89 98 67 120 130 40319 285 294 90 92 325342 303 efad 121 437 lin 408 281 430 321 307 341-4 -2 0 2 4 Dimension 1 (36.89%)
Variables factor map (PCA) Dimension 2 (26.56%) -1.0-0.5 0.0 0.5 1.0 C18.1n.7 C18.1n.9 C22.5n.6 S14 C20.4n.6 C18.2n.6 Lpin1 Lpin C18.0 PMDCI CYP4A10 GSTpi2 C16.0 THIOL CYP4A14 CYP3A11 C22.6n.3 GSTmu C20.5n.3 C22.5n.3 C18.3n.3-1.0-0.5 0.0 0.5 1.0 Dimension 1 (36.89%)
Les données X 1 X 2
Les données X 1 X 2
Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 290 89 121 341130 98 88 285 403 303 430 408 321 342 432 319 294 111 102 281 307 437 101 135 305 438 325 394 295 69 90 120 92 118 68 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)
Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 290 89 121 341130 98 88 403 efad 285 303 430 408 321 342 ref Genotype 1 432 319 294 111 102 lin 90 120 dha 92 Genotype 281 307 2 437 101 135 118 305 438 69 68 325 394 295 tournesol 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)
Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 dha efad lin ref tournesol 290 89 121 341130 98 88 403 efad 285 303 430 408 321 342 ref 432 319 294 111 102 lin 281 307 437 101 135 305 438 325 394 295 tournesol 90 120 dha 92 118 69 68 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)
Individuals factor map (PCA) Dimension 2 (25.8%) -4-2 0 2 4 1 2 290 89 121 341130 98 88 285 403 303 430 408 321 342 Genotype 1 432 319 294 111 102 90 120 92 Genotype 281 307 2 437 101 135 118 305 438 69 68 325 394 295 67 123 75 96 99-4 -2 0 2 4 6 Dimension 1 (48.72%)
Variables factor map (PCA) Dimension 2 (25.8%) -1.0-0.5 0.0 0.5 1.0 Lpin1 C18.1n.9 C18.1n.7 C18.3n.3 C18.2n.6 S14 C20.4n.6 C22.5n.6 C22.5n.3 C16.0 THIOL GSTmu C20.5n.3 C22.6n.3 C18.0 GSTpi2 CYP3A11 PMDCI CYP4A1 CYP4A14-1.0-0.5 0.0 0.5 1.0 Dimension 1 (48.72%)
Les données
Les données
Qu est ce qu un canon?
Qu est ce qu un canon? Le mot canon vient du grec ώ / kanôn signifiant «règle, modèle», lui même emprunté à l'hébreu qaneh («roseau, mesure, canne») En mathématiques, canonique qualifie ce qui semble à tous comme le plus simple, le plus porteur de sens ou ce qui facilitera des manipulations ultérieures. Dans le cadre de la formalisation des mathématiques, la recherche et la création d'objets canoniques prend une grande importance
Qu est ce que l analyse canonique? X 1 X 2
Qu est ce que l analyse canonique? Consiste à comprendre les combinaisons linéaires qui existent entre deux groupes de variables Lorsque n individus sont décrits par deux ensembles de variables, on cherche à examiner les liens existant entre ces deux ensembles afin de savoir s'ils décrivent ou non les mêmes propriétés On s'intéresse aux positions relatives de ces deux espaces de données en cherchant les éléments les plus proches La démarche de l'analyse canonique consiste à rechercher des couples de variables en corrélation maximale
cancor(lip,gen) L 1 = 0.028c18.1.n-9+0.032c18.1.n-7+ +0.012c18.3.n-3 Attention : variables canoniques G 1 = 0.51PMDCI+0.63THIOL+ -0.30CYP4A14
Qu a-t-on envie de regarder? Les corrélations entre les acides gras et leurs composantes canoniques Les corrélations entre les expressions génétiques et leurs composantes canoniques Les corrélations entre les acides gras et les composantes canoniques «génétiques» Les corrélations entre les expressions génétiques et les composantes canoniques «lipidiques»
Qu a-t-on envie de regarder? La part de variance des acides gras expliquée par les composantes canoniques La part de variance des expressions génétiques expliquée par les composantes canoniques
Qu a-t-on envie de regarder? Le R 2 entre un acide gras et les composantes canoniques Le R 2 entre une expression génétique et les composantes canoniques
Qu a-t-on envie de regarder? G 1 = 0.51PMDCI+0.63THIOL+ +0.26LPIN-0.27LPIN1+ -0.30CYP4A14 r(lpin,lpin1) = 0.97
L analyse canonique généralisée
L analyse canonique généralisée
L analyse canonique généralisée
Variables canoniques z s P j (z s ) X j
L analyse factorielle multiple
Objectifs Recherche de facteurs communs et représentant des directions de forte inertie Comparaison des principaux facteurs de variabilité Bilan des structures communes
Propriétés Elle équilibre l influence de chacun des groupes Chaque variable du groupe j est pondérée par 1/ λ j 1 Aucun groupe ne peut engendrer à lui seul le premier axe Un groupe multidimensionnel contribue à un plus grand nombre d axes qu un groupe unidimensionnel
Propriétés
Représentation des variables Correlation circle Dim 2 (20.47 %) -1.0-0.5 0.0 0.5 1.0 group.1 group.2 MFA C18.1n.9 Lpin1 C18.1n.7 S14 C20.4n.6 C22.5n.6 C18.2n.6 C16.0 THIOL GSTmu C22.5n.3 PMDCI CYP3A11 CYP4A10 C20.5n.3 CYP4A14 C22.6n.3 GSTpi2 C18.0-1.0-0.5 0.0 0.5 1.0 Dim 1 (34.04 %)
Représentation des individus Une représentation des individus caractérisés par l ensemble des variables : nuage des points moyens
Représentation des individus Individual factor map 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 408 281 303 430 285 342 403 325 321 88 294 307 319 432 135 305 437 10111 102 69118 68 394 438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)
Représentation des individus Individual factor map 1 2 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 efad 408 281 303 430 285 342 403 325 Genotype 321 88 lin 1 294 dha Genotype ref 2 307 319 432 135 305 437 10111 102 69118 68 394 438 tournesol 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)
Représentation des individus Individual factor map Dim 2 (20.47 %) -2-1 0 1 2 dha 341 efad lin ref tournesol 408 98 121 13089 efad 281 303 430 285 342 403 325 Genotype 321 88 lin 1 294 dha Genotype ref 2 307 319 432 135 305 437 10111 69118 102 68 394 438 tournesol 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)
Représentation des individus Une représentation superposée des J nuages de points caractérisés chacun par un seul groupe de variables : nuage des points partiels
Représentation des individus partiels Individual factor map Dim 2 (20.47 %) -3-2 -1 0 1 2 3 341 98 130 121 89 408 281 303 430 285 342 325 403 321 88 294 307 319 432 135 305 437 101 111 102 69118 68 394438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 4 Dim 1 (34.04 %)
Représentation des individus Individual factor map 341 98 Dim 2 (20.47 %) -2-1 0 1 2 121 13089 408 281 303 430 285 342 403 325 321 88 294 307 319 432 135 305 437 101 111 102 69 118 68 394 438 295 290 123 90 92 120 679996 75-2 -1 0 1 2 3 Dim 1 (34.04 %)
Représentation des groupes Groups representation Dim 2 (20.47 %) 0.0 0.2 0.4 0.6 0.8 1.0 group.1 group.2 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (34.04 %)
Bilan des structures communes Partial axes Dim 2 (20.47 %) -1.0-0.5 0.0 0.5 1.0 Dim2.group.2 Dim4.group.1 Dim5.group.1 Dim3.group.1 Dim5.group.2 Dim4.group.2 Dim2.group.1 Dim3.group.2 Dim1.gro Dim1.group -1.0-0.5 0.0 0.5 1.0 Dim 1 (34.04 %)
Gestion des variables illustratives Individual factor map Dim 2 (20.47 %) -2-1 0 1 2 efad Genotype ref 2 tournesol Genotype lin 1 dha -2-1 0 1 2 Dim 1 (34.04 %)
Gestion des groupes illustratifs Groups representation Dim 2 (20.47 %) 0.0 0.2 0.4 0.6 0.8 1.0 group.1 group.2 group.3 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (34.04 %)
ADDING SUPPLEMENTARY INFORMATION IN AN OMICS FRAMEWORK Bonus track
Annotations Gene Ontology - Cellular Component - Molecular Function - Biological Process (BP) Genes could be grouped by GO BP terms
Annotations
Mice 1 1 j 1 J 1 1 j 2 J 2 i I -omics data
Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 I -omics data => Integration of the modules as groups of supplementary variables
Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 M2 I -omics data => Integration of the modules as groups of supplementary variables
Mice 1 1 j 1 J 1 1 j 2 J 2 i M1 M2 M3.. I -omics data Modules => Integration of the modules as groups of supplementary variables
Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > I 2 R <z 1,z 1 >
Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R <z 1,z 1 > Scalar products matrices between mice
Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R <z 1,z 1 > Scalar products matrices between mice
Mice 1 j 1 J 1 1 1 j 2 J 2 i M1 M2 M3.. I <z 2,z 2 > M1 M1 M1 I 2 R L g (z 1,M1) <z 1,z 1 > Scalar products matrices between mice
THANK YOU FOR BEING HERE http://www.ted.com/talks/ john_francis_walks_the_earth.html