Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2 Cedric Taverne 3 Analyse des correspondances multiples Institut de Statistique, UCL Voie du Roman Pays, 20 Bureau : C113 cedric.taverne@uclouvain.be 1 er février 2010 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 1 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 2 / 254 Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Qu est ce que? Introduction à R Qu est ce que R? 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R R est un langage de programmation orienté objet R est un logiciel libre (GNU Public Licence) R est un outil statistique puissant, flexible et collaboratif 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Deux interfaces utilisées dans cette formation : RGui et R Commander Démarrer R en salles Socrate : Démarrer > Programmes > R > R 2.9.2 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 4 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 5 / 254
Introduction à R Qu est ce que R? Introduction à R Qu est ce que R? L interface classique sous Windows : RGui Qu est ce que? R est un logiciel dynamique : > 1 + 1 [1] 2 a = 1 + 1 > a [1] 2 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 6 / 254 Qu est ce que? Introduction à R Qu est ce que R? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 7 / 254 Introduction à R Qu est ce que R? Les Packages et l Aide dans RGui R est un langage orienté objet : > a = c(1, 2, 3) > is.vector(a) [1] TRUE > a [1] 1 2 3 Installation d un package sur votre ordinateur : 1 Menu RGui : Packages > Installer le(s) package(s) puis sélectionner le package Dans cette formation : Rcmdr, FactoMineR, RcmdrPlugin.FactoMineR 2 Entrer le code : library(nom_du_package) dans RGui Utiliser l aide de R : Aide html sur une fonction :?nom_de_fonction Recherche dans l aide html : help.search("mot clé") Recherche dans l aide en ligne : RSiteSearch("mot clé") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 8 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 9 / 254
Introduction à R Qu est ce que R? Introduction à R Qu est ce que R Commander? Ouvrir un script Analyses multivariées avec R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Conseil : Sauver les scripts avec l extension.r C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 10 / 254 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 11 / 254 Introduction à R Qu est ce que R Commander? Introduction à R Qu est ce que R Commander? Qu est ce que R Commander? R Commander R Commander est une interface clique-boutons pour R développée par John Fox. (http ://socserv.mcmaster.ca/jfox/misc/rcmdr/) Pour lancer R Commander : charger le package Rcmdr Entrer le code : library(rcmdr) Pour relancer R Commander : Commander() Pour un lancement plus complet : library(rcmdrplugin.export) library(rcmdrplugin.factominer) library(rcmdrplugin.teachingdemos) options(rcmdr=list(plugins=c("rcmdrplugin.export", "RcmdrPlugin.FactoMineR", "RcmdrPlugin.TeachingDemos"))) library(rcmdr) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 12 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 13 / 254
Introduction à R Les menus de R Commander Qu est ce que R Commander? Introduction à R Importer une base de données en R Commander Analyses multivariées avec R Commander Fichier : Changer de répertoire de travail et sauver les scripts et sorties Edition : Copier, coller... Données : Importer et gérer le(s) jeu(x) de données, modifier des variables, etc. Statistiques : Les principales méthodes d analyse statistique Graphes : Tous les graphiques et leur sauvegarde Modèles : Gestion des options des modèles (suite du menu Statistiques) Distributions : Analyse et génération de nombreuses distributions Export : Module d exportation de données FactoMineR : Module d analyses multivariées Demos : Démonstrations pour l enseignement des statistiques Outils : Chargement de Packages, etc. Aide : Aide et introduction à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 14 / 254 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 15 / 254 Introduction à R Changer le répertoire de travail Importer une base de données en R Commander Introduction à R La base de données Eurojob Importer une base de données en R Commander Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, 76-77. (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 16 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 17 / 254
Introduction à R Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander De SPSS à R Commander De SPSS à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 18 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 19 / 254 Introduction à R De SPSS à R Commander Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander R Commander : Visualiser et éditer une base de données C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 20 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 21 / 254
Introduction à R Analyses multivariées avec R Commander Quelques statistiques descriptives en R Commander La fonction summary Introduction à R Quelques statistiques descriptives en R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R La fonction summary fournit un résumé descriptif de chaque variable Variables qualitative : fréquences Variables quantitative : minimum, quartiles, moyenne, maximum 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 22 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 23 / 254 La fonction numsummary Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Matrice de corrélations - la fonction cor Quelques statistiques descriptives en R Commander La fonction numsummary fournit des statistiques descriptives pour les variables sélectionnées La fonction cor fournit la matrice des corrélations (Pearson, Spearman ou Partielles) entre les variables sélectionnées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 24 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 25 / 254
Introduction à R Quelques statistiques descriptives en R Commander Tester une corrélation - la fonction cor.test Tester une corrélation... Introduction à R Quelques statistiques descriptives en R Commander La fonction cor.test fournit un test d hypothèse (uni ou bilatéral) sur la corrélation (Pearson ou Spearman) ou le Tau de Kendall entre les variables sélectionnées Peut-on interpréter sans risque les résultats ci-dessous? Il faut vérifier l hypothèse de normalité posée par la statistique de Pearson! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 26 / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 27 / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Test formel QQ-plot Test formel QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 28 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 29 / 254
Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Histogramme QQ-plot Histogramme QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 30 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 31 / 254 Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Sauver un graphe Ajouter la fonction de densité normale correspondante : curve(dnorm(x, mean=mean(eurojob$agr), sd=sd(eurojob$agr)), add=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 32 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 33 / 254
Introduction à R Quelques références pour aller plus loin en R Introduction à R Quelques références pour aller plus loin en R Analyses multivariées avec R Commander Quelques références pour aller plus loin avec R 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Initiation au langage R avec exemples dans RGui et R Commander : http ://www.stat.ucl.ac.be/smcs/formation/formationsis/support.html Le langage de programmation S et les environnements R-Gui et S-Plus sous Windows (STAT2020 - Calcul Statistique sur ordinateur) : http ://www.stat.ucl.ac.be/cours/stat2020/documents/manuels l ogiciels/syllabusr.pdf Le site officiel de R : http ://cran.r-project.org/ Avant tout, un mot d ordre : R est un logiciel très flexible, il se découvre donc facilement par essais-erreurs... 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 34 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 35 / 254 Introduction à R Quelques références pour aller plus loin en R Petite introduction au calcul matriciel Quelques références pour aller plus loin avec FactoMineR Analyses multivariées avec R Commander 1 Introduction à R Le site de FactoMineR : http ://factominer.free.fr/ Husson F., Lê S., Pagès J. (2009) Analyse de données avec R, Rennes : Presses Universitaires de Rennes L ensemble des bases de données exploitées dans le bouquin : http ://factominer.free.fr/livre/ 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 36 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 38 / 254
Petite introduction au calcul matriciel Petite introduction au calcul matriciel Exemples de matrices Petite introduction au calcul matriciel Une section pour vous aider à comprendre les notations mathématiques des méthodes d analyses multivariées et, par là, ce que l on effectue comme calculs sur les données Qu est ce qu une matrice? Un tableau de données à deux entrées (lignes, colonnes) Une table de contingence Une base de données A = B = Section suivante 3 2 1 1 4 3 2 2 1 3 1 4 2 2 4 1 2 3 Eurojob = 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 39 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 40 / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Dimensions d une matrice Transposer une matrice Les dimensions d une matrice informent sur sa taille C = 3 2 4 4 4 1 4 2 1 2 1 3 3 lignes 4 colonnes Transposer une matrice, c est la faire pivoter sur sa diagonale F = 3 2 1 1 4 3 2 2 1 3 2 1 t(f) = F = 3 1 2 3 2 4 2 2 1 3 1 1 C est une matrice de dimension (3 4) (3 lignes 4 colonnes ) Les lignes deviennent les colonnes Les colonnes deviennent les lignes Les dimensions d inversent (4 3) (3 4) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 41 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 42 / 254
Petite introduction au calcul matriciel Petite introduction au calcul matriciel Transposer un vecteur Matrices symétriques E = 2 2 1 t(e) = E = ( 2 2 1 ) D = 1 0 0 0 2 3 0 3 2 D = 1 0 0 0 2 3 0 3 2 = D vecteur colonne vecteur ligne D est une matrice symétrique D = D Si la transposition n est pas indiquée, un vecteur est toujours un vecteur colonne. Lorsque l on transpose, rien ne change C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 43 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 44 / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Matrices diagonales Additions et multiplications E = 1 0 0 0 2 0 0 0 2 E = 1 0 0 0 2 0 0 0 2 = diag (1,2,2) Un scalaire est un nombre isolé en calcul matriciel Addition d un scalaire 3 + A = 3 + 3 2 1 1 4 3 2 2 1 = 3 + 3 3 + 2 3 + 1 3 + 1 3 + 4 3 + 3 3 + 2 3 + 2 3 + 1 = 6 5 4 4 7 6 5 5 4 E est une matrice symétrique et diagonale Tous les éléments non-nuls de la matrice sont sur sa diagonale A+D = Addition de deux matrices 3 2 1 1 4 3 2 2 1 + 1 0 0 0 2 3 0 3 2 Multiplication par un scalaire 3 A = 3 3 2 1 1 4 3 2 2 1 = = 3 + 1 2 + 0 1 + 0 1 + 0 4 + 2 3 + 3 2 + 0 2 + 3 1 + 2 3 3 3 2 3 1 3 1 3 4 3 3 3 2 3 2 3 1 = = 4 2 1 1 6 6 2 5 3 9 6 3 3 12 9 6 6 3 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 45 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 46 / 254
Produit scalaire de deux vecteurs Petite introduction au calcul matriciel Produit matriciel de deux vecteurs Petite introduction au calcul matriciel Attention : Multiplication Produit (scalaire ou matriciel) E F = ( 2 2 1 ) 1 1 1 = 2 1 + 2 1 + 1 1 = 5 On obtient un scalaire! Que donnerait le produit dans l ordre inverse? F E = ( 1 1 1 ) 2 2 = 1 2 + 1 2 + 1 1 = 5 1 Et si on place le vecteur transposé derrière? F E = ( 1 1 1 ) ( 2 2 1 ) = Que dire des dimensions? Attention : E F = 1 1 1 ( 1 2 1 2 1 1 1 2 1 2 1 1 1 2 1 2 1 1 ( 2 2 1 ) = 2 2 2 2 2 2 1 1 1 2 2 1 2 2 1 2 2 1 ( ) ( ) ( ) ) = ( 2 2 1 2 2 1 2 2 1 ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 47 / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 48 / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices Attention aux dimensions! = B D = B D = 3 1 4 2 2 4 1 2 3 1 0 0 0 2 3 0 3 2 3 1 + 1 0 + 4 0 3 0 + 1 2 + 4 3 3 0 + 1 3 + 4 2 2 1 + 2 0 + 4 0 2 0 + 2 2 + 4 3 2 0 + 2 3 + 4 2 1 1 + 2 0 + 3 0 1 0 + 2 2 + 3 3 1 0 + 2 3 + 3 2 1e ligne de B 1 e colonne de D 1 e ligne de B 2 e colonne de D 1 e ligne de B 3 e colonne de D 2 e ligne de B 1 e colonne de D 2 e ligne de B 2 e colonne de D 2 e ligne de B 3 e colonne de D 3 e ligne de B 1 e colonne de D 3 e ligne de B 2 e colonne de D 3 e ligne de B 3 e colonne de D B D = 3 1 4 2 2 4 1 2 3 1 0 0 0 2 3 0 3 2 = 3 14 11 2 16 14 1 13 12 ( ) ( ) ( ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 49 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 50 / 254
Produit matriciel de deux matrices Petite introduction au calcul matriciel Petite introduction au calcul matriciel Prémultiplier et postmultiplier par une matrice diagonale Quelques règles à retenir concernant le produit de deux matrices : Les matrices doivent avoir au moins une dimension commune La matrice obtenue (si le calcul est possible) a pour dimensions le nombre de ligne de la première matrice et le nombre de colonnes de la seconde diag (1,2,3) B = 1 0 0 0 2 0 0 0 3 3 1 4 2 2 4 1 2 3 = 3 1 4 4 4 8 3 6 9 Prémultiplier par une matrice diagonale revient à multiplier les lignes uniquement! La matrice obtenue se calcule comme suit : Soit X une matrice (n p) et Y une matrice (p m) X Y = Z = {z ik } où z ik = p j=1 x ij y jk B diag (1,2,3) = 3 1 4 2 2 4 1 2 3 1 0 0 0 2 0 0 0 3 = 3 2 12 2 4 12 1 4 9 avec i = 1,2,...n, j = 1,2,...p et k = 1,2,...m Postmultiplier par une matrice diagonale revient à multiplier les colonnes uniquement! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 51 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 52 / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Inverser une matrice La matrice identité L inverse d un nombre, c est quoi? = Le nombre qui conduit à 1 par multiplication Ex : l inverse de 8 est 1/8; l inverse de -1 est -1... L inverse d une matrice, c est quoi? = La matrice qui conduit à la matrice identité par produit matriciel Matrice identité est une matrice diagonale dont la diagonale est uniquement composée de 1 I 3 = 1 0 0 0 1 0 0 0 1 = diag (1,1,1) La matrice identité, c est quoi? = Une matrice diagonale composée uniquement de 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 53 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 54 / 254
La matrice que l on veut inverser doit : Petite introduction au calcul matriciel Inverse de la matrice A Petite introduction au calcul matriciel Etre carrée Une matrice carrée est une matrice dont le nombre de lignes égale le nombre de colonnes. A = 3 2 1 1 4 3 2 2 1 Etre de rang complet C = 3 2 4 4 4 1 4 2 1 2 1 3 Un matrice de rang complet a autant de lignes/colonnes indépendantes que de lignes/colonnes dans la matrice. B = 3 1 4 2 2 4 1 2 3 D = 1 0 0 0 2 3 0 3 2 A = A A 1 = 3 2 1 1 4 3 2 2 1 3 2 1 1 4 3 2 2 1 A 1 = Une propriété bien utile à connaître : 1 0 1 2.5 0.5 4 3 1 5 A A 1 = A 1 A = I p = 1 0 1 2.5 0.5 4 3 1 5 1 0 0 0 1 0 0 0 1 = I 3 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 55 / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 56 / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous ( 2 0 0 3 ) ( 2 0 0 3 ) 1 =? ( 2 0 0 3 ) ( 2 0 0 3 ) 1 =? Piste 1 pour résoudre : ( 2 0 0 3 Piste 2 pour résoudre : ) ( a b c d ) = ( 1 0 0 1 ) 2 a + 0 c = 1 2 b + 0 d = 0 0 a + 3 c = 0 0 b + 3 d = 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 57 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 58 / 254
Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices A = 3 2 1 1 4 3 2 2 1 > A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > v1 = c(3, 1, 2) > v2 = c(2, 4, 2) > v3 = c(1, 3, 1) > A2 = cbind(v1, v2, v3) > A1 [,1] [,2] [,3] [1,] 3 2 1 [2,] 1 4 3 [3,] 2 2 1 > A2 v1 v2 v3 [1,] 3 2 1 [2,] 1 4 3 [3,] 2 2 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 59 / 254 La décomposition spectrale d une matrice Analyses multivariées avec R Commander A = 3 2 1 1 4 3 2 2 1 C = 3 2 4 4 4 1 4 2 1 2 1 3 > A = A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > C = matrix(c(3, 4, 1, 2, 1, 2, 4, 4, 1, 4, 2, 3), nrow = 3) Produit matriciel : C A ou C A? > t(c) [,1] [,2] [,3] [1,] 3 4 1 [2,] 2 1 2 [3,] 4 4 1 [4,] 4 2 3 > t(c) %*% A [,1] [,2] [,3] [1,] 15 24 16 [2,] 11 12 7 [3,] 18 26 17 [4,] 20 22 13 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 60 / 254 La décomposition spectrale d une matrice La décomposition spectrale d une matrice 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Section précédente La décomposition spectrale d une matrice (d une base de données) consiste à rechercher son squelette en : réorganisant l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les points (inertie décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 61 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 62 / 254
La décomposition spectrale d une matrice La Décomposition spectrale d une matrice La décomposition spectrale d une matrice La Décomposition spectrale d une matrice Les r couples de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice M. Ils correspondent aux r solutions possibles à l équation suivante : Mv i = λ i v i r = rang(m) = nombre minimal de lignes/colonnes indépendantes Quelques propriétés intéressantes : r λ i = trace(m) i=1 r λ i = M = det(m) i=1 Les vecteurs propres (v i ) sont : orthogonaux v i v j = 0 normés v i v i = 1 on dit qu ils sont orthonormés pour i j Aucune information n est perdue par la décomposition spectrale! (on peut toujours reconstruire la matrice de départ) La décomposition spectrale d une matrice est la méthode de base des analyses factorielles (ACP, ACM, AFM, etc.) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 63 / 254 L analyse en composantes principales Analyses multivariées avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 64 / 254 L analyse en composantes principales L analyse en composantes principales 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple L Analyse en Composantes Principales (ACP) consiste en une décomposition spectrale d une matrice particulière : la matrice de variances-covariances la matrice des corrélations L objectif reste le même : réorganiser l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les individus (variance décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 65 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 66 / 254
L analyse en composantes principales L analyse en composantes principales L analyse en Composantes Principales L analyse en Composantes Principales Les r couples (r = rang(x X)) de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice (X X). Il s agit des r solutions possibles à l équation suivante : (X X)v i = λ i v i Deux propriétés intéressantes : r i=1 λ i = trace((x X)) = p j=1 s jj = somme des variances si l on travaille sur la matrice de variances-covariances r i=1 λ i = trace((x X)) = p j=1 r jj = p si l on travaille sur la matrice de corrélations Les vecteurs propres obtenus vont fournir l orientation des nouvelles dimensions, appelées Composantes Principales Ces Composantes Principales sont hiérarchisées : λ 1 λ 2... λ p (avec seulement r valeurs propres non-nulles) la variance des projections des points (individus) sur les composantes principales décroît proportionnellement aux valeurs propres associées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 67 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 68 / 254 L analyse en composantes principales L ACP sur les données Eurojob Variances-covariances ou Corrélations Analyses multivariées avec R Commander L utilisation de la matrice de variances-covariances n influence pas les résultats tant que : les unités des variables restent les mêmes les variances des variables restent sensiblement les mêmes L utilisation de la matrice de corrélations : ne peut qu améliorer le résultat de l ACP en mettant toutes les variables sur le même pied (pas de hiérarchie a priori) 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 69 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 70 / 254
L ACP sur les données Eurojob L ACP sur les données Eurojob La base de données Eurojob la fonction row.names La fonction row.names permet d extraîre ou imputer des noms aux individus d une matrice ou d un data frame. Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, 76-77. (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 71 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 72 / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Analyser les variances et covariances Dans le cas d une ACP, les variables sont toutes considérées comme continues. Il faut donc : La fonction scatterplot.matrix La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser et comparer les distributions (min, max, moyenne, variance, etc.) summary : Statistiques > Résumés > Jeu de données actif numsummary : Statistiques > Résumés > Stat. Descriptives Analyser les corrélations (ou covariances) entre variables cor : Statistiques > Résumés > Matrice de corrélations scatterplot.matrix : Graphes > Matrice de nuages de points C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 73 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 74 / 254
La fonction scatterplot.matrix L ACP sur les données Eurojob La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser les variances et corrélations L ACP sur les données Eurojob Agr Min Man PS Con SI Fin SPS TC minimum 2.70 0.10 7.90 0.10 2.80 5.20 0.50 5.30 3.20 Q1 7.70 0.52 23.00 0.60 7.53 9.25 1.22 16.25 5.70 médiane 14.45 0.95 27.55 0.85 8.35 14.40 4.65 19.65 6.70 moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55 écart-type 15.55 0.97 7.01 0.38 1.65 4.58 2.81 6.83 1.39 variance 241.70 0.94 49.11 0.14 2.71 20.93 7.88 46.64 1.94 Q3 23.67 1.80 30.20 1.17 8.97 16.88 5.92 24.12 7.07 maximum 66.80 3.10 41.20 1.90 11.50 19.10 11.30 32.40 9.40 Agr Min Man PS Con SI Fin SPS TC Agr 1.00 0.04-0.67-0.40-0.54-0.74-0.22-0.75-0.56 Min 0.04 1.00 0.44 0.40-0.03-0.40-0.44-0.28 0.16 Man -0.67 0.44 1.00 0.38 0.49 0.20-0.16 0.15 0.35 PS -0.40 0.40 0.38 1.00 0.06 0.20 0.11 0.13 0.38 Con -0.54-0.03 0.49 0.06 1.00 0.36 0.02 0.16 0.39 SI -0.74-0.40 0.20 0.20 0.36 1.00 0.37 0.57 0.19 Fin -0.22-0.44-0.16 0.11 0.02 0.37 1.00 0.11-0.25 SPS -0.75-0.28 0.15 0.13 0.16 0.57 0.11 1.00 0.57 TC -0.56 0.16 0.35 0.38 0.39 0.19-0.25 0.57 1.00 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 75 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 76 / 254 L ACP dans R Commander L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Deux manières (parmi d autres) de visualiser ces valeurs propres : barplot(resultacp$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2],type= l,xlab="valeurs propres",ylab="pourcentage de variance") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 77 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 78 / 254
L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Combien de composantes principales retenir? barplot(res$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2], type= l, xlab= "Valeurs propres", ylab= "Pourcentage de variance" ) Trois règles sont généralement proposées : Toutes les composantes dont la valeur propre est supérieure à 1 Toutes les composantes dont le pourcentage de variance est supérieur à (100% / nombre de variables) Toutes les composantes se situant avant un coude sur le graphe des valeurs propres (ou des pourcentages de variance) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 79 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 80 / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : l analyse des variables resultacp$var Les sorties de l ACP : l analyse des variables resultacp$var C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 81 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 82 / 254
L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : l analyse des variables Interprétation des Composantes Principales Etape 1 : Quelles variables sont bien représentées sur le plan? Corrélation forte avec au moins une des composantes La somme des carrés des corrélations avec les deux composantes du plan s approche de 1 (vecteur proche du cercle des corrélations) Etape 2 : Composante par composante, interprétez en fonction... de l importance des corrélations du sens des corrélations (positives, négatives) de la contribution des variables dans la composante de la qualité de représentation des variables mais aussi de votre connaissance sur le sujet! Etape 3 : Interpréter en terme de cadrant (quart de plan) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 83 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 84 / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Interprétation des Composantes Principales Interprétation des Composantes Principales La fonction dimdesc présente les variables les plus fortement corrélées avec les composantes principales. C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 85 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 86 / 254
L ACP sur les données Eurojob Les sorties de l ACP : l analyse des individus L ACP sur les données Eurojob Les sorties de l ACP : l analyse des individus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 87 / 254 Analyse des correspondances multiples Importer le jeu de données Ronfle.sav C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 88 / 254 Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 90 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 91 / 254
Analyse des correspondances multiples Consommation d alcool et de tabac Analyse factorielle des correspondances simples Analyse des correspondances multiples Test d indépendance Analyse factorielle des correspondances simples Effectifs observés Tabac Non-fumeur Fumeur Total Aucun verre 23 19 42 De 1 à 4 verres 10 23 33 Plus de 4 verres 3 22 25 Total 36 64 100 Alcool Quelles relations entre ces deux variables? Test d indépendance (chi-carré) Force de l association (le φ, le V de Cramer) Analyse factorielle des correspondances Tester l indépendance entre deux variables revient à mesurer l écart entre ce qu on observe et ce que l on s attend à observer dans une situation théorique d indépendance Effectifs observés Tabac Non-fumeur Fumeur Total Aucun verre 23 19 42 De 1 à 4 verres 10 23 33 Plus de 4 verres 3 22 25 Total 36 64 100 Alcool Effectifs attendus Tabac Non-fumeur Fumeur Total Aucun verre 15.12 26.88 42 De 1 à 4 verres 11.88 21.12 33 Plus de 4 verres 9.00 16.00 25 Total 36 64 100 Alcool Section suivante C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 92 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 93 / 254 Analyse des correspondances multiples Test d indépendance Analyse factorielle des correspondances simples Analyse des correspondances multiples L AFCS sur une base de données Analyse factorielle des correspondances simples Tester l indépendance entre deux variables revient à mesurer l écart entre ce qu on observe et ce que l on s attend à observer dans une situation théorique d indépendance Q = I i=1 j=1 J (n ij e ij ) 2 e ij I i=1 j=1 H 0 : Proba(i,j) = Proba(i) Proba(j) J (n ij n i n j /n ) 2 H 0 χ 2 n i n j /n (I 1)(J 1) H 1 : Proba(i,j) Proba(i) Proba(j) Si l hypothèse d indépendance est rejetée (ici : p valeur = 0.001408), il est intéressant d observer la contribution de chaque modalité à ce rejet Analyse factorielle des correspondances simples On peut appliquer l analyse des correspondances simples directement sur une base de donnée (à la place d un tableau croisé) si : Lorsque l on additionne toutes les valeurs d une ligne, on peut tirer du résultat une interprétation pertinente (également avec les autres opérations mathématiques telle la moyenne) Lorsque l on additionne toutes les valeurs d une colonne, on peut tirer du résultat une interprétation pertinente (également avec les autres opérations mathématiques telle la moyenne) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 94 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 95 / 254
Analyse des correspondances multiples La base de données Eurojob Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples Somme et moyenne sur la base de données Eurojob Agr Min Man PS Con SI Fin SPS TC Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20 Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10 France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70 W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10 Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10 Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70 Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20 Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80 United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40 Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00 Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60 Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70 Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40 Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70 Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50 Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80 Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70 Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20 Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70 Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00 E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40 Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00 Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90 Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00 USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30 Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00 Agr Min Man PS Con SI Fin SPS TC Total Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20 100.00 Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10 100.00 France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70 100.00 W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10 100.00 Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10 100.00 Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70 100.00 Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20 100.00 Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80 100.00 United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40 100.00 Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00 100.00 Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60 100.00 Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70 100.00 Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40 100.00 Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70 100.00 Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50 100.00 Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80 100.00 Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70 100.00 Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20 100.00 Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70 100.00 Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00 100.00 E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40 100.00 Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00 100.00 Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90 100.00 Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00 100.00 USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30 100.00 Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00 100.00 Moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 96 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 97 / 254 AFCS vs ACP Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples AFCS dans R Commander : la fonction CA En travaillant avec l AFCS : On change de standardisation (de centrer-réduire à une division par la racine du profil moyen) On change de métrique (d Euclidienne à Chi-carré) On obtient une représentation simultanée des variables et des individus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 98 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 99 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples Sorties de la fonction CA Valeurs propres C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 100 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 101 / 254 Analyse des correspondances multiples Les sorties clés pour les colonnes Analyse factorielle des correspondances simples Analyse des correspondances multiples Les sorties clés pour les lignes Analyse factorielle des correspondances simples C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 102 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 103 / 254
Analyse des correspondances multiples Analyse factorielle des correspondances simples La fonction dimdesc : Description des dimensions Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse Factorielle des Correspondances Simples On obtient : Toutes les modalités des deux méta-variables représentées sur un même plan La projection d un profil ligne (colonne) est, à une constante près, la moyenne pondérée des projections de tous les profils colonnes (lignes) Effet des relations quasi-barycentriques : ψ k (i) = ψ ki = 1 J r ij φ kj φ k (i) = φ ki = 1 λk λk Par conséquent : j=1 Profils lignes (colonnes) proches profils semblables I c ij ψ ki Profils lignes (colonnes) loin du centre Profils éloignés du profil moyen Deux profils ligne (indiv.) et colonnes (var.) loin du centre et proche l un de l autre association forte et positive Deux profils ligne (indiv.) et colonnes (var.) loin du centre et éloignés l un de l autre association forte et négative i=1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 104 / 254 Analyse des correspondances multiples Analyse factorielle des correspondances simples Sortie graphique de l AFCS : la fonction plot.ca C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 105 / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 106 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 107 / 254
Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Jump2back C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 108 / 254 Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 109 / 254 Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 110 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 111 / 254
Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 112 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 113 / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue en R Commander Discrétiser une variable continue via les menus Via les menus Classes de taille égale (fonction de l étendue) Classes basées sur les quantiles (effectifs égaux) Classes naturelles (algorithme k-means - cf. ) Avec la fonction cut Classes de taille égale (fonction de l étendue) Classes prédéfinies (ex : classes d âge) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 114 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 115 / 254
Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Statistiques descriptives sur les classes Discrétiser une variable continue via les menus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 116 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 117 / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue La fonction cut Discrétiser une variable continue via la fonction cut cut( x, breaks, labels=null, x : la variable à discrétiser include.lowest=false, right=true,... ) breaks : soit le nombre de classes soit les limites des classes sous forme vectorielle labels : labels des classes include.lowest : une valeur égale à la plus petite (grande) borne doit-elle être incluse dans la première (dernière) classe? (si right=false ) right : Borne fermée à droite? (ex : (1,2] ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 118 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 119 / 254
Analyse des correspondances multiples Analyse des Correspondances Multiples Analyses multivariées avec R Commander Analyse des correspondances multiples Analyse des Correspondances Multiples Objectif de l analyse des correspondances multiples 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander En ACM, l objectif est d obtenir une représentation graphique où... toutes les modalités des variables initiales et les individus sont représentés sur un même plan la proximité (l éloignement) de d une modalité et d un individu prend un sens intrinsèque le centre du plan ou de l axe (le zéro) a également du sens intrinsèque 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 120 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 121 / 254 Analyse des correspondances multiples Analyse des Correspondances Multiples Analyse des correspondances multiples Analyse des Correspondances Multiples La table disjonctive complète La table de Burt Lorsque l on applique une ACM, le logiciel transforme la base de données contenant p variables discrètes (ou discrétisées) en un table disjonctive complète (Z) contenant Q variables binaires (avec Q = p j=1 (l j 1) où l j est le nombre de niveau de la variable j) Sexe Ronfle Tabac AlcoolDisc AgeDiscr IMCDiscr Femme Ne ronfle pas Fumeur Aucun verre <40 Normal Homme Ne ronfle pas Fumeur De 1 à 4 verres <40 Insuf. Femme Ne ronfle pas Fumeur Aucun verre 50-59 Insuf. Homme Ronfle Fumeur De 1 à 4 verres 60-69 Insuf. Sexe Ronfle Tabac Alc.1 Alc.2 Age.1 Age.2 Age.3 Age.4 IMC.1 IMC.2 IMC.2 1 0 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 Ensuite, une table de Burt (B) est formée. Il s agit d une sorte de table de contingence multivariée : D 1 Z 1 Z 2... Z 1 Z p B = Z Z = Z 2 Z 1 D 2...... Z pz 1...... D p Avec Z j Z k = la table de contingence (partielle) entre la variable j et k et D j = la matrice diagonale des effectifs des (l j 1) niveaux de la variable j C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 122 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 123 / 254
Analyse des correspondances multiples Décomposition spectrale de l ACM Analyse des Correspondances Multiples Analyse des correspondances multiples Interprétation graphique Analyse des Correspondances Multiples C est sa décomposition spectrale de la table de Burt (B) qui permet à l analyse des correspondances multiples. ( 1 p D 1 B B ) φ q = λ q φ q Avec D B = diag(d 1, D 2,...,D p ) = la diagonale de la table de Burt Il y a Q solutions possibles à l équation ci-dessus (avec Q = p j=1 (l j 1) où l j est le nombre de niveau de la variable j) Les deux éléments clés de l interprétation des résultats graphiques de l ACM sont les relations quasi-barycentriques : φ q = 1 λq D 1 B Z ψ q ψ q = 1 λq 1 p Zφ q Dont on peut tirer deux grandes règles d interprétation des graphes : La projection d une catégorie est, à une constante près, la moyenne arithmétique des projections des individus qui la compose La projection d un individu est, à une constante près, la moyenne arithmétique des projections des modalités auxquelles il appartient C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 124 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 125 / 254 Analyse des correspondances multiples Interprétation graphique Analyse des Correspondances Multiples Analyse des correspondances multiples Analyses multivariées avec R Commander L analyse des Correspondances Multiples en R Commander La projection d une catégorie est, à une constante près, la moyenne arithmétique des projections des individus qui la compose La projection d un individu est, à une constante près, la moyenne arithmétique des projections des modalités auxquelles il appartient Modalités proches Beaucoup d individus en commun Association forte positive Modalités opposées Peu d individus en commun Association forte négative Le centre du graphe est le centre de gravité du nuage de points La moyenne arithmétique des projections des individus La moyenne pondérée des projections des modalités Conséquence : les modalités ayant beaucoup plus de poids que les autres resteront toujours proche du centre 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 126 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 127 / 254
Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander L analyse des Correspondances Multiples en R Commander Les valeurs propres Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 128 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 129 / 254 Les valeurs propres Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples Les résultats pour les variables L analyse des Correspondances Multiples en R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 130 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 131 / 254
Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander La fonction dimdesc La fonction plot.mca C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 132 / 254 plot.mca( x, axes=c(1, 2), xlim=null, ylim=null, invisible = NULL, col.ind="blue", col.var="red", label="all", title=null, habillage="none", palette=null, new.plot=true,...) x : un objet résultat de la fonction MCA axes : les numéros des facteurs que l on désire représenter xlim et ylim : l étendue représentée des facteurs (cf. minmax dans le code) invisible : liste de ce que l on désire rendre invisible ( ind, var, ind.sup, quali.sup, quanti.sup ) col.ind : couleur pour les individus col.var : couleur pour les variables label : liste des points pour lesquels on souhaite ajouter un label ( ind, var, ind.sup, quali.sup, quanti.sup ) title : titre (entre guillemets) habillage : none = une couleur pour les indiv., une autre pour les var. ; quali = une couleur différente pour chaque variable ; position d une variable = couleurs différentes pour les indiv. en fonction de leur réponse palette : liste de couleur à utiliser (ex : palette=palette(c( black, red )) ) new.plot : FALSE permet d ajouter de nouveaux point au graphe existant C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 133 / 254 Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Résultats graphiques Résultats graphiques C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 134 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 135 / 254
Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Analyses multivariées avec R Commander ACP, ACM,... AFM Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? L AFM avec R Commander 5 Variables continues ou pseudo-continues (ACP) Variables discrètes ou discrétisées Analyse des correspondances multiples (ACM) Mix de variables continues et discrètes Analyse factorielle multiple (AFM) Groupes variables continues et/ou discrètes Analyse factorielle multiple (AFM) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 137 / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Une généralisation des corrélations canoniques C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 138 / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Une généralisation des corrélations canoniques Les corrélations canoniques : Deux groupes de variables continues L objectif est de trouver une combinaison linéaire des variables dans chaque groupe variables canoniques Avec la contrainte de maximiser la corrélation entre ces deux variables canoniques Cette corrélation et la représentation graphique des variables initiales sur le plan formé par les variables canoniques informent sur l intensité de la relation entre les deux groupes de variables L analyse factorielle multiple (AFM) : Plusieurs groupes de variables continues ou discrètes (on impose une cohérence interne des groupes) L objectif est de trouver les axes factoriels principaux de l ensemble des variables ainsi que ceux de chaque groupe de variables Avec la contrainte d égaliser l information apportée par chaque groupe (pondération des variables) dans l analyse globale L analyse simultanée des axes factoriels principaux issus de l ensemble des variables et des groupes ainsi que le positionnement des variables initiales informent sur l intensité de la relation entre les groupes de variables et la/les structure(s) commune(s) à l ensemble C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 139 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 140 / 254
Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple L algorithme AFMULT (1) se décompose en 3 étapes : 1 ACP et/ou ACM sur chaque groupe de variables 2 Pondération des variables en fonction de la première valeur propre de l ACP/ACM du groupe dont la/les variable(s) fait/font partie Chaque groupe apporte alors une unité d information 3 ACP sur l ensemble des variables en tenant compte des pondérations (les axes factoriels principaux des ACP/ACM préliminaires sont ajoutés en variables illustratives) (1) Escofier, B. and Pagès, J. (1994) Multiple Factor Analysis (AFMULT package), Computational Statistics and Data Analysis, 18, 121-140. Pondération variable k = a(k) λ(j,1) Où a(k) est le poids initial de la variable k. En l absence de spécification par l utilisateur, a(k) = 1 pour les continues et a(k) = proportion des individus qui ne possèdent pas la caractéristique k pour les discrètes. Et λ(j,1) est la première valeur propre de l ACP/ACM préliminaire du groupe j dont la variable k fait partie Dans toutes les directions, l inertie maximum du nuage de point d un groupe est 1 La première valeur propre de l ACP/ACM sur le groupe j une fois pondéré vaut 1 Aucun groupe ne va dominer le premier axe factoriel commun C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 141 / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 142 / 254 Analyse factorielle multiple L AFM avec R Commander Analyses multivariées avec R Commander Groupe 1 Groupe 2 Groupe : Groupe j Groupe J (ex : continues) (ex : discrètes) D.1 D.2 Variable : V.1 V.2 V.3 V.4 V.5 V.6 V.7 V.k V.K Individu : 1 2. i. I Groupe 1 (continues) Groupe 2 (discrètes) Age IMC Alcool Sexe Ronfle Tabac F H Oui Non Oui Non Individu : 1 33 25.00 0 1 0 0 1 1 0 2 38 16.20 4 0 1 0 1 1 0. 100 46 30.02 8 0 1 1 0 0 1 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? L AFM avec R Commander 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 143 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 144 / 254
Analyse factorielle multiple L AFM avec R Commander Analyse factorielle multiple L AFM avec R Commander La fonction MFA C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 145 / 254 Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 146 / 254 Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 147 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 148 / 254
Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires Analyse factorielle multiple L AFM avec R Commander Valeurs propres de l AFM (analyse globale) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 149 / 254 Analyse factorielle multiple L AFM avec R Commander Mesure de similarité entre les groupes de variables C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 150 / 254 Analyse factorielle multiple L AFM avec R Commander Mesure de similarité entre les groupes de variables L inertie des I J projections d individus sur un axe factoriel global peut être décomposée en deux inerties complémentaires : l inertie intra individuelle (Within) l inertie inter individuelle (Between) Ratio d inerties = Inertie Between / Inertie Totale 0 Ratio d inerties 1 L axe représente une structure L axe représente une structure propre à un groupe commune aux différents groupes Remarque : les ratios d inerties ne sont pas nécessairement décroissants! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 151 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 152 / 254
Analyse factorielle multiple L AFM avec R Commander Les groupes de variables sur les axes de l AFM Analyse factorielle multiple L AFM avec R Commander ACP et/ou ACM préliminaires sur les axes de l AFM C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 153 / 254 Analyse factorielle multiple L AFM avec R Commander ACP et/ou ACM préliminaires sur les axes de l AFM C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 154 / 254 Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables quantitatives C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 155 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 156 / 254
Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables quantitatives Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables qualitatives C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 157 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 158 / 254 Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables qualitatives La fonction dimdesc Analyse factorielle multiple L AFM avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 159 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 160 / 254
Analyse factorielle multiple L analyse globale par les variables L AFM avec R Commander Analyse factorielle multiple Résultats pour les individus L AFM avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 161 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 162 / 254 Analyse factorielle multiple L AFM avec R Commander Analyse factorielle multiple L AFM avec R Commander Résultats pour les individus (lab.ind.moy=false) Résultats pour les individus (invisible= quali ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 163 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 164 / 254
Problèmes de groupes... Existe-t-il des groupes naturels dans ma base de données? Groupe = ensemble d observations (individus) partageant un profil de réponse semblable sur une ou plusieurs variable(s) Plusieurs questions possibles : Q1 : Existe-t-il des groupes naturels dans ma base de données? Q2 : Comment discriminer au mieux des groupes existants? Q3 : Dans quel groupe classer un nouveau venu? Q1 Q2, Q3 Analyse discriminante et régression logistique Avec le clustering, on va : repartir d un problème à p dimensions (p variables) sans a priori ni hiérarchie entre les variables en se concentrant sur la structure du nuage des n points Deux problèmes à régler avant de faire cela : Quelle règle de ressemblance, de proximité choisir? Choix de la mesure de distance De quelle manière procéder et avec quelles implications? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 166 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 167 / 254 Choix de la mesure de distance Choix de la mesure de distance Analyses multivariées avec R Commander Quelle règle de ressemblance, de proximité choisir? 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Qu est-ce qui fait groupe? Une réponse formulée en terme de distance entre observations Distance numérique Distance pythagoricienne Distance normalisée Distance de l ACP appliquée à une matrice de corrélation Distance ou proximité entre des profils de réponses Distance χ 2 de l analyse des correspondances Analyse de (dis)similarité d une table disjonctive C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 168 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 169 / 254
Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Distance pythagoricienne : d 2 (x,y) = (x y) I p (x y) Distance normalisée : d 2 (x, y) = (x y) D 1 S 2 (x y) Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Distance pythagoricienne : d 2 (x, y) = (x y) I p (x y) Distance normalisée : d 2 (x,y) = (x y) D 1 S 2 (x y) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 170 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 171 / 254 Choix de la mesure de distance Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Métrique du χ 2 Distance pythagoricienne : d 2 (x,y) = (x y) I p (x y) Distance normalisée : d 2 (x, y) = (x y) D 1 S 2 (x y) Distance entre deux profils lignes : d 2 (r i,r i ) = (r i r i ) D 1 J (r i r i ) avec D 1 J = diag(f 1 1 1,...,f J ) Profils lignes Tabac Non-fumeur Fumeur Total Aucun verre 0.55 0.45 1 De 1 à 4 verres 0.30 0.70 1 Plus de 4 verres 0.12 0.88 1 Total 0.36 0.64 1 Alcool C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 172 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 173 / 254
Choix de la mesure de distance Choix de la mesure de distance Métrique de similarité Métrique de similarité Mesurer la similarité de deux observations dans une table disjonctive ID Sexe Prof-empl Prof-indep Prof-ouvr Similarité 1 0 0 1 0 2 1 0 0 1 3 0 1 0 0 4 0 1 0 0 5 1 0 1 0 6 1 1 0 0 7 0 0 0 1............... Mesurer la similarité de deux observations dans une table disjonctive ID Sexe Prof-empl Prof-indep Prof-ouvr Similarité 3 0 1 0 0 3 6 1 1 0 0 3 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 174 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 175 / 254 Analyses multivariées avec R Commander De quelle manière procéder et avec quelles implications? 1 Introduction à R 2 Deux grandes familles d algorithme : 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Algorithmes hiérarchiques Le nombre de clusters n est pas décidé a priori Algorithmes de partition Le nombre de clusters est fixé a priori C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 176 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 177 / 254
Les algorithmes hiérarchiques Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Quelques algorithmes hiérarchiques : Single Linkage (lien simple) : travaille sur les distances entre les points Average Linkage (lien moyen) : travaille sur les distances entre les groupes déjà formés Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 178 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 179 / 254 Single Linkage Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Single Linkage Algorithm (lien simple) : distances entre les points C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 180 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 181 / 254
Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 182 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 183 / 254 Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 184 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 185 / 254
Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 186 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 187 / 254 Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 188 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 189 / 254
Algorithme de Ward Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 190 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 191 / 254 Les algorithmes de partition Moving Centers Moving Centers : classement (tous) centre de classe Quelques algorithmes de partition : Moving Centers (centres mobiles) : succession d étapes de classement et de calcul de nouveau centre de classe (à la fin de chaque étape de classement) K-Means (K-Moyennes) : succession d étapes de classement et de calcul de nouveau centre de classe (après chaque classement) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 192 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 193 / 254
Moving Centers Moving Centers Moving Centers : classement (tous) centre de classe Moving Centers : classement (tous) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 194 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 195 / 254 Moving Centers Moving Centers Moving Centers : classement (tous) centre de classe Moving Centers : classement (tous) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 196 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 197 / 254
Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 198 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 199 / 254 Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 200 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 201 / 254
Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 202 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 203 / 254 avec R Commander Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 204 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 205 / 254
avec R Commander avec R Commander Le clustering avec FactoMineR Enchaîner analyse factorielle et clustering Deux manières de faire du clustering : Travailler sur les données brutes Statistiques > Analyse multivariée > Classification >... Enchaîner analyse factorielle et clustering PCA, MCA, etc. + HCPC Deux alternatives : Retenir tous les facteurs de l analyse factorielle Conserve toute l information Tient compte de la nature des données (continue, catégorielle) tout en menant à un espace euclidien pour l étape de classification Conserver un nombre réduit de facteurs Conserve l information principale (les k premiers facteurs) et élimine le bruit Tient compte de la nature des données (continue, catégorielle) tout en menant à un espace euclidien pour l étape de classification C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 206 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 207 / 254 avec R Commander avec R Commander Etape 1 : Analyse en Composantes Principales Etape 1 : Analyse en Composantes Principales Charger la base de données Eurojob.sav dans R Commander puis exécuter une ACP en conservant toutes les composantes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 208 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 209 / 254
avec R Commander Etape 1 : Analyse en Composantes Principales Etape 2 : la fonction HCPC avec R Commander HCPC(res, nb.clust=0, consol=true, iter.max=10, min=3, max=null, metric="euclidean", method="ward", order=true, graph.scale="inertia", nb.par=5, graph=true, proba=0.05,...) res : n importe quel objet résultant d une analyse factorielle ou un dataframe quelconque nb.clust : 0 si choix sur le dendrogramme, -1 si choix par R, n importe quel autre entier pour un choix fixé d avance consol : contrôle si l étape de consolidation par K-Means est appliquée (iter.max pour le nombre d itérations) metric : Métrique choisie ("euclidean",...) method : Algorithme choisi ("average", "single", "ward",...) nb.par : Nombre de parangons édités C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 210 / 254 avec R Commander Etape 2.1 : hiérarchique sans consolidation en conservant toute l information disponible HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 211 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 212 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 213 / 254
avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 214 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 215 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 216 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 217 / 254
avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 218 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 219 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 220 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 221 / 254
avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 222 / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 223 / 254 avec R Commander Etape 2.2 : hiérarchique avec consolidation en conservant toute l information disponible HCPC(res.PCA, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 224 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 225 / 254
avec R Commander Etape 2.2 : HCPC(res.PCA, consol=true) avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 226 / 254 avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 227 / 254 avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 228 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 229 / 254
avec R Commander Etape 2.3 : hiérarchique avec un nombre réduit (4) de facteurs On réduit le nombre de composantes principales retenues : PCA(Eurojob.PCA, scale.unit=true, ncp=4, graph=false) avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 230 / 254 avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 231 / 254 avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 232 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 233 / 254
avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) avec R Commander Etape 2.4 : hiérarchique avec un nombre réduit (2) de facteurs On réduit le nombre de composantes principales retenues : PCA(Eurojob.PCA, scale.unit=true, ncp=2, graph=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 234 / 254 avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 235 / 254 avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 236 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 237 / 254
avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 238 / 254 avec R Commander HCPC : 9 CP, sans consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 239 / 254 avec R Commander HCPC : 9 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 240 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 241 / 254
HCPC : 4 CP, avec consolidation avec R Commander HCPC : 2 CP, avec consolidation avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 242 / 254 avec R Commander HCPC : 9 CP, sans consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 243 / 254 avec R Commander HCPC : 9 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 244 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 245 / 254
avec R Commander avec R Commander HCPC : 4 CP, avec consolidation HCPC : 2 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 246 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 247 / 254 Exporter des résultats en SPSS Exporter des résultats en SPSS Analyses multivariées avec R Commander Exporter le résultat du clustering en SPSS 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Une fois une solution stable et satisfaisante trouvée, la fonction write.foreign permet d exporter les données vers SPSS, SAS, etc. write.foreign(dataframe, datafile, codefile, dataframe : le dataset à exporter package=c("spss","stata","sas"),...) datafile : chemin et nom de fichier texte (extension.txt) à créer. Il contient la base elle-même et est enregistré en CSV codefile : chemin et nom de fichier syntaxe du logiciel choisi (extension.sps pour SPSS,.sas pour SAS, etc.). Il contient le fichier de syntaxe à ouvrir dans le logiciel pour importer les données package : choisir le nom du logiciel (entre guillemets) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 248 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 249 / 254
Exporter des résultats en SPSS Exporter des résultats en SPSS Ex : Exporter le résultat du clustering sur 4CP Ex : Exporter le résultat du clustering sur 4CP Code de l ACP res.pca2 = PCA(Eurojob.PCA, scale.unit=true, ncp=4, graph=false) Assigner le résultat du clustering à un objet res.hcpc res.hcpc = HCPC(res.PCA2, consol=true) Soumettre l objet dans R affichera les résultats complets res.hcpc Sélectionner la partie des sorties qui contient la base de données augmentée d une colonne clust et l assigner à une nouvelle base de données EuroClust EuroClust = res.hcpc1$data.clust Exporter la base de donnée avec write.foreign write.foreign(euroclust,"d :/Taverne/My Documents/08 LaTeX/PSYM2132/TP7-Cluster/EurojobClust.txt", "D :/Taverne/My Documents/08 LaTeX/PSYM2132/TP7-Cluster/EurojobClust.sps",package="SPSS") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 250 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 251 / 254 Exporter des résultats en SPSS Exporter des résultats en SPSS Ouvrir la base de données en SPSS Ouvrir la base de données en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 252 / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 253 / 254
Ouvrir la base de données en SPSS Exporter des résultats en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/2010 254 / 254