Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Dimension: px
Commencer à balayer dès la page:

Download "Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?"

Transcription

1 Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2 Cedric Taverne 3 Analyse des correspondances multiples Institut de Statistique, UCL Voie du Roman Pays, 20 Bureau : C113 [email protected] 1 er février Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Qu est ce que? Introduction à R Qu est ce que R? 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R R est un langage de programmation orienté objet R est un logiciel libre (GNU Public Licence) R est un outil statistique puissant, flexible et collaboratif 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Deux interfaces utilisées dans cette formation : RGui et R Commander Démarrer R en salles Socrate : Démarrer > Programmes > R > R C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

2 Introduction à R Qu est ce que R? Introduction à R Qu est ce que R? L interface classique sous Windows : RGui Qu est ce que? R est un logiciel dynamique : > [1] 2 a = > a [1] 2 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Qu est ce que? Introduction à R Qu est ce que R? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R? Les Packages et l Aide dans RGui R est un langage orienté objet : > a = c(1, 2, 3) > is.vector(a) [1] TRUE > a [1] Installation d un package sur votre ordinateur : 1 Menu RGui : Packages > Installer le(s) package(s) puis sélectionner le package Dans cette formation : Rcmdr, FactoMineR, RcmdrPlugin.FactoMineR 2 Entrer le code : library(nom_du_package) dans RGui Utiliser l aide de R : Aide html sur une fonction :?nom_de_fonction Recherche dans l aide html : help.search("mot clé") Recherche dans l aide en ligne : RSiteSearch("mot clé") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

3 Introduction à R Qu est ce que R? Introduction à R Qu est ce que R Commander? Ouvrir un script Analyses multivariées avec R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Conseil : Sauver les scripts avec l extension.r C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R Commander? Introduction à R Qu est ce que R Commander? Qu est ce que R Commander? R Commander R Commander est une interface clique-boutons pour R développée par John Fox. (http ://socserv.mcmaster.ca/jfox/misc/rcmdr/) Pour lancer R Commander : charger le package Rcmdr Entrer le code : library(rcmdr) Pour relancer R Commander : Commander() Pour un lancement plus complet : library(rcmdrplugin.export) library(rcmdrplugin.factominer) library(rcmdrplugin.teachingdemos) options(rcmdr=list(plugins=c("rcmdrplugin.export", "RcmdrPlugin.FactoMineR", "RcmdrPlugin.TeachingDemos"))) library(rcmdr) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

4 Introduction à R Les menus de R Commander Qu est ce que R Commander? Introduction à R Importer une base de données en R Commander Analyses multivariées avec R Commander Fichier : Changer de répertoire de travail et sauver les scripts et sorties Edition : Copier, coller... Données : Importer et gérer le(s) jeu(x) de données, modifier des variables, etc. Statistiques : Les principales méthodes d analyse statistique Graphes : Tous les graphiques et leur sauvegarde Modèles : Gestion des options des modèles (suite du menu Statistiques) Distributions : Analyse et génération de nombreuses distributions Export : Module d exportation de données FactoMineR : Module d analyses multivariées Demos : Démonstrations pour l enseignement des statistiques Outils : Chargement de Packages, etc. Aide : Aide et introduction à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Changer le répertoire de travail Importer une base de données en R Commander Introduction à R La base de données Eurojob Importer une base de données en R Commander Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

5 Introduction à R Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander De SPSS à R Commander De SPSS à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R De SPSS à R Commander Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander R Commander : Visualiser et éditer une base de données C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

6 Introduction à R Analyses multivariées avec R Commander Quelques statistiques descriptives en R Commander La fonction summary Introduction à R Quelques statistiques descriptives en R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R La fonction summary fournit un résumé descriptif de chaque variable Variables qualitative : fréquences Variables quantitative : minimum, quartiles, moyenne, maximum 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La fonction numsummary Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Matrice de corrélations - la fonction cor Quelques statistiques descriptives en R Commander La fonction numsummary fournit des statistiques descriptives pour les variables sélectionnées La fonction cor fournit la matrice des corrélations (Pearson, Spearman ou Partielles) entre les variables sélectionnées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

7 Introduction à R Quelques statistiques descriptives en R Commander Tester une corrélation - la fonction cor.test Tester une corrélation... Introduction à R Quelques statistiques descriptives en R Commander La fonction cor.test fournit un test d hypothèse (uni ou bilatéral) sur la corrélation (Pearson ou Spearman) ou le Tau de Kendall entre les variables sélectionnées Peut-on interpréter sans risque les résultats ci-dessous? Il faut vérifier l hypothèse de normalité posée par la statistique de Pearson! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Test formel QQ-plot Test formel QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

8 Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Histogramme QQ-plot Histogramme QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Sauver un graphe Ajouter la fonction de densité normale correspondante : curve(dnorm(x, mean=mean(eurojob$agr), sd=sd(eurojob$agr)), add=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

9 Introduction à R Quelques références pour aller plus loin en R Introduction à R Quelques références pour aller plus loin en R Analyses multivariées avec R Commander Quelques références pour aller plus loin avec R 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Initiation au langage R avec exemples dans RGui et R Commander : http :// Le langage de programmation S et les environnements R-Gui et S-Plus sous Windows (STAT Calcul Statistique sur ordinateur) : http :// l ogiciels/syllabusr.pdf Le site officiel de R : http ://cran.r-project.org/ Avant tout, un mot d ordre : R est un logiciel très flexible, il se découvre donc facilement par essais-erreurs... 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques références pour aller plus loin en R Petite introduction au calcul matriciel Quelques références pour aller plus loin avec FactoMineR Analyses multivariées avec R Commander 1 Introduction à R Le site de FactoMineR : http ://factominer.free.fr/ Husson F., Lê S., Pagès J. (2009) Analyse de données avec R, Rennes : Presses Universitaires de Rennes L ensemble des bases de données exploitées dans le bouquin : http ://factominer.free.fr/livre/ 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

10 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Exemples de matrices Petite introduction au calcul matriciel Une section pour vous aider à comprendre les notations mathématiques des méthodes d analyses multivariées et, par là, ce que l on effectue comme calculs sur les données Qu est ce qu une matrice? Un tableau de données à deux entrées (lignes, colonnes) Une table de contingence Une base de données A = B = Section suivante Eurojob = C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Dimensions d une matrice Transposer une matrice Les dimensions d une matrice informent sur sa taille C = lignes 4 colonnes Transposer une matrice, c est la faire pivoter sur sa diagonale F = t(f) = F = C est une matrice de dimension (3 4) (3 lignes 4 colonnes ) Les lignes deviennent les colonnes Les colonnes deviennent les lignes Les dimensions d inversent (4 3) (3 4) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

11 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Transposer un vecteur Matrices symétriques E = t(e) = E = ( ) D = D = = D vecteur colonne vecteur ligne D est une matrice symétrique D = D Si la transposition n est pas indiquée, un vecteur est toujours un vecteur colonne. Lorsque l on transpose, rien ne change C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Matrices diagonales Additions et multiplications E = E = = diag (1,2,2) Un scalaire est un nombre isolé en calcul matriciel Addition d un scalaire 3 + A = = = E est une matrice symétrique et diagonale Tous les éléments non-nuls de la matrice sont sur sa diagonale A+D = Addition de deux matrices Multiplication par un scalaire 3 A = = = = = C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

12 Produit scalaire de deux vecteurs Petite introduction au calcul matriciel Produit matriciel de deux vecteurs Petite introduction au calcul matriciel Attention : Multiplication Produit (scalaire ou matriciel) E F = ( ) = = 5 On obtient un scalaire! Que donnerait le produit dans l ordre inverse? F E = ( ) 2 2 = = 5 1 Et si on place le vecteur transposé derrière? F E = ( ) ( ) = Que dire des dimensions? Attention : E F = ( ( ) = ( ) ( ) ( ) ) = ( ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices Attention aux dimensions! = B D = B D = e ligne de B 1 e colonne de D 1 e ligne de B 2 e colonne de D 1 e ligne de B 3 e colonne de D 2 e ligne de B 1 e colonne de D 2 e ligne de B 2 e colonne de D 2 e ligne de B 3 e colonne de D 3 e ligne de B 1 e colonne de D 3 e ligne de B 2 e colonne de D 3 e ligne de B 3 e colonne de D B D = = ( ) ( ) ( ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

13 Produit matriciel de deux matrices Petite introduction au calcul matriciel Petite introduction au calcul matriciel Prémultiplier et postmultiplier par une matrice diagonale Quelques règles à retenir concernant le produit de deux matrices : Les matrices doivent avoir au moins une dimension commune La matrice obtenue (si le calcul est possible) a pour dimensions le nombre de ligne de la première matrice et le nombre de colonnes de la seconde diag (1,2,3) B = = Prémultiplier par une matrice diagonale revient à multiplier les lignes uniquement! La matrice obtenue se calcule comme suit : Soit X une matrice (n p) et Y une matrice (p m) X Y = Z = {z ik } où z ik = p j=1 x ij y jk B diag (1,2,3) = = avec i = 1,2,...n, j = 1,2,...p et k = 1,2,...m Postmultiplier par une matrice diagonale revient à multiplier les colonnes uniquement! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Inverser une matrice La matrice identité L inverse d un nombre, c est quoi? = Le nombre qui conduit à 1 par multiplication Ex : l inverse de 8 est 1/8; l inverse de -1 est L inverse d une matrice, c est quoi? = La matrice qui conduit à la matrice identité par produit matriciel Matrice identité est une matrice diagonale dont la diagonale est uniquement composée de 1 I 3 = = diag (1,1,1) La matrice identité, c est quoi? = Une matrice diagonale composée uniquement de 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

14 La matrice que l on veut inverser doit : Petite introduction au calcul matriciel Inverse de la matrice A Petite introduction au calcul matriciel Etre carrée Une matrice carrée est une matrice dont le nombre de lignes égale le nombre de colonnes. A = Etre de rang complet C = Un matrice de rang complet a autant de lignes/colonnes indépendantes que de lignes/colonnes dans la matrice. B = D = A = A A 1 = A 1 = Une propriété bien utile à connaître : A A 1 = A 1 A = I p = = I 3 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous ( ) ( ) 1 =? ( ) ( ) 1 =? Piste 1 pour résoudre : ( Piste 2 pour résoudre : ) ( a b c d ) = ( ) 2 a + 0 c = 1 2 b + 0 d = 0 0 a + 3 c = 0 0 b + 3 d = 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

15 Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices A = > A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > v1 = c(3, 1, 2) > v2 = c(2, 4, 2) > v3 = c(1, 3, 1) > A2 = cbind(v1, v2, v3) > A1 [,1] [,2] [,3] [1,] [2,] [3,] > A2 v1 v2 v3 [1,] [2,] [3,] C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La décomposition spectrale d une matrice Analyses multivariées avec R Commander A = C = > A = A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > C = matrix(c(3, 4, 1, 2, 1, 2, 4, 4, 1, 4, 2, 3), nrow = 3) Produit matriciel : C A ou C A? > t(c) [,1] [,2] [,3] [1,] [2,] [3,] [4,] > t(c) %*% A [,1] [,2] [,3] [1,] [2,] [3,] [4,] C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La décomposition spectrale d une matrice La décomposition spectrale d une matrice 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Section précédente La décomposition spectrale d une matrice (d une base de données) consiste à rechercher son squelette en : réorganisant l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les points (inertie décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

16 La décomposition spectrale d une matrice La Décomposition spectrale d une matrice La décomposition spectrale d une matrice La Décomposition spectrale d une matrice Les r couples de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice M. Ils correspondent aux r solutions possibles à l équation suivante : Mv i = λ i v i r = rang(m) = nombre minimal de lignes/colonnes indépendantes Quelques propriétés intéressantes : r λ i = trace(m) i=1 r λ i = M = det(m) i=1 Les vecteurs propres (v i ) sont : orthogonaux v i v j = 0 normés v i v i = 1 on dit qu ils sont orthonormés pour i j Aucune information n est perdue par la décomposition spectrale! (on peut toujours reconstruire la matrice de départ) La décomposition spectrale d une matrice est la méthode de base des analyses factorielles (ACP, ACM, AFM, etc.) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales Analyses multivariées avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales L analyse en composantes principales 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple L Analyse en Composantes Principales (ACP) consiste en une décomposition spectrale d une matrice particulière : la matrice de variances-covariances la matrice des corrélations L objectif reste le même : réorganiser l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les individus (variance décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

17 L analyse en composantes principales L analyse en composantes principales L analyse en Composantes Principales L analyse en Composantes Principales Les r couples (r = rang(x X)) de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice (X X). Il s agit des r solutions possibles à l équation suivante : (X X)v i = λ i v i Deux propriétés intéressantes : r i=1 λ i = trace((x X)) = p j=1 s jj = somme des variances si l on travaille sur la matrice de variances-covariances r i=1 λ i = trace((x X)) = p j=1 r jj = p si l on travaille sur la matrice de corrélations Les vecteurs propres obtenus vont fournir l orientation des nouvelles dimensions, appelées Composantes Principales Ces Composantes Principales sont hiérarchisées : λ 1 λ 2... λ p (avec seulement r valeurs propres non-nulles) la variance des projections des points (individus) sur les composantes principales décroît proportionnellement aux valeurs propres associées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales L ACP sur les données Eurojob Variances-covariances ou Corrélations Analyses multivariées avec R Commander L utilisation de la matrice de variances-covariances n influence pas les résultats tant que : les unités des variables restent les mêmes les variances des variables restent sensiblement les mêmes L utilisation de la matrice de corrélations : ne peut qu améliorer le résultat de l ACP en mettant toutes les variables sur le même pied (pas de hiérarchie a priori) 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

18 L ACP sur les données Eurojob L ACP sur les données Eurojob La base de données Eurojob la fonction row.names La fonction row.names permet d extraîre ou imputer des noms aux individus d une matrice ou d un data frame. Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Analyser les variances et covariances Dans le cas d une ACP, les variables sont toutes considérées comme continues. Il faut donc : La fonction scatterplot.matrix La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser et comparer les distributions (min, max, moyenne, variance, etc.) summary : Statistiques > Résumés > Jeu de données actif numsummary : Statistiques > Résumés > Stat. Descriptives Analyser les corrélations (ou covariances) entre variables cor : Statistiques > Résumés > Matrice de corrélations scatterplot.matrix : Graphes > Matrice de nuages de points C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

19 La fonction scatterplot.matrix L ACP sur les données Eurojob La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser les variances et corrélations L ACP sur les données Eurojob Agr Min Man PS Con SI Fin SPS TC minimum Q médiane moyenne écart-type variance Q maximum Agr Min Man PS Con SI Fin SPS TC Agr Min Man PS Con SI Fin SPS TC C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP dans R Commander L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Deux manières (parmi d autres) de visualiser ces valeurs propres : barplot(resultacp$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2],type= l,xlab="valeurs propres",ylab="pourcentage de variance") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

20 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Combien de composantes principales retenir? barplot(res$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2], type= l, xlab= "Valeurs propres", ylab= "Pourcentage de variance" ) Trois règles sont généralement proposées : Toutes les composantes dont la valeur propre est supérieure à 1 Toutes les composantes dont le pourcentage de variance est supérieur à (100% / nombre de variables) Toutes les composantes se situant avant un coude sur le graphe des valeurs propres (ou des pourcentages de variance) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : l analyse des variables resultacp$var Les sorties de l ACP : l analyse des variables resultacp$var C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

21 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : l analyse des variables Interprétation des Composantes Principales Etape 1 : Quelles variables sont bien représentées sur le plan? Corrélation forte avec au moins une des composantes La somme des carrés des corrélations avec les deux composantes du plan s approche de 1 (vecteur proche du cercle des corrélations) Etape 2 : Composante par composante, interprétez en fonction... de l importance des corrélations du sens des corrélations (positives, négatives) de la contribution des variables dans la composante de la qualité de représentation des variables mais aussi de votre connaissance sur le sujet! Etape 3 : Interpréter en terme de cadrant (quart de plan) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Interprétation des Composantes Principales Interprétation des Composantes Principales La fonction dimdesc présente les variables les plus fortement corrélées avec les composantes principales. C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

22 L ACP sur les données Eurojob Les sorties de l ACP : l analyse des individus L ACP sur les données Eurojob Les sorties de l ACP : l analyse des individus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Importer le jeu de données Ronfle.sav C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

23 Analyse des correspondances multiples Consommation d alcool et de tabac Analyse factorielle des correspondances simples Analyse des correspondances multiples Test d indépendance Analyse factorielle des correspondances simples Effectifs observés Tabac Non-fumeur Fumeur Total Aucun verre De 1 à 4 verres Plus de 4 verres Total Alcool Quelles relations entre ces deux variables? Test d indépendance (chi-carré) Force de l association (le φ, le V de Cramer) Analyse factorielle des correspondances Tester l indépendance entre deux variables revient à mesurer l écart entre ce qu on observe et ce que l on s attend à observer dans une situation théorique d indépendance Effectifs observés Tabac Non-fumeur Fumeur Total Aucun verre De 1 à 4 verres Plus de 4 verres Total Alcool Effectifs attendus Tabac Non-fumeur Fumeur Total Aucun verre De 1 à 4 verres Plus de 4 verres Total Alcool Section suivante C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Test d indépendance Analyse factorielle des correspondances simples Analyse des correspondances multiples L AFCS sur une base de données Analyse factorielle des correspondances simples Tester l indépendance entre deux variables revient à mesurer l écart entre ce qu on observe et ce que l on s attend à observer dans une situation théorique d indépendance Q = I i=1 j=1 J (n ij e ij ) 2 e ij I i=1 j=1 H 0 : Proba(i,j) = Proba(i) Proba(j) J (n ij n i n j /n ) 2 H 0 χ 2 n i n j /n (I 1)(J 1) H 1 : Proba(i,j) Proba(i) Proba(j) Si l hypothèse d indépendance est rejetée (ici : p valeur = ), il est intéressant d observer la contribution de chaque modalité à ce rejet Analyse factorielle des correspondances simples On peut appliquer l analyse des correspondances simples directement sur une base de donnée (à la place d un tableau croisé) si : Lorsque l on additionne toutes les valeurs d une ligne, on peut tirer du résultat une interprétation pertinente (également avec les autres opérations mathématiques telle la moyenne) Lorsque l on additionne toutes les valeurs d une colonne, on peut tirer du résultat une interprétation pertinente (également avec les autres opérations mathématiques telle la moyenne) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

24 Analyse des correspondances multiples La base de données Eurojob Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples Somme et moyenne sur la base de données Eurojob Agr Min Man PS Con SI Fin SPS TC Belgium Denmark France W. Germany Ireland Italy Luxembourg Netherlands United Kingdom Austria Finland Greece Norway Portugal Spain Sweden Switzerland Turkey Bulgaria Czechoslovakia E. Germany Hungary Poland Rumania USSR Yugoslavia Agr Min Man PS Con SI Fin SPS TC Total Belgium Denmark France W. Germany Ireland Italy Luxembourg Netherlands United Kingdom Austria Finland Greece Norway Portugal Spain Sweden Switzerland Turkey Bulgaria Czechoslovakia E. Germany Hungary Poland Rumania USSR Yugoslavia Moyenne C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 AFCS vs ACP Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples AFCS dans R Commander : la fonction CA En travaillant avec l AFCS : On change de standardisation (de centrer-réduire à une division par la racine du profil moyen) On change de métrique (d Euclidienne à Chi-carré) On obtient une représentation simultanée des variables et des individus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

25 Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse des correspondances multiples Analyse factorielle des correspondances simples Sorties de la fonction CA Valeurs propres C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Les sorties clés pour les colonnes Analyse factorielle des correspondances simples Analyse des correspondances multiples Les sorties clés pour les lignes Analyse factorielle des correspondances simples C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

26 Analyse des correspondances multiples Analyse factorielle des correspondances simples La fonction dimdesc : Description des dimensions Analyse des correspondances multiples Analyse factorielle des correspondances simples Analyse Factorielle des Correspondances Simples On obtient : Toutes les modalités des deux méta-variables représentées sur un même plan La projection d un profil ligne (colonne) est, à une constante près, la moyenne pondérée des projections de tous les profils colonnes (lignes) Effet des relations quasi-barycentriques : ψ k (i) = ψ ki = 1 J r ij φ kj φ k (i) = φ ki = 1 λk λk Par conséquent : j=1 Profils lignes (colonnes) proches profils semblables I c ij ψ ki Profils lignes (colonnes) loin du centre Profils éloignés du profil moyen Deux profils ligne (indiv.) et colonnes (var.) loin du centre et proche l un de l autre association forte et positive Deux profils ligne (indiv.) et colonnes (var.) loin du centre et éloignés l un de l autre association forte et négative i=1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Analyse factorielle des correspondances simples Sortie graphique de l AFCS : la fonction plot.ca C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

27 Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Jump2back C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

28 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue, utile? Discrétiser une variable continue, utile? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Discrétiser une variable continue en R Commander Discrétiser une variable continue via les menus Via les menus Classes de taille égale (fonction de l étendue) Classes basées sur les quantiles (effectifs égaux) Classes naturelles (algorithme k-means - cf. ) Avec la fonction cut Classes de taille égale (fonction de l étendue) Classes prédéfinies (ex : classes d âge) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

29 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue Statistiques descriptives sur les classes Discrétiser une variable continue via les menus C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Discrétiser une variable continue Analyse des correspondances multiples Discrétiser une variable continue La fonction cut Discrétiser une variable continue via la fonction cut cut( x, breaks, labels=null, x : la variable à discrétiser include.lowest=false, right=true,... ) breaks : soit le nombre de classes soit les limites des classes sous forme vectorielle labels : labels des classes include.lowest : une valeur égale à la plus petite (grande) borne doit-elle être incluse dans la première (dernière) classe? (si right=false ) right : Borne fermée à droite? (ex : (1,2] ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

30 Analyse des correspondances multiples Analyse des Correspondances Multiples Analyses multivariées avec R Commander Analyse des correspondances multiples Analyse des Correspondances Multiples Objectif de l analyse des correspondances multiples 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander En ACM, l objectif est d obtenir une représentation graphique où... toutes les modalités des variables initiales et les individus sont représentés sur un même plan la proximité (l éloignement) de d une modalité et d un individu prend un sens intrinsèque le centre du plan ou de l axe (le zéro) a également du sens intrinsèque 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Analyse des Correspondances Multiples Analyse des correspondances multiples Analyse des Correspondances Multiples La table disjonctive complète La table de Burt Lorsque l on applique une ACM, le logiciel transforme la base de données contenant p variables discrètes (ou discrétisées) en un table disjonctive complète (Z) contenant Q variables binaires (avec Q = p j=1 (l j 1) où l j est le nombre de niveau de la variable j) Sexe Ronfle Tabac AlcoolDisc AgeDiscr IMCDiscr Femme Ne ronfle pas Fumeur Aucun verre <40 Normal Homme Ne ronfle pas Fumeur De 1 à 4 verres <40 Insuf. Femme Ne ronfle pas Fumeur Aucun verre Insuf. Homme Ronfle Fumeur De 1 à 4 verres Insuf. Sexe Ronfle Tabac Alc.1 Alc.2 Age.1 Age.2 Age.3 Age.4 IMC.1 IMC.2 IMC Ensuite, une table de Burt (B) est formée. Il s agit d une sorte de table de contingence multivariée : D 1 Z 1 Z 2... Z 1 Z p B = Z Z = Z 2 Z 1 D Z pz D p Avec Z j Z k = la table de contingence (partielle) entre la variable j et k et D j = la matrice diagonale des effectifs des (l j 1) niveaux de la variable j C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

31 Analyse des correspondances multiples Décomposition spectrale de l ACM Analyse des Correspondances Multiples Analyse des correspondances multiples Interprétation graphique Analyse des Correspondances Multiples C est sa décomposition spectrale de la table de Burt (B) qui permet à l analyse des correspondances multiples. ( 1 p D 1 B B ) φ q = λ q φ q Avec D B = diag(d 1, D 2,...,D p ) = la diagonale de la table de Burt Il y a Q solutions possibles à l équation ci-dessus (avec Q = p j=1 (l j 1) où l j est le nombre de niveau de la variable j) Les deux éléments clés de l interprétation des résultats graphiques de l ACM sont les relations quasi-barycentriques : φ q = 1 λq D 1 B Z ψ q ψ q = 1 λq 1 p Zφ q Dont on peut tirer deux grandes règles d interprétation des graphes : La projection d une catégorie est, à une constante près, la moyenne arithmétique des projections des individus qui la compose La projection d un individu est, à une constante près, la moyenne arithmétique des projections des modalités auxquelles il appartient C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples Interprétation graphique Analyse des Correspondances Multiples Analyse des correspondances multiples Analyses multivariées avec R Commander L analyse des Correspondances Multiples en R Commander La projection d une catégorie est, à une constante près, la moyenne arithmétique des projections des individus qui la compose La projection d un individu est, à une constante près, la moyenne arithmétique des projections des modalités auxquelles il appartient Modalités proches Beaucoup d individus en commun Association forte positive Modalités opposées Peu d individus en commun Association forte négative Le centre du graphe est le centre de gravité du nuage de points La moyenne arithmétique des projections des individus La moyenne pondérée des projections des modalités Conséquence : les modalités ayant beaucoup plus de poids que les autres resteront toujours proche du centre 1 Introduction à R 2 3 Analyse des correspondances multiples Analyse factorielle des correspondances simples Discrétiser une variable continue Analyse des Correspondances Multiples L analyse des Correspondances Multiples en R Commander 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

32 Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander L analyse des Correspondances Multiples en R Commander Les valeurs propres Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Les valeurs propres Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples Les résultats pour les variables L analyse des Correspondances Multiples en R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

33 Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander La fonction dimdesc La fonction plot.mca C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 plot.mca( x, axes=c(1, 2), xlim=null, ylim=null, invisible = NULL, col.ind="blue", col.var="red", label="all", title=null, habillage="none", palette=null, new.plot=true,...) x : un objet résultat de la fonction MCA axes : les numéros des facteurs que l on désire représenter xlim et ylim : l étendue représentée des facteurs (cf. minmax dans le code) invisible : liste de ce que l on désire rendre invisible ( ind, var, ind.sup, quali.sup, quanti.sup ) col.ind : couleur pour les individus col.var : couleur pour les variables label : liste des points pour lesquels on souhaite ajouter un label ( ind, var, ind.sup, quali.sup, quanti.sup ) title : titre (entre guillemets) habillage : none = une couleur pour les indiv., une autre pour les var. ; quali = une couleur différente pour chaque variable ; position d une variable = couleurs différentes pour les indiv. en fonction de leur réponse palette : liste de couleur à utiliser (ex : palette=palette(c( black, red )) ) new.plot : FALSE permet d ajouter de nouveaux point au graphe existant C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Analyse des correspondances multiples L analyse des Correspondances Multiples en R Commander Résultats graphiques Résultats graphiques C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

34 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Analyses multivariées avec R Commander ACP, ACM,... AFM Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? L AFM avec R Commander 5 Variables continues ou pseudo-continues (ACP) Variables discrètes ou discrétisées Analyse des correspondances multiples (ACM) Mix de variables continues et discrètes Analyse factorielle multiple (AFM) Groupes variables continues et/ou discrètes Analyse factorielle multiple (AFM) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Une généralisation des corrélations canoniques C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Une généralisation des corrélations canoniques Les corrélations canoniques : Deux groupes de variables continues L objectif est de trouver une combinaison linéaire des variables dans chaque groupe variables canoniques Avec la contrainte de maximiser la corrélation entre ces deux variables canoniques Cette corrélation et la représentation graphique des variables initiales sur le plan formé par les variables canoniques informent sur l intensité de la relation entre les deux groupes de variables L analyse factorielle multiple (AFM) : Plusieurs groupes de variables continues ou discrètes (on impose une cohérence interne des groupes) L objectif est de trouver les axes factoriels principaux de l ensemble des variables ainsi que ceux de chaque groupe de variables Avec la contrainte d égaliser l information apportée par chaque groupe (pondération des variables) dans l analyse globale L analyse simultanée des axes factoriels principaux issus de l ensemble des variables et des groupes ainsi que le positionnement des variables initiales informent sur l intensité de la relation entre les groupes de variables et la/les structure(s) commune(s) à l ensemble C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

35 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple L algorithme AFMULT (1) se décompose en 3 étapes : 1 ACP et/ou ACM sur chaque groupe de variables 2 Pondération des variables en fonction de la première valeur propre de l ACP/ACM du groupe dont la/les variable(s) fait/font partie Chaque groupe apporte alors une unité d information 3 ACP sur l ensemble des variables en tenant compte des pondérations (les axes factoriels principaux des ACP/ACM préliminaires sont ajoutés en variables illustratives) (1) Escofier, B. and Pagès, J. (1994) Multiple Factor Analysis (AFMULT package), Computational Statistics and Data Analysis, 18, Pondération variable k = a(k) λ(j,1) Où a(k) est le poids initial de la variable k. En l absence de spécification par l utilisateur, a(k) = 1 pour les continues et a(k) = proportion des individus qui ne possèdent pas la caractéristique k pour les discrètes. Et λ(j,1) est la première valeur propre de l ACP/ACM préliminaire du groupe j dont la variable k fait partie Dans toutes les directions, l inertie maximum du nuage de point d un groupe est 1 La première valeur propre de l ACP/ACM sur le groupe j une fois pondéré vaut 1 Aucun groupe ne va dominer le premier axe factoriel commun C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? Mise en oeuvre de l analyse factorielle multiple C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Analyses multivariées avec R Commander Groupe 1 Groupe 2 Groupe : Groupe j Groupe J (ex : continues) (ex : discrètes) D.1 D.2 Variable : V.1 V.2 V.3 V.4 V.5 V.6 V.7 V.k V.K Individu : 1 2. i. I Groupe 1 (continues) Groupe 2 (discrètes) Age IMC Alcool Sexe Ronfle Tabac F H Oui Non Oui Non Individu : Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Qu est ce que l analyse factorielle multiple? L AFM avec R Commander 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

36 Analyse factorielle multiple L AFM avec R Commander Analyse factorielle multiple L AFM avec R Commander La fonction MFA C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

37 Analyse factorielle multiple L AFM avec R Commander Résultats des ACP et/ou ACM préliminaires Analyse factorielle multiple L AFM avec R Commander Valeurs propres de l AFM (analyse globale) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Mesure de similarité entre les groupes de variables C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Mesure de similarité entre les groupes de variables L inertie des I J projections d individus sur un axe factoriel global peut être décomposée en deux inerties complémentaires : l inertie intra individuelle (Within) l inertie inter individuelle (Between) Ratio d inerties = Inertie Between / Inertie Totale 0 Ratio d inerties 1 L axe représente une structure L axe représente une structure propre à un groupe commune aux différents groupes Remarque : les ratios d inerties ne sont pas nécessairement décroissants! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

38 Analyse factorielle multiple L AFM avec R Commander Les groupes de variables sur les axes de l AFM Analyse factorielle multiple L AFM avec R Commander ACP et/ou ACM préliminaires sur les axes de l AFM C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander ACP et/ou ACM préliminaires sur les axes de l AFM C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables quantitatives C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

39 Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables quantitatives Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables qualitatives C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Le(s) groupe(s) de variables qualitatives La fonction dimdesc Analyse factorielle multiple L AFM avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

40 Analyse factorielle multiple L analyse globale par les variables L AFM avec R Commander Analyse factorielle multiple Résultats pour les individus L AFM avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyse factorielle multiple L AFM avec R Commander Analyse factorielle multiple L AFM avec R Commander Résultats pour les individus (lab.ind.moy=false) Résultats pour les individus (invisible= quali ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

41 Problèmes de groupes... Existe-t-il des groupes naturels dans ma base de données? Groupe = ensemble d observations (individus) partageant un profil de réponse semblable sur une ou plusieurs variable(s) Plusieurs questions possibles : Q1 : Existe-t-il des groupes naturels dans ma base de données? Q2 : Comment discriminer au mieux des groupes existants? Q3 : Dans quel groupe classer un nouveau venu? Q1 Q2, Q3 Analyse discriminante et régression logistique Avec le clustering, on va : repartir d un problème à p dimensions (p variables) sans a priori ni hiérarchie entre les variables en se concentrant sur la structure du nuage des n points Deux problèmes à régler avant de faire cela : Quelle règle de ressemblance, de proximité choisir? Choix de la mesure de distance De quelle manière procéder et avec quelles implications? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Choix de la mesure de distance Choix de la mesure de distance Analyses multivariées avec R Commander Quelle règle de ressemblance, de proximité choisir? 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Qu est-ce qui fait groupe? Une réponse formulée en terme de distance entre observations Distance numérique Distance pythagoricienne Distance normalisée Distance de l ACP appliquée à une matrice de corrélation Distance ou proximité entre des profils de réponses Distance χ 2 de l analyse des correspondances Analyse de (dis)similarité d une table disjonctive C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

42 Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Distance pythagoricienne : d 2 (x,y) = (x y) I p (x y) Distance normalisée : d 2 (x, y) = (x y) D 1 S 2 (x y) Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Distance pythagoricienne : d 2 (x, y) = (x y) I p (x y) Distance normalisée : d 2 (x,y) = (x y) D 1 S 2 (x y) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Choix de la mesure de distance Choix de la mesure de distance Métrique pythagoricienne et métrique normalisée Métrique du χ 2 Distance pythagoricienne : d 2 (x,y) = (x y) I p (x y) Distance normalisée : d 2 (x, y) = (x y) D 1 S 2 (x y) Distance entre deux profils lignes : d 2 (r i,r i ) = (r i r i ) D 1 J (r i r i ) avec D 1 J = diag(f 1 1 1,...,f J ) Profils lignes Tabac Non-fumeur Fumeur Total Aucun verre De 1 à 4 verres Plus de 4 verres Total Alcool C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

43 Choix de la mesure de distance Choix de la mesure de distance Métrique de similarité Métrique de similarité Mesurer la similarité de deux observations dans une table disjonctive ID Sexe Prof-empl Prof-indep Prof-ouvr Similarité Mesurer la similarité de deux observations dans une table disjonctive ID Sexe Prof-empl Prof-indep Prof-ouvr Similarité C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Analyses multivariées avec R Commander De quelle manière procéder et avec quelles implications? 1 Introduction à R 2 Deux grandes familles d algorithme : 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Algorithmes hiérarchiques Le nombre de clusters n est pas décidé a priori Algorithmes de partition Le nombre de clusters est fixé a priori C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

44 Les algorithmes hiérarchiques Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Quelques algorithmes hiérarchiques : Single Linkage (lien simple) : travaille sur les distances entre les points Average Linkage (lien moyen) : travaille sur les distances entre les groupes déjà formés Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Single Linkage Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Single Linkage Algorithm (lien simple) : distances entre les points C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

45 Single Linkage Single Linkage Algorithm (lien simple) : distances entre les points Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

46 Single Linkage et Average Linkage Single Linkage Algorithm (lien simple) : distances entre les points Average Linkage Algorithm (lien moyen) : distances entre les groupes Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

47 Algorithme de Ward Algorithme de Ward Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape Ward : décompose l inertie du nuage de points et minimise la perte d information à chaque étape C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Les algorithmes de partition Moving Centers Moving Centers : classement (tous) centre de classe Quelques algorithmes de partition : Moving Centers (centres mobiles) : succession d étapes de classement et de calcul de nouveau centre de classe (à la fin de chaque étape de classement) K-Means (K-Moyennes) : succession d étapes de classement et de calcul de nouveau centre de classe (après chaque classement) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

48 Moving Centers Moving Centers Moving Centers : classement (tous) centre de classe Moving Centers : classement (tous) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Moving Centers Moving Centers Moving Centers : classement (tous) centre de classe Moving Centers : classement (tous) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

49 Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

50 Moving Centers et K-Means Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Moving Centers et K-Means Moving Centers : classement (tous) centre de classe K-Means (K-Moyennes) : classement (un seul) centre de classe Analyses multivariées avec R Commander 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

51 avec R Commander avec R Commander Le clustering avec FactoMineR Enchaîner analyse factorielle et clustering Deux manières de faire du clustering : Travailler sur les données brutes Statistiques > Analyse multivariée > Classification >... Enchaîner analyse factorielle et clustering PCA, MCA, etc. + HCPC Deux alternatives : Retenir tous les facteurs de l analyse factorielle Conserve toute l information Tient compte de la nature des données (continue, catégorielle) tout en menant à un espace euclidien pour l étape de classification Conserver un nombre réduit de facteurs Conserve l information principale (les k premiers facteurs) et élimine le bruit Tient compte de la nature des données (continue, catégorielle) tout en menant à un espace euclidien pour l étape de classification C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander avec R Commander Etape 1 : Analyse en Composantes Principales Etape 1 : Analyse en Composantes Principales Charger la base de données Eurojob.sav dans R Commander puis exécuter une ACP en conservant toutes les composantes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

52 avec R Commander Etape 1 : Analyse en Composantes Principales Etape 2 : la fonction HCPC avec R Commander HCPC(res, nb.clust=0, consol=true, iter.max=10, min=3, max=null, metric="euclidean", method="ward", order=true, graph.scale="inertia", nb.par=5, graph=true, proba=0.05,...) res : n importe quel objet résultant d une analyse factorielle ou un dataframe quelconque nb.clust : 0 si choix sur le dendrogramme, -1 si choix par R, n importe quel autre entier pour un choix fixé d avance consol : contrôle si l étape de consolidation par K-Means est appliquée (iter.max pour le nombre d itérations) metric : Métrique choisie ("euclidean",...) method : Algorithme choisi ("average", "single", "ward",...) nb.par : Nombre de parangons édités C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : hiérarchique sans consolidation en conservant toute l information disponible HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

53 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

54 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

55 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.1 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.2 : hiérarchique avec consolidation en conservant toute l information disponible HCPC(res.PCA, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

56 avec R Commander Etape 2.2 : HCPC(res.PCA, consol=true) avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.2 : HCPC(res.PCA, consol=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

57 avec R Commander Etape 2.3 : hiérarchique avec un nombre réduit (4) de facteurs On réduit le nombre de composantes principales retenues : PCA(Eurojob.PCA, scale.unit=true, ncp=4, graph=false) avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

58 avec R Commander Etape 2.3 : HCPC(res.PCA2, consol=true) avec R Commander Etape 2.4 : hiérarchique avec un nombre réduit (2) de facteurs On réduit le nombre de composantes principales retenues : PCA(Eurojob.PCA, scale.unit=true, ncp=2, graph=false) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) Cliquer sur la solution proposée (3 groupes) pour obtenir tous les graphes C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

59 avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) avec R Commander Etape 2.4 : HCPC(res.PCA3, consol=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander HCPC : 9 CP, sans consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander HCPC : 9 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

60 HCPC : 4 CP, avec consolidation avec R Commander HCPC : 2 CP, avec consolidation avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander HCPC : 9 CP, sans consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 avec R Commander HCPC : 9 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

61 avec R Commander avec R Commander HCPC : 4 CP, avec consolidation HCPC : 2 CP, avec consolidation C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Exporter des résultats en SPSS Exporter des résultats en SPSS Analyses multivariées avec R Commander Exporter le résultat du clustering en SPSS 1 Introduction à R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Choix de la mesure de distance avec R Commander Exporter des résultats en SPSS Une fois une solution stable et satisfaisante trouvée, la fonction write.foreign permet d exporter les données vers SPSS, SAS, etc. write.foreign(dataframe, datafile, codefile, dataframe : le dataset à exporter package=c("spss","stata","sas"),...) datafile : chemin et nom de fichier texte (extension.txt) à créer. Il contient la base elle-même et est enregistré en CSV codefile : chemin et nom de fichier syntaxe du logiciel choisi (extension.sps pour SPSS,.sas pour SAS, etc.). Il contient le fichier de syntaxe à ouvrir dans le logiciel pour importer les données package : choisir le nom du logiciel (entre guillemets) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

62 Exporter des résultats en SPSS Exporter des résultats en SPSS Ex : Exporter le résultat du clustering sur 4CP Ex : Exporter le résultat du clustering sur 4CP Code de l ACP res.pca2 = PCA(Eurojob.PCA, scale.unit=true, ncp=4, graph=false) Assigner le résultat du clustering à un objet res.hcpc res.hcpc = HCPC(res.PCA2, consol=true) Soumettre l objet dans R affichera les résultats complets res.hcpc Sélectionner la partie des sorties qui contient la base de données augmentée d une colonne clust et l assigner à une nouvelle base de données EuroClust EuroClust = res.hcpc1$data.clust Exporter la base de donnée avec write.foreign write.foreign(euroclust,"d :/Taverne/My Documents/08 LaTeX/PSYM2132/TP7-Cluster/EurojobClust.txt", "D :/Taverne/My Documents/08 LaTeX/PSYM2132/TP7-Cluster/EurojobClust.sps",package="SPSS") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Exporter des résultats en SPSS Exporter des résultats en SPSS Ouvrir la base de données en SPSS Ouvrir la base de données en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

63 Ouvrir la base de données en SPSS Exporter des résultats en SPSS C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Guidance de Statistique : Epreuve de préparation à l examen

Guidance de Statistique : Epreuve de préparation à l examen Guidance de Statistique : Epreuve de préparation à l examen Durée totale : 90 min (1h30) 5 questions de pratique (12 pts) 20 décembre 2011 Matériel Feuilles de papier De quoi écrire Calculatrice Latte

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE

La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE Colloque Protection sociale d entreprise Paris, 26 mars 2010 http://www.irdes.fr/espacerecherche/colloques/protectionsocialeentreprise

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

Cours d analyse numérique SMI-S4

Cours d analyse numérique SMI-S4 ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Présentation du logiciel

Présentation du logiciel Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

MAP 553 Apprentissage statistique

MAP 553 Apprentissage statistique MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes , avec prise en compte des plans d échantillonnage complexes par Joseph LARMARANGE version du 29 mars 2007 Ce cours a été développé pour une formation niveau M2 et Doctorat des étudiants du laboratoire

Plus en détail

Servir l avenir Une initiative d EUREKA et de la Commission européenne, destinée aux Pme innovantes à fort potentiel de croissance

Servir l avenir Une initiative d EUREKA et de la Commission européenne, destinée aux Pme innovantes à fort potentiel de croissance Servir l avenir Une initiative d EUREKA et de la Commission européenne, destinée aux Pme innovantes à fort potentiel de croissance Les TIC dans Horizon 2020-22 janvier 2014 01. 02. Présentation générale

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

REPÈRES ÉCONOMIQUES POUR UNE RÉFORME DES RETRAITES JUILLET 2015

REPÈRES ÉCONOMIQUES POUR UNE RÉFORME DES RETRAITES JUILLET 2015 REPÈRES ÉCONOMIQUES POUR UNE RÉFORME DES RETRAITES JUILLET 2015 2000 2005 2010 2015 2020 2025 2030 2035 2040 2045 2050 2055 2060 en % du PIB UN FINANCEMENT DES RETRAITES TOUJOURS PAS ASSURÉ Solde financier

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Resolution limit in community detection

Resolution limit in community detection Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

ENV 1993 1 1 ANB. EC1 Eurocode EN 1994 1 2

ENV 1993 1 1 ANB. EC1 Eurocode EN 1994 1 2 Implémentation des EUROCODES 3 et 4 en Belgique [email protected] 18 novembre 2010 ENV 1993 1 1 ANB EC1 Eurocode NAD, DAN EC4 EN 1994 1 2 EC3 1. Un petit peu d histoire 2. Les Eurocodes en Europe 21ENV

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET [email protected] http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA 75. Un plombier connaît la disposition de trois tuyaux sous des dalles ( voir figure ci dessous ) et il lui suffit de découvrir une partie de chacun d eux pour pouvoir y poser les robinets. Il cherche

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Case study Méthodologie d enquête et développement d une Great Place To Work

Case study Méthodologie d enquête et développement d une Great Place To Work Case study Méthodologie d enquête et développement d une Great Place To Work Histoire 1991 2002 1998 2011 Réseau Global 3 NORTH AMERICA United States Canada LATIN AMERICA Argentina Bolivia Brazil Central

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

ICC 109 8. 14 septembre 2012 Original : anglais. tendances de la consommation du café dans certains pays importateurs.

ICC 109 8. 14 septembre 2012 Original : anglais. tendances de la consommation du café dans certains pays importateurs. ICC 109 8 14 septembre 2012 Original : anglais F Conseil international du Café 109 e session 24 28 septembre 2012 Londres, Royaume Uni Tendances de la consommation du café dans certains pays importateurs

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Le théorème des deux fonds et la gestion indicielle

Le théorème des deux fonds et la gestion indicielle Le théorème des deux fonds et la gestion indicielle Philippe Bernard Ingénierie Economique& Financière Université Paris-Dauphine mars 2013 Les premiers fonds indiciels futent lancés aux Etats-Unis par

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail