Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Dimension: px
Commencer à balayer dès la page:

Download "Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?"

Transcription

1 Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2 Cedric Taverne 3 Analyse des correspondances multiples Institut de Statistique, UCL Voie du Roman Pays, 20 Bureau : C113 1 er février Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Qu est ce que? Introduction à R Qu est ce que R? 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R R est un langage de programmation orienté objet R est un logiciel libre (GNU Public Licence) R est un outil statistique puissant, flexible et collaboratif 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Deux interfaces utilisées dans cette formation : RGui et R Commander Démarrer R en salles Socrate : Démarrer > Programmes > R > R C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

2 Introduction à R Qu est ce que R? Introduction à R Qu est ce que R? L interface classique sous Windows : RGui Qu est ce que? R est un logiciel dynamique : > [1] 2 a = > a [1] 2 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Qu est ce que? Introduction à R Qu est ce que R? C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R? Les Packages et l Aide dans RGui R est un langage orienté objet : > a = c(1, 2, 3) > is.vector(a) [1] TRUE > a [1] Installation d un package sur votre ordinateur : 1 Menu RGui : Packages > Installer le(s) package(s) puis sélectionner le package Dans cette formation : Rcmdr, FactoMineR, RcmdrPlugin.FactoMineR 2 Entrer le code : library(nom_du_package) dans RGui Utiliser l aide de R : Aide html sur une fonction :?nom_de_fonction Recherche dans l aide html : help.search("mot clé") Recherche dans l aide en ligne : RSiteSearch("mot clé") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

3 Introduction à R Qu est ce que R? Introduction à R Qu est ce que R Commander? Ouvrir un script Analyses multivariées avec R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Conseil : Sauver les scripts avec l extension.r C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Qu est ce que R Commander? Introduction à R Qu est ce que R Commander? Qu est ce que R Commander? R Commander R Commander est une interface clique-boutons pour R développée par John Fox. (http ://socserv.mcmaster.ca/jfox/misc/rcmdr/) Pour lancer R Commander : charger le package Rcmdr Entrer le code : library(rcmdr) Pour relancer R Commander : Commander() Pour un lancement plus complet : library(rcmdrplugin.export) library(rcmdrplugin.factominer) library(rcmdrplugin.teachingdemos) options(rcmdr=list(plugins=c("rcmdrplugin.export", "RcmdrPlugin.FactoMineR", "RcmdrPlugin.TeachingDemos"))) library(rcmdr) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

4 Introduction à R Les menus de R Commander Qu est ce que R Commander? Introduction à R Importer une base de données en R Commander Analyses multivariées avec R Commander Fichier : Changer de répertoire de travail et sauver les scripts et sorties Edition : Copier, coller... Données : Importer et gérer le(s) jeu(x) de données, modifier des variables, etc. Statistiques : Les principales méthodes d analyse statistique Graphes : Tous les graphiques et leur sauvegarde Modèles : Gestion des options des modèles (suite du menu Statistiques) Distributions : Analyse et génération de nombreuses distributions Export : Module d exportation de données FactoMineR : Module d analyses multivariées Demos : Démonstrations pour l enseignement des statistiques Outils : Chargement de Packages, etc. Aide : Aide et introduction à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Changer le répertoire de travail Importer une base de données en R Commander Introduction à R La base de données Eurojob Importer une base de données en R Commander Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

5 Introduction à R Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander De SPSS à R Commander De SPSS à R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R De SPSS à R Commander Importer une base de données en R Commander Introduction à R Importer une base de données en R Commander R Commander : Visualiser et éditer une base de données C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

6 Introduction à R Analyses multivariées avec R Commander Quelques statistiques descriptives en R Commander La fonction summary Introduction à R Quelques statistiques descriptives en R Commander 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R La fonction summary fournit un résumé descriptif de chaque variable Variables qualitative : fréquences Variables quantitative : minimum, quartiles, moyenne, maximum 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La fonction numsummary Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Matrice de corrélations - la fonction cor Quelques statistiques descriptives en R Commander La fonction numsummary fournit des statistiques descriptives pour les variables sélectionnées La fonction cor fournit la matrice des corrélations (Pearson, Spearman ou Partielles) entre les variables sélectionnées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

7 Introduction à R Quelques statistiques descriptives en R Commander Tester une corrélation - la fonction cor.test Tester une corrélation... Introduction à R Quelques statistiques descriptives en R Commander La fonction cor.test fournit un test d hypothèse (uni ou bilatéral) sur la corrélation (Pearson ou Spearman) ou le Tau de Kendall entre les variables sélectionnées Peut-on interpréter sans risque les résultats ci-dessous? Il faut vérifier l hypothèse de normalité posée par la statistique de Pearson! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Test formel QQ-plot Test formel QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

8 Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Introduction à R Vérifier une hypothèse de normalité Quelques statistiques descriptives en R Commander Histogramme QQ-plot Histogramme QQ-plot C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques statistiques descriptives en R Commander Introduction à R Quelques statistiques descriptives en R Commander Vérifier une hypothèse de normalité Sauver un graphe Ajouter la fonction de densité normale correspondante : curve(dnorm(x, mean=mean(eurojob$agr), sd=sd(eurojob$agr)), add=true) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

9 Introduction à R Quelques références pour aller plus loin en R Introduction à R Quelques références pour aller plus loin en R Analyses multivariées avec R Commander Quelques références pour aller plus loin avec R 1 Introduction à R Qu est ce que R? Qu est ce que R Commander? Importer une base de données en R Commander Quelques statistiques descriptives en R Commander Quelques références pour aller plus loin en R 2 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Initiation au langage R avec exemples dans RGui et R Commander : http ://www.stat.ucl.ac.be/smcs/formation/formationsis/support.html Le langage de programmation S et les environnements R-Gui et S-Plus sous Windows (STAT Calcul Statistique sur ordinateur) : http ://www.stat.ucl.ac.be/cours/stat2020/documents/manuels l ogiciels/syllabusr.pdf Le site officiel de R : http ://cran.r-project.org/ Avant tout, un mot d ordre : R est un logiciel très flexible, il se découvre donc facilement par essais-erreurs... 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Introduction à R Quelques références pour aller plus loin en R Petite introduction au calcul matriciel Quelques références pour aller plus loin avec FactoMineR Analyses multivariées avec R Commander 1 Introduction à R Le site de FactoMineR : http ://factominer.free.fr/ Husson F., Lê S., Pagès J. (2009) Analyse de données avec R, Rennes : Presses Universitaires de Rennes L ensemble des bases de données exploitées dans le bouquin : http ://factominer.free.fr/livre/ 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

10 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Exemples de matrices Petite introduction au calcul matriciel Une section pour vous aider à comprendre les notations mathématiques des méthodes d analyses multivariées et, par là, ce que l on effectue comme calculs sur les données Qu est ce qu une matrice? Un tableau de données à deux entrées (lignes, colonnes) Une table de contingence Une base de données A = B = Section suivante Eurojob = C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Dimensions d une matrice Transposer une matrice Les dimensions d une matrice informent sur sa taille C = lignes 4 colonnes Transposer une matrice, c est la faire pivoter sur sa diagonale F = t(f) = F = C est une matrice de dimension (3 4) (3 lignes 4 colonnes ) Les lignes deviennent les colonnes Les colonnes deviennent les lignes Les dimensions d inversent (4 3) (3 4) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

11 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Transposer un vecteur Matrices symétriques E = t(e) = E = ( ) D = D = = D vecteur colonne vecteur ligne D est une matrice symétrique D = D Si la transposition n est pas indiquée, un vecteur est toujours un vecteur colonne. Lorsque l on transpose, rien ne change C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Matrices diagonales Additions et multiplications E = E = = diag (1,2,2) Un scalaire est un nombre isolé en calcul matriciel Addition d un scalaire 3 + A = = = E est une matrice symétrique et diagonale Tous les éléments non-nuls de la matrice sont sur sa diagonale A+D = Addition de deux matrices Multiplication par un scalaire 3 A = = = = = C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

12 Produit scalaire de deux vecteurs Petite introduction au calcul matriciel Produit matriciel de deux vecteurs Petite introduction au calcul matriciel Attention : Multiplication Produit (scalaire ou matriciel) E F = ( ) = = 5 On obtient un scalaire! Que donnerait le produit dans l ordre inverse? F E = ( ) 2 2 = = 5 1 Et si on place le vecteur transposé derrière? F E = ( ) ( ) = Que dire des dimensions? Attention : E F = ( ( ) = ( ) ( ) ( ) ) = ( ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Produit matriciel de deux matrices Attention aux dimensions! = B D = B D = e ligne de B 1 e colonne de D 1 e ligne de B 2 e colonne de D 1 e ligne de B 3 e colonne de D 2 e ligne de B 1 e colonne de D 2 e ligne de B 2 e colonne de D 2 e ligne de B 3 e colonne de D 3 e ligne de B 1 e colonne de D 3 e ligne de B 2 e colonne de D 3 e ligne de B 3 e colonne de D B D = = ( ) ( ) ( ) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

13 Produit matriciel de deux matrices Petite introduction au calcul matriciel Petite introduction au calcul matriciel Prémultiplier et postmultiplier par une matrice diagonale Quelques règles à retenir concernant le produit de deux matrices : Les matrices doivent avoir au moins une dimension commune La matrice obtenue (si le calcul est possible) a pour dimensions le nombre de ligne de la première matrice et le nombre de colonnes de la seconde diag (1,2,3) B = = Prémultiplier par une matrice diagonale revient à multiplier les lignes uniquement! La matrice obtenue se calcule comme suit : Soit X une matrice (n p) et Y une matrice (p m) X Y = Z = {z ik } où z ik = p j=1 x ij y jk B diag (1,2,3) = = avec i = 1,2,...n, j = 1,2,...p et k = 1,2,...m Postmultiplier par une matrice diagonale revient à multiplier les colonnes uniquement! C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Petite introduction au calcul matriciel Inverser une matrice La matrice identité L inverse d un nombre, c est quoi? = Le nombre qui conduit à 1 par multiplication Ex : l inverse de 8 est 1/8; l inverse de -1 est L inverse d une matrice, c est quoi? = La matrice qui conduit à la matrice identité par produit matriciel Matrice identité est une matrice diagonale dont la diagonale est uniquement composée de 1 I 3 = = diag (1,1,1) La matrice identité, c est quoi? = Une matrice diagonale composée uniquement de 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

14 La matrice que l on veut inverser doit : Petite introduction au calcul matriciel Inverse de la matrice A Petite introduction au calcul matriciel Etre carrée Une matrice carrée est une matrice dont le nombre de lignes égale le nombre de colonnes. A = Etre de rang complet C = Un matrice de rang complet a autant de lignes/colonnes indépendantes que de lignes/colonnes dans la matrice. B = D = A = A A 1 = A 1 = Une propriété bien utile à connaître : A A 1 = A 1 A = I p = = I 3 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 Petite introduction au calcul matriciel Exercice : Inversez la matrice ci-dessous ( ) ( ) 1 =? ( ) ( ) 1 =? Piste 1 pour résoudre : ( Piste 2 pour résoudre : ) ( a b c d ) = ( ) 2 a + 0 c = 1 2 b + 0 d = 0 0 a + 3 c = 0 0 b + 3 d = 1 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

15 Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices Petite introduction au calcul matriciel Exemple de code R pour la manipulation de matrices A = > A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > v1 = c(3, 1, 2) > v2 = c(2, 4, 2) > v3 = c(1, 3, 1) > A2 = cbind(v1, v2, v3) > A1 [,1] [,2] [,3] [1,] [2,] [3,] > A2 v1 v2 v3 [1,] [2,] [3,] C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La décomposition spectrale d une matrice Analyses multivariées avec R Commander A = C = > A = A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3) > C = matrix(c(3, 4, 1, 2, 1, 2, 4, 4, 1, 4, 2, 3), nrow = 3) Produit matriciel : C A ou C A? > t(c) [,1] [,2] [,3] [1,] [2,] [3,] [4,] > t(c) %*% A [,1] [,2] [,3] [1,] [2,] [3,] [4,] C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 La décomposition spectrale d une matrice La décomposition spectrale d une matrice 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple Section précédente La décomposition spectrale d une matrice (d une base de données) consiste à rechercher son squelette en : réorganisant l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les points (inertie décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

16 La décomposition spectrale d une matrice La Décomposition spectrale d une matrice La décomposition spectrale d une matrice La Décomposition spectrale d une matrice Les r couples de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice M. Ils correspondent aux r solutions possibles à l équation suivante : Mv i = λ i v i r = rang(m) = nombre minimal de lignes/colonnes indépendantes Quelques propriétés intéressantes : r λ i = trace(m) i=1 r λ i = M = det(m) i=1 Les vecteurs propres (v i ) sont : orthogonaux v i v j = 0 normés v i v i = 1 on dit qu ils sont orthonormés pour i j Aucune information n est perdue par la décomposition spectrale! (on peut toujours reconstruire la matrice de départ) La décomposition spectrale d une matrice est la méthode de base des analyses factorielles (ACP, ACM, AFM, etc.) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales Analyses multivariées avec R Commander C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales L analyse en composantes principales 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple L Analyse en Composantes Principales (ACP) consiste en une décomposition spectrale d une matrice particulière : la matrice de variances-covariances la matrice des corrélations L objectif reste le même : réorganiser l information de manière hiérarchique (avec l idée que l on veut réduire le nombre de dimensions) de sorte à discriminer au mieux les individus (variance décroissante sur les nouvelles dimensions) 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

17 L analyse en composantes principales L analyse en composantes principales L analyse en Composantes Principales L analyse en Composantes Principales Les r couples (r = rang(x X)) de valeurs propres (λ i ) et de vecteurs propres (v i ) forment la décomposition spectrale de la matrice (X X). Il s agit des r solutions possibles à l équation suivante : (X X)v i = λ i v i Deux propriétés intéressantes : r i=1 λ i = trace((x X)) = p j=1 s jj = somme des variances si l on travaille sur la matrice de variances-covariances r i=1 λ i = trace((x X)) = p j=1 r jj = p si l on travaille sur la matrice de corrélations Les vecteurs propres obtenus vont fournir l orientation des nouvelles dimensions, appelées Composantes Principales Ces Composantes Principales sont hiérarchisées : λ 1 λ 2... λ p (avec seulement r valeurs propres non-nulles) la variance des projections des points (individus) sur les composantes principales décroît proportionnellement aux valeurs propres associées C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L analyse en composantes principales L ACP sur les données Eurojob Variances-covariances ou Corrélations Analyses multivariées avec R Commander L utilisation de la matrice de variances-covariances n influence pas les résultats tant que : les unités des variables restent les mêmes les variances des variables restent sensiblement les mêmes L utilisation de la matrice de corrélations : ne peut qu améliorer le résultat de l ACP en mettant toutes les variables sur le même pied (pas de hiérarchie a priori) 1 Introduction à R 2 Petite introduction au calcul matriciel La décomposition spectrale d une matrice L analyse en composantes principales L ACP sur les données Eurojob 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

18 L ACP sur les données Eurojob L ACP sur les données Eurojob La base de données Eurojob la fonction row.names La fonction row.names permet d extraîre ou imputer des noms aux individus d une matrice ou d un data frame. Données concernent 26 pays européens Informe sur la répartition (en %) des travailleurs dans 9 secteurs d activité Source : Euromonitor (1979), European Marketing Data and Statistics, London : Euromonitor Publications, (http ://lib.stat.cmu.edu/dasl/datafiles/europeanjobs.html) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Analyser les variances et covariances Dans le cas d une ACP, les variables sont toutes considérées comme continues. Il faut donc : La fonction scatterplot.matrix La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser et comparer les distributions (min, max, moyenne, variance, etc.) summary : Statistiques > Résumés > Jeu de données actif numsummary : Statistiques > Résumés > Stat. Descriptives Analyser les corrélations (ou covariances) entre variables cor : Statistiques > Résumés > Matrice de corrélations scatterplot.matrix : Graphes > Matrice de nuages de points C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

19 La fonction scatterplot.matrix L ACP sur les données Eurojob La fonction scatterplot.matrix fournit une matrice de graphes XY permettant d observer en un coup d oeil tous les couples de variables. Menu R Commander : Graphes > Matrice de nuages de points Analyser les variances et corrélations L ACP sur les données Eurojob Agr Min Man PS Con SI Fin SPS TC minimum Q médiane moyenne écart-type variance Q maximum Agr Min Man PS Con SI Fin SPS TC Agr Min Man PS Con SI Fin SPS TC C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP dans R Commander L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Deux manières (parmi d autres) de visualiser ces valeurs propres : barplot(resultacp$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2],type= l,xlab="valeurs propres",ylab="pourcentage de variance") C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

20 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : les valeurs propres Combien de composantes principales retenir? barplot(res$eig[,2], names.arg=seq(1,9), xlab=null, ylab="pourcentage de variance") plot(resultacp$eig[,2], type= l, xlab= "Valeurs propres", ylab= "Pourcentage de variance" ) Trois règles sont généralement proposées : Toutes les composantes dont la valeur propre est supérieure à 1 Toutes les composantes dont le pourcentage de variance est supérieur à (100% / nombre de variables) Toutes les composantes se situant avant un coude sur le graphe des valeurs propres (ou des pourcentages de variance) C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 L ACP sur les données Eurojob L ACP sur les données Eurojob Les sorties de l ACP : l analyse des variables resultacp$var Les sorties de l ACP : l analyse des variables resultacp$var C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254 C. Taverne (SMCS, UCL) SMCS : Analyses multivariées avec R 01/02/ / 254

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

INTRODUCTION A L UTILISATION DE SYSTAT

INTRODUCTION A L UTILISATION DE SYSTAT 1 INTRODUCTION A L UTILISATION DE SYSTAT F. Lyazrhi D. Concordet 2 Systat est un logiciel statistique qui permet de préparer les graphiques et de faire des calculs nécessaires à l analyse des données.

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

R-Commander : Notions du chapitre 1. Statistiques descriptives. 1) Lecture des données. 2. a) Exemple de lecture d un fichier Excel : serpents.xls...

R-Commander : Notions du chapitre 1. Statistiques descriptives. 1) Lecture des données. 2. a) Exemple de lecture d un fichier Excel : serpents.xls... R-Commander : Notions du chapitre 1 Statistiques descriptives 1) Lecture des données. 2 a) Exemple de lecture d un fichier Excel : serpents.xls...2 2) Représentations graphiques.4 a) Données univariées....4

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

Probabilités et Statistiques. Chapitre 1 : Statistique descriptive

Probabilités et Statistiques. Chapitre 1 : Statistique descriptive U.P.S. I.U.T. A, Département d Informatique Année 2008-2009 Probabilités et Statistiques Emmanuel PAUL Chapitre 1 : Statistique descriptive 1 Objectifs des statistiques. Il s agit d étudier un ou plusieurs

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

L'AFC pour les nuls. Mise à jour du 21 janvier 2010. Dernière version des diapos disponible ici : analyse factorielle des composantes

L'AFC pour les nuls. Mise à jour du 21 janvier 2010. Dernière version des diapos disponible ici : analyse factorielle des composantes L'AFC pour les nuls Mise à jour du 21 janvier 2010 Dernière version des diapos disponible ici : analyse factorielle des composantes Source des images indiquées au-dessous ou en cliquant sur l image Cours

Plus en détail

TD de statistique : introduction à R

TD de statistique : introduction à R TD de statistique : introduction à R Jean-Baptiste Lamy 11 octobre 2007 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre; il est disponible gratuitement

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

TP Statistique n o 1

TP Statistique n o 1 Préparation Agrégation Bordeaux Année 0-03 TP Statistique n o L objectif de ce TP est de vous familiariser avec le logiciel Matlab (qui n est pas libre...). Matlab n est pas à la base un langage de calcul

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Utilisation du logiciel Excel pour des analyses simples de bases données

Utilisation du logiciel Excel pour des analyses simples de bases données Utilisation du logiciel Excel pour des analyses simples de bases données Catherine Raux (interne Santé Publique) et Benoît Lepage (AHU), Service d Epidémiologie du CHU de Toulouse Version 1.1 Avril 2012

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Introduction du logiciel libre de statistiques : R et R commander

Introduction du logiciel libre de statistiques : R et R commander Introduction du logiciel libre de statistiques : R et R commander (La version 05/09/2011) Toshiharu OKAYASU Conseiller Principal Projet de Renforcement du Programme de Prévention du VIH /JICA 1 Préambule

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples 1 ACM avec R Plusieurs packages fournissent des outils permettant de réaliser

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

Introduction au logiciel R

Introduction au logiciel R Introduction au logiciel R Fabrice Rossi Projet AxIS, INRIA Rocquencourt 2007 F. Rossi (INRIA) Introduction au logiciel R 2007 1 / 34 Plan 1 Manipulations élémentaires Vecteurs et tableaux de données Graphisme

Plus en détail

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 FactoMineR est un paquet R qui implémente les principales méthodes d analyse de données. Si le paquet n est pas déjà

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA)

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA) ANALYSE BIVARIÉE DE VARIABLES QUALITATIVE ET QUANTITAVIE Analyse de Variance (ANOVA) Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS

Plus en détail

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire?

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Cyril Ferdynus, USM, CHU RECUEIL DE DONNEES Recueil hors ligne Epidata (http://www.epiconcept.fr/html/epidata.html)

Plus en détail

Installation de la librairie VISP et création du projet

Installation de la librairie VISP et création du projet ESIR3-IN Travaux Pratiques VO 2012-2013 PREAMBULE Copier les données des TPs 1. créez un répertoire VO dans votre homedir cd ~/ mkdir VO cd VO 2. copier le dossier contenant toutes les données pour les

Plus en détail

Travaux dirigés. Introduction à R 1

Travaux dirigés. Introduction à R 1 Introduction à R 1 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre ; il est disponible gratuitement et tourne sur différents systèmes (PC Linux, PC Windows,

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Laboratoire 2 Extraction des caractéristiques

Laboratoire 2 Extraction des caractéristiques Laboratoire 2 Extraction des caractéristiques L objectif de l extraction et de la sélection de caractéristiques est d identifier les caractéristiques importantes pour la discrimination entre classes. Après

Plus en détail

Calcul Matriciel. Chapitre 10. 10.1 Qu est-ce qu une matrice? 10.2 Indexation des coefficients. 10.3 Exemples de matrices carrées.

Calcul Matriciel. Chapitre 10. 10.1 Qu est-ce qu une matrice? 10.2 Indexation des coefficients. 10.3 Exemples de matrices carrées. Chapitre 10 Calcul Matriciel 101 Qu est-ce qu une matrice? Définition : Soit K un ensemble de nombres exemples, K = N, Z, Q, R, C, n, p N On appelle matrice à n lignes et p colonnes la données de np nombres

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

TD de statistique : graphiques avec R

TD de statistique : graphiques avec R TD de statistique : graphiques avec R Jean-Baptiste Lamy 11 octobre 2007 1 Rappels de vocabulaire Données univariées lorsqu il n y a qu une seule variable Données bivariées lorsqu il y a deux variables

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Chacune des valeurs d une variable en est une modalité particulière.

Chacune des valeurs d une variable en est une modalité particulière. Psychologie générale Jean Paschoud STATISTIQUE Sommaire Rôle de la statistique Variables Échelles de mesure Résumer, décrire Comparer Rôle de la statistique La statistique est avant tout un outil permettant

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances A travers ce TD, nous allons apprendre à mettre en oeuvre l analyse factorielle des correspondances.

Plus en détail

Analyse de données multidimensionnelles

Analyse de données multidimensionnelles Analyse de données multidimensionnelles M1 Statistique et économétrie, 2014 Projet - V. Monbet Le projet est composé de deux parties indépendantes. Les données sont disponibles sur la page web du cours.

Plus en détail

Filtre de Wiener. Analyse en Composantes Principales

Filtre de Wiener. Analyse en Composantes Principales Filtre de Wiener Analyse en Composantes Principales Guillaume Obozinski LIGM/Ecole des Ponts - ParisTech Traitement de l information et vision artificielle Ecole des Ponts Filtre de Wiener Norbert Wiener

Plus en détail

Analyse des Données. Travaux Pratiques 0

Analyse des Données. Travaux Pratiques 0 Analyse des Données Travaux Pratiques 0 Introduction La maison-page du logiciel se trouve à l adresse www.r-project.org. Toutes les réponses aux questions relatives à la bonne exécution de ce TP (commandes,

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Le Multidimensional Scaling et la cartographie des préférences

Le Multidimensional Scaling et la cartographie des préférences Le Multidimensional Scaling et la cartographie des préférences Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014 Multidimensional scaling Egalement appelé

Plus en détail

Cours de mathématiques - Alternance Gea

Cours de mathématiques - Alternance Gea Cours de mathématiques - Alternance Gea Anne Fredet 11 décembre 005 1 Calcul matriciel Une matrice n m est un tableau de nombres à n lignes( et m colonnes. 1 0 Par exemple, avec n = et m =, on peut considérer

Plus en détail

Traitement des données avec EXCEL 2007

Traitement des données avec EXCEL 2007 Traitement des données avec EXCEL 2007 Vincent Jalby Octobre 2010 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation (questionnaire),

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Cours 3: Inversion des matrices dans la pratique...

Cours 3: Inversion des matrices dans la pratique... Cours 3: Inversion des matrices dans la pratique... Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module complémentaire de maths, année 2012 1 Rappel de l épisode précédent

Plus en détail

Master EBE Introduction à R et Statistique inférentielle

Master EBE Introduction à R et Statistique inférentielle Master EBE Introduction à R et Statistique inférentielle R est un logiciel de calcul statistique et probabiliste. Il est développé dans le cadre du projet GNU http://www.gnu.org/ ), c est donc un logiciel

Plus en détail

Seconds pas vers l analyse de données...

Seconds pas vers l analyse de données... Fiche TD avec le logiciel : tdr1102 Seconds pas vers l analyse de données... A.B. Dufour & D. Clot Cette fiche comprend des exercices portant sur les paramètres descriptifs principaux et les représentations

Plus en détail

Présentation du logiciel

Présentation du logiciel Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail