Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances"

Transcription

1 Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances C. Bardel Septembre / 70

2 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 2 / 70

3 Analyse multivariée Principe Analyse des variations de plusieurs variables qui peuvent être corrélées ou non Forme des données (de façon générale) Individu Variable 1 Variable 2... Variable p 1 x 1,1 x 2,1... x p,1 2 x 1,2 x 2,2... x p,2... n x 1,n x 2,n... x p,n Les variables peuvent être qualitatives ou quantitatives dépendantes ou indépendantes 3 / 70

4 Les différents types de méthodes de stats multivariées Les 2 grands types de méthodes Les méthodes descriptives Toutes les variables jouent le même rôle (variables indépendantes) But : Visualiser et classer des données de grande dimension Les méthodes explicatives Une ou pls variable à expliquer et de nombreuses variables explicatives But : relier une variable à expliquer Y à des variables explicatives (= variables indépendantes = prédicteurs) X 1, X 2,... Les méthodes explicatives Variable à expliquer quantitative (loi normale) Variable explicatives quantitatives : régression Variables explicatives qualitatives : ANOVA Variable à expliquer qualitatives Analyse discriminante prédictive (AD) Régression logistique 4 / 70

5 Les méthodes descriptives Les méthodes de visualisation Variables X i quantitatives : Analyse en composantes principales (ACP) Analyse discriminante factorielle (AD) Variables X i qualitatives : Cas ou i = 2 : Analyse factorielle des correspondances (AFC) Cas ou i > 2 Analyse factorielle des correspondances multiples (AFCM) Méthodes traitées dans ce cours : ACP et AFC Les méthodes de classification Classification hiérarchique / non hiérarchique Classification supervisée/non supervisée Classification des individus/ des variables Non détaillées dans ce cours 5 / 70

6 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 6 / 70

7 L ACP : introduction Principe général de l ACP Résumer l information portée par un nombre élevé de variables quantitatives au moyen de variables quantitatives synthétiques appelées facteurs principaux de l ACP Les facteurs principaux sont des combinaisons linéaires des variables initiales Ils ne sont pas corrélés 2 à 2 Les 2 ou 3 premiers facteurs permettent d extraire la majorité de l information contenue dans les données D autant plus vrai si les variables initiales sont corrélées au départ Principe intuitif : projection 7 / 70

8 Analyses préalables Études univariées et bivariées Observation des distributions Calcul des moyennes, médianes, écart-types,... Matrice de variance/covariance ou de corrélation Identifier les valeurs aberrantes (par ex : erreur de saisie, de manipulation) et les données manquantes Traitement des données manquantes L ACP ne peut pas traiter de tableaux comportant des données manquantes. Suppression des individus avec données manquantes Imputation/extrapolation des données manquantes 8 / 70

9 Exemple des notes dans 4 matières Les données : notes de 9 élèves dans 4 disciplines maths phys fran angl Lea Jean Pierre Paul Marie Julie Sandra Alex Tom / 70

10 Analyse préliminaire univariée Résumés sur les distributions de chaque variable summary(d) MATH PHYS FRAN ANGL Min. : Min. : Min. : 5.00 Min. : st Qu. : st Qu. : st Qu. : st Qu. : 8.00 Median : Median : Median :11.00 Median : 9.50 Mean : Mean : Mean :10.22 Mean : rd Qu. : rd Qu. : rd Qu. : rd Qu. :12.00 Max. : Max. : Max. :15.50 Max. :15.00 Recherche de données manquantes Vérification de la longueur d un vecteur : > length(d$math) [1] 9 > is.na.data.frame(d) MATH PHYS FRAN ANGL [1,] FALSE FALSE FALSE FALSE [2,] FALSE FALSE FALSE FALSE [3,] FALSE FALSE FALSE FALSE [4,] FALSE FALSE FALSE FALSE [5,] FALSE FALSE FALSE FALSE [6,] FALSE FALSE FALSE FALSE / 70

11 Analyse préliminaire bivariée : nuages de point 2 à 2 Commande R : pairs(data) MATH PHYS FRAN ANGL 11 / 70

12 Analyse préliminaire bivariée : covariances et correlation Matrice de variance-covariance : cov(data) MATH PHYS FRAN ANGL MATH PHYS FRAN ANGL Matrice de corrélation : cor(data) MATH PHYS FRAN ANGL MATH PHYS FRAN ANGL L ACP est basée sur l analyse d une de ces 2 matrices 12 / 70

13 ACP normée vs ACP non normée ACP normée = ACP centrée réduite Les données sont centrée et réduites On travaille sur la matrice de corrélation Utilisée lorsque les données ne sont pas homogènes (= pas de la même unités) ACP non normée = ACP centrée Les données sont centrées On travaille sur la matrice de variance-covariance Utilisée lorsque les données sont dans la même unité où toutes en % Conséquences d une ACP centrée sur des données hétérogènes Les variables ayant un ordre de grandeur plus élevé auront une plus grande variance et donc seront prépondérants dans la définition des facteurs 13 / 70

14 Définition des axes de l ACP Exemple intuitif : On recherche le 1er axe de manière à ce que la projection du nuage de point sur cet axe ait une variance maximum Le second axe est orthogonal au premier et tel que la projection du nuage sur cet axe maximise la part de variance restante / 70

15 Vocabulaire Valeur propre/vecteur propre On sait calculer des vecteurs propres (eigenvectors) d une matrice et les valeurs propres (eigenvalues) qui leur sont associés. Les axes factoriels ils sont engendrés par les vecteurs propres normés ils ont perpendiculaires 2 à 2 ils correspondent aux directions dans laquelle la dispersion du nuage de point est la plus grande l axe principal est associé à la plus grande valeur propre λ 1 Les valeurs propres elles correspondent à la variance des projections du nuage de point sur l axe qui leur est associé elles rendent compte de l importance de l axe dans la représentation des données 15 / 70

16 Vocabulaire (suite) Les composantes principales Ce sont de nouvelles variables, combinaisons linéaires des anciennes variables C i = a i,1 X 1 + a i,2 X a i,p X p i-ème composante principale Elles permettent de calculer les coordonnées des individus dans le nouveau référentiel défini par les axes factoriels, (projections des individus sur les axes) Var 1... Var n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n Fact 1... Fact n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n 16 / 70

17 Qualité globale des représentations Variance du nuage sur l axe (k) Elle est donnée par λ k, la valeur propre associée au vecteur propre engendrant l axe k Plus λ k est élevé, plus l axe est important pour la représentation des données Part de variance portée par l axe k (=inertie) λ k p i=1 λ i Part de l inertie portée par les k premiers axes Elle représente la qualité globale de représentation des données dans l espace défini par les k premiers axes. k i=1 λ i p i=1 λ i 17 / 70

18 Cas de nos données Réalisation avec R (package FactoMineR) Réalisation de l acp : res<-pca(d, scale.unit = T) *ACP réduite* valeurs propres λ : res$eig Le tableau donne aussi la part de variance portée par chaque axe (%) et l inertie cumulée Résultats > res$eig eigenvalue perc. of variance cum perc. of variance comp comp comp comp Dans cet exemple, les 2 premiers facteurs restituent quasiment toute la dispersion du nuage. On peut donc négliger les 2 autres facteurs. 18 / 70

19 Critères de choix de la dimension de l espace de représentation (1) Rappel But de l ACP : résumer l information de nombreuses variables par un plus petit nombre de variables synthétiques appelées facteurs principaux. Comment choisir le nombre de facteurs à conserver? Théorème L espace à s dimensions (avec s < p où p est le nb de variables initiales) qui maximise l inertie du nuage de point initial est défini par les s vecteurs propres associés aux s plus grandes valeurs propres Critère 1 : seuil sur l inertie cumulée L information concernant la qualité globale de la représentation dans les espaces représentés par les k premiers facteurs correspond à l inertie cumulée par les k premiers facteurs Seuil arbitraire : inertie cumulée > 70% 19 / 70

20 Critère 2 : l éboulis des valeurs propres Critère de choix Éboulis des valeurs propres : diagramme en bâtons représentant les valeurs propres classées par ordre décroissant Critère : on cherche un coude dans le graphique (diminution brutale des valeurs propres) et on ne conserve que les valeurs propres antérieures au coude Eigenvalues Remarque Plus le nb de variables est élevé, plus il y a de risque que l éboulis des valeurs propres soit écrasés et donc qu il ne présente pas de coude très marqué barplot(res$eig[,1],main="eigenvalues",names.arg=1:nrow(res$eig)) 20 / 70

21 Critère 3 : la règle de Kaiser Critère de choix On ne conserve que les s premiers facteurs correspondant aux valeurs propres supérieures à la moyenne arithmétique de l ensemble des valeurs propres Remarque Dans le cas d une ACP centrée réduite, ce critère revient à conserver les s premières valeurs propres supérieures à 1 Ce critère a tendance à surestimer le nombre de composantes pertinentes Application à nos données (ACP normée) eigenvalue perc. of variance cum perc. of variance comp comp comp comp / 70

22 Critère de choix de la dimension de l espace de représentation Bilan En pratique, on utilise surtout La part d inertie expliquée Combinée avec l éboulis des valeurs propres Attention, ce nombre dépend aussi de la capacité à donner un sens aux axes Pas d intérêt de conserver des facteurs qu on ne peut interpréter ce qui est souvent le cas au delà de 3 facteurs 22 / 70

23 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 23 / 70

24 Coordonnées des variables (cas ACP non normée) Les coordonnées des variables dans le nouveau référentiel défini par les axes factoriels sont obtenu en projetant les variables sur les axes factoriels Remarque : En cas d ACP normée, ce tableau est le même que le tableau des corrélations variables/facteurs (cf plus loin) Avec FactoMineR, on obtient tous les tableaux de résultats sur les variables en tapant res$var $coord Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL / 70

25 Coordonnées des variables : graphique Variables factor map (PCA) FRAN Dim 2 (29.85%) ANGL PHYS MATH Dim 1 (70.05%) 2 groupes de variables 25 / 70

26 Qualité de représentation des variables Représentation des variables par le facteur axe 2 Plus l angle formé entre la variable initiale et un facteur est proche de zéro (cos α = 1), plus la variable est proche du facteur et donc bien représentée par le facteur Plus l angle formé entre la variable initiale et un facteur est proche de 90 degrés (cos α = 0), plus la variable est mal représentée par le facteur En pratique, on raisonne avec les cos 2 car la somme des cos 2 sur l ensemble des axes vaut 1 var1 axe 1 On peut donc calculer la qualité de la représentation de chacune des variables initiales dans le sous espace de représentation finale (somme des cos 2 sur les axes conservés) 26 / 70

27 Qualité de représentation des variables : exemple $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Somme MATH PHYS FRAN ANGL Les 4 matières sont majoritairement représentées par le premier axe. On peut noter que maths et français sont assez bien représentés par le deuxième axe (il capte respectivement 34% et 43% de l information apportée par cette variable). Remarque On considère qu une variable est bien représentée sur un axe lorsque le cosinus carré de l angle qu elle forme avec cet axe est supérieur ou égal à 0.5 (valeur arbitraire, classiquement utilisée) 27 / 70

28 Contribution des variables dans la définition des axes factoriels But : quantifier l importance de chaque variable dans la définition des axes factoriels Intérêt : donner un sens aux facteurs de l ACP afin d interpréter les résultats $contrib Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL Somme Les variables physique et anglais contribuent à hauteur de 28/29% à la définition du facteur 1 Le facteur 2 est porté à 30 et 38% respectivement par les variables maths et français. 28 / 70

29 Les corrélations variables-facteurs $cor Cela correspond aux coefficients de corrélation entre les variables initiales et les facteurs issus de l ACP. Matrice utile pour l interprétation des facteurs Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL Facteur 1 : corrélé positivement avec toutes les disciplines, reflète le niveau d un étudiant (plus ses notes sont bonnes, plus le score est positif) Facteur 2 : corrélé positivement avec les matière littéraires et négativement avec les matières scientifiques, il oppose les disciplines littéraires (groupe 1) et scientifiques (groupe 2) 29 / 70

30 Représentation graphique : le cercle des corrélations Principe (ACP normée) : Pour chaque variable initiale X i, on associe un point dont l abcisse est la corrélation entre X i et le facteur 1 et l ordonnée est la corrélation entre X i et le facteur 2. Les points s inscrivent dans un cercle de centre 0 (origine) et de rayon 1 Plus les points sont proches du cercle, plus ils sont bien représentés par le plan factoriel (= plus ils sont corrélés aux deux facteurs) L angle entre 2 points-variables, mesuré par son cosinus est égal au coefficient de corrélation entre les 2 variables (ex : cos α=0, les deux variables sont indépendantes) Les variables qui ne sont pas situées au bord du cercle ne sont pas corrélées avec les deux facteurs représentés. Elles ne servent pas à l interprétation et l effet de perspective empêche d interpréter la proximité de ces variables 30 / 70

31 Exemple de cercle des corrélations Variables factor map (PCA) Dim 2 (27.99%) FRAN ANGL PHYS MATH / 70

32 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 32 / 70

33 Les coordonnées des individus Les résultats sur les individus sont tous accessibles par la commande res$ind Les coordonnées des individus dans le nouveau référentiel sont obtenues en projetant les individus sur les axes factoriels $coord Dim.1 Dim.2 Dim.3 Dim / 70

34 Le graphique des individus Individuals factor map (PCA) Dim 2 (27.99%) Intérêt : vue d ensemble montre des similarités entre individus par la formation de paquets de points disjoints montre les individus les plus influents (en périphérie) Dim 1 (71.89%) 34 / 70

35 Qualité de représentation d un individu $cos2 Elle est donnée par le cos 2 de l angle formé entre l individu et sa projection sur le facteur concerné La qualité de représentation d un individus dans le sous espace formé des k premiers facteur est égale à la somme des cos 2 associés à chacun des facteurs Dim.1 Dim.2 Dim.3 Dim.4 Somme e e e e e e e e e e e e e e e e e e / 70

36 Contribution des individus dans la définition des axes factoriels $contrib But : quantifier l importance de chaque individu dans la définition des axes. Identification des individus les plus influents En pratique, peu exploitable si nombre d individus grand. On préférera regarder le graphique des individus (+ influents en périphérie) Dim.1 Dim.2 Dim.3 Dim Somme / 70

37 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 37 / 70

38 Variables et individus supplémentaires Principe Introduire des variables ou de nouveaux individus que l on projette sur les plans factoriels obtenus à partir des données initiales (= variables actives) Intérêt Jouer un rôle de contrôle : on vérifie que ces variables et individus se positionnent de façon cohérentes par rapport aux autres Affiner l analyse avec des variables supplémentaires décrivant un aspect complémentaire du sujet d étude ou avec des individus supplémentaires issus de nouvelles expériences Attention Ces variables et individus n ont pas été pris en compte lors de la construction des facteurs. Ils sont donc moins bien représentés que les autres variables 38 / 70

39 Exemple d utilisation des variables et individus supplémentaires Variables supplémentaires Variables complémentaires pour l analyse Variables mal renseignées pour les individus (beaucoup de données manquantes) Individus supplémentaires Individus avec des données manquantes ou extrêmes Individus issus d expériences menées dans des conditions différentes mais ayant fait l objet des mêmes mesures (mêmes variables) 39 / 70

40 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 40 / 70

41 Interprétation d une ACP Questions à se poser concernant les variables Quelles variables contribuent le plus à définir un facteur donné? Quels sont les signes affectés aux coordonnées des variables suivant le facteur? (La variable contribue-t elle positivement ou négativement au facteur?) Y a t il des regroupements de variables? Questions à se poser concernant les individus Quelles sont les observations qui contribuent le plus à définir un axe? Existe-t il des regroupements ou des tendances au niveau des observations? Interprétation des facteurs Nombre de facteurs à retenir Donner un sens aux facteurs à l aide des contributions et des qualités de représentation (cos 2 ) 41 / 70

42 Conclusion Conclusion sur l ACP Packages R : ade4 ou FactoMineR Analyse descriptive, réduction de la dimension Ne permet pas vraiment de faire des classes (utiliser plutôt des méthodes de classification) Faire attention à l interprétation des résultats d une ACP : c est rarement simple et nécessite de bien connaître le phénomène biologique étudié Les premières composantes principales peuvent ne pas être les plus intéressantes dans la mesure ou elles décrivent des généralités concernant le phénomène étudié. concentrer l étude sur les autres dimensions 42 / 70

43 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 43 / 70

44 Introduction Généralités Méthode adaptée au traitement de données qualitatives Généralisation de l ACP AFC simple : étude de la correspondance entre 2 variables qualitatives croisées dans un tableau de contingence L étude d un tableau individu variables qualitatives se fait via l AFC multiple (AFCM) Le tableau de contingence (Etudiants de 1A à l université de Nice selon la catégorie socio professionnelle du chef de famille) : IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

45 Objectif de l AFC et conditions Objectif Mettre en évidence les relations qui existent (ou pas) entre les différentes modalités des 2 variables Utilisation d une métrique pour quantifier la force des liaisons entre les modalités des 2 variables : la métrique du Khi 2 Remarque : la métrique du Khi 2 favorise les modalités de faibles effectifs en leur attribuant un poids plus grand dans l analyse. Conditions Les 2 variables doivent être qualitatives Les observations doivent être indépendantes (un individu dans une seule case du tableau de contingence) Chaque modalité apparaît au moins une fois dans le tableau Il est de plus souhaitable que les effectifs théoriques soient supérieurs à 5 dans toutes les cases (même condition que pour le test du Khi 2 ) 45 / 70

46 Analyse exploratoire du tableau de contingence Le tableau des profils-lignes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des lignes k i, Les quantités fj i de chacune des cases de ce nouveau tableau correspondent à l estimation des probabilités P(Y = j X = i) Cas de l exemple Le tableau des profils-lignes donne la répartition du choix des étudiants par origine sociale des étudiants (ici en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

47 Analyse exploratoire du tableau de contingence (2) Le tableau des profils-colonnes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des colonnes k,j Les quantités f j i de chacune des cases de ce nouveau tableau correspond à l estimation de la probabilité P(X = i Y = j) Cas de l exemple Le tableau des profils-colonnes donne la répartition des origines sociales en par choix d études (ici, en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

48 Analyse exploratoire du tableau de contingence (3) L indice d attraction/répulsion : définition Il est défini par f i,j d i,j = f i, f,j L indice d attraction/répulsion : interprétation Si d i,j > 1, on dit que les modalités s attirent La modalité [Y=j] est sur-représentée dans la population [X=i] par rapport à l ensemble de la population (eq à la modalité [X=i] est sur-représentée dans la population [Y=j] par rapport à l ensemble de la population Si d i,j < 1, les modalités se repoussent Si (i, j) d i,j = 1, il y a indépendance parfaite entre les lignes et les colonnes 48 / 70

49 Analyse exploratoire (4) Exemple des indices d attraction/répulsion du tableau de données IUT Sciences LSH Droit Eco Médecine Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Exemple I(employés, droit)= = 0.47 Cet indice représente le rapport entre la proportion d origine sociale i dans la filière d étude j et la proportion d étudiants d origine sociale i (et vice versa) ex enfant d employés, filière droit (profil colonne) : 7.5/15.8= 0.47 Exemple : Sous-représentation des enfants d ouvriers et d employés dans la filière droit Sur-représentation des enfants de cadres dans la filière médecine 49 / 70

50 Quelques notions sur l AFC Une double ACP (vision classique francophone) Une ACP des profils-lignes : les individus sont les modalités de X Une ACP des profils-colonnes : les individus sont les modalités de Y Existence de liens entre les 2 analyses : les composantes principales d un nuage sont reliées aux directions principales de l autre nuage On s intéresse uniquement aux liens entre les modalités des variables. On ne tracera donc que le graphique représentant conjointement les modalités des 2 variables pour étudier leurs proximités les unes par rapport aux autres. Nombre maximum d axes factoriels Soient X et Y deux variables qualitatives à r et c modalités alors l AFC aboutit à une représentation des modalités dans un espace à d dimensions avec d=inf(r-1, c-1) Application à nos données : CSP, 6 modalités ; études, 6 modalités Au plus 5 axes factoriels 50 / 70

51 Résultats : qualité globale des représentations Mesure de la qualité globale des représentations La qualité globale de la représentation des données dans l espace défini par les k premiers facteurs de l ACP est donnée par la taux d inertie (ou dispersion) expliqué par ces k dimensions. k l=1 λ l d l=1 λ l Remarques lien avec le Khi 2 d l=1 λ l = χ2 n = Inertie totale On n interprétera pas l inertie globale mais le % d inertie porté par chaque axe 51 / 70

52 Critère de choix de la dimension de l espace de représentation Les critères sont les mêmes que pour l ACP On choisit s (1 s p où p=inf(r-1, c-1)) de telle sorte que la part d inertie expliquée couvre une part importante de l information de départ (= inertie cumulée par l ensemble des p facteurs). Généralement on cherche à ce que la part d inertie expliquée soit supérieure à 70% (seuil arbitraire) Les critères principaux Éboulis des valeurs propres Règle de Kaiser 52 / 70

53 Sur notre exemple > res.ca$eig eigenvalue perc of variance cum perc of variance dim e dim e dim e dim e dim e Pour la suite, on conservera les 2 premiers axes uniquement (3 serait aussi possible) 53 / 70

54 Résultats : qualité de représentation des modalités La qualité de la représentation de chaque modalité sur un facteur est donnée par le cosinus carré de l angle formé par le vecteur représentant la modalité et sa projection sur le facteur concerné Exemple (seuls les 2 premiers axes sont conservés) Dim 1 Dim 2 Dim 1 Dim 2 IUT agr Sciences indé LSH cadres Droit p int Eco employé Medecine ouvrier La variable employés est très bien représentée par l axe 1 : cet axe capte 91.5% de l information portée par cette variable 54 / 70

55 Résultats : contribution des modalités dans la définition des axes On recherche la contribution respective des différentes modalités à la part de variance portée par chaque axe Identification des modalités les plus influentes pour chaque axe $contrib Dim 1 Dim 2 IUT Sciences LSH Droit Eco Medecine $contrib Dim 1 Dim 2 agr indé cadres p int employé ouvrier Exemple : la variable cadre contribue à hauteur de 55% à la définition du 2è facteur 55 / 70

56 Représentation graphique Représentation graphique Il existe plusieurs types de représentations graphiques qui conduisent à des interprétations similaires On s intéressera surtout à la représentation simultanée des modalités des 2 variables car cela nous permet de caractériser les liens entre les 2 variables considérées Interprétation Contrairement à l ACP on ne cherche pas à donner un sens aux axes. On interprète le positionnement des modalités les unes par rapport aux autres en essayent d identifier des formes caractéristiques parmi les modalités influentes 56 / 70

57 Résultat de l AFC des données notes/csp CA factor map Dim 2 (21.2%) employé ouvrier Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit / 70

58 Interprétation La démarche Identification des modalités influentes : elles sont situées en périphérie du graphique. Plus une modalité est éloignée du centre du graphique, plus elle contribue à la définition des axes Observation de la répartition des modalités influentes : existe-t il des formes caractéristiques (sous groupes isolés, forme parabolique = effet Guttman) Si des formes caractéristiques ont été identifiées, recherche de la composition des formes caractéristiques est-ce que des modalités des 2 variables sont présentes dans chacun des groupes? Dans le cas d un effet Guttman, est-ce qu il existe une progression logique dans l association des modalités des variables? etc. 58 / 70

59 Résultat de l AFC des données filières/csp CA factor map Dim 2 (21.2%) ouvrier employé Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit Dim 1 (68.6%) Axe 1 : oppose catégories modestes/lsh+ Sciences à pr int et indépendants/sciences économiques, droit Axe 2 : montre forte représentation de la filière médecine chez les enfants de cadres Ne pas interpréter la position d agriculteur sur le 1er plan principal car son cos 2 est trop faible 59 / 70

60 Interprétation : effet Guttman Un nuage de point de forme parabolique indique une redondance entre les deux variables étudiées. L information est essentiellement contenue dans le 1 er facteur Ex : Cas de 2 variables ordinales qui classent les sujets de la même façon. Axe 1 classe les valeurs et oppose les valeurs extrêmes Axe 2 oppose les intermédiaires et les extrêmes 60 / 70

61 Exemple d AFC Les données : Couleurs des yeux et des cheveux chez 592 étudiants brun chatain roux blond Total marron bleu noisette vert Total variables qualitatives à 4 modalités : au maximum 3 facteurs pour l AFC Décomposition de l inertie : chr.ca$eig eigenvalue perc of variance cum perc of variance dim dim dim Le 1er axe couvre 90% de l information de départ concentrer l analyse sur cet axe 61 / 70

62 Positionnement des modalités sur le 1er facteur 3 groupes présentant chacun des modalités de chacune des variables de départ Groupe 1 : cheveux bruns/yeux marrons, décrivent les valeurs négatives sur l axe 1 Groupe 2 : à l opposé sur l axe décrivant les valeurs positives, yeux bleus/cheveux blonds Groupe 3 : groupe intermédiaire, associant cheveux châtains à roux et yeux noisettes Le 3è groupe est proche de l origine, il correspond à un profil moyen, le plus fréquemment rencontré Les yeux verts sont un peu à part 62 / 70

63 Positionnement des modalités sur le 1er facteur On retrouve ces résultats sur les tableaux des coordonnées de modalités (2 premiers facteurs représentés uniquement) Coordonnées des colonnes Dim 1 Dim 2 brun chatain roux blond Coordonnées des lignes Dim 1 Dim 2 marron bleu noisette vert / 70

64 Qualité de représentation des modalités sur les facteurs (cos 2 ) $cos2 (colonnes) Dim 1 Dim 2 brun chatain roux blond $cos2 (lignes) Dim 1 Dim 2 marron bleu noisette vert Les modalités sont à peu près toutes bien représentées sur l axe 1 à l exception des yeux verts et des cheveux roux qui sont représentés essentiellement sur l axe 2. Ces 2 modalités correspondant aux modalités les moins fréquemment observées. Le fait qu ils définissent ensemble l axe 2 est dû à la métrique de distance basée sur le khi 2, qui favorise les petits effectifs. C est donc purement artificiel. 64 / 70

65 Contribution des modalités dans la définition des axes $contrib Dim 1 Dim 2 brun chatain roux blond $contrib Dim 1 Dim 2 marron bleu noisette vert Variable couleur des yeux Les modalités qui contribuent le plus à la définition de l axe 1 sont bleu et marron alors que les yeux verts sont déterminants pour l axe 2 Variable couleur des cheveux La première dimension est essentiellement portée par les cheveux blonds (71%) et dans une moindre mesure par les cheveux bruns (22%). Le deuxième axe est majoritairement défini autour des cheveux roux et, de façon un peu moins marquée, par les cheveux bruns 65 / 70

66 Conclusion de l étude On interprète les résultats surtout suivant la première dimension Seconde dimension marginale (10% de l inertie contre près de 90% pour l axe 1) Seconde dimension artificielle du fait des faibles effectifs rencontrés pour les cheveux roux et les yeux verts, deux modalités souvent observées conjointement Progression logique sur l axe 1 : profil plutôt d europe du sud (cheveux bruns, yeux marrons) qui s oppose à un profil nord européen (yeux bleus, cheveux blonds). En position intermédiaire on trouve les personnes aux cheveux châtains et aux yeux noisettes, qui constituent le profil moyen de la population étudiée 66 / 70

67 Et si on a plusieurs variables qualitatives? Réalisation d une analyse factorielle des correspondances multiples Visualisation des liaisons éventuelles entre plusieurs variables qualitatives en interprétant les proximités entre leurs modalités respectives Mêmes hypothèses que l AFC Variables qualitatives Un individu est associé à une seule modalité de chaque variable Chaque modalité apparaît au moins une fois dans l échantillon Il est souhaitable que les effectifs théoriques soient supérieurs à 5 (condition de validité du test du khi 2 Mettre les données en forme avant l analyse Tableau de Burt = généralisation de la table de contingence Tableau disjonctif complet 2 AFCM différentes mais interprétation semblable Fonction MCA du package FactoMineR 67 / 70

68 Les packages R permettant de faire ces analyses (et bien d autres!) FactoMineR Site web du package FactoMineR : Possibilité d utliser FactoMineR avec l interface graphique R commander. ade4 Site web du package ade4 : Interface graphique : ade4tkgui Pour ces 2 packages, nombreuse documentation (souvent en français) et exemples fournis 68 / 70

69 Les méthodes de classification Méthodes de classification non supervisée But : décrire, classer en groupes Classification ascendante hiérarchique (CAH) Exemple : méthode WPGMA (weight Pair Group Method with Arithmetic Mean fonction R : hclust k-means (nécessite de connaître à priori le nombre de classe) Principe de l algorithme fonction R : kmeans, extension aux données longitudinales : kml / 70

70 Les méthodes de classification (2) Méthodes de classification supervisée But : prédire l appartenance d un individu à une classe Utilisation d un ensemble d entraînement pour apprendre des règles qui permettent de prédire des caractéristiques de nouveaux individus Exemple des méthodes de réseaux de neurones Exemple des méthodes SVM Exemple des méthodes d arbre de décision... Notion de cross-validation 70 / 70

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers.

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers. Année 2011-2012 Biostatistiques Rappels de cours et travaux dirigés Analyse des données M2 auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr - 1 - Table des matières SOMMAIRE VIII ANALYSE EN

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Introduction à l analyse des correspondances et à la classification

Introduction à l analyse des correspondances et à la classification Introduction à l analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1-17/10/2011 14/10/2011

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

Séance 10 : Analyse factorielle des correspondances

Séance 10 : Analyse factorielle des correspondances Séance 10 : Analyse factorielle des correspondances Sommaire Proc CORRESP : Analyse de tableaux d effectifs... 2 Exemple 1 :... 6 L analyse en composantes principales traite des variables quantitatives.

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification François Husson, Julie Josse & Jérôme Pagès Laboratoire de mathématiques appliquées - 65 rue de St-Brieuc

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Analyse des Données. Travaux Pratiques 3

Analyse des Données. Travaux Pratiques 3 Analyse des Données Travaux Pratiques 3 1 Introduction Ce TP sera consacré aux analyses factorielles. La première partie présentera un exemple réel (et poussé) d une analyse factorielle des correspondances

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances A travers ce TD, nous allons apprendre à mettre en oeuvre l analyse factorielle des correspondances.

Plus en détail

Cahier de textes Page 1 sur 9. Cahier de textes

Cahier de textes Page 1 sur 9. Cahier de textes Cahier de textes Page 1 sur 9 Cahier de textes Jeudi 04/09/2014 9h-12h et 13h30-16h30 : Cours sur la logique : - Conjonction, disjonction, implication, équivalence - Quelques formules. - Quantificateurs

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Atelier R. Analyses multivariées. Loïc Chalmandrier. 21 Janvier 2015 LECA. Loïc Chalmandrier (LECA) Atelier R 21 Janvier 2015 1 / 14

Atelier R. Analyses multivariées. Loïc Chalmandrier. 21 Janvier 2015 LECA. Loïc Chalmandrier (LECA) Atelier R 21 Janvier 2015 1 / 14 Atelier R Analyses multivariées Loïc Chalmandrier LECA 21 Janvier 2015 Loïc Chalmandrier (LECA) Atelier R 21 Janvier 2015 1 / 14 Objectifs Analyse en composante principale - Détails 1 Principes généraux

Plus en détail

Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge

Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge Le programme se compose ainsi : Rappels collège/seconde Partie STAV 1/3 Partie STAV 2/3 Partie STAV

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

COMBIEN D AXES DANS VOS ANALYSES FACTORIELLES? LA PETITE HISTOIRE MÉCONNUE DÉCEMBRE 2010 WWW.CROP.CA

COMBIEN D AXES DANS VOS ANALYSES FACTORIELLES? LA PETITE HISTOIRE MÉCONNUE DÉCEMBRE 2010 WWW.CROP.CA COMBIEN D AXES DANS VOS ANALYSES FACTORIELLES? LA PETITE HISTOIRE MÉCONNUE DÉCEMBRE 2010 WWW.CROP.CA de la vie aux idées Combien d axes dans vos analyses factorielles? La petite histoire méconnue. Réflexions

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

L ACP sous SPSS. À Propos de ce document. Introduction

L ACP sous SPSS. À Propos de ce document. Introduction L ACP sous SPSS À Propos de ce document... Introduction... La démarche à suivre sous SPSS.... «Descriptives».... «Extraction».... «Rotation».... «Scores».... «Options»... Analyse des résultats.... Les

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Mémoire de n d'étude: Etudes statistiques. Mémoire de n d'étude: Etudes statistiques. Nicolas Sutton-Charani. Université Montpellier 1 1/31

Mémoire de n d'étude: Etudes statistiques. Mémoire de n d'étude: Etudes statistiques. Nicolas Sutton-Charani. Université Montpellier 1 1/31 1/31 Mémoire de n d'étude: Etudes statistiques Nicolas Sutton-Charani Université Montpellier 1 Plan Rappels de cours La base La Statistique Types des variables Outils mathématiques Statistiques descriptives

Plus en détail

Yassine EL BOUCHIKHI - 1 Etudes quantitatives par M. Stephane Magne

Yassine EL BOUCHIKHI - 1 Etudes quantitatives par M. Stephane Magne Yassine EL BOUCHIKHI - 1 Analyse quantitative Données concérnées : enquetes ou indicateurs économiques Logiciels utilisés : SPSS ou Sphinx Lexica Shéma du cours : 1- Choisir la méthode d analyse de données

Plus en détail

LA CLAIRVOYANCE NORMATIVE : UNE QUESTION D INTELLIGENCE? PAR

LA CLAIRVOYANCE NORMATIVE : UNE QUESTION D INTELLIGENCE? PAR LA CLAIRVOYANCE NORMATIVE : UNE QUESTION D INTELLIGENCE? PAR DANIEL PASQUIER, CABINET AVENIR & ENTREPRISE, SAINT-JEAN DE BRAYE LABORATOIRE P.R.I.S., ROUEN & PATRICK VALÉAU, UNIVERSITE DE SAINT-DENIS DE

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées Atelier N 6 : Analyse en composantes principales (ACP) Contenu : Présentation des méthodes d analyses multivariées Présentation des méthodes d analyses multivariées Classification des méthodes : Les méthodes

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

Université d Orléans Master I ESA Analyse des données qualitatives 1

Université d Orléans Master I ESA Analyse des données qualitatives 1 Université d Orléans Master I ESA Analyse des données qualitatives 1 Analyse de données Nils Berglund M1 ESA 1 2 heures Résumé manuscrit de 4 pages A4 Calculatrice non programmable 8 janvier 2013 amphi.

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet.

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Vous pouvez le télécharger à http://www.r-project.org/ Il est déjà installé dans ces salles

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching

Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching Joseph Gergaud 30 novembre 5 Exemples d application 1/ 25 1 Inertie Variables Individus Calculs 2 ACP Variables nominales supplémentaires

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Jean Gaudart Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale jean.gaudart@univmed.fr

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Position sociale et choix du conjoint : des différences marquées entre hommes et femmes. Mélanie Vanderschelden*

Position sociale et choix du conjoint : des différences marquées entre hommes et femmes. Mélanie Vanderschelden* Population, famille 1 Position sociale et choix du conjoint : des différences marquées entre hommes et femmes Mélanie Vanderschelden* Certaines professions sont nettement plus féminisées que d autres.

Plus en détail