Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances

Documents pareils
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

Logiciel XLSTAT version rue Damrémont PARIS

ACP Voitures 1- Méthode

Analyse des correspondances avec colonne de référence

données en connaissance et en actions?

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

ESIEA PARIS

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistique Descriptive Élémentaire

Introduction au datamining

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Introduction au Data-Mining

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Relation entre deux variables : estimation de la corrélation linéaire

Apprentissage Automatique

Introduction à l approche bootstrap

L'analyse des données à l usage des non mathématiciens

Cours 9 : Plans à plusieurs facteurs

Statistique : Résumé de cours et méthodes

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Initiation à l analyse en composantes principales

Programmation linéaire

Enjeux mathématiques et Statistiques du Big Data

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Introduction. Préambule. Le contexte

SERIE 1 Statistique descriptive - Graphiques

Annexe commune aux séries ES, L et S : boîtes et quantiles

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques à une variable

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Arbres binaires de décision

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Individus et informations supplémentaires

Statistiques Descriptives à une dimension

Algorithmes pour la planification de mouvements en robotique non-holonome

Bureau N301 (Nautile)

FORMULAIRE DE STATISTIQUES

Resolution limit in community detection

Mémo d utilisation de ADE-4

Leçon N 4 : Statistiques à deux variables

Scénario: Données bancaires et segmentation de clientèle

Lire ; Compter ; Tester... avec R

Fonctions de deux variables. Mai 2011

Localisation des fonctions

Gestion des Clés Publiques (PKI)

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Analyse de la variance Comparaison de plusieurs moyennes

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Couples de variables aléatoires discrètes

TP 7 : oscillateur de torsion

Introduction au Data-Mining

SPHINX Logiciel de dépouillement d enquêtes

Programmation linéaire

23. Interprétation clinique des mesures de l effet traitement

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

FONCTION DE DEMANDE : REVENU ET PRIX

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

REVUE DE STATISTIQUE APPLIQUÉE

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Rappel sur les bases de données

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Image d un intervalle par une fonction continue

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

L analyse des données par les graphes de similitude

MABioVis. Bio-informatique et la

Agenda de la présentation

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Séries Statistiques Simples

Introduction aux Statistiques et à l utilisation du logiciel R

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Data mining 1. Exploration Statistique

Cours IV Mise en orbite

Optimiser les performances du mouvement de monte de l Axe Z.

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Transcription:

Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances C. Bardel Septembre 2016 1 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 2 / 70

Analyse multivariée Principe Analyse des variations de plusieurs variables qui peuvent être corrélées ou non Forme des données (de façon générale) Individu Variable 1 Variable 2... Variable p 1 x 1,1 x 2,1... x p,1 2 x 1,2 x 2,2... x p,2... n x 1,n x 2,n... x p,n Les variables peuvent être qualitatives ou quantitatives dépendantes ou indépendantes 3 / 70

Les différents types de méthodes de stats multivariées Les 2 grands types de méthodes Les méthodes descriptives Toutes les variables jouent le même rôle (variables indépendantes) But : Visualiser et classer des données de grande dimension Les méthodes explicatives Une ou pls variable à expliquer et de nombreuses variables explicatives But : relier une variable à expliquer Y à des variables explicatives (= variables indépendantes = prédicteurs) X 1, X 2,... Les méthodes explicatives Variable à expliquer quantitative (loi normale) Variable explicatives quantitatives : régression Variables explicatives qualitatives : ANOVA Variable à expliquer qualitatives Analyse discriminante prédictive (AD) Régression logistique 4 / 70

Les méthodes descriptives Les méthodes de visualisation Variables X i quantitatives : Analyse en composantes principales (ACP) Analyse discriminante factorielle (AD) Variables X i qualitatives : Cas ou i = 2 : Analyse factorielle des correspondances (AFC) Cas ou i > 2 Analyse factorielle des correspondances multiples (AFCM) Méthodes traitées dans ce cours : ACP et AFC Les méthodes de classification Classification hiérarchique / non hiérarchique Classification supervisée/non supervisée Classification des individus/ des variables Non détaillées dans ce cours 5 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 6 / 70

L ACP : introduction Principe général de l ACP Résumer l information portée par un nombre élevé de variables quantitatives au moyen de variables quantitatives synthétiques appelées facteurs principaux de l ACP Les facteurs principaux sont des combinaisons linéaires des variables initiales Ils ne sont pas corrélés 2 à 2 Les 2 ou 3 premiers facteurs permettent d extraire la majorité de l information contenue dans les données D autant plus vrai si les variables initiales sont corrélées au départ Principe intuitif : projection 7 / 70

Analyses préalables Études univariées et bivariées Observation des distributions Calcul des moyennes, médianes, écart-types,... Matrice de variance/covariance ou de corrélation Identifier les valeurs aberrantes (par ex : erreur de saisie, de manipulation) et les données manquantes Traitement des données manquantes L ACP ne peut pas traiter de tableaux comportant des données manquantes. Suppression des individus avec données manquantes Imputation/extrapolation des données manquantes 8 / 70

Exemple des notes dans 4 matières Les données : notes de 9 élèves dans 4 disciplines maths phys fran angl Lea 6.0 6.0 5.0 5.5 Jean 8.0 8.0 8.0 8.0 Pierre 6.0 7.0 11.0 9.5 Paul 14.5 14.5 15.5 15.0 Marie 14.0 14.0 12.0 12.5 Julie 11.0 10.0 5.5 7.0 Sandra 5.0 7.0 14.0 11.5 Alex 13.0 12.5 8.5 9.5 Tom 9.0 9.5 12.5 12.0 9 / 70

Analyse préliminaire univariée Résumés sur les distributions de chaque variable summary(d) MATH PHYS FRAN ANGL Min. : 5.500 Min. : 6.000 Min. : 5.00 Min. : 5.50 1st Qu. : 6.000 1st Qu. : 7.000 1st Qu. : 8.00 1st Qu. : 8.00 Median : 9.000 Median : 9.500 Median :11.00 Median : 9.50 Mean : 9.667 Mean : 9.833 Mean :10.22 Mean :10.06 3rd Qu. :13.000 3rd Qu. :12.500 3rd Qu. :12.50 3rd Qu. :12.00 Max. :14.500 Max. :14.500 Max. :15.50 Max. :15.00 Recherche de données manquantes Vérification de la longueur d un vecteur : > length(d$math) [1] 9 > is.na.data.frame(d) MATH PHYS FRAN ANGL [1,] FALSE FALSE FALSE FALSE [2,] FALSE FALSE FALSE FALSE [3,] FALSE FALSE FALSE FALSE [4,] FALSE FALSE FALSE FALSE [5,] FALSE FALSE FALSE FALSE [6,] FALSE FALSE FALSE FALSE... 10 / 70

Analyse préliminaire bivariée : nuages de point 2 à 2 Commande R : pairs(data) MATH 6 8 10 12 14 6 8 10 12 14 6 8 10 12 14 6 8 10 12 14 PHYS FRAN 6 8 10 12 14 6 8 10 12 14 6 8 10 12 14 6 8 10 12 14 ANGL 11 / 70

Analyse préliminaire bivariée : covariances et correlation Matrice de variance-covariance : cov(data) MATH PHYS FRAN ANGL MATH 12.812500 11.156250 2.989583 5.427083 PHYS 11.156250 10.062500 4.635417 6.166667 FRAN 2.989583 4.635417 13.569444 10.454861 ANGL 5.427083 6.166667 10.454861 8.902778 Matrice de corrélation : cor(data) MATH PHYS FRAN ANGL MATH 1.0000000 0.9825357 0.2267319 0.5081440 PHYS 0.9825357 1.0000000 0.3966932 0.6515305 FRAN 0.2267319 0.3966932 1.0000000 0.9512058 ANGL 0.5081440 0.6515305 0.9512058 1.0000000 L ACP est basée sur l analyse d une de ces 2 matrices 12 / 70

ACP normée vs ACP non normée ACP normée = ACP centrée réduite Les données sont centrée et réduites On travaille sur la matrice de corrélation Utilisée lorsque les données ne sont pas homogènes (= pas de la même unités) ACP non normée = ACP centrée Les données sont centrées On travaille sur la matrice de variance-covariance Utilisée lorsque les données sont dans la même unité où toutes en % Conséquences d une ACP centrée sur des données hétérogènes Les variables ayant un ordre de grandeur plus élevé auront une plus grande variance et donc seront prépondérants dans la définition des facteurs 13 / 70

Définition des axes de l ACP Exemple intuitif : On recherche le 1er axe de manière à ce que la projection du nuage de point sur cet axe ait une variance maximum Le second axe est orthogonal au premier et tel que la projection du nuage sur cet axe maximise la part de variance restante... 14 / 70

Vocabulaire Valeur propre/vecteur propre On sait calculer des vecteurs propres (eigenvectors) d une matrice et les valeurs propres (eigenvalues) qui leur sont associés. Les axes factoriels ils sont engendrés par les vecteurs propres normés ils ont perpendiculaires 2 à 2 ils correspondent aux directions dans laquelle la dispersion du nuage de point est la plus grande l axe principal est associé à la plus grande valeur propre λ 1 Les valeurs propres elles correspondent à la variance des projections du nuage de point sur l axe qui leur est associé elles rendent compte de l importance de l axe dans la représentation des données 15 / 70

Vocabulaire (suite) Les composantes principales Ce sont de nouvelles variables, combinaisons linéaires des anciennes variables C i = a i,1 X 1 + a i,2 X 2 +... + a i,p X p i-ème composante principale Elles permettent de calculer les coordonnées des individus dans le nouveau référentiel défini par les axes factoriels, (projections des individus sur les axes) Var 1... Var n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n Fact 1... Fact n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n 16 / 70

Qualité globale des représentations Variance du nuage sur l axe (k) Elle est donnée par λ k, la valeur propre associée au vecteur propre engendrant l axe k Plus λ k est élevé, plus l axe est important pour la représentation des données Part de variance portée par l axe k (=inertie) λ k p i=1 λ i Part de l inertie portée par les k premiers axes Elle représente la qualité globale de représentation des données dans l espace défini par les k premiers axes. k i=1 λ i p i=1 λ i 17 / 70

Cas de nos données Réalisation avec R (package FactoMineR) Réalisation de l acp : res<-pca(d, scale.unit = T) *ACP réduite* valeurs propres λ : res$eig Le tableau donne aussi la part de variance portée par chaque axe (%) et l inertie cumulée Résultats > res$eig eigenvalue perc. of variance cum perc. of variance comp 1 2.875686772 71.89216929 71.89217 comp 2 1.119687364 27.99218409 99.88435 comp 3 0.003577590 0.08943975 99.97379 comp 4 0.001048275 0.02620687 100.00000 Dans cet exemple, les 2 premiers facteurs restituent quasiment toute la dispersion du nuage. On peut donc négliger les 2 autres facteurs. 18 / 70

Critères de choix de la dimension de l espace de représentation (1) Rappel But de l ACP : résumer l information de nombreuses variables par un plus petit nombre de variables synthétiques appelées facteurs principaux. Comment choisir le nombre de facteurs à conserver? Théorème L espace à s dimensions (avec s < p où p est le nb de variables initiales) qui maximise l inertie du nuage de point initial est défini par les s vecteurs propres associés aux s plus grandes valeurs propres Critère 1 : seuil sur l inertie cumulée L information concernant la qualité globale de la représentation dans les espaces représentés par les k premiers facteurs correspond à l inertie cumulée par les k premiers facteurs Seuil arbitraire : inertie cumulée > 70% 19 / 70

Critère 2 : l éboulis des valeurs propres Critère de choix Éboulis des valeurs propres : diagramme en bâtons représentant les valeurs propres classées par ordre décroissant Critère : on cherche un coude dans le graphique (diminution brutale des valeurs propres) et on ne conserve que les valeurs propres antérieures au coude Eigenvalues Remarque Plus le nb de variables est élevé, plus il y a de risque que l éboulis des valeurs propres soit écrasés et donc qu il ne présente pas de coude très marqué 0.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 barplot(res$eig[,1],main="eigenvalues",names.arg=1:nrow(res$eig)) 20 / 70

Critère 3 : la règle de Kaiser Critère de choix On ne conserve que les s premiers facteurs correspondant aux valeurs propres supérieures à la moyenne arithmétique de l ensemble des valeurs propres Remarque Dans le cas d une ACP centrée réduite, ce critère revient à conserver les s premières valeurs propres supérieures à 1 Ce critère a tendance à surestimer le nombre de composantes pertinentes Application à nos données (ACP normée) eigenvalue perc. of variance cum perc. of variance comp 1 2.875686772 71.89216929 71.89217 comp 2 1.119687364 27.99218409 99.88435 comp 3 0.003577590 0.08943975 99.97379 comp 4 0.001048275 0.02620687 100.00000 21 / 70

Critère de choix de la dimension de l espace de représentation Bilan En pratique, on utilise surtout La part d inertie expliquée Combinée avec l éboulis des valeurs propres Attention, ce nombre dépend aussi de la capacité à donner un sens aux axes Pas d intérêt de conserver des facteurs qu on ne peut interpréter ce qui est souvent le cas au delà de 3 facteurs 22 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 23 / 70

Coordonnées des variables (cas ACP non normée) Les coordonnées des variables dans le nouveau référentiel défini par les axes factoriels sont obtenu en projetant les variables sur les axes factoriels Remarque : En cas d ACP normée, ce tableau est le même que le tableau des corrélations variables/facteurs (cf plus loin) Avec FactoMineR, on obtient tous les tableaux de résultats sur les variables en tapant res$var $coord Dim.1 Dim.2 Dim.3 Dim.4 MATH 2.737430-1.972373 0.03347055-0.06318575 PHYS 2.697277-1.287741-0.08128669 0.06525572 FRAN 2.615798 2.282810-0.08316533-0.03452713 ANGL 2.573645 1.127294 0.13411837 0.03390902 24 / 70

Coordonnées des variables : graphique Variables factor map (PCA) FRAN Dim 2 (29.85%) 2 1 0 1 2 ANGL PHYS MATH 1 0 1 2 3 4 Dim 1 (70.05%) 2 groupes de variables 25 / 70

Qualité de représentation des variables Représentation des variables par le facteur axe 2 Plus l angle formé entre la variable initiale et un facteur est proche de zéro (cos α = 1), plus la variable est proche du facteur et donc bien représentée par le facteur Plus l angle formé entre la variable initiale et un facteur est proche de 90 degrés (cos α = 0), plus la variable est mal représentée par le facteur En pratique, on raisonne avec les cos 2 car la somme des cos 2 sur l ensemble des axes vaut 1 var1 axe 1 On peut donc calculer la qualité de la représentation de chacune des variables initiales dans le sous espace de représentation finale (somme des cos 2 sur les axes conservés) 26 / 70

Qualité de représentation des variables : exemple $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Somme MATH 0.6582972 0.3411101 0.0001468096 0.0004459343 1 PHYS 0.8136349 0.1852945 0.0006964126 0.0003741468 1 FRAN 0.5667236 0.4321223 0.0010140970 0.0001399829 1 ANGL 0.8370310 0.1611605 0.0017202709 0.0000882108 1 Les 4 matières sont majoritairement représentées par le premier axe. On peut noter que maths et français sont assez bien représentés par le deuxième axe (il capte respectivement 34% et 43% de l information apportée par cette variable). Remarque On considère qu une variable est bien représentée sur un axe lorsque le cosinus carré de l angle qu elle forme avec cet axe est supérieur ou égal à 0.5 (valeur arbitraire, classiquement utilisée) 27 / 70

Contribution des variables dans la définition des axes factoriels But : quantifier l importance de chaque variable dans la définition des axes factoriels Intérêt : donner un sens aux facteurs de l ACP afin d interpréter les résultats $contrib Dim.1 Dim.2 Dim.3 Dim.4 MATH 22.89182 30.46476 4.103589 42.539826 PHYS 28.29359 16.54877 19.465969 35.691671 FRAN 19.70742 38.59312 28.345812 13.353649 ANGL 29.10717 14.39335 48.084630 8.414854 Somme 100 100 100 100 Les variables physique et anglais contribuent à hauteur de 28/29% à la définition du facteur 1 Le facteur 2 est porté à 30 et 38% respectivement par les variables maths et français. 28 / 70

Les corrélations variables-facteurs $cor Cela correspond aux coefficients de corrélation entre les variables initiales et les facteurs issus de l ACP. Matrice utile pour l interprétation des facteurs Dim.1 Dim.2 Dim.3 Dim.4 MATH 0.8111521-0.5844514 0.009917957-0.018723131 PHYS 0.9018802-0.4305779-0.027179580 0.021819354 FRAN 0.7531811 0.6573021-0.023946252-0.009941587 ANGL 0.9148759 0.4007291 0.047676214 0.012053933 Facteur 1 : corrélé positivement avec toutes les disciplines, reflète le niveau d un étudiant (plus ses notes sont bonnes, plus le score est positif) Facteur 2 : corrélé positivement avec les matière littéraires et négativement avec les matières scientifiques, il oppose les disciplines littéraires (groupe 1) et scientifiques (groupe 2) 29 / 70

Représentation graphique : le cercle des corrélations Principe (ACP normée) : Pour chaque variable initiale X i, on associe un point dont l abcisse est la corrélation entre X i et le facteur 1 et l ordonnée est la corrélation entre X i et le facteur 2. Les points s inscrivent dans un cercle de centre 0 (origine) et de rayon 1 Plus les points sont proches du cercle, plus ils sont bien représentés par le plan factoriel (= plus ils sont corrélés aux deux facteurs) L angle entre 2 points-variables, mesuré par son cosinus est égal au coefficient de corrélation entre les 2 variables (ex : cos α=0, les deux variables sont indépendantes) Les variables qui ne sont pas situées au bord du cercle ne sont pas corrélées avec les deux facteurs représentés. Elles ne servent pas à l interprétation et l effet de perspective empêche d interpréter la proximité de ces variables 30 / 70

Exemple de cercle des corrélations Variables factor map (PCA) Dim 2 (27.99%) 1.0 0.5 0.0 0.5 1.0 FRAN ANGL PHYS MATH 1.0 0.5 0.0 0.5 1.0 31 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 32 / 70

Les coordonnées des individus Les résultats sur les individus sont tous accessibles par la commande res$ind Les coordonnées des individus dans le nouveau référentiel sont obtenues en projetant les individus sur les axes factoriels $coord Dim.1 Dim.2 Dim.3 Dim.4 1-2.7428277-0.4273962-0.023029065-0.022617284 2-1.2406355-0.1527598-0.004386694 0.022259250 3-1.0308943 1.0492880 0.058289897-0.003535170 4 3.1381288 0.1856180-0.011409706 0.047373044 5 2.0514708-0.6278170 0.024544293-0.059851745 6-0.9709424-1.4975121-0.026166349 0.042611600 7-0.3347428 1.9374170 0.055200733 0.009252098 8 0.6201774-1.2908862 0.066237794-0.012391457 9 0.5102656 0.8240482-0.139280903-0.023100337 33 / 70

Le graphique des individus Individuals factor map (PCA) Dim 2 (27.99%) 3 2 1 0 1 2 3 1 2 3 6 7 9 8 5 4 Intérêt : vue d ensemble montre des similarités entre individus par la formation de paquets de points disjoints montre les individus les plus influents (en périphérie) 3 2 1 0 1 2 3 4 Dim 1 (71.89%) 34 / 70

Qualité de représentation d un individu $cos2 Elle est donnée par le cos 2 de l angle formé entre l individu et sa projection sur le facteur concerné La qualité de représentation d un individus dans le sous espace formé des k premiers facteur est égale à la somme des cos 2 associés à chacun des facteurs Dim.1 Dim.2 Dim.3 Dim.4 Somme 1 0.9761627 0.02370208 6.881416e-05 6.637524e-05 1 2 0.9847410 0.01492971 1.231142e-05 3.169966e-04 1 3 0.4903855 0.50804096 1.567819e-03 5.766733e-06 1 4 0.9962742 0.00348560 1.317002e-05 2.270387e-04 1 5 0.9135338 0.08555789 1.307660e-04 7.775845e-04 1 6 0.2957329 0.70348268 2.147825e-04 5.695980e-04 1 7 0.0289634 0.97022686 7.876200e-04 2.212623e-05 1 8 0.1871131 0.81067773 2.134441e-03 7.469940e-05 1 9 0.2714009 0.70782185 2.022097e-02 5.562313e-04 1 35 / 70

Contribution des individus dans la définition des axes factoriels $contrib But : quantifier l importance de chaque individu dans la définition des axes. Identification des individus les plus influents En pratique, peu exploitable si nombre d individus grand. On préférera regarder le graphique des individus (+ influents en périphérie) Dim.1 Dim.2 Dim.3 Dim.4 1 29.0678526 1.8126836 1.64709836 5.4220465 2 5.9470877 0.2315680 0.05976426 5.2517423 3 4.1062383 10.9257210 10.55245441 0.1324655 4 38.0502446 0.3419015 0.40431127 23.7872876 5 16.2609747 3.9113513 1.87097495 37.9695950 6 3.6425278 22.2536569 2.12644014 19.2458911 7 0.4329506 37.2483418 9.46360493 0.9073247 8 1.4860993 16.5362345 13.62632159 1.6275229 9 1.0060244 6.7385415 60.24903009 5.6561246 Somme 100 100 100 100 36 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 37 / 70

Variables et individus supplémentaires Principe Introduire des variables ou de nouveaux individus que l on projette sur les plans factoriels obtenus à partir des données initiales (= variables actives) Intérêt Jouer un rôle de contrôle : on vérifie que ces variables et individus se positionnent de façon cohérentes par rapport aux autres Affiner l analyse avec des variables supplémentaires décrivant un aspect complémentaire du sujet d étude ou avec des individus supplémentaires issus de nouvelles expériences Attention Ces variables et individus n ont pas été pris en compte lors de la construction des facteurs. Ils sont donc moins bien représentés que les autres variables 38 / 70

Exemple d utilisation des variables et individus supplémentaires Variables supplémentaires Variables complémentaires pour l analyse Variables mal renseignées pour les individus (beaucoup de données manquantes) Individus supplémentaires Individus avec des données manquantes ou extrêmes Individus issus d expériences menées dans des conditions différentes mais ayant fait l objet des mêmes mesures (mêmes variables) 39 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 40 / 70

Interprétation d une ACP Questions à se poser concernant les variables Quelles variables contribuent le plus à définir un facteur donné? Quels sont les signes affectés aux coordonnées des variables suivant le facteur? (La variable contribue-t elle positivement ou négativement au facteur?) Y a t il des regroupements de variables? Questions à se poser concernant les individus Quelles sont les observations qui contribuent le plus à définir un axe? Existe-t il des regroupements ou des tendances au niveau des observations? Interprétation des facteurs Nombre de facteurs à retenir Donner un sens aux facteurs à l aide des contributions et des qualités de représentation (cos 2 ) 41 / 70

Conclusion Conclusion sur l ACP Packages R : ade4 ou FactoMineR Analyse descriptive, réduction de la dimension Ne permet pas vraiment de faire des classes (utiliser plutôt des méthodes de classification) Faire attention à l interprétation des résultats d une ACP : c est rarement simple et nécessite de bien connaître le phénomène biologique étudié Les premières composantes principales peuvent ne pas être les plus intéressantes dans la mesure ou elles décrivent des généralités concernant le phénomène étudié. concentrer l étude sur les autres dimensions 42 / 70

Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 43 / 70

Introduction Généralités Méthode adaptée au traitement de données qualitatives Généralisation de l ACP AFC simple : étude de la correspondance entre 2 variables qualitatives croisées dans un tableau de contingence L étude d un tableau individu variables qualitatives se fait via l AFC multiple (AFCM) Le tableau de contingence (Etudiants de 1A à l université de Nice selon la catégorie socio professionnelle du chef de famille) : IUT Sciences LSH Droit Eco Médecine Total Agriculteurs 9 35 44 24 8 13 133 Indépendants 66 72 171 122 48 71 550 Cadres 77 139 380 195 69 233 1093 Prof. int. 50 78 155 152 57 85 577 Employés 52 86 274 43 26 48 529 Ouvriers 55 103 191 40 25 46 460 Total 309 513 1215 576 233 496 3342 44 / 70

Objectif de l AFC et conditions Objectif Mettre en évidence les relations qui existent (ou pas) entre les différentes modalités des 2 variables Utilisation d une métrique pour quantifier la force des liaisons entre les modalités des 2 variables : la métrique du Khi 2 Remarque : la métrique du Khi 2 favorise les modalités de faibles effectifs en leur attribuant un poids plus grand dans l analyse. Conditions Les 2 variables doivent être qualitatives Les observations doivent être indépendantes (un individu dans une seule case du tableau de contingence) Chaque modalité apparaît au moins une fois dans le tableau Il est de plus souhaitable que les effectifs théoriques soient supérieurs à 5 dans toutes les cases (même condition que pour le test du Khi 2 ) 45 / 70

Analyse exploratoire du tableau de contingence Le tableau des profils-lignes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des lignes k i, Les quantités fj i de chacune des cases de ce nouveau tableau correspondent à l estimation des probabilités P(Y = j X = i) Cas de l exemple Le tableau des profils-lignes donne la répartition du choix des étudiants par origine sociale des étudiants (ici en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs 6.8 26.3 33.1 18.0 6.0 9.8 100 Indépendants 12.0 13.1 31.1 22.2 8.7 12.9 100 Cadres 7.0 12.7 34.8 17.8 6.3 21.3 100 Prof. int. 8.7 13.5 26.9 26.3 9.9 14.7 100 Employés 9.8 16.3 51.8 8.1 4.9 9.1 100 Ouvriers 12.0 22.4 41.5 8.7 5.4 10.0 100 Total 9.2 15.4 36.4 17.2 7.0 14.8 100 46 / 70

Analyse exploratoire du tableau de contingence (2) Le tableau des profils-colonnes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des colonnes k,j Les quantités f j i de chacune des cases de ce nouveau tableau correspond à l estimation de la probabilité P(X = i Y = j) Cas de l exemple Le tableau des profils-colonnes donne la répartition des origines sociales en par choix d études (ici, en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs 2.9 6.8 3.6 4.2 3.4 2.6 4.0 Indépendants 21.4 14.0 14.1 21.2 20.6 14.3 16.5 Cadres 24.9 27.1 31.3 33.9 26.9 47.0 32.7 Prof. int. 16.2 15.2 12.8 26.4 24.5 17.1 17.3 Employés 16.8 16.8 22.6 7.5 11.2 9.7 15.8 Ouvriers 17.8 20.1 15.7 6.9 10.7 9.3 13.8 Total 100 100 100 100 100 100 100 47 / 70

Analyse exploratoire du tableau de contingence (3) L indice d attraction/répulsion : définition Il est défini par f i,j d i,j = f i, f,j L indice d attraction/répulsion : interprétation Si d i,j > 1, on dit que les modalités s attirent La modalité [Y=j] est sur-représentée dans la population [X=i] par rapport à l ensemble de la population (eq à la modalité [X=i] est sur-représentée dans la population [Y=j] par rapport à l ensemble de la population Si d i,j < 1, les modalités se repoussent Si (i, j) d i,j = 1, il y a indépendance parfaite entre les lignes et les colonnes 48 / 70

Analyse exploratoire (4) Exemple des indices d attraction/répulsion du tableau de données IUT Sciences LSH Droit Eco Médecine Agriculteurs 0.73 1.7 0.90 1.05 0.85 0.65 Indépendants 1.30 0.85 0.85 1.28 1.25 0.87 Cadres 0.76 0.83 0.96 1.04 0.91 1.44 Prof. int. 0.94 0.88 0.74 1.53 1.42 0.99 Employés 1.06 1.06 1.43 0.47 0.71 0.61 Ouvriers 1.29 1.46 1.14 0.50 0.78 0.67 Exemple I(employés, droit)= 43 3342 576 3342 529 3342 = 0.47 Cet indice représente le rapport entre la proportion d origine sociale i dans la filière d étude j et la proportion d étudiants d origine sociale i (et vice versa) ex enfant d employés, filière droit (profil colonne) : 7.5/15.8= 0.47 Exemple : Sous-représentation des enfants d ouvriers et d employés dans la filière droit Sur-représentation des enfants de cadres dans la filière médecine 49 / 70

Quelques notions sur l AFC Une double ACP (vision classique francophone) Une ACP des profils-lignes : les individus sont les modalités de X Une ACP des profils-colonnes : les individus sont les modalités de Y Existence de liens entre les 2 analyses : les composantes principales d un nuage sont reliées aux directions principales de l autre nuage On s intéresse uniquement aux liens entre les modalités des variables. On ne tracera donc que le graphique représentant conjointement les modalités des 2 variables pour étudier leurs proximités les unes par rapport aux autres. Nombre maximum d axes factoriels Soient X et Y deux variables qualitatives à r et c modalités alors l AFC aboutit à une représentation des modalités dans un espace à d dimensions avec d=inf(r-1, c-1) Application à nos données : CSP, 6 modalités ; études, 6 modalités Au plus 5 axes factoriels 50 / 70

Résultats : qualité globale des représentations Mesure de la qualité globale des représentations La qualité globale de la représentation des données dans l espace défini par les k premiers facteurs de l ACP est donnée par la taux d inertie (ou dispersion) expliqué par ces k dimensions. k l=1 λ l d l=1 λ l Remarques lien avec le Khi 2 d l=1 λ l = χ2 n = Inertie totale On n interprétera pas l inertie globale mais le % d inertie porté par chaque axe 51 / 70

Critère de choix de la dimension de l espace de représentation Les critères sont les mêmes que pour l ACP On choisit s (1 s p où p=inf(r-1, c-1)) de telle sorte que la part d inertie expliquée couvre une part importante de l information de départ (= inertie cumulée par l ensemble des p facteurs). Généralement on cherche à ce que la part d inertie expliquée soit supérieure à 70% (seuil arbitraire) Les critères principaux Éboulis des valeurs propres Règle de Kaiser 52 / 70

Sur notre exemple > res.ca$eig eigenvalue perc of variance cum perc of variance dim 1 5.255063e-02 68.6013242 68.60132 dim 2 1.623884e-02 21.1987141 89.80004 dim 3 5.726885e-03 7.4760644 97.27610 dim 4 1.998528e-03 2.6089445 99.88505 dim 5 8.805718e-05 0.1149527 100.00000 Pour la suite, on conservera les 2 premiers axes uniquement (3 serait aussi possible) 53 / 70

Résultats : qualité de représentation des modalités La qualité de la représentation de chaque modalité sur un facteur est donnée par le cosinus carré de l angle formé par le vecteur représentant la modalité et sa projection sur le facteur concerné Exemple (seuls les 2 premiers axes sont conservés) Dim 1 Dim 2 Dim 1 Dim 2 IUT 0.1509708 0.45865090 agr 0.07178105 0.265038890 Sciences 0.4559028 0.17310160 indé 0.41394890 0.398790456 LSH 0.8717779 0.06119164 cadres 0.28520828 0.699477692 Droit 0.9255256 0.06193429 p int 0.82551601 0.155452602 Eco 0.6783987 0.26737406 employé 0.91517065 0.006026034 Medecine 0.4234017 0.53883738 ouvrier 0.83928489 0.062176105 La variable employés est très bien représentée par l axe 1 : cet axe capte 91.5% de l information portée par cette variable 54 / 70

Résultats : contribution des modalités dans la définition des axes On recherche la contribution respective des différentes modalités à la part de variance portée par chaque axe Identification des modalités les plus influentes pour chaque axe $contrib Dim 1 Dim 2 IUT 1.305245 12.832296 Sciences 8.718434 10.712486 LSH 28.647146 6.507147 Droit 42.570640 9.218832 Eco 5.812891 7.413946 Medecine 12.945644 53.315293 $contrib Dim 1 Dim 2 agr 0.5812245 6.9449119 indé 5.2223338 16.2811708 cadres 7.0190722 55.7075971 p int 23.7569823 14.4772726 employé 39.4417013 0.8404427 ouvrier 23.9786859 5.7486050 Exemple : la variable cadre contribue à hauteur de 55% à la définition du 2è facteur 55 / 70

Représentation graphique Représentation graphique Il existe plusieurs types de représentations graphiques qui conduisent à des interprétations similaires On s intéressera surtout à la représentation simultanée des modalités des 2 variables car cela nous permet de caractériser les liens entre les 2 variables considérées Interprétation Contrairement à l ACP on ne cherche pas à donner un sens aux axes. On interprète le positionnement des modalités les unes par rapport aux autres en essayent d identifier des formes caractéristiques parmi les modalités influentes 56 / 70

Résultat de l AFC des données notes/csp CA factor map Dim 2 (21.2%) 0.4 0.2 0.0 0.2 employé ouvrier Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit 0.4 0.2 0.0 0.2 0.4 57 / 70

Interprétation La démarche Identification des modalités influentes : elles sont situées en périphérie du graphique. Plus une modalité est éloignée du centre du graphique, plus elle contribue à la définition des axes Observation de la répartition des modalités influentes : existe-t il des formes caractéristiques (sous groupes isolés, forme parabolique = effet Guttman) Si des formes caractéristiques ont été identifiées, recherche de la composition des formes caractéristiques est-ce que des modalités des 2 variables sont présentes dans chacun des groupes? Dans le cas d un effet Guttman, est-ce qu il existe une progression logique dans l association des modalités des variables? etc. 58 / 70

Résultat de l AFC des données filières/csp CA factor map Dim 2 (21.2%) 0.4 0.2 0.0 0.2 ouvrier employé Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit 0.4 0.2 0.0 0.2 0.4 Dim 1 (68.6%) Axe 1 : oppose catégories modestes/lsh+ Sciences à pr int et indépendants/sciences économiques, droit Axe 2 : montre forte représentation de la filière médecine chez les enfants de cadres Ne pas interpréter la position d agriculteur sur le 1er plan principal car son cos 2 est trop faible 59 / 70

Interprétation : effet Guttman Un nuage de point de forme parabolique indique une redondance entre les deux variables étudiées. L information est essentiellement contenue dans le 1 er facteur Ex : Cas de 2 variables ordinales qui classent les sujets de la même façon. Axe 1 classe les valeurs et oppose les valeurs extrêmes Axe 2 oppose les intermédiaires et les extrêmes 60 / 70

Exemple d AFC Les données : Couleurs des yeux et des cheveux chez 592 étudiants brun chatain roux blond Total marron 68 119 26 7 220 bleu 20 84 17 94 215 noisette 15 54 14 10 93 vert 5 29 14 16 64 Total 108 286 71 127 592 2 variables qualitatives à 4 modalités : au maximum 3 facteurs pour l AFC Décomposition de l inertie : chr.ca$eig eigenvalue perc of variance cum perc of variance dim 1 0.208772652 89.372732 89.37273 dim 2 0.022226615 9.514911 98.88764 dim 3 0.002598439 1.112356 100.00000 Le 1er axe couvre 90% de l information de départ concentrer l analyse sur cet axe 61 / 70

Positionnement des modalités sur le 1er facteur 3 groupes présentant chacun des modalités de chacune des variables de départ Groupe 1 : cheveux bruns/yeux marrons, décrivent les valeurs négatives sur l axe 1 Groupe 2 : à l opposé sur l axe décrivant les valeurs positives, yeux bleus/cheveux blonds Groupe 3 : groupe intermédiaire, associant cheveux châtains à roux et yeux noisettes Le 3è groupe est proche de l origine, il correspond à un profil moyen, le plus fréquemment rencontré Les yeux verts sont un peu à part 62 / 70

Positionnement des modalités sur le 1er facteur On retrouve ces résultats sur les tableaux des coordonnées de modalités (2 premiers facteurs représentés uniquement) Coordonnées des colonnes Dim 1 Dim 2 brun -0.5045624-0.21482046 chatain -0.1482527 0.03266635 roux -0.1295233 0.31964240 blond 0.8353478-0.06957934 Coordonnées des lignes Dim 1 Dim 2 marron -0.4921577-0.08832151 bleu 0.5474139-0.08295428 noisette -0.2125969 0.16739109 vert 0.1617534 0.33903957 63 / 70

Qualité de représentation des modalités sur les facteurs (cos 2 ) $cos2 (colonnes) Dim 1 Dim 2 brun 0.8379622 0.151895835 chatain 0.8643636 0.041965496 roux 0.1332914 0.811774340 blond 0.9927385 0.006887487 $cos2 (lignes) Dim 1 Dim 2 marron 0.9669933 0.03114210 bleu 0.9774809 0.02244679 noisette 0.5424487 0.33628646 vert 0.1758518 0.77257519 Les modalités sont à peu près toutes bien représentées sur l axe 1 à l exception des yeux verts et des cheveux roux qui sont représentés essentiellement sur l axe 2. Ces 2 modalités correspondant aux modalités les moins fréquemment observées. Le fait qu ils définissent ensemble l axe 2 est dû à la métrique de distance basée sur le khi 2, qui favorise les petits effectifs. C est donc purement artificiel. 64 / 70

Contribution des modalités dans la définition des axes $contrib Dim 1 Dim 2 brun 22.2463241 37.877386 chatain 5.0859953 2.319381 roux 0.9637371 55.130519 blond 71.7039435 4.672715 $contrib Dim 1 Dim 2 marron 43.115744 13.04249 bleu 52.128445 11.24401 noisette 3.400961 19.80398 vert 1.354851 55.90952 Variable couleur des yeux Les modalités qui contribuent le plus à la définition de l axe 1 sont bleu et marron alors que les yeux verts sont déterminants pour l axe 2 Variable couleur des cheveux La première dimension est essentiellement portée par les cheveux blonds (71%) et dans une moindre mesure par les cheveux bruns (22%). Le deuxième axe est majoritairement défini autour des cheveux roux et, de façon un peu moins marquée, par les cheveux bruns 65 / 70

Conclusion de l étude On interprète les résultats surtout suivant la première dimension Seconde dimension marginale (10% de l inertie contre près de 90% pour l axe 1) Seconde dimension artificielle du fait des faibles effectifs rencontrés pour les cheveux roux et les yeux verts, deux modalités souvent observées conjointement Progression logique sur l axe 1 : profil plutôt d europe du sud (cheveux bruns, yeux marrons) qui s oppose à un profil nord européen (yeux bleus, cheveux blonds). En position intermédiaire on trouve les personnes aux cheveux châtains et aux yeux noisettes, qui constituent le profil moyen de la population étudiée 66 / 70

Et si on a plusieurs variables qualitatives? Réalisation d une analyse factorielle des correspondances multiples Visualisation des liaisons éventuelles entre plusieurs variables qualitatives en interprétant les proximités entre leurs modalités respectives Mêmes hypothèses que l AFC Variables qualitatives Un individu est associé à une seule modalité de chaque variable Chaque modalité apparaît au moins une fois dans l échantillon Il est souhaitable que les effectifs théoriques soient supérieurs à 5 (condition de validité du test du khi 2 Mettre les données en forme avant l analyse Tableau de Burt = généralisation de la table de contingence Tableau disjonctif complet 2 AFCM différentes mais interprétation semblable Fonction MCA du package FactoMineR 67 / 70

Les packages R permettant de faire ces analyses (et bien d autres!) FactoMineR Site web du package FactoMineR : http://factominer.free.fr/index_fr.html Possibilité d utliser FactoMineR avec l interface graphique R commander. ade4 Site web du package ade4 : http://pbil.univ-lyon1.fr/ade4/ Interface graphique : ade4tkgui Pour ces 2 packages, nombreuse documentation (souvent en français) et exemples fournis 68 / 70

Les méthodes de classification Méthodes de classification non supervisée But : décrire, classer en groupes Classification ascendante hiérarchique (CAH) Exemple : méthode WPGMA (weight Pair Group Method with Arithmetic Mean fonction R : hclust k-means (nécessite de connaître à priori le nombre de classe) Principe de l algorithme fonction R : kmeans, extension aux données longitudinales : kml... 69 / 70

Les méthodes de classification (2) Méthodes de classification supervisée But : prédire l appartenance d un individu à une classe Utilisation d un ensemble d entraînement pour apprendre des règles qui permettent de prédire des caractéristiques de nouveaux individus Exemple des méthodes de réseaux de neurones Exemple des méthodes SVM Exemple des méthodes d arbre de décision... Notion de cross-validation 70 / 70