Aalyse des doées Statistiques appliquées à la gestio Cours d aalyse de doés Master F. SEYTE : Maître de coféreces HDR e scieces écoomiques Uiversité de Motpellier I M. TERRAZA : Professeur de scieces écoomiques Uiversité de Motpellier I Campus Numérique, 007
Aalyse des doées Module : Présetatio de l aalyse de doées M Présetatio de l aalyse de doées «L aalyse des doées a pour but de fourir grâce à l ordiateur u outil permettat d appréheder le coteu de tableaux de taille importate à l aide de représetatios accessibles par l utilisateur», Edwi Diday. L aalyse des doées c est aujourd hui l expressio cosacrée pour désiger les aalyses statistiques descriptives multidimesioelles L aalyse des doées rassemble u groupe de techiques aux fodemets mathématiques qui permet d appréheder la structure de l iformatio coteue das u espace à plusieurs dimesios. L iformatio, c est la positio relative des poits das l espace multidimesioel. L aalyse des doées est réalisable lorsqu il est possible de réduire l espace multidimesioel (où l iformatio est pas lisible) e u espace à deux ou trois dimesios (où l iformatio est lisible), de telle sorte que cet espace réduit coserve ue part importate de l iformatio qui était coteue das l espace multidimesioel d origie. Les espaces multidimesioels ot pour origie des tableaux statistiques de doées de toute ature mais où les dimesios des liges et des coloes sot importates. Ce sot ces liges et ces coloes qui costituet les dimesios des espaces et les poits qui formet les uages iformatioels. L aalyse des doées est utilisée par la plupart des scieces appliquées : les psychologues, les juristes, les histories, les écoomistes, les gestioaires L aalyse des doées a ses premiers développemets mathématiques au début du siècle précédet (905). Elle a cepedat cou u essor sas précédet das les aées 70 et 80, grâce à l amélioratio des istrumets de calcul et au développemet de la micro-iformatique. Sous l expressio géérique de l aalyse des doées, o rassemble deux grades techiques : - les aalyses factorielles : ces méthodes doivet leur om aux ouveaux axes de l espace que l o peut réduire, qui portet le om d axes pricipaux, mais aussi de facteurs. - Les techiques de classificatio automatique : ce sot des algorithmes iformatiques automatiques capables de dresser des typologies, des regroupemet de poits, bref d effectuer des classificatios. Ce sot les aalyses factorielles qui fot l objet de ce cours. I du tableau de doées à l aalyse des doées Les aalyses de doées ot pour matière pricipale le tableau de doées. De la ature de ce tableau déped la ature des variables qui le composet. L idividu est u élémet d u esemble fii que l o appelle l esemble des idividus. Ils sot portés e lige du tableau. La descriptio de ces idividus est réalisée par des variables. Les variables sot portées e coloe du tableau. Ue variable est défiie par u esemble que l o appelle l esemble des observatios (qui sot portées à l itérieur du tableau) par ue structure algébrique sur cet esemble et par ue applicatio de l esemble des idividus sur l esemble des observatios. Plus gééralemet, ue variable est u caractère statistique particulier. O déombre deux types de caractères : quatitatif et qualitatif. Le caractère quatitatif est mesurable, c est-à-dire qu il pred ses valeurs das des esembles mathématiques comme par exemple l esemble des etiers aturels relatifs, réels C est ce caractère qu o appelle variable. /
Aalyse des doées Module : Présetatio de l aalyse de doées M Le caractère qualitatif est o mesurable. Il est qualifié par des modalités. O cosidère qu il existe deux types de modalités : - des modalités qu o peut classer (ex : petit, moye, grad), - des modalités où le classemet est idifféret (ex yeux bleus, verts). Caractère Quatitatif (variable) Qualitatif Cotiu Discret modalités R Z, N Ordiales omiales Classes itervalles Fréquemmet, les variables quatitatives sot trasformées e classes (pour le cas cotiu) ou e itervalles (pour le cas discret). O cosidère alors que ces classes ou itervalles sot les modalités d ue variable qualitative ordiale. O costate alors que das la plupart des tableaux, o e dispose que d u seul type de caractère : le caractère qualitatif, omial ou ordial. Das la suite du cours, l appellatio caractère e sera pas reteue. Comme das la plupart des mauels, o retiedra le terme géérique de variables. Les différets caractères (variables) que l o viet de défiir permettet d élaborer des tableaux différets et c est cette différece qui, à so tour, défiit les méthodes d aalyse de doées. O cosidère das la pratique quatre tableaux de doées sur lesquels s appliquet des méthodes d aalyses factorielles différetes. - le tableau de variables (caractères) quatitatives : idividus i N x Variables La méthode d aalyse factorielle qui permet de traiter ce tableau porte le om d aalyse e composates pricipales : ACP. x i x ij x 3 /
Aalyse des doées Module : Présetatio de l aalyse de doées M - le tableau de cotigece : Modalités de X i N Modalités de Y j Les modalités doivet être exhaustives. (tous les M idividus sot reseigés par les caractères X et Y) et exclusives les ues par rapport aux autres. C est la répartitio de M idividus selo les modalités des caractères X et Y. La méthode d aalyse factorielle qui permet de traiter ce tableau porte le om d aalyse factorielle des correspodaces (AFC). ij M - les tableaux d equêtes ou de sodages : Idividus i N Questios. Les réposes des N idividus aux questios sot codées e affectat u chiffre aux diverses possibilités de réposes. Ces codes costituet pour ue questio le ombre de ses modalités. Le tableau codé est alors trasformé e u tableau disjoctif complet. C'est-à-dire u tableau qui e présete que des 0 ou des. Le chiffre est doé à la modalité possédée par l idividu. O applique à ce tableau ue AFC et la méthode s appelle aalyse factorielle des correspodaces multiples (AFCM) Exemple : Idividus Codificatio (pour la saisie des réposes) Tableau disjoctif Sexe Natioali Couleur Couleur Yeux Sexe Natioalité Homme Femme Fraçais Etrager té Yeux Yeux bleus Marro Noir homme Fraçais Bleu 0 0 0 0 femme Etrager Marro 0 0 0 0 3 femme Etrager Noir 3 0 0 0 0 4 homme Etrager Bleu 0 0 0 0 5 femme Fraçais Marro 0 0 0 0 6 homme Fraçais Noir 3 0 0 0 0 N femme Fraçais Bleu 0 0 0 0 - les tableaux quatitatifs où les idividus sot regroupés par paquet e foctio d ue variable qualitative : 4 /
Aalyse des doées Module : Présetatio de l aalyse de doées M x x i x Variable qualitative q idividus i N q r La méthode factorielle appliquée à ce tableau porte le om d aalyse factorielle discrimiate (otée AFD) Les calculs de l aalyse de doées e se fot jamais à la mai. Les logiciels pour l utiliser sot très ombreux et l o peut les segmeter selo plusieurs types : - les logiciels de traitemet d equête (Le Sphix, ethos, Questio, ). Bie que leur spécialité soit le traitemet de questioaires, ils itègret quelques méthodes d aalyses factorielles. Les sorties sot relativemet sommaires et les optios dispoibles sot limitées (pas de rotatio des axes, ) - les logiciels boîtes à outils (XLSTAT, Statbox). Ils permettet de réaliser diverses aalyses factorielles (ACP, AFC, ACM), quelques techiques de classificatio (Classificatio hiérarchique, K moyees) aisi que les techiques de prévisio classiques. Les doées sot gérées à partir du logiciel Microsoft Excel et les sorties s effectuet das des feuilles de calculs. Globalemet, ils offret u bo rapport qualité/prix - Les logiciels de statistique (SPSS, SPAD, SAS, ). Coçus pour maipuler et aalyser de grads tableaux de doées, ils sot très complets sur le pla des méthodes présetes et sur les optios dispoibles. L utilisatio est plus complexe et écessite parfois plusieurs jourées (voire plusieurs mois) de formatio. Leur prix e fait u outil réservé aux cabiets statistiques ou aux directios statistiques de grades etreprises. Das ce cours, ous utiliseros les sorties du logiciel Statbox. Les bases de l aalyse de doées Après avoir itroduit les pricipes gééraux de l aalyse de doées, ous rappelleros ici certaies statistiques élémetaires qui formet les fodatios de l aalyse des doées. Présetatio des doées et types de variables Gééralemet, le problème à résoudre se présete sous forme de table coteat les observatios (ou idividus ou exemples) e lige et les variables (ou attributs) e coloe. Les différets types de variables vot coditioer le choix des techiques utilisées. O distigue gééralemet : 5 /
Aalyse des doées Module : Présetatio de l aalyse de doées M Qualitatives Quatitatives Type de variables Disjoctives (ou dichotomiques) Catégoriques o ordoées ou qualitatives o ordoées Catégoriques ordoées ou qualitatives ordoées Cotiues Caractéristiques Elles peuvet predre deux états (exemple vrai ou faux) Les différetes catégories e cotieet pas de otios d ordre (exemple : couleur des yeux) Les différetes catégories peuvet être classées (ex classes d âges, échelles de Lickert) Elles peuvet predre des valeurs umériques sur lesquelles des calculs, tels que la moyee peuvet être effectués. La otio d associatio Les associatios sot des critères permettat de regrouper des variables. Elles se mesuret différemmet selo que l o s itéresse à des variables quatitatives ou qualitatives. L associatio sur des variables quatitatives La corrélatio liéaire Elle mesure la covariatio qui existe etre deux variables X et Y. Le coefficiet de corrélatio idique si deux variables évoluet das le même ses ou e ses cotraire. Il est compris etre - (corrélatio égative) et + (corrélatio positive). Lorsqu il est ul o dit que les variables e sot pas corrélées. Le coefficiet de corrélatio s écrit : rxy cov(x, y) = σ xσ avec : y cov(x, y) = pi(xi x)(yi y) = pixiyi ombre d observatios. E gééral, {,... } i pi = x y poids. La formule de la moyee deviet alors : cov( x, y) = (xi x)(yi y). avec p i poids de l'idividu i et p, le. C est le cas le plus classique, tous les idividus ot le même x = x et i La régressio La régressio permet d aalyser la maière dot ue variable (dite expliquée) est affectée par les valeurs d ue ou plusieurs autres variables (dites explicatives). Exemple : y = ax+ b La méthode des MCO (Moidres Carrés Ordiaires), par exemple, permet de calculer les paramètres a et b e foctio des observatios x i et y i : 6 /
Aalyse des doées Module : Présetatio de l aalyse de doées M cov(x, y) â= et bˆ = x ây V(x) L associatio sur les variables qualitatives Le test du χ Pricipe du test : il permet de tester l existece ou o d ue relatio etre deux variables quelcoques. Il repose sur ue comparaiso de la fréquece de distributio de ces variables à ue distributio théorique. Il cosiste à calculer ( χ calculé) la somme des écarts etre la distributio théorique et la distributio observée et à comparer ce résultat à ue valeur prédétermiée ( χ lu das ue table ou Si le χ tabulé) χ calculé est supérieur au χ tabulé alors il existe ue relatio etre les deux variables. (voir le rappel de cours de L3 das le fichier MS_MMRes : Module ) La otio de similarité Similarité sur des variables dichotomiques O dit que deux objets A et B, décrits par p attributs sot similaires, si le maximum d attributs sur les p attributs sot idetiques. Le ombre de poits commus (ou coïcideces) permet de costruire ue mesure quatitative de la similarité etre des objets. Il existe deux types de coïcideces : Valeur de l attribut A Valeur de l attribut A Coïcidece Oui Oui Positive Oui No No coïcidece No Oui No coïcidece No No Négative Selo la maière de predre e compte les coïcideces égatives, o obtiedra différetes valeurs de similarité : L idice de Russel accorde aucu poids aux coïcideces égatives. C est doc le ombre de coïcideces positives divisé par le ombre de comparaisos L idice de Jaccard cosiste à doer u poids mois importat aux coïcideces égatives qu aux positives. C est doc le ombre de coïcideces positives divisé par la différece etre le ombre de comparaisos et le ombre de coïcideces égatives. L idice de Sokal doe le même poids aux coïcideces égatives et positives. Nombre de coïcidece positives et égatives divisé par le ombre de comparaisos. Le choix du bo idice de coïcidece e peut s effectuer qu après ue aalyse des variables de comparaiso et ue étude de la distributio des valeurs. 7 /
Aalyse des doées Module : Présetatio de l aalyse de doées M U exemple : comparos la compositio de trois desserts selo leur compositio Barre de céréales Crème dessert Gâteau de Riz Chocolat Oui No Oui Beurre No No Oui Liquide No Oui No Parfum madarie No No Oui Emballage métal No Oui Oui Mii-dose Oui Oui No Sucre Oui Oui Oui Riz Oui No Oui Edulcorat No No Oui Colorat No No Oui Matrice de Coïcidece Barre de céréales Oui No Crème dessert Oui No 4 Gâteau de Riz Oui 3 5 No 0 Idices de similarité : Idice Formule Barre de Céréale / Crème dessert Barre de Céréales / Gâteau de Riz Coclusio Russel Jaccard Sokal Coïcideces positives / Nombre de comparaisos Coïcideces positives / (Nombre de comparaisoscoïcideces égatives) Coïcideces positives et égatives / Nombre de comparaisos 0% 30% 33% 30% 60% 30% Gâteau de riz proche de barre de céréales Crème dessert proche de barre de céréales Crème dessert proche de barre de céréales Das cet exemple, o voit que le choix de l idice de similarité a ue importace capitale car la coclusio dépedra de l idice choisi. Similarité sur variables quelcoques Il s agit de costruire u idice composite de toutes les similarités sur différets critères : la similarité sur variables dichotomique est égale à si les deux objets présetet le même critère la similarité sur les variables qualitatives est égale à si les objets présetet la même caractéristique la similarité sur les variables quatitatives mesure l écart etre les deux objets de maière relative par rapport à l étedue de la distributio de la variable. Exemple de similarité sur variables quatitatives 8 /
Aalyse des doées Module : Présetatio de l aalyse de doées M Produit A Produit B Produit C Produit D Prix 300 500 800 600 Etedue de la distributio : C est l écat etre la valeur maximale et la valeur miimale, doc ici elle est égale à (800-300)=500 La Similarité etre A et B sera égale au complémet à de la valeur absolue de l écart etre A et B, divisé par l étedue. Soit ici : = (abs(500-300)/500) = 0,6 O voit aisémet que deux produits qui ot u même prix aurot ue similarité= et les deux extrêmes aurot ue similarité=0. La otio de distace Cette otio est très utilisée das les aalyses multidimesioelles et otammet das les techiques de classificatio. La otio de distace est le complémet à la otio de similarité. Deux objets similaires ot e effet ue distace ulle et ue distace maximale sépare deux objets différets. La otio de distace S il existe plusieurs faços de calculer des distaces, l ue des plus utilisées est la distace euclidiee. La distace euclidiee se défiie das d : R xr + R R de la faço suivate : ( x, y) a d( x, y) = ( y i x i ) Les différets types de distaces : Distaces euclidiees géérales : ce sot les distaces les plus classiques, elles vérifiet: d M (wi,w i ) = t (x i - x i )M (x i - x i ) où M est ue matrice symétrique défiie positive. O les omme égalemet distaces quadratiques ou métriques. Nous listos quelques cas particuliers : distace euclidiee simple : c est le cas où M= : d (w i,w i ) = p j j=(x i - x j i ) (C est le cas précédet) distace de Mahalaobis : elle se recotre fréquemmet e aalyse des doées et surtout e aalyse discrimiate. So expressio aalytique est la suivate : d (w i,w i ) = t (x i - x i )V - (x i - x i ) où V est la matrice de variace-covariace. distace du χ : la distace du chi (lire «qui deux») est importate e aalyse des doées. Elle est particulièremet bie adaptée aux tableaux de cotigece. Elle est utilisée e aalyse factorielle des correspodaces. Rappelos qu elle s exprime aisi : d (w i,w i ) = p j j= /x. (x j i /x. i - x j i /x. i' ) où x j. = j x i et x. i = p j=x j i. La otio de variace et les techiques de typologie Pour mesurer le degré d homogééité d ue populatio, certaies techiques utiliset la otio de variace. Cosidéros les otes e math et e fraçais obteues par des élèves d ue classe : 9 /
Aalyse des doées Module : Présetatio de l aalyse de doées M Maths Fraçais Elève 3 7 Elève 4 8 Elève 3 6 9 Elève 4 Elève 5 6 3 Elève 6 8 4 Elève 7 9 5 Moyee La variace des otes se calcule e calculat les écarts par rapport à la moyee, e élevat ces écarts au carré et e divisat par le ombre d observatios. La formule de la variace est : V = ( x i x) O peut appréheder la variace comme état ue surface. Plus elle est importate, plus la distributio s éloige de la moyee. Si o cosidère cette surface comme état u carré, la racie carrée de la variace représetera u coté de ce carré. Ce sera l écart-type qui sera lui aussi ue mesure de la dispersio autour de la moyee. Das l exemple, la variace des otes de maths est de 39,43, celles des otes de fraçais de 8,8. De même, l écart type des otes de maths est de 6,7 et celui des otes de fraçais de,87. Aisi, le professeur de math costruit ue échelle de différeciatio plus importate que le professeur de fraçais. Comme la distace euclidiee, la variace permet de découper ue populatio e sous esembles homogèes. 0 8 6 Notes de Fraçais 4 0 8 6 4 0 0 5 0 5 0 Notes de maths O peut evisager l algorithme suivat : La variable maths possédat la variace la plus forte, o découpe la populatio selo la ote de math. O crée les groupes suivats : Groupe : élèves, et 3, Groupe : élèves 4,5,6 et 7 0 /
Aalyse des doées Module : Présetatio de l aalyse de doées M Le cetre de gravité du uage total est le poit moye (,) Le cetre de gravité du groupe est égal aux moyees e math et fraçais des trois idividus de ce groupe. Idem pour le groupe La variace totale du uage se calcule comme le carré de la distace etre l esemble des poits et le cetre de gravité. Ce qui doe (théorème de décompositio de la variace) : La variace du groupe correspod aux écarts etre les poits du groupe et le cetre de gravité du groupe. De même, la variace du groupe correspod aux écarts etre les poits du groupe et le cetre de gravité du groupe La variace itraclasse aussi appelée variace résiduelle est ue moyee des variaces à l itérieur des groupes La variace iterclasse correspod aux écarts etre les cetres de gravité des groupes et et le cetre de gravité de l esemble des poits. O l appelle égalemet variace expliquée (par la répartitio e groupe). Ue boe typologie (ou segmetatio) se juge sur la variace itraclasse (plus elle est faible, plus les poits d u groupe sot proches) et sur la variace iterclasse (plus elle est forte, plus les groupes sot éloigés). Elle aura doc u ratio variace iterclasse/ variace itraclasse maximal. /