La classificatio de doées quatitatives avec SPAD SPAD effectue toujours ue ACP de la matrice des doées quatitatives X " p avat de faire la classificatio des idividus. Les méthodes de classificatio s appliquet alors o pas à la matrice iitiale X " p, mais à la matrice " #q des q " p premières composates pricipales. Remarques : Das le cas de doées qualitatives, SPAD effectue ue AFCM (Aalyse Factorielle des Correspodaces multiples) et applique la classificatio à la matrice des q premières composates pricipales. Si elles sot mixtes pour pouvoir faire l AFCM, il faut au préalable recoder les variables quatitatives e variables qualitatives. Il est équivalet d appliquer la CAH de Ward ou l algorithme des cetres mobiles : o aux idividus décrits par X (resp. la matrice cetrée-réduite Z) o aux idividus décrits par " où " est la matrice de toutes les composates pricipales (q=p) issues de l ACP o ormée (resp. l ACP o ormée). E gééral, avec SPAD o choisit d appliquer la méthode de classificatio à " avec q < p. Le ombre de composates coservées peut-être choisi de ombreuses maières. Souvet, il est choisi aux vues de l éboulis (parfois appelée histogramme) des valeurs propres, du pourcetage d iertie expliquée par les q composates, ou ecore e foctio du ombre de valeurs propres plus grades que 1. 1 Classificatio hiérarchique de Ward et classificatio mixte Das SPAD la méthode de classificatio est toujours appliquée à la matrice " #q des premières composates pricipales issue d ue ACP ormée ou d ue ACP o ormée. Deux méthodes de classificatio sot proposées : - La classificatio hiérarchique de Ward (RECIP) - La classificatio mixte (SEMIS) q " p La classificatio mixte utilise cojoitemet la CAH de Ward et l algorithme des cetres mobiles afi de chercher à réuir leurs avatages et palier à leurs icovéiets : La CAH de Ward fourit e gééral ue partitio mois boe (au ses du critère d iertie itra-classe) que les cetres mobiles. De plus, si ue mauvaise agrégatio a été effectuée à ue étape, cela se répercute sur toutes les partitios suivates. Les icovéiets de la méthode des cetres mobiles sot : - le ombre de classes fixées au départ - la partitio fiale déped des choix iitiaux E revache La méthode des cetres mobiles a l avatage d être rapide et de permettre de traiter de grads jeux de doées. La CAH fourit ue suite de partitios emboîtées et doe ue idicatio du ombre de classes.
La classificatio mixte das SPAD procède doc de la maière suivate : Première étape : O défiit d abord ue partitio de l esemble des idividus, e u ombre K de classes plus grad que le ombre de classes que l o cherche. Pour trouver cette partitio, SPAD propose deux possibilités : o appliquer les cetres mobiles pour trouver cette partitio e K classes. Par exemple, si l o a =10000 idividus, o peut predre K=100 par exemple. o trouver L partitios e K classes par la méthode des cetres mobiles, e chageat à chaque fois les idividus tirés au hasard das l étape d iitialisatio. Défiir esuite les groupemets stables c est à dire les sousesembles d idividus qui ot toujours été das la même classe das les L partitios. Si L=2, o cosidère deux partitios P 1, P 2 e K classes et o obtiet la partitio-produit ayat K K classes. La classe C kk de cette partitio produit cotiet les idividus apparteat à la classe k de P 1, et à la classe k de P 2. Les classes de la partitio «produit» coteat au mois u idividus costituet les groupemets stables. E pratique, L=2 deux partitios suffiset pour détermier les groupemets stables. Das l exemple ci-dessous, 5 idividus ot été classés das la classe 1 de la partitio 1 et das la classe 1 de la partitio 2,.. et il y a 9 groupemets stables Partitio 1 38 35 40 30 5 25 0 Partitio 2 43 30 8 5 40 3 2 25 Si l o a =10000 idividus par exemple que l o veut u partitio ayat au plus 100 groupemet stable, o applique deux fois les cetres mobiles pour trouver deux partitios e K=10 classes. Deuxième étape : O applique esuite la CAH sur les classes de la partitio obteue à l étape précédete. Pour cela, u ouveau tableau de doées est costruit ou chaque lige est le cetre de gravité des idividus d ue classe (calculés sur la matrice " #q ). Il y a doc autat de liges que de classes. Chaque lige (représetat ue classe) est podérée par la somme des poids des idividus de la classe. Les sigletos de la hiérarchie trouvée par classificatio mixte e sot doc pas les idividus de départ mais les cetres de gravités classes obteues à la première étape. Cette première étape est ue étape de réductio du ombre d idividus. Cette étape est particulièremet utile lorsque le ombre d idividus au départ est grad. E effet, le dedrogramme d ue hiérarchie est alors vite illisible. 2 Coupure du dedrogramme Si o veut maiteat sélectioer des partitios issues de cette hiérarchie, o applique la méthode PARTI-DECLA. Cette méthode permet : - soit de choisir les coupures qui ous itéresset : il faut spécifier le ombre de classes des partitios que l o souhaite étudier. - soit de laisser le logiciel défiir automatiquemet ces coupures. Il faut juste lui dire combie o veut de partitios et il défiira alors automatiquemet leurs ombres de classes.
E pratique, il vaut souvet mieux regardez successivemet les partitio e 2, 3, classes et s arrêter lorsqu o e trouve plus de boe iterprétatio. Esuite, pour chaque partitio aisi reteue, la méthode PARTI-DECLA va cosolider la partitio. Pour cela, l algorithme des cetres mobiles est appliqué e preat comme cetres iitiaux les cetres de gravité des classes de cette partitio. Ue ouvelle partitio dot le pourcetage d iertie expliquée est écessairemet supérieur ou égale à celui de la partitio de Ward, est aisi obteue. Pour chaque partitio après cosolidatio, la méthode peut fourir : - pour chaque classe, les paregos des classes (dot le ombre est à fixer par l utilisateur). Les paregos d ue classe sot les idividus les plus proches de so cetre de gravité. E ce ses, ce sot des idividus représetatifs de la classe, - l iterprétatio de ses classes e foctios des variables (voir sectio suivate). 3 Iterprétatio des classes d'ue partitio O peut iterpréter ue classe d ue partitio : - à partir du cetre de gravité de la classe ou des paragos, - à partir des variables. Si o veut iterpréter les classes d ue partitio e terme de variable, o peut fourir ue iterprétatio uidimesioelle des classes à partir des variables de l'aalyse. C est ce qui est fait avec la méthode PARTI-DECLA de SPAD multidimesioelle des classes à partir des variables. Das ce cas, la partitio défiit ue ouvelle variable dite variable de classe, qui joue le rôle de la variable à expliquer das ue aalyse discrimiate. O peut etre autre effectuer : - Ue méthode de segmetatio comme CART (approche o paramétrique) - Ue aalyse discrimiate (liéaire ou quadratique) à partir des composates factorielles, et reveir esuite aux variables iitiales Ici, ous ous itéressos uiquemet à l iterprétatio uidimesioelle, les méthodes multidimesioelles de segmetatio ou d aalyse discrimiate faisat l objet d u autre cours. L objectif de la descriptio uidimesioelle des classes d ue partitio das SPAD cosiste à défiir les variables et les modalités qui caractériset ue classe. O peut caractériser les classes par les variables illustrative ou par les variables actives. La méthode PARTI-DECLA permet doc de caractériser les classes par les modalités des variables qualitatives ou par les variables quatitatives. Das les deux cas (quatitatif ou qualitatif), o compare la moyee (ou la fréquece) d'ue variable (ou d'ue modalité) sur la classe et das l'échatillo global. 3.1 Caractérisatio d'ue classe par les modalités des variables qualitatives 3.1.1 Défiitio d ue valeur test O défiit la variable N ks =ombre d'idividus de la classe C k, ayat la modalité s. Sous l'hypothèse H 0 que les idividus qui costituet la classe soiet tirés au hasard et sas remise
das l échatillo global, cette variable suit ue distributio hypergéométrique d'espérace et de variace : E(N ks ) = s k " 2 # (N ks ) = s s $ k #1 1# ' s & ) % ( où est le ombre d'idividus, k est l'effectif de la classe C k et s est le ombre d'idividus possédat la modalité s. Cette distributio peut être approximée par ue distributio ormale si les effectifs des classes sot assez élevés. O a alors la statistique : t(n ks ) = N ks " E(N ks ) #(N ks ) O calcule alors la p-valeur : qui suit ue loi ormale cetrée réduite p(s) = P( t(n ks ) > t( ks )) où ks est le ombre d'idividus de la classe C k possédat la modalité s. La valeur t( ks ) est appelée la valeur test de la modalité s das la classe C k. Plus t( ks ) est grad e valeur absolue, plus cette probabilité est faible et plus l'hypothèse H 0 d'u tirage aléatoire est rejeté et doc plus la modalité s est caractéristique de la classe C k. Efi, plus t( ks ) est grad t( ks ) est positif, plus N ks > E(N ks ) et plus o dira que la modalité s est sur-représetée das la classe C k. A l iverse, plus t( ks ) est grad t( ks ) est égatif, plus N ks < E(N ks ) et plus o dira que la modalité s est sous-représetée das la classe C k. 3.1.2 Lecture des résultats Le listig de la méthode PARTI-DECLA doe pour chaque classe des partitios la liste des modalité (ordoée par valeurs de t( ks ) décroissat) pour lesquelles t( ks ) est supérieur à u certai seuil que l o peut modifier das les paramètres de la méthode. O a aisi ue sélectio des modalités qui caractériset bie la classe. Pour chacue de ces modalités, le listig doe comme résultat : "MOD/CLA" = proportio d idividus de la classe qui possèdet cette modalité "CLA/MOD" = ks k = proportio d idividus qui possèdet cette modalité qui se trouvet das cette classe = ks s Ue modalité caractérise d'autat mieux ue classe que ces deux idicateurs sot grads, simultaémet. E effet, si 100% des idividus de la classe possèdet cette modalité ("MOD/CLA"=100%), ot peut retrouver cette modalité das d'autres classes. Pour mesurer cela, o regarde quel est le pourcetage d'idividus possédat cette modalité qui se trouvet das la classe. Aisi, si "CLA/MOD"=100%, la classe cotiet tous les idividus ayat la modalité.
3.2 Caractérisatio d'ue classe par ue variable quatitative O calcule là aussi pour chaque variable quatitative ue valeur test défiie de la maière suivate : O appelle Y la variable quatitative. Sous l'hypothèse H 0 que les idividus qui costituet la classe soiet tirés au hasard et sas remise das l échatillo global (i.e. la moyee das la classe est «égale» à la moyee globale), la variable Y k = moyee de Y das la classe C k, a ue espérace et variace égale à : E(Y k ) = Y " 2 k (Y) = # k " 2 (Y) #1 k où " 2 (Y) est la variace empirique de Y. D'après le théorème cetral limite, la statistique : t(y k ) = Y k "Y suit ue ormale cetrée réduite # k (Y) O calcule alors la p-valeur : p(y k ) = P( t(y k ) > t(y k )) où y k est la moyee de la variable Y das la classe C k. La valeur t(y k ) est appelée la valeur test de la variable Y das la classe C k. O raisoe aisi exactemet comme das le cas de la caractérisatio d'ue classe par ue modalité. Plus la valeur test t(y k ) est grade (e valeur absolue) et plus la probabilité est petite, plus la variable cotiue caractérise la classe. Ue valeur test égative idique que la moyee de cette variable das la classe est plus faible que la moyee das tout l'échatillo. Et vice et versa. Le listig de la méthode PARTI-DECLA doe pour chaque classe des partitios la liste (ordoée par valeurs de t(y k ) décroissat) des variables pour lesquelles t(y k ) est supérieur à u certai seuil que l o peut modifier das les paramètres de la méthode. Pour chacue de ces variables sélectioées, o lit égalemet les valeurs suivates : sa moyee das la classe et das tout l échatillo, idem pour l écart-type. Remarque 1 : Lorsque les variables sot actives, o e peut pas doer d'iterprétatio statistique aux valeurs test calculées puisque ces variables ot participé à la costructio de ces classes. Les valeurs test permettet éamois d'opérer u tri sur les variables actives et s'iterprètet comme des écarts etre les valeurs prises par cette variable das la classe, et das tout l'échatillo. Remarque 2 : La méthode PARTI-DECLA permet d'autres types de caractérisatios comme par exemple, la caractérisatio des classes par les axes factoriels. Cela permet de détermier les directios das lesquels les classes sot bie représetées. Référece : J.P. Nakacha, J. Cofais, "Approche pragmatique de la classificatio", Duod.