UNIVERSITE PARIS I PANTHEON SORBONNE U.F.R. DE MATHEMATIQUES et INFORMATIQUE Année 999 THESE Pour obtenir le rade de DOCTEUR DE L'UNIVERSITE PARIS I Discipline : Mathéatiques Présentée et soutenue publiqueent Par Patric ROUSSET Titre : Applications des alorithes d'auto-oranisation à la classification et à la prévision Directeur de Thèse : Marie COTTRELL Michel Verleysen Jeanny Herault Marie Cottrell Jean-Pierre Fénelon François Gardes Stephane Canu JURY
Reercieents Si pour beaucoup la thèse est le oyen de trouver un eploi dans la recherche ou l'enseineent, c'est on travail à 'université et une expérience préalable d'enseineent qui 'ont donné l'envie de faire celle-ci. Elle 'a peris de continuer à découvrir et proresser, de concrétiser des idées nées de rencontres et de lectures, ainsi que de ieux e connaître. Au oent de conclure ce travail, es preières pensées vont à es parents et es proches. Etre le téoin priviléié de la destinée de es élèves a élari l'anle de vue sur on propre parcours, c'est pourquoi je suis heureux d'avoir ici l'opportunité de reercier tous ceux qui 'ont aidé, encouraé ou soutenu tout au lon de es études. En ce qui concerne la thèse, elle-êe, je dois son aboutisseent aux professeurs Marie Cottrell et Bernard Girard. Décrire leur contribution en réduirait l'iportance. Je les reercie donc succincteent d'avoir ajouté à leur rande copétence la entillesse et la disponibilité. Ces qualités se trouvent d'ailleurs facileent au SAMOS (ainsi que la réponse à la plupart de es questions). Merci aussi à Yvonne Girard et au SCIPRE de 'avoir fourni atériel et assistance, à Chaiya pour la qualité des ipressions couleurs et à a cousine Doinique pour sa relecture. J'ai eu aussi plaisir à travailler en collaboration avec Patrice Gaubert, Christiane Guinot, François Gardes, Yvonne Girard, Bertrand Maillet, Christian Derquenne et Moran Maneas, à avoir une rencontre fructueuse avec Michael Jordan. Je voudrais reercier aussi Michel Verleysen et Jeanny Herault pour avoir accepté la chare de rapporter cette thèse, pour leurs rearques et leurs encouraeents ainsi que les ebres du jury Stéphane Canu, Jean-Pierre Fénelon et François Gardes. Un clin d'œil à Krystyna, Thierry, Arnaud, Olivier, Salah,... et aux habitants de Sari d'orcino. Mes encouraeents enfin pour Elena, Maxence, Alexandre, Mia, Clara, Laura, Huo et les autres pour qui le chein est encore lon.
TABLE DES MATIERES Introduction............................................ ère PARTIE : ANALYSE DE DONNEES A L'AIDE DES CARTES DE KOHONEN. 5 Analyse de données Problèe et exeples.................... 7. Le problèe................................... 7. Présentation de trois exeples de bases de données.............. 8 La classification de Kohonen.............................5. Introduction de l alorithe de Kohonen................... 5. Quelques alorithes de classification..................... 6.3 Alorithe de Kohonen............................. 3.4 La relation entre la éthode basée sur la classification de Kohonen et les autres éthodes..................................... 34 3 Analyse de données en utilisant les cartes de Kohonen.............. 37 3. Analyse de données appliquées en pratique.................. 39 3.. Analyse linéaire des données......................39 3.. Analyse de données à l aide des réseaux de neurones......... 4 3. Analyse de données à l aide des cartes de Kohonen.............. 4 3.3 niveaux de classification............................43 3.4 Représentation des distances inter classes....................45 3.5 Contenu des classes et hooénéité...................... 49 3.6 Croiseent de la classification avec une variable qualitative......... 50 3.7 Analyse restreinte à une réion de la carte................... 55 3.7. Projection des observations de A dans le plan P(A).......... 56 3.7. Représentation des classes voisines................... 59 3.8 Coparaison avec les éthodes classiques..................6 3.8. L'exeple du fer à cheval Les représentations issues de l'acp...63 3.8. Utilisation de la classification à l'aide de l'alorithe de Kohonen..65 3.8.3 Coparaison entre la classification de Kohonen et l'analyse factorielle................................ 66 èe PARTIE : PREVISION A L'AIDE DES CARTES DE KOHONEN........ 69 4 Probléatique..................................... 7 4. Problèe.................................... 7 4. Doaine d'application..............................7 4.3 Exeple.................................... 73
4.4 Les odèles classiques..............................77 4.4. Un odèle linéaire: L'Arax...................... 77 4.4. Un odèle neuronal: Le perceptron ulticouches...........79 4.4.3 Conclusion................................ 88 5 La MEP : une éthode de prévision dans le cas d'une série chronoloique qui cuule deux évolutions de teps ayant chacune sa cadence propre............ 89 5. Définition et notations............................. 89 5. Méthode de prévision.............................. 9 6 Application de la MEP à l'exeple de la prévision de la consoation électrique nationale polonaise....................................... 95 6. Classification des profils.............................96 6.. Utilisation d'une classification hiérarchique...............97 6.. Utilisation de la classification de Kohonen.............. 00 6... Variantes de l'alorithe de Kohonen susceptible d'aéliorer la classification des courbes de chare....0 6... Classification et prévision des profils........... 05 6. Estiation des courbes de chares électriques et perforances....... 6.. Estiation des courbes de chares électriques par la éthode MPE. 6.. Un odèle de référence pour valider la éthode par coparaison..8 6..3 Perforances de la MEP........................ 3 6.3 Analyse de l'erreur............................... 3 6.3. Analyse de l'erreur de prévision du profil............... 33 6.3. Analyse de l'erreur de prévision de la courbe de chare....... 40 7 Quelques réflexions sur la éthode......................... 5 7. Noralisation de l'estié du profil et renoralisation des poids à chaque itération de l'apprentissae........................... 5 7. Options techniques............................... 53 7.3 Choix de la classification............................55 7.4 Liites......................................6 8 Conclusion et perspectives.................................. 65
INTRODUCTION Les travaux scientifiques nécessitent souvent une confrontation entre les nouvelles techniques et celles existantes. On aura éaleent cette exience dans la suite, c'est pourquoi il peut être intéressant de faire un point soaire sur l'évolution des outils statistiques et de se deander ce que l'on attend d'une nouveauté. En particulier, quelles caractéristiques elle doit posséder pour répondre à l'évolution des oyens coe par exeple le atériel et pour servir de relais aux éthodes existantes pour résoudre les problèes. Evolution de la statistique : Les statistiques ont rapideent évolué au cours des dernières décennies. Les techniques se sont en effet beaucoup développées et de nouvelles sont apparues. De plus, son doaine d'application s'est élari et la population des utilisateurs s'est diversifiée. Cette évolution provient des prorès de l'inforatique qui a d'abord révolutionné le onde de la statistique à son arrivée et l'a, depuis, fait évoluer continuelleent. La capacité randissante des ordinateurs a iposé un renouvelleent très fréquent des techniques. Pari les rands axes d'influence de l'inforatique sur les techniques, on peut citer trois exeples.
La capacité de stocae des ordinateurs a peris un accroisseent de la taille des bases de données dans des proportions telles qu'il est aujourd'hui courant de disposer de recueil de données dont le nobre d'individus s'exprie en illions et celui des variables en centaines. Ce phénoène réclae naturelleent une approche et des techniques nouvelles. Les prorès des outils inforatiques pour réaliser des représentations raphiques ont orienté les statistiques vers des techniques qui aboutissent à des résultats qui se traduisent par des représentations raphiques sous fore de tableaux ou de cartes. Par exeple, les analyses factorielles, dont le but est de représenter "au ieux" l'inforation sur des plans, ont pris une rande iportance dans l'analyse de données ultidiensionnelles. D'autre part, la vitesse d'exécution randissante des ordinateurs a peris d'envisaer l'utilisation d'alorithes qui ont un coût élevé en tere de teps de calcul. En particulier, cela a provoqué une diversification des techniques de classification. Outre l'évolution des techniques, l'inforatique a aussi odifié le cadre d'application des statistiques. Les doaines d'étude se sont diversifiés et les techniques sont de plus en plus utilisées par des non statisticiens, spécialistes d'autres sciences coe l'éconoie, la finance, l'assurance, ou de façon plus énérale la plupart des inénieurs. Cette évolution provient de la ise à disposition des loiciels qui proposent une ae de odèles statistiques qu'il suffit d'exécuter sur son ordinateur personnel. Il est à noter que les sorties sous fore de raphiques et de tableaux ont lareent contribué à la vularisation des techniques statistiques. En êe teps de l'inforatique, le développeent récent des réseaux de neurones apporte aussi une source de renouvelleent pour les statistiques. De nouveaux alorithes répondent ainsi au besoin d'approches nouvelles déjà évoqué. En particulier, ils perettent une étude non linéaire ieux adaptée à certaines structures. "Quelles caractéristiques pourrait avoir un nouvel alorithe qui s'inscrirait dans l'évolution des statistiques?" : D'après le bilan historique fait précédeent, il apparaît que c'est plus au besoin d'analyse qu'il doit répondre qu'au problèe des oyens (les problèes de calcul étant oindres). Il doit fournir un oyen de traiter des bases de données de plus en plus iportantes et coplexes. Un alorithe issu des réseaux de neurones peut par exeple répondre à cette deande. De plus, pour être appliqué par des non spécialistes et suivre ainsi l'évolution de l'analyse classique, il doit être relativeent siple à utiliser et doit fournir des sorties sous une fore qui facilite leur interprétation. C'est-à-dire sous fore de tableaux ou
de raphiques. Il est d'ailleurs possible d'envisaer des représentations raphiques autres que les projections linéaires. Avant de présenter les avantaes de celles proposées dans la suite, nous ne résistons pas au plaisir de contepler une de celles produites par un analyste plus doué : Picasso : L'acrobate Contexte et objectif de la thèse : L'esprit dans lequel nous avons essayé de concevoir un odèle de prévision des courbes de consoation nationale électrique française est à rapprocher d'une citation de Jean-Paul Benzécri présente dans l'introduction de l'ouvrae "Statistiques exploratoire utidiensionnelle" [68], "le odèle doit suivre les données et non l'inverse". On a, ainsi, is au point une éthode de prévision qui s'appuie sur une analyse de données, car cela paraissait ieux adapté à cette série chronoloique. On a choisi de le faire à partir de la classification de Kohonen car elle offrait plus de possibilités. On a développé les outils 3
d'interprétation de cette dernière pour aéliorer notre potentiel d'analyse et par là êe la qualité de notre prévision. En parallèle, d'autres études se sont présentées, elles appartenaient à des doaines variés tels que l'analyse de la consoation des canadiens ou du chôae qui sont fournies en annexe. Les outils précités se sont avérés perforants pour les analyser, ais on a souvent dû les faire évoluer ou en ajouter d'autres. Cet échane entre les problèes et les solutions a abouti à un enseble de oyens d'analyse copléentaires et adaptatifs. C'est pourquoi, dans la suite, l'analyse de données sera présentée indépendaent de la prévision. Elle constituera la preière partie, la prévision étant le sujet de la seconde. Pour ontrer l'adaptabilité des outils développés, on illustrera leur utilisation à l'aide d'exeples de bases de données variées, souvent issues d'études réelles. Par contre, leurs études coplètes fournies en annexe ne sont pas traitées. A la suite de la présentation de l'analyse de données et de sa coparaison à l'association classification analyse factorielle, on ontrera dans la seconde partie coent s'appuyer sur celle-ci pour ettre au point une éthode de prévision qui s'écarte des éthodes récursives et s'adapte à des contextes nouveaux. En particulier, on l'appliquera aux données de consoation électrique polonaise, is entient à notre disposition par le professeur Osowsi de l'université Warsaw Technical, pour lesquelles les techniques précitées ont ontré à la fois leurs qualités et leurs liites. L'étude de la consoation française est présentée en annexe. 4
ère PARTIE ANALYSE DE DONNEES A L'AIDE DES CARTES DE KOHONEN Chap. Chap. Chap.3 Analyse de données Problèe et exeples La classification de Kohonen Analyse de données en utilisant les cartes de Kohonen
Analyse de données - Problèe et exeples. Analyse de données - Problèe et exeples.. Le problèe L'apparition puis le développeent des ordinateurs ont peris d'envisaer de nouvelles techniques d'analyse de données, notaent en exécutant rapideent certains calculs tels que l'inversion de atrice ou la diaonalisation. C'est le cas des analyses factorielles coe par exeple l'analyse en coposantes principales ou ACP qui ont répondu au besoin de visualiser les données. Ces éthodes réalisent en effet, des projections sur les plans dits "principaux" (contenant le axiu d'inertie) où l'on voit le ieux le nuae de points. Mais il existe un besoin de copléter ces éthodes par de nouvelles qui seraient capables de traiter des bases de données de rande taille, ayant une structure non linéaire, et par conséquent al expliquées par les outils traditionnels. Certains réseaux de neurones, coe le perceptron ulticouche, perettent de replacer les analyses classiques. Mais ils n offrent pas toujours de représentations raphiques et les interprétations sont parfois 7
Analyse de données à l'aide des cartes de ohonen difficiles. La classification de Kohonen a, quant à elle, le double avantae de faire une analyse non linéaire de la base de données et de se prêter à des représentations raphiques faciles à utiliser. Dans ce chapitre vont être développées différentes façons d exploiter cette dernière éthode pour répondre à plusieurs problèes de l analyse de données tels que la classification, l analyse de la dispersion, la caractérisation des individus par des variables explicatives qualitatives, etc. Les techniques qui vont être présentées seront appliquées à des exeples siulés pour l'illustration ou issus d'études pratiques dont le lecteur pourra trouver les analyses coplètes en annexe.. Présentation de trois exeples de bases de données. Soit une base de données X de N observations dans laquelle chaque individu i est décrit par p variables quantitatives et q variables qualitatives. On note x i =(x i,, x j i,,x p i ) le vecteur de R p constitué des p variables quantitatives. Trois exeples de bases de données vont servir à illustrer les techniques que nous proposons. L objectif n est pas d en faire l étude, ais d exploiter la spécificité de chacune pour illustrer les différentes parties développées par la suite. Le preier exeple, d effectif réduit, est construit artificielleent pour visualiser le écanise d apprentissae de l alorithe de Kohonen. Le deuxièe issu d'une étude pratique peret d effectuer des analyses qui cobinent des variables quantitatives et qualitatives, il servira de plus à donner un exeple de classification avec la distance du χ. Enfin, le troisièe utilise une notion teporelle qui facilitera l interprétation des rapprocheents des classes à l intérieur des cartes de Kohonen. 8
Analyse de données - Problèe et exeples. er exeple : Le preier exeple est constitué d une base de données siulées contenant 300 individus et variables. Chaque individu est construit à partir du élane aléatoire des 3 fores a, b, c de R de la fiure ieux visualisées par le type de représentation de la fiure, adopté pour la suite, qui joint les points indiquant les valeurs. Ceci revient à prendre une cobinaison linéaire des trois vecteurs de base a, b et c fixés du type αa+βb+γc où α, β et γ sont des scalaires aléatoires copris entre 0 et afin d'obtenir des fores variées, coe par exeple celles de la fiure 3. * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 5 5 5 a b c Fiure : Les trois fores a, b et c sont construites à partir de variables 9
Analyse de données à l'aide des cartes de ohonen 5 5 5 a b c Fiure : Les points sont joints pour ettre en évidence la fore 3 4 5 6 7 8 9 0 Fiure 3 : Exeple d'une fore construite à partir du élane de a, b et c avec α=0.44, β=0.7 et γ=0. 0
Analyse de données - Problèe et exeples. èe exeple : Cet exeple est issu de deux enquêtes de consoation réalisées par Statistiques Canada entre 986 et 99 auprès d environ 0000 énaes. Un individu est défini par son profil de consoation, c est-à-dire par la répartition de sa consoation dans 0 produits (Loeent, achat de véhicule etc. ). Pour un individu, la valeur associée à une variable représente le ratio de la consoation de ce produit rapporté à la consoation totale (par exeple, consoation dans le loeent / consoation totale). Les variables sont donc des pourcentaes, elles prennent des valeurs positives et leur soe vaut. j=,, 0 x j 0 et 0 j= x j = Coparer deux individus revient à coparer deux profils. Lorsque les observations sont des pourcentaes, il est classique de choisir la distance du χ, c est donc celle qui sera utilisée dans cet exeple. La fiure 4 représente la consoation d un individu i. Sur l axe des abscisses sont indiqués les produits de consoation, l ordre est alphabétique et n a donc aucun sens (ce n est pas un axe teporel). De êe, les points sont reliés entre eux dans le seul but de rendre le profil plus lisible. consoation 0, 0,5 0, 0,05 0 alcool al.do al.ext chares co. divers don educ. habill. loeent loisirs loterie eubles santé secu soin tabac tr.pers tr.pub. veh. Fiure 4 : Profil de consoation de l'individu i La liste exhaustive des variables de consoation est la suivante : alcool, alientation au doicile, alientation à l'extérieur, chares, counication (dépense de téléphone), divers (intérêts des prêts personnels, produits d'entretien), dons, éducation, habilleent, loeent, loisirs, loterie, eubles, santé, dépenses de sécurité (assurance chôae, vie, retraite), soins, tabac, transport personnel, transport public, achat de véhicule
Analyse de données à l'aide des cartes de ohonen Cette enquête fournit aussi des caractéristiques qualitatives copléentaires sur les individus : le niveau d éducation, la tranche d âe, la détention de loeent et le niveau de pauvreté. Cet exeple perettra donc, dans la suite, d'illustrer la façon dont on peut utiliser les cartes de Kohonen qui réalisent une classification des individus par rapport des variables quantitatives (ici la consoation) afin de réaliser la cartoraphie d'un autre critère qui n a pas servi à la classification (par exeple la détention de loeent). 3 èe exeple : Cet exeple a été construit artificielleent à partir d une base de données réelles. Il contient 000 observations qui représentent les relevés journaliers d une esure faite toute les deux heures (la preière valeur est le relevé à 0h00, le deuxièe à h00, le troisièe à 4h00, etc.). Sur les fiures 5 et 6 sont représentées les esures d'une journée pour les individus i et i de la base de données. On exploitera cet exeple pour illustrer les études sur la dispersion et les relations entre les unités de la carte de Kohonen qui s expliquent dans ce cas particulier par une notion failière aux statisticiens, l évolution teporelle. Cet exeple perettra ainsi de faire le lien avec l exploitation des cartes de Kohonen dans le cadre de la prévision présentée au chapitre. Le niveau de pauvreté a été évalué par des éconoistes à partir de critères dont l un est la consoation.
Analyse de données - Problèe et exeples. 0 - - -3-4 -5 0h00 h00 4h00 6h00 8h00 0h00 h00 4h00 6h00 8h00 0h00 h00 heure Fiure 5 :Relevé bi-horaire du jour i 0 - - 0h00 h00 4h00 6h00 8h00 0h00 h00 6h00 8h00 0h00 h00 4h00 Fiure 6 :Relevé bi-horaire du jour i 3
Analyse de données à l'aide des cartes de ohonen 4
La classification de Kohonen La classification de Kohonen. Introduction de l alorithe de Kohonen. Teuvo Kohonen a proposé dès 98 (Kohonen, 98 [6, 63]) un alorithe qui produit une carte d oranisation topoloique ([64, 65]). Le processus ne dépend que des entrées et ne nécessite pas l intervention d un superviseur, on parle dans ce cas d'autooranisation. Sa fonction principale est de faire correspondre les éléents de l'espace d'entrée avec des unités ordonnées sur une carte qui est une représentation raphique où chaque unité est entourée de ses voisines, les voisinaes ayant été définis à priori. Le résultat est une fonction de l'espace des entrées vers l'enseble des unités, telle que les iaes de deux éléents voisins au sens d'une certaine distance dans l'espace des entrées sont la êe unité ou des unités voisines sur la carte. 5
Analyse de données à l'aide des cartes de Kohonen Les propriétés de l alorithe et de ses cartes de sortie perettent conjointeent d analyser des données qui ont une structure non linéaire et de réaliser des représentations raphiques qui ettent en évidence certaines de leurs caractéristiques. L'application la plus courante est la classification de l espace d entrée, où l'on définit une notion de voisinae entre les classes qui n'est pas prise en copte par les éthodes de classification classiques.. Quelques alorithes de classification. Introduction : On distinue deux randes catéories d'alorithes de classification. La preière consiste à effectuer une partition de l espace en un nobre de classes fixé, c est le cas de la éthode des centres obiles et ses variantes issues des travaux de Fory (965) [43], Thorndie (953) [95], Mac Queen (967) [79], Ball et Hall (967) [6]. La deuxièe fournit une classification pour chaque niveau de reroupeent, chacune se déduisant de l aréation ou de la dissociation des classes du niveau précédent. La classification hiérarchique de type WARD procède par exeple par aréation (Ward J.H. (963) [99]). Ces éthodes sont présentées dans les ouvraes de statistiques classiques tels que Statistique Exploratoire Multidiensionnelle (Lebart, Morineau, Piron (995) [68]) ou Probabilités Analyse de Données et Statistiques (Saporta, S. (990) [94] ). 6
La classification de Kohonen èr type de classification : les classifications à nobre de classes fixé. a) La éthode des centres obiles : Cette éthode, dont la paternité est attribuée à Fory, est particulièreent adaptée aux données de rande taille. En effet, dans sa ise en place inforatique, le tableau de données conservé en éoire auxiliaire est lu plusieurs fois ais de façon séquentielle, et ainsi n occupe jaais de zone éoire iportante. Son efficacité est en rande partie attestée par les seuls résultats expérientaux. Ce type de classification est souvent utilisé coe technique de description et de réduction en association avec des analyses factorielles. Pour plus de précisions, on peut se rapporter aux ouvraes de Soal et Sneath (963) [93], Lance et Willias (967) [66] ou plus réceent Gordon (987) [5]. - L alorithe : Considérons l enseble X de N individus décrits par p variables à partitionner en U classes à l aide d une distance d (souvent la distance euclidienne ou celle du χ ). Les étapes de l alorithe sont les suivantes : Etape0: On déterine U centres provisoires de classes, les centres {G 0,..., G 0,..., G 0 U } (tirés selon un tirae pseudo aléatoire sans reise de U individus dans la population coe le préconise Mac Queen ( Mac Queen J. B. (967) [79]). Les U centres induisent une preière partition {C 0,..., C 0,...,C 0 U }. L individu i appartient à la classe C 0 s il est plus proche de G 0 que de tous les autres centres. Etape: On définit U nouveaux centres de classes {G,..., G,..., G U } en déterinant les centres de ravité des classes C 0,..., C 0,..., C 0 U. Ces nouveaux centres induisent une nouvelle partition forée des classes notées {C,..., C,..., C U }. Etape : On déterine U nouveaux centres de classe {G,..., G,..., G U } en prenant les centres de ravité des classes C -,..., C -,..., C - U, ce qui induit la nouvelle partition {C,...,C,..., C U.}. 7
Analyse de données à l'aide des cartes de Kohonen - Montrons que le processus convere : On note v() la esure de la dispersion autour des centres de classes à l étape : v( ) = U = i C x i G Considérons la soe des carrés des écarts à la oyenne intra classe à l étape, V() U V ( ) = x G où G + étant le centre de ravité de la classe C. = i C i + On va ontrer que v() V() v(+) : Ceci ontrera la converence vers le iniu à la fois de la dispersion autour des centres de classes et de la soe des carrés des écarts à la oyenne intra classe. D après le théorèe de Huyens, U v( ) = V ( ) + n G G où n est l effectif de C = + d où et v() V() v()=v() =,,U G + =G Montrons que V() v(+) : A l étape + v( + ) = U = + i C x i G + L expression de V() est identique à celle de v(+) si on replace C par C +. Or par définition C + est celui qui iniise la dispersion autour de {G + } =,,U d où + xi G + i C i C x i G + donc Conclusion V() v(+). v() V() v(+). avec () v()=v() =,,U G + = G 8
La classification de Kohonen Une suite positive stricteent décroissante convere, donc l alorithe convere vers un iniu local. De plus, si deux étapes conduisent à la êe partition, cette dernière est une solution de l alorithe. b) Siple copetitive learnin ou alorithe de Lloyd : une version stochastique en line des centres obiles : L'alorithe SCL est une version stochastique de l'alorithe de Fory présenté au pararaphe précédent, qui a la particularité de déplacer un seul centre de classe à la fois lors de la présentation d'un individu, ce qui le rend ieux adapté aux randes bases de données. Son principe, dont le détail peut être trouvé dans les ouvraes Hertz J. et al. (99) [54] Linde Y. et al. (980) [74], Lloyd S.P. (98) [75] et Mac Queen J. (967) [79], est le suivant : Les centres de classes G,, G U sont initialisés de façon aléatoire. A l'étape t, on présente l'observation x= x(t+) extraite au hasard. Puis, on définit l'indice anant u 0 coe celui du centre de classe qui iniise la distance euclidienne au vecteur présenté: x G u0 ( t) = in u x G u Gu 0 est alors odifié selon la forule: G u0 ( t + ) = G ( t) + ε( t)( x G u0 u0 ( t)) où le paraètre d'adaptation ε(t) décroît vers 0 en satisfaisant la condition de Robbins- Monro ( ε(t) = et ε ( t) < ). On peut ajouter une autre version stochastique des centres obiles appelée K-eans introduite par Mac Queen (967) et analoue à celle de Fory. On ontre que ces trois alorithes converent vers un iniu local de la soe des carrés des écarts aux centres de classes. Celui de Lloyd est très proche de l'alorithe de Kohonen présenté au pararaphe.3. 9
Analyse de données à l'aide des cartes de Kohonen èe type de classification : pari les classifications qui fournissent un reroupeent pour chaque niveau, on utilise en particulier les classifications hiérarchiques, avec la distance de WARD : Le principe de la classification ascendante hiérarchique consiste à créer, à chaque étape, une nouvelle partition de l enseble des données en aréeant les deux éléents les plus proches selon une distance choisie à priori. - Principe de l alorithe (coun à toutes les distances) : L'alorithe consiste à calculer à chaque étape s la atrice des distances entre les n s représentants des classes et à déteriner les deux classes dont les représentants sont les plus proches afin de les aréer et d obtenir (n s -) classes à l étape suivante. A l étape 0, il y a autant de classes que d individus dans la base de données. A l étape s, on en trouve n-s. A la fin, il ne reste plus qu une classe. - Définitions: Pour tout, on note le barycentre de la classe C et son effectif et désine le barycentre de toutes les données. On appelle soe des carrés des écarts aux centres de classes, notée SC W (pour soe des carrés intra ou within), la quantité. SC W = s = i C x i La soe des carrés des écarts entre les centres de classes et le centre de ravité est notée SC B (pour soe des carrés inter ou between)et vaut SC B = s = La soe des carrés des écarts au centre de ravité, notée SC T (pour soe des carrés totale) s'écrit SC T = s = i C x i La relation de Huyens induit la propriété suivante : SC T = SC B + SC W - La classification hiérarchique qui utilise la distance de WARD : 0
La classification de Kohonen La stratéie consiste, ici, à choisir à chaque étape l aréation entre deux classes qui fait le oins varier la soe des carrés des écarts aux centres de classes. C est-à-dire qu on cherche à obtenir à chaque pas un iniu local de la quantité SC W ou de façon équivalente un axiu de SC B. Considérons le passae de la partition P s à s classes à P s- forée de s- classes par l aréation des classes ), ( C et ), ( C qui donne la classe C. On peut calculer son effectif t et son barycentre s t. On a t + = et t + + = Avant l'aréation des classes, la soe des carrés des écarts entre les centres de classes et le centre de ravité s'écrit: SC B (s)= = = + + = s s & Après l'aréation des classes, elle s'écrit: SC B (s-)= = + s & t t La diinution de la quantité SC B, notée s, vaut: s t t + = Le théorèe de Huyens s écrit : t t t t + + = + et la diinution de la quantité SC B, s due au passae de s à s- classes devient : s + =. De plus t + + = d'où ), ²( s x x d + = + = Les barycentres
Analyse de données à l'aide des cartes de Kohonen A chaque étape, on cherche les classes C et C qui correspondent au plus petit s. s est appelé indice de niveau et on vérifie que la soe des indices de niveaux est l inertie totale des n éléents. - Résultat: Les classifications hiérarchiques déterinent une notion de paternité qui se traduit par un dendrorae indiquant pour chaque niveau, le reroupeent effectué. Mais il ne fournit pas d oranisation des classes qui perette d associer facileent à l une d entre elles celles qui lui sont proches. En effet, les fiures 7 et 8 ontrent deux représentations possibles de la êe classification hiérarchique. Il n est donc pas possible, à partir de l arbre, de donner les classes les plus proches de la classe autres que la classe issue du êe père. Il faudrait une notion de voisinae entre les classes pour pouvoir les disposer sur le raphique selon un ordre qui reflète leur proxiité. C'est préciséent cette notion centrale dans l'alorithe de Kohonen qui va fournir des représentations raphiques qui identifient les classes voisines dans le cas de la classification présentée au chapitre suivant. 3 4 Fiure 7 : Dendrorae, la classe est représentée entre la classe et de la classe3
La classification de Kohonen 4 3 Fiure 8: Dendrorae, la classe est représentée entre la classe et de la classe4.3 Alorithe de Kohonen L alorithe de Kohonen est un processus d auto-oranisation très puissant. Analoue à l alorithe des Lloyd, il contient en plus une notion de voisinae entre les U classes que l'on peut syboliser par des liens entre U unités disposées en réseau. Dans la plupart des cas, cette structure est de diension une ou deux, on parle alors respectiveent de ficelle ou de rille. Ce type de représentation illustré par les fiures 9 et 0 dans lesquelles les unités proches correspondent à des classes voisines définit naturelleent le voisinae des classes. L'alorithe peret ainsi d'effectuer une classification selon une distance quelconque dans les exeples, on utilisera la distance euclidienne et celle du χ et de la traduire par une 3
Analyse de données à l'aide des cartes de Kohonen carte où l'on peut repérer très facileent les classes voisines. C'est cette propriété qui rend attractif cet outil par la suite détaillé et utilisé dans les applications. On trouve d'autres alorithes de ce type réunis sous la dénoination self-oranizin ap (SOM), on peut citer par exeple celui proposé par Bishop et al. (997) [9] - Structures et définitions : a) Matérialisation du Voisinae : On utilisera deux façons de repérer une unité sur une rille. La preière consiste à nuéroter les unités de à U coe sur les fiures 9 et 0. Dans la seconde, on affecte à l'unité u ses coordonnées cartésiennes sur la carte (i u,j u ) coe indiqué sur la fiure 9. Pour la ficelle, ces deux notations sont identiques. On définit le voisinae de rayon r d une unité u 0, noté V r (u 0 ), coe l enseble des unités u situées sur le réseau à une distance inférieure ou éale à r. En utilisant les coordonnées cartésiennes, on peut définir la distance d par: d(u,u 0 )=ax( i u -i u0, j u -j u0 ) pour une rille d(u,u 0 )=ax( i u -i u0 )= ax( u-u0 ) pour une ficelle Dans les deux cas, V r (u 0 )={u {,, U} / d(u,u 0 ) r } Exeples: - Pour une rille : Dans le cas d'une rille 0x0, les unités qui constituent le voisinae de rayon de l unité 34) repérée par le bipoint (4,4) vérifient la relation: ax( i u -i 34, j u -j 34 )= ax( i u -4, j u -4 ) La fiure9 représente une telle rille où l'unité 34 correspond à la case roue et ses voisines aux cases bleues, c'est-à-dire les unités, 3, 4, 5, 6, à 6, 3 à 36, 4 à 46, 5 à 56. La diension 3 ne fournit pas des cartes suffisaent lisibles, ais elle est techniqueent facile à réaliser 4
La classification de Kohonen (,) (,) 3 0 (,) 6 0 34 (4,4) 5 56 9 9 00 Fiure 9 :Voisinae de rayon pour une rille - Pour une ficelle : Le voisinae V (5) de l unité 5 l'unité roue de l exeple de la fiure 0 est constitué des unités 4, 5, 6 les unités bleues et roues. 3 4 5 6 7 8 9 Fiure 0 : Voisinae de rayon pour une ficelle b) Fonction de voisinae Le rayon peut varier au cours du teps on note alors V r(t) (u) le voisinae de l unité u à l'instant t, on a : V r(t) (u 0 )={u {,, U} / d(u,u 0 ) r(t) } Exeple de fonction de rayon : A titre d exeple, on propose la rèle suivante en pourcentae du nobre d itérations de l alorithe T résuée par le raphique de la fiure : 5 Pour t Τ, r= 00 5 75 Pour T < t T, r= 00 00 75 Pour T < t r=0 00 5
Analyse de données à l'aide des cartes de Kohonen rayon 0 5% 5% 5% 5% Fiure : Répartition en pourcentae du nobre d'itérations utilisées pour chaque rayon - L'alorithe : Les observations sont esurées par p variables quantitatives et forent un nuae de points de R p. A chaque itération t, l'unité u est caractérisée par un vecteur code G u (t) éaleent de diension p. L apprentissae de l alorithe se fait coe suit. - L initialisation des vecteurs codes dans l espace R p. On initialise les vecteurs codes par un tirae aléatoire dans l enveloppe convexe des observations ou dans l enseble des observations ou encore dans le preier plan fourni par une préalable analyse en coosantes principales. Nous utilisons le plus souvent la deuxièe solution. - A chaque étape t, - On présente l'observation x=x(t+) extraite au hasard de la base de données. - On déterine l unité anante u 0 coe celle dont le vecteur codeg est le plus près de x au sens de la distance choisie dans R p, c est-à-dire, celui qui réalise : x G u0 = in u x G u - On déterine les voisins de u 0 suivant la rèle de voisinae à l'instant t. - On odifie les vecteurs codes de u 0 et des unités voisines de u 0 par les transforations suivantes : u 0 6
La classification de Kohonen G ( t + ) = G ( t) + η ( t)( x G ( t)), u V r(t) (u 0 ) 3 u u G ( t + ) G ( t), pour les autres unités u = u u où η(t) est un paraètre d adaptation qui décroît vers 0 selon les critères de Robbins- Monro ( η ( t) = et η ( t) < ). Le vecteur code G u (t) est odifié pour devenir G u (t+) qui est le barycentre de x et de G u (t) de coefficients respectifs η(t) et -η(t). Cette loi renforce donc d une part la siilarité entre la nouvelle entrée x et les vecteurs codes de l'unité u 0 et de ses voisines et d autre part la siilarité entre les vecteurs codes des unités de V r(t) (u). Après l apprentissae de la carte de Kohonen, chaque unité u est représentée par son vecteur code G u. La classification de Kohonen de la base de données consiste alors à associer à chacun de ses vecteurs la classe définie par le nuéro de l unité qui ane lorsque l on présente ce vecteur. L alorithe de Kohonen nous peret de classer les observations dans U classes, en ajoutant à la propriété usuelle les classes reroupent des observations seblables la nuance suivante : vecteurs siilaires appartiennent à la êe classe ou éventuelleent à des classes voisines. Le rand intérêt d une telle classification est que le voisinae entre les classes est porteur d inforations, cette propriété sera exploitée dans les applications suivantes. Un point sur les avancées théoriques concernant l'alorithe de Kohonen. Si la siplicité de l'alorithe se traduit par une facilité à le proraer, il offre encore une résistance aux athéaticiens qui cherchent à établir ses propriétés et sa converence vers un état stable. Le seul cas où l'étude de ces propriétés est achevée est le cas où la base de données est de diension et la structure de la carte une ficelle, un bilan coplet de l'état des recherches est par exeple présenté dans Cottrell et al. (998) [30]. La preière déonstration, dans le cas où la base de données suit une distribution unifore et la fonction de voisinae affecte le êe poids aux deux voisins de l'unité 3 C est-à-dire les vecteurs codes des unités voisines de u 0 7
Analyse de données à l'aide des cartes de Kohonen anante (Cottrell et Fort []), a été énéralisée d'une part à une rande classe de distributions (Bouton et Paès [, 3]) et à une structure de voisinae plus énérale par Erwin et Al. [37, 38]. L'auto-oranisation a fait l'objet d'une récente étude de Sadehi [88, 89]. Finaleent Fort et Paès [44, 45] en collaboration avec Benaï [8] ont achevé la déonstration de la converence presque sûre vers un état unique, après auto-oranisation, pour un enseble de fonctions de voisinae très lare et une rande classe de distributions des entrées. Dans le cas ultidiensionnel, les résultats sont oins avancés. On peut citer les travaux de Fort et Paès [44, 46] et Flanaan [4, 4] qui aboutissent pour le oent à des résultats incoplets. Illustration pas à pas de l apprentissae : L exeple cas de 300 fores siulées coe il l'est indiqué au pararaphe. va servir de support à l illustration de l apprentissae réalisée en représentant l état de la carte de Kohonen à différentes étapes de l alorithe. L initialisation : A chacune des 00 unités, on affecte un vecteur tiré au hasard dans la base de données. La carte de la fiure représente ces unités dans lesquelles sont tracées les fores de leurs représentants. A ce stade, l ordre des unités ne correspond pas à une oranisation des fores. Présentation du preier éléent : Le preier individu présenté est tiré au hasard dans la base de données, il est représenté dans la fiure 3. Le vecteur code le plus proche est celui de l unité 4 (l unité anante est celle qui est repérée, dans la fiure 4 par un fond bleu). Preière odification au rayon : Les unités odifiées sont la 4 et ses 4 voisines elles sont repérées par un fond roue sur la carte de la fiure 4 (pour le rayon, ce sont énéraleent 5 vecteurs codes qui sont transforés ais l unité 4 est sur un bord). Dans ces unités sont représentées les fores des 8
La classification de Kohonen vecteurs codes avant la odification et après celle-ci. L espace blanc entre ces deux courbes peret de visualiser l apleur de cette odification. Fin de l apprentissae au rayon : L état de la carte à la fin de l apprentissae au rayon est représenté par la carte de la fiure 5. Dès ce stade, l oranisation des unités sur la carte correspond à un ordonnanceent des fores. Les fores des vecteurs codes des unités voisines sont seblables. Preière odification au rayon : L apprentissae au rayon sert à affiner l oranisation déjà en place. Lors de la présentation de l individu i de la base de donnée (fiure 6), l unité 33 est la anante et les 9 unités,3,4,3,33,34,4,43,44 sont odifiées (fiure 7). On constate que l apleur de la odification est, à ce stade, plus faible qu au début de l apprentissae puisque l espace blanc entre les vecteurs codes avant et après leur odification est devenu trop fin pour être visible. Fin de l apprentissae au rayon : La carte de la fiure 8 ontre que la carte a ardé la structure de la fin de l apprentissae au rayon. Elle s est en fait affinée. Apprentissae au rayon 0 : Pour ce rayon, seule l unité anante est odifiée, ici l unité 79 (fiure ), la odification à chaque pas est très faible. Cet apprentissae sert à rapprocher les vecteurs codes des barycentres des classes. Fin de l apprentissae : Dans l état final, les fores sont ordonnées sur la carte de la fiure. 9
Analyse de données à l'aide des cartes de Kohonen Fiure : L'initialisation Fiure 3 : Preier individu présenté 3 4 6 63 Fiure 4 : Preière odification des vecteurs codes au rayon 30
La classification de Kohonen Fiure 5 : Etat de la carte à la fin de l'apprentissae au rayon Fiure 6 : Preier individu présenté pour l'apprentissae au rayon Fiure 7 :Preière odification des vecteurs codes au rayon 3
Analyse de données à l'aide des cartes de Kohonen Fiure 8 : Etat de la carte à la fin de l'apprentissae au rayon Fiure 9 : Preier individu présenté pour l'apprentissae au rayon 0 Fiure 0 : Preière odification des vecteurs codes au rayon 0 3
La classification de Kohonen Fiure : Etat final de la carte Variantes de l alorithe de Kohonen : Il arrive que le nuae de points possède une caractéristique particulière et on souhaite, bien entendu, que la classification la traduise soit par la structure de la carte, soit par les représentants des classes. Dans l exeple, la consoation des canadiens, est expriée en p x i j= j pourcentaes, et les individus vérifient donc la contrainte i, =. Les vecteurs codes résultants de la classification de Kohonen étant des barycentres de ces individus, ils j conservent cette relation on a en effet t, u, G u ( t) =. Et pour la êe raison, toute propriété linéaire de la sorte sera transise aux centres de classes. En revanche si les coposantes des x i suivent une relation non linéaire, il n y a aucune raison qu elle se conserve. Par exeple, dans l étude de la consoation d électricité présentée au chapitre 6, j les individus qui sont des profils satisfont à la propriété suivante: i, x =. Or cette propriété ne se conserve pas si on n aénae pas l alorithe. Il est en effet possible d utiliser des variantes de l alorithe ieux adaptées aux particularités des données. Dans l étude de la consoation d électricité, chapitre 6, on a p j= p j= 33
Analyse de données à l'aide des cartes de Kohonen défini une variante perettant de conserver la propriété coune aux individus p j ( i, x = ). On y présente éaleent un exeple de odification de la structure de la j= carte, le rectanle y a été replacé par un cylindre, qui peret de prendre en copte la saisonnalité interne à la série teporelle. Ces variantes sont présentées au chapitre..4 La relation entre la éthode basée sur la classification de Kohonen et les autres éthodes. La classification de Kohonen par rapport aux autres éthodes : Si la notion de voisinae lui est particulière, la classification de Kohonen a des analoies avec certaines éthodes présentées au chapitre. et des propriétés qui perettent d'envisaer d'éventuels couplaes avec elles. Pari elles, l'alorithe de Lloyd (ou le Siple Copetitive Learnin) est exacteent celui de Kohonen à 0 voisin. Ces deux techniques de classification sont ieux adaptées aux randes bases de données que les alorithes coe celui de Fory qui oblient à classer tous les individus à chaque itération ou celui de la classification hiérarchique avec la distance de Ward dans lequel il faut calculer toutes les distances entre les centres de classes êe s'il existe dans chaque cas des aénaeents qui réduisent les coûts inforatiques. La classification de Kohonen est robuste au sens où le résultat ne peut être randeent odifié par l ajout d un nouvel éléent à la base de donnée si celui-ci n est pas trop extravaant (valeur erronée ou aberrante). Cette propriété est aussi vérifiée par la éthode des centres obiles ais n'est pas partaée par la classification ascendante hiérarchique dont le résultat peut être reis en cause par l'apport d'un individu 34
La classification de Kohonen suppléentaire. Par contre, cette dernière est la seule à fournir exacteent le êe résultat quand on relance l'alorithe car les autres qui aboutissent à un iniu local de la soe des carrés des écarts aux centres de classes dépendent de l'ordre de présentation des individus et de l'initialisation. Ces éthodes peuvent être copléentaires et donner naissance à des cobinaisons hybrides du type centres obiles classification hiérarchique (dont on peut trouver une présentation dans Won (98) [04]), carte de Kohonen Lloyd (expliquée dans Debodt, Cottrell, Verleysen (999) [33]) ou carte de Kohonen classification hiérarchique. Il n y a pas plus de rèles pour déteriner le nobre de classes U dans les éthodes de type Kohonen que dans les classifications classiques. Seuls les critères habituels tels que les tests de Fisher et Wils peuvent être utilisés. De plus, auenter le nobre de classes sinifie passer de U classes à U+ dans le cas d une ficelle et n² classes à (n+)² dans le cas d une rille (U=n n). Dans le cas de la classification de type Ward, on préfère U classes plutôt que U+ si le saut d inertie entre ces deux reroupeents est faible (par rapport au saut entre les niveaux U- et U). Mais cet outil ne peret ni de choisir le eilleur saut d inertie ni celui du eilleur niveau de classification. 35
Analyse de données à l'aide des cartes de Kohonen 36
3 Analyse de données en utilisant les cartes de Kohonen 3 Analyse de données en utilisant les cartes de Kohonen L'alorithe de Kohonen qui a été présenté et coparé à d'autres éthodes de classification au pararaphe va aintenant être exploité dans le cadre de l'analyse de données. On peut se deander, avant de développer ses propriétés, en quoi ses caractéristiques perettent d'envisaer qu'il soit ieux adapté à certaines données ou à certaines analyses que les éthodes classiques. On a déjà sinalé précédeent (voir au pararaphe ) que les projections sur des plans produits par les analyses factorielles ne sont pas adaptées à des bases de données qui nécessitent une représentation dans des espaces de diension trop rande (supérieure à 4). Cela pose des problèes dans la pratique de visualisation et de synthèse. De plus, on souhaite utiliser des bases de données définies éventuelleent par un plus rand nobre de variables. Aujourd'hui, on espère aéliorer les éthodes existantes en les coplétant. 37
Analyse de données à l'aide des cartes de Kohonen Il est en effet frustrant qu'une base de données plus rande ne fournisse pas une inforation exploitable sinificativeent plus iportante. La raison en est que les variables ajoutées sont secondaires en pouvoir explicatif des individus et qu'elles les influencent sous deux fores : le cuul et la spécificité. Le cuul des variables secondaires qui peut prendre une iportance sinificative par rapport aux variables priaires est rareent linéaire et l'addition de nobreux facteurs ne constitue pas un facteur facile à interpréter. D'autre part, les variables secondaires ont énéraleent un effet, non pas sur l'enseble des individus ais sur un roupe, c'est un effet de spécificité que traduit al la linéarité. Dans les couplaes entre analyses factorielles et classifications présentés dans la suite et que l'on peut trouver dans des anuels tels que celui de Lebart, Morineau, Piron (995) [68] ou dans Won (98) [04] cet effet peut être pris en copte par la classification, ais perdu par le systèe de projection inhérent à l'analyse factorielle. Ceci vient d'ailleurs d'un problèe plus énéral, le couplae analyse factorielle classification n'optiise pas la représentation de la classification et inverseent la classification n'optiise pas l'explication de la représentation pour des raisons développées dans la section suivante. Or, c'est préciséent ce que fait l'alorithe de Kohonen où la représentation et la classification sont juelées et c'est pourquoi il peut prendre en copte une auentation de l'inforation inorée de l'analyse classique et apporter ainsi un plus par rapport aux autres éthodes. L'autre apport est celui d'une éthode offrant à la fois une rande facilité d'interprétation, une rande souplesse d'utilisation on peut choisir la distance et donc l'adapter à un cadre d'étude assez lare et perettant des représentations raphiques de nobreuses sortes de bases de données en respectant leur topoloie. Ces représentations peuvent rendre cette éthode aussi attractive et souvent ieux adaptée que les éthodes linéaires dont un exeple siple en trois diensions sera étudié dans ce chapitre. Dans la suite, seront développés des outils pour exploiter au ieux les possibilités de cet alorithe en particulier, la représentation de la dispersion et de la discriination des classes, l'analyse des variables quantitatives au oyen de variables qualitatives sous fore de cartoraphies, l'analyse locale. 38
3 Analyse de données en utilisant les cartes de Kohonen 3. Analyse de données appliquées en pratique. Dans cette section sont présentés d'une part le couplae analyse factorielle classification dont les représentations sont dans le êe esprit que celles des cartes de Kohonen telles qu'elles seront développées dans la suite, et d'autre part l'analyse de données avec le perceptron ulticouches qui constitue une approche par les réseaux de neurones. Par la suite, on va ontrer coent l'alorithe de Kohonen répond à la fois au souci de produire des sorties raphiques explicites de la preière technique et d'échapper à la contrainte linéaire de la seconde. D'autres études ont fait l'objet de coparaisons entre les possibilités qu'offrent respectiveent l'alorithe de Kohonen et les éthodes classiques (coe par exeple l'analyse en correspondance [5 et 6]. 3.. Analyse linéaire des données. Pari les éthodes linéaires, l analyse factorielle est très souvent utilisée pour explorer de rands tableaux de données. Elle consiste à rechercher la eilleure structure euclidienne approchant un nuae de points, d abord un plan, puis un espace à 3 diensions, etc... Ces éthodes sont très appréciées, car elles produisent des représentations raphiques par projection de la base de données. En effet, elles fournissent les axes principaux d'inertie dans l'ordre de leur iportance. Ceci peret de choisir le plan sur lequel projeter pour voir au ieux le nuae de points c'est-à-dire celui qui contient le axiu d'inertie, appelé plan principal et obtenu à partir des deux preiers axes. La contribution du troisièe axe peret de construire l'espace à trois 39
Analyse de données à l'aide des cartes de Kohonen diensions qui épouse le ieux le nuae de points, le quatrièe axe coplète ce dernier pour obtenir l'espace de diension quatre etc.. Néanoins, l espace de diension 3 se déduisant des preiers plans est difficile à iainer sans expérience et cela devient rapideent ipossible dans les diensions supérieures. C'est ce qui explique que l'on ait des difficultés pour analyser les bases de données qui ont une structure de diension intrinsèque assez rande (supérieure à 4). Pari les autres inconvénients, on peut indiquer que les axes principaux sont sensibles aux points extrêes ou aberrants ce qui entraîne des problèes de robustesse. Et il est nécessaire de contrôler cette influence pour avoir une représentation raphique sinificative de la base de données. De plus, la projection sur un plan d un nobre de points très iportant (>>00) peut charer le raphique au point de le rendre illisible. Enfin, elle peut entraîner des distorsions fâcheuses et superposer des points qui peuvent être éloinés dans l espace. Pour pallier ces lacunes, on trouve dans l'analyse classique le couplae classification analyse factorielle qui apporte une réelle aélioration. On verra, par la suite que l'alorithe de Kohonen qui conserve l'esprit de ce couplae va plus loin dans les liens entre classification et représentation. Couplae de l analyse factorielle avec une classification : Il consiste à effectuer une classification sur l espace entier, les classes sont ainsi constituées à partir de l enseble de l inforation et pas seuleent à partir du sous espace à ou 3 diensions qui sert à l interprétation. La représentation des classes sur les plans auente l inforation et allèe les raphiques de l'analyse factorielle. De plus, l éventuelle possibilité fournie par la classification de déteriner les individus arinaux aéliore la robustesse. Néanoins, êe si le plan principal est le plan qui contient le axiu d inertie, l analyse linéaire n optiise pas nécessaireent la séparation des classes et de êe la classification n est pas conçue pour expliquer au ieux les projections qui servent de représentation raphique dans l analyse factorielle. Cette rearque, déjà faite en introduction du pararaphe 3 est développée dans la section 3.7.3 où une base de données est analysée à la fois par cette éthode et par l'alorithe de Kohonen en vue d'une coparaison. 40
3 Analyse de données en utilisant les cartes de Kohonen 3.. Analyse des données avec les réseaux de neurones. Coe éthode neuronale d analyse des données pour replacer les éthodes linéaires classiques quand celles-ci ne s appliquent plus, le perceptron ulticouches qui adet en entrée à la fois des variables qualitatives et quantitatives peut être une solution. Cependant, coe pour tout apprentissae supervisé, il est nécessaire de connaître les classes des observations utilisées pour l apprentissae, ce qui est une situation particulière. De plus, êe si beaucoup de prorès ont été réalisés depuis l époque de la «boite noire» pour ieux choisir l architecture du réseau, pour supprier les connexion non sinificatives, entre autres il n est pas facile d interpréter le odèle, d en extraire les variables principales, ni de déduire du résultat une représentation des observations respectant la topoloie de l'espace d'entrée. Ce enre de odèle est, en fait, plus approprié pour la réression, pour la prévision à court tere et pour la classification sans visualisation ni interprétation. La prévision à court tere sera développée dans le chapitre 4.4. en êe teps qu'une présentation du perceptron ulticouches 3. Analyse de données à l aide des cartes de Kohonen Coe nous l avons décrit dans la section.3, le preier résultat obtenu à la suite de l apprentissae est une classification des N observations en U classes (une par unité, certaines étant éventuelleent vides), représentées par le vecteur code associé et liées entre elles par une notion de voisinae. Pour exploiter au ieux la carte de Kohonen, il est naturel d utiliser les cases qui sybolisent les unités pour y représenter certaines caractéristiques des individus. En 4
Analyse de données à l'aide des cartes de Kohonen particulier, on peut y tracer les représentants des classes. Si on s'appuie sur l'exeple de la consoation des Canadiens, après avoir réalisé l'apprentissae de l'alorithe de Kohonen sur cette base de données, on peut représenter la carte de sortie de la fiure, ici une rille, où dans chaque unité est représenté le vecteur code associé. Pour coprendre la sinification de ces courbes, on peut se référer à la section. qui présente les exeples. On constate que les fores des vecteurs codes de deux unités voisines se resseblent (relativeent aux autres). De plus, dans certaines unités, le tracé du vecteur code fait apparaître claireent le type de consoation doinant chez les individus de la classe par exeple la consoation pour le loeent doine en effet dans les unités 5, 6, 7, 3, 4 et 5. Une fois que les classes ont été définies, tous les critères de la statistique classique peuvent être utilisés pour esurer les variances intra classes et inter classes. En copléent, nous proposons de les visualiser par des éthodes raphiques qui superposent ces résultats avec les propriétés topoloiques des cartes de Kohonen. Fiure : Les vecteurs codes sont représentés dans leur unité d'affectation 4
3 Analyse de données en utilisant les cartes de Kohonen 3.3 niveaux de classification Le nobre de vecteurs codes U étant rand (pour une rille, dans nos exeples U=00), un niveau de classification plus rossier peut être éaleent révélateur. Un niveau élevé est intéressant, car il fournit une qualité d analyse plus fine et coprie oins l inforation que si l'on résue l enseble des individus par les représentants d un petit nobre de classes. Par contre, une classification qui cuule niveaux de reroupeent peret d'avoir l'analyse fine de celle qui a un rand nobre de classes avec le recul et les propriétés de synthèses de celle qui en a peu. Elle est de fait plus efficace qu'une classification à un seul niveau de reroupeent ou que deux qui ne s'eboîtent pas. Pour passer du reroupeent en U classes de la carte de Kohonen à un niveau plus rossier, une classification hiérarchique des U vecteurs codes est suffisante. Il est à noter que U est en énéral très petit devant le nobre de données N et cette deuxièe classification a donc un coût de calcul très faible. Une représentation des deux niveaux de classification sur la carte perettra de prendre en copte la notion de voisinae et constituera ainsi un enrichisseent par rapport au couplae classique centres obiles - classification hiérarchique. Dans la suite, on appellera icro-classes les U classes de Kohonen et acro-classes celles qui résultent de la classification hiérarchique qui les reroupe. Pour visualiser conjointeent ces deux classifications, chaque unité de la carte est replie avec la couleur de sa acro-classe. Quand on applique cette éthode à l'exeple, on obtient la fiure 3 qui représente ainsi le reroupeent des 00 icro classes en 0 acro-classes. L avantae de la double classification est la possibilité d analyser au niveau acro d où éerent les conclusions énérales et au niveau icro qui révèle les phénoènes plus précis et plus particuliers. Le niveau icro infore de plus sur la façon dont se fait le passae d une acro classe à une autre. 43
Analyse de données à l'aide des cartes de Kohonen Dans les applications où nous avons utilisé cette éthode (certaines sont présentées dans ce docuent en annexe), les acro classes reroupent des icro classes voisines. Cette rearque est très intéressante, car elle confire la propriété de respect de la topoloie des cartes de Kohonen. Néanoins, on peut concevoir des cas où une acro classe est constituée de roupes de icro classes. Par exeple des données repliées en fer à cheval peuvent provoquer ce phénoène. La section suivante présente un nouvel outil qui coplète l'inforation des acro classes en aidant à coprendre la structure de la carte elle êe. Fiure 3 : Au raphique précédent a été rajouté une couleur du replissae qui correspond à la acroclasse associée à l'unité 44
3 Analyse de données en utilisant les cartes de Kohonen 3.4 Représentation des distances inter classes Coe il a déjà été suéré précédeent, il est très iportant d avoir une bonne représentation de la éoétrie de la carte. La technique qui va être présentée aintenant a pour but d'auenter la connaissance de la structure de la carte elle-êe en ne s'intéressant qu'aux vecteurs codes. La sortie de l alorithe est constituée de U classes liées par une rèle de voisinae et représentées par les vecteurs codes. Les distances entre les classes sont irréulières et les U vecteurs codes enendrent une surface dans l espace de diension p qui est le nobre de variables quantitatives. La représentation de la sortie par une rille plane où toutes les unités sont disposées à éales distances oet naturelleent ces propriétés. Pour éviter que cela entraîne des confusions lors de l interprétation, nous proposons de représenter les distances entre les classes à partir de la éthode proposée par Cottrell, De Bodt [7], dont le principe est le suivant: La représentation des distances respectives entre les vecteurs codes des unités voisines u et u' se fait à l'aide d'un octoone dont les soets S u,u' se rétractent du bord vers le centre de l'unité u d'une lonueur l u,u' proportionnelle à la distance entre G u et G u'. On a donc l u, u' = C Gu G u' p R La fiure 4 illustre la déforation des bords de l'unité u dont le vecteur code associé est plus proche, dans l'ordre, de celui de l'unité u-n, puis u+-n, et enfin, de l'unité u+. 45
Analyse de données à l'aide des cartes de Kohonen u-n u+-n lu,u-n lu,u+-n Su,u-n Su,u-n+ Su,u-n- Su,u- DCS lu,u+ u u+ Su,u+ Su,u+n- Su,u+n Su,u+n+ Su,u-n+ DCS : Soet de l octoone entre les unités u et u-n+, c est-à-dire en écriture cartésienne les unité (i,j) et (i-, j+) Distance du centre au bord, ou à l anle, de l unité Fiure 4 : Chaque soet de l'octoone associé à l'unité u se rétracte d'une lonueur proportionnelle à la distance entre les vecteurs codes des unités qui partaent le bord ou l'anle correspondant - Choix de la constante C: On ne peut pas rétracter le soet d une lonueur supérieure à la distance DCS du centre de l octoone au soet : l u,u' <DCS () M u, u' Considérons M la distance axiu entre vecteurs codes voisins sur toute la carte, { G G, u' voisin de u} = sup. Une constante C qui vérifie u u' peret de vérifier la relation (). Dans la pratique, le choix C DCS C = µ, avec 0<µ<, M = 3 DCS M s est révélé satisfaisant dans les études pratiques que nous avons accoplies. Il peret en effet de bien visualiser la distance entre les classes et laisse les octoones suffisaent rands pour superposer les classifications du chapitre 3.3 coe on le verra dans la suite. 46
3 Analyse de données en utilisant les cartes de Kohonen La carte obtenue est du type de celle de la fiure 5 réalisée pour la base de l'exeple des consoations canadiennes. On constate que la rande dispersion a lieu dans le quart de carte bas-auche de la carte. Fiure 5 : Carte des distances Superposition des représentations des distances entre les vecteurs codes et les acro-classes: Pour superposer la représentation de la dispersion à celle des acro classes, il suffit d associer à chaque unité u la couleur correspondant à la acro classe de G u coe précédeent. Il s ensuit la nouvelle carte de la fiure 6 qui suscite quelques rearques. La superposition des acro-classes avec les distances entre les classes, fait apparaitre en énéral que les frontières des acro-classes coïncident localeent avec les plus randes distances entre les icro-classes. La notion de local est ici priordiale, car il est faux de dire que les chaneents de classes coïncident avec les randes distances absolues. Cependant, quand on ne considère que les unités de deux acro-classes (ce qu'on appelle local), la séparation de celles-ci se situe à l'endroit des randes distances entres les icro-classes de la zone. Ceci confire la pertinence du second niveau de classification. D'autre part, un 47
Analyse de données à l'aide des cartes de Kohonen chaneent de acro-classes qui se fait avec une petite distance sinifie qu une population hooène de taille iportante a été divisée en deux et que le passae d un roupe à l autre se fait avec une continuité. Enfin, la notion de rande distance est locale. En effet, on trouve à l intérieur de certaines acro-classes des distances qui sont pari les plus randes de la carte. Par contre, dans les acro-classes qui reroupent un rand nobre de icro-classes, les distances sont plus petites. Ce phénoène provient du fait que l alorithe affecte plus d unités à une population qui possède un ros effectif. Il convient donc de ne coparer les distances que localeent. Pour expliquer ce phénoène, considérons la base de la consoation des canadiens qui a fourni la classification de la fiure 6. Rajoutons à cette base les individus de la ère acro-classe (de sorte qu ils apparaissent fois dans la base). L alorithe de Kohonen affecte plus de classes à la preière acro-classe et de fait les distances entre ses icro-classes deviennent plus petites. Fiure 6 : Les octoones de la carte des distances sont replis de la couleur qui correspond à la acroclasse de l'unité 48
3 Analyse de données en utilisant les cartes de Kohonen 3.5 Contenu des classes et hooénéité. La dispersion intra-classes est éaleent une question qui érite d'être étudiée. Il est en effet iportant d'avoir une idée de l'hooénéité des classes. De plus, dans le cadre des cartes de Kohonen, il est très utile de savoir si la qualité de cette variabilité est liée à la topoloie. Il est donc naturel de traduire cette dispersion sur une carte. Pour cela, le choix qui a été fait consiste à représenter siultanéent chaque individu dans son unité d'affectation coe sur la fiure 7 coentée ci-après. Ce n'est donc pas une esure de la dispersion qui est renseinée sur la carte ais plutôt la qualité de celle-ci. On peut en effet y vérifier si l'hooénéité de la classe est bonne, ais éaleent si on y trouve plusieurs sous-classes ou encore y déceler les valeurs arinales ou aberrantes. Appliqué à l'exeple 3 des données bi-horaires, ce type de représentation fournit la carte de la fiure 7 qui traduit une hooénéité satisfaisante. Les individus de chaque classe ont en effet tendance à se superposer pour créer un profil coun très net, l'épaisseur du trait reflétant la léère variabilité. Dans l'unité 97, on distinue deux individus qui ne sont pas des valeurs aberrantes ais plutôt des valeurs arinales. Dans l'unité 7, on constate que la perte d'hooénéité se situe sur les preières heures. Dans la classification des consoations électriques de la deuxièe partie, on trouve des unités où cohabitent deux roupes les jours fériés et les dianches ce qui se traduit par des profils qui se reroupent autour de deux fores voisines ais distinctes. C'est donc bien la qualité de l'hooénéité qui est représentée sur ces cartes, elle sert avant tout de uide pour orienter d'éventuelles études. 49
Analyse de données à l'aide des cartes de Kohonen Fiure 7 : Tous les individus et l'effectif de chaque classe sont représentés dans leur unité d'affectation 3.6 Croiseent de la classification avec une variable qualitative. On a vu précédeent coent répartir les individus d'une base de données en U classes qui respectent une relation de voisinae à partir de p variables quantitatives. On va aintenant chercher à caractériser ces roupes par une variable Q pari les q variables qualitatives qui n'ont pas participé à la classification. La éthode classique consiste à croiser la variable qui affecte chaque individu à sa classe avec chacune de ces q variables. Elle aboutit à un tableau de continence de taille U fois le nobre de odalités de la variable. Dans nos exeples, U prend des valeurs iportantes entre 64 et 00 ce qui rend la représentation en tableau inadaptée. L'exploitation d'un aussi rand nobre de classes ne peut se faire qu'avec le 50
3 Analyse de données en utilisant les cartes de Kohonen support des cartes et la notion de voisinae. On procède donc de la êe façon que dans les sections précédentes en traçant dans chaque unité u l'inforation associée ici la fréquence avec laquelle apparaît chaque odalité dans la population de la classe C u. On appelle cette représentation la cartoraphie de la variable Q qui se construit coe suit. Pour chaque unité u, on extrait de la base de données les N u individus de la classe C u. On calcul la fréquence F u, de la odalité de la variable qualitative Q dans la classe C u par :, = )= x C u F u N { Q( x } u Pour résuer les fréquences F u, de la classe C u, on peut représenter un caebert coe sur la fiure 8 où la portion de la odalité vaut F u, π. Chaque odalité est alors représentée par une couleur de replissae. La fiure 8 représente le cas où les éléents de l unité prennent les odalités, et 3 de Q avec la êe fréquence de 3. En dessinant dans chaque unité u le caebert associé à F u, on obtient la cartoraphie de la variable Q sur l enseble de la base de données coe sur les fiures 9, 30, 3 et 3. Elle répond aux questions du type «Qui sont les individus de telle classe?» «Existe-t-il une caractéristique coune aux voisins d une classe?» «Pouvons nous qualifier un reroupeent de classes par un critère qualitatif?». Q=3 Q= Q= Fiure 8 : Caebert qui représente la répartition des odalités, et 3 de la variable Q 5
Analyse de données à l'aide des cartes de Kohonen Exeple de la consoation des canadiens: Dans le cadre de l exeple de la consoation des canadiens, la cartoraphie du critère pauvreté- richesse (fiure 30) indique que les unités à forte proportion de riches et quasi- riches sont placés plutôt aux extréités de la diaonale anle supérieur droit - anle inférieur auche, les pauvres et quasi - pauvres occupent, pour leur part, la zone centrale. De son côté, la cartoraphie des propriétaires- locataires, fiure 9, oppose sur cette diaonale les propriétaires placés autour de l anle inférieur auche et les locataires à l opposé. La cobinaison des deux cartoraphies fournit ainsi une preière indication sur la répartition des canadiens selon leur consoation. Par exeple, la forte dépense dans le loeent pour la population des unités 5, 6, 7, 3, 4, et 5 constatée dans la section 3. correspond à la consoation des locataires pauvres et quasi pauvres conforéent à la loique. Les autres critères apportent éaleent leur part d explication, l étude coplète est fournie en annexe avec l'étude discriinante qui a confiré l'ipression laissée par la carte. locataire propriétaire Fiure 9 : Cartoraphie des propriétaires-locataires dans l'exeple 5
3 Analyse de données en utilisant les cartes de Kohonen Fiure 30 : Cartoraphie de la richesse-pauvreté dans l'exeple Exeple 3 des données constituées des relevés journaliers d'une esure faite toute les deux heures: La cartoraphie des jours de seaine de la fiure 3 définit 3 randes zones: Celle des dianches les unités 8, 9, 8, 9, 8, 9, 38, 39, 48, 49, 50 et 59 celle des saedis les unités 7, 0, 7, 0, 7, 30, 37, 40, 47, 50, 58, 60, 69, et 70 et celle des jours de seaine. La fiure 3 peret de décoposer ces trois réions en fonction des ois. Par exeple, l'unité 3 est constituée des jours de seaine des ois de ai, juin, août et septebre, ses unités voisines 3,, 4 et 33 sont constituées des jours de seaine des ois de ai à septebre. Il serait intéressant de savoir coent sont répartis ces ois dans la réion de ces 5 unités ou à l'intérieur de chacune d'entre elles. C'est ce que propose l'outil présenté dans la section suivante. 53
Analyse de données à l'aide des cartes de Kohonen janvier février ars avril ai juin juillet août septebre octobre novebre décebre Fiure 3 : Cartoraphie des ois pour l'exeple 3 dianche lundi ardi ercredi jeudi vendredi saedi Fiure 3 : Cartoraphie des jours de seaine pour l'exeple 3 54
3 Analyse de données en utilisant les cartes de Kohonen 3.7 Analyse restreinte à une réion de la carte On a vu que l'alorithe de Kohonen pouvait replacer les analyses classiques lorsque celles-ci ne sont pas applicables. Cependant, la topoloie fournie par la carte de Kohonen définit naturelleent une notion de "localité" à partir de laquelle on peut réaliser des analyses linéaires restreintes, parfois judicieuses. Il suffit, en effet, d'extraire de la base de données les individus d'un enseble de classes voisines et de les analyser avec une technique classique. On parlera dans ce cas d'analyse locale. On note que la notion de localité provient directeent de la topoloie fournie par la carte de Kohonen. Le principe a été inspiré du papier de M. Bishop, M. Jordan, M. Tippin [0] qui propose une classification descendante hiérarchique où sont représentés les plans principaux de tous les ensebles d'individus constitués par toutes les classes de tous les niveaux de dissociation. Faire une étude des réions de la carte revient à ultiplier les études. Ces dernières doivent donc être siples et rapides. C'est pourquoi il est raisonnable de se contenter de déteriner le plan qui ajuste le ieux, au sens des oindres carrés, la base de données extraite c'est-à-dire le plan principal que définirait une analyse en coposantes principales de cette réion. Il peut éaleent être perçu coe une approxiation du plan tanent de la surface de la carte, en un point particulier de celle-ci (par exeple le vecteur code d'une unité) dont la projection associée est celle qui visualise le ieux le voisinae de ce point. L exeple 3 choisi pour illustrer les phénoènes de dispersion va servir à présenter cette approche. - Notations: On choisit sur la carte les unités voisines qui nous intéressent. L'enseble des individus affectés à ces unités constitue la base A des données extraites et on appelle P(A) le plan qui ajuste ce nouveau nuae de points. La projection de l'individu i de coordonnées x i dans R p sur P(A) est, elle, notée P(A)(x i ). - Technique d'ajusteent du plan: 55
Analyse de données à l'aide des cartes de Kohonen Coe nous soes supposés effectuer de nobreuses analyses locales, il est iportant que l ajusteent du plan s effectue rapideent. Nous avons choisi d utiliser l alorithe EM (...) pour construire le plan tanent afin d avoir un teps de calcul faible. Représentation: En projetant les individus sur le plan tanent en un point (unité) particulier de la carte, on peut réaliser une représentation raphique qui décrit la zone de voisinae de ce point râce au plan le ieux adapté à ce sous-enseble de la base de données (celui qui contient axiu d inertie). 3.7. Projections des observations de A dans le plan P(A). On peut arquer la projection des individus sur le plan par différents syboles. En choisissant un sybole qui contient des renseineents sur l individu, on peut cuuler de l inforation. Le sybole peut ainsi être le no, ais aussi le nuéro de la classe, la odalité correspondant à l observation pour les q variables qualitatives, la qualité de la projection ou les valeurs des variables quantitatives ayant participé ou non à l apprentissae. La qualité de la projection qual de l individu i pour le plan P(A) est esurée par: xi P( A) ( xi ) qual( xi ) = où x ( A) représente la oyenne de x pour la population A. x x i ( A) Ce ode de représentation facilite l étude de la dispersion sur le plan et les relations entre une classe et ses voisines (quand la population A contient plus d une unité). Application à l'exeple 3 des données bi-horaires: 56
3 Analyse de données en utilisant les cartes de Kohonen Les fiures 33, 34, et 35 sont 3 façons de représenter ces projections. On a choisi d ajuster la classe 3 (A est constitué de l enseble des observations classées dans l unité 3). Dans la fiure 34, les individus sont représentés par la variable qualitative qui renseine sur le ois. Dans la fiure 35, on a caractérisé l observation par sa qualité de projection. On constate dans cet exeple que les jours du ois de ai sont al représentés dans le plan au contraire des ois de juin, août, septebre. On a de plus un ouveent de juin à aoûtseptebre très claireent visible. Cette constatation invite à vérifier si ce ouveent reste vrai lorsque l'on projette sur ce plan les classes voisines coe le propose le chapitre suivant. Fiure 33 : Plan principal restreint à la classe associée à l'unité 6 ou plan tanent à la surface de la carte au point qui coïncide avec le vecteur code ce cette êe unité 57
Analyse de données à l'aide des cartes de Kohonen Fiure 34 : Les points sont repérés par le ois. Le ois de juin est plutôt à auche, ai au centre et août à droite Fiure 35 : Les points sont repérés par la qualité de leur projection. Les jours de ai sont al représentés par ce plan. 58
3 Analyse de données en utilisant les cartes de Kohonen 3.7. Représentation des classes voisines Coe nous l avons déjà souliné dans la section 3.4, l alorithe de Kohonen affecte davantae de classes aux populations qui ont un ros effectif. Il est donc possible que les propriétés constatées sur une unité soient celles d'un enseble élari à ses voisines. En particulier il est intéressant de vérifier si le plan qui peret de visualiser la typoloie d'une unité explique éaleent celle de ses voisines. Pour cela, deux approches sont possibles: La preière approche consiste à reprendre la êe représentation que précédeent en replaçant A par A et ses voisins, on note cet enseble V(A). Ceci chane P(A) en P(A V(A)) et peut odifier les conclusions (en particulier les axes principaux). Pour éviter que cette éthode ne énère trop d études, il vaut ieux posséder un critère de sélection de V(A), la deuxièe approche peut en fournir un. La deuxièe approche s'applique dans le cas où on veut priviléier l étude de A et en êe teps découvrir si les conclusions sont énéralisables, il faut dans un preier teps ajuster A par P(A) et projeter sur ce plan les individus de A V(A). Une classe voisine dont les individus ont un bon critère de projection et aènent aux êes conclusions que ceux de A peut lui être associée. C est aussi un oyen de choisir les classes qui éritent d être ajoutées à A dans une étude de type «preière approche». Exeple: On a choisi d ajuster la classe 3 par le plan P(3) et d'y projeter les classes voisines de 3 soit 3,, 4, 33. Les individus de l'unité 3 sont estiés de la êe façon qu à la section 3.7. et la projection des autres confire les êes conclusions (un ouveent de juin -juillet vers août-septebre). 59
Analyse de données à l'aide des cartes de Kohonen Rearques: Sur la carte de la fiure 38, on peut analyser la projection des individus des autres classes et distinuer ceux qui ont une qualité de projection satisfaisante. La carte de la fiure 36 ne peret pas de distinuer par ce plan les différentes classes. Les axes principaux ne sont pas discriinants des 5 classes, ce qui ontre que l analyse de données avec la carte de Kohonen a apporté un plus par rapport à une analyse linéaire à diensions. La carte de la fiure 37 ontre que l on peut énéraliser le ouveent juin-juillet -> août-septebre aux classes voisines. Fiure 36 : Plan principal restreint à la classe associée à l'unité 3 sur lequel sont projetés les individus affectés aux unités voisines 3,, 4, 33 60
3 Analyse de données en utilisant les cartes de Kohonen Fiure 37:Les points sont repérés par le ois. Les individus de juin-juillet sont à auche, de ai au centre et de août-septebre à droite Fiure 38: : Les points sont repérés par la qualité de leur projection. Les jours de ai sont al représentés par ce plan, les autres le sont très bien. 6
Analyse de données à l'aide des cartes de Kohonen 3.8 Coparaison avec les éthodes classiques. Dans ce chapitre, la classification à l'aide de l'alorithe de Kohonen va être coparée à la éthode présentée au chapitre 3.. qui couple l analyse factorielle avec une classification et en particulier l'exeple de l'analyse en coposantes principales couplée avec une classification hiérarchique qui utilise la distance de Ward. La base de données qui sert de test, issue d'une siulation, est celle représentée par la fiure 39 où le noyau de points a une fore de fer à cheval. Elle a été élaborée pour illustrer certaines liites de l'analyse en coposantes principales et coent la classification de Kohonen peut replacer une analyse factorielle quand celle-ci est al adaptée. Fiure 39 : Représentation du fer à cheval 6
3 Analyse de données en utilisant les cartes de Kohonen 3.8. L'exeple du fer à cheval Les représentations issues de l'acp. Preière étape: la classification de type Ward. La preière étape consiste à effectuer une classification de type Ward. Suivant la éthode présentée au chapitre I.., on a choisi 6 classes au reard des niveaux d'inertie. La couleur peret de repérer la classe des points sur la fiure 40. Dans la suite, tous les raphiques respecteront le êe codae des classes (une êe couleur correspond à la êe classe dans toutes les fiures). Fiure 40 : Les couleurs qui représentent la classe de l'individu aéliorent la lisibilité du raphique Deuxièe étape: l'analyse en coposantes principales La base de données étant de diension trois, on trouve trois axes principaux di, di, di3 qui contiennent 00% de l'inertie. Sur la fiure 4 est représentée la projection orthoonale du nuae de points sur le plan défini par les axes di et di. On constate d'abord que la représentation n'est pas spécialeent eilleure que celle de la fiure 40. De plus, la projection écrase la troisièe diension ce qui nous laisse penser que les classes noire, 63
Analyse de données à l'aide des cartes de Kohonen verte, et bleue sont élanées. Il est à noter que la classe jaune est bien isolée, au contraire de la verte, alors que la syétrie du nuae de points devrait aboutir à une êe qualité de représentation pour ces deux classes. Ceci aène deux rearques : la classification n'explique pas coplèteent la représentation sur le plan principal et la réduction de l'inforation induit en erreur par un phénoène d'écraseent classique dû à la projection. Sur la fiure 4 suppléentaire de la précédente est représentée le plan secondaire (di, di3). Les deux plans représentent ainsi trois diensions c'est-à-dire, dans notre exeple, l'enseble de l'inforation (la base étant de diension 3). Si la représentation n'est pas excellente, c'est donc uniqueent dû au systèe de projection. Fiure 4: Plan principal (di, di) 64
3 Analyse de données en utilisant les cartes de Kohonen Fiure 4: Plan secondaire (di, di3) - Rearques: On se rend copte dans le cas du fer à cheval, que êe sans réduire l'inforation, la représentation n'est pas coplèteent satisfaisante. En particulier les classes des verts, roues, aentas et jaunes sont ieux représentées que les classes des noirs et bleus. Cet exeple aussi et en évidence le fait que l'analyse en coposante principale n'optiise pas nécessaireent la représentation d'une classification avec laquelle elle serait couplée. 3.8. Utilisation de la classification à l'aide de l'alorithe de Kohonen. La fiure 43 représente le résultat de la classification de Kohonen. C'est un résué de l'inforation qui est représenté, ici, au contraire de l'analyse en coposantes principales du chapitre précédent. Dans chaque caebert, la part de couleur c est la proportion d'éléents de la classe de couleur c issue de la classification hiérarchique faite dans la section 3.7.3.. Il est noter que la représentation est conçue pour bien représenter la classification de Kohonen et pas forcéent la classification hiérarchique. 65
Analyse de données à l'aide des cartes de Kohonen Rearques: Les classes issues de la classification hiérarchique sont très bien différenciées et ordonnées d'une façon qui ontre la continuité et le ouveent interne de la structure du noyau. On a perdu la structure en fer à cheval, c'est-à-dire que les extréités du noyau de points ont tendance à se rapprocher. Deux surfaces, l'une courbe et l'autre plane, fournissent le êe type de carte. Cependant, le fait de ne pas retrouver la fore fer à cheval n'est absoluent pas frustrant dans la esure où la notion de fore n'existe plus dès que la diension excède 3. Fiure 43: La carte de Kohonen qui ajuste le fer à cheval 3.8.3 Coparaison entre la classification de Kohonen et l'analyse factorielle Différences d approche entre la classification de Kohonen et le couplae «classification analyse de données» issue de la statistique classique: Dans le cadre classique, l analyse de données est faite indépendaent de la classification. Chacune d entre elles n est donc pas conçue pour optiiser l explication de l autre. En effet, c est l enseble des variables ( de diension supérieur à 3) qui a déteriné la 66
3 Analyse de données en utilisant les cartes de Kohonen classification et seuls les deux preiers plans de l analyse factorielle (les 3 diensions principales) peuvent être exploités le plus souvent. Il n y a donc aucune arantie d avoir une bonne représentation de la classification, si on la projette sur ces axes. On ne percevra pas, entre autres, les classes issues de l inertie inorée dans ces trois diensions. En résué, la classification est indépendante de l analyse factorielle; si elle aide à son interprétation, elle n est pas conçue pour la copléter. Au contraire, dans le cas des cartes de Kohonen, la classification et la représentation sont liées. On cherche, en effet, une surface qui épouse au ieux le nuae de points dont l inforation est réduite à un nobre de classes fixes. Le souci de la représentation est, ici, de relater au ieux la classification. De plus, les contraintes iposées à la classification (contraintes de voisinae) ont pour but de faire éerer des propriétés qui sont traduites par la carte. Notre éthode prend donc en copte siultanéent les problèes de classification et de représentation. De son côté, l analyse factorielle recherche une structure linéaire, car c est la plus facile à représenter et la éthode de classification est choisie en fonction de caractéristiques de la base de données. Différences d exploitation: Dans le cadre de la statistique classique, au delà du plan principal, c est la valeur ajoutée qui est représentée. La diension est énéraleent réduite à 3 en raison de notre incapacité à interpréter les diensions supérieures. Dans l'alorithe de Kohonen, le support de représentation (ficelle, rille) est énéraleent d ordre inférieur à (les représentations en 3 diensions étant jusqu à présent peu lisibles) ais on ne fixe pas la contrainte de linéarité ce qui peret à la surface de ieux épouser le nuae de points. La contrainte de linéarité est bien plus forte que celle du siple voisinae. Elle rend la lecture du plan principal plus facile, ais peut coproettre la qualité de l ajusteent. Or, en pratique, c est surtout la continuité et la tendance qui sont exploitées, car la cobinaison linéaire des vecteurs propres n a pas toujours de réalité pour l'utilisateur. Par exeple, considérons le cas suivant : di et di sont les deux preiers axes d inertie, P la projection sur le plan principal et les individus i et i vérifient P(x i )=3 di+ di et 67
Analyse de données à l'aide des cartes de Kohonen P(x i )=di+0.66 di. Si M est la oyenne du nuae, coe le odèle est linéaire, x i et x i vérifient MP x ) = 3 MP( ). Mais l interprétation devient souvent x i et x i vont une êe ( i x i ' direction dans le sens «di et di positifs». En effet, di et di étant déjà difficiles à interpréter par rapport aux notions connues (les p variables) leurs cobinaisons linéaires telles que 3 di+ di le sont tout autant. Par le critère de voisinae, la carte de Kohonen traduit les qualités de continuité et peret de visualiser les tendances et les sens sans iposer la contrainte d ajusteent linéaire. Par conséquent, la classification par la carte de Kohonen a oins d exience pour presque autant de possibilités d exploitation. Bilan de la coparaison de l analyse factorielle et des cartes de Kohonen : La contrainte de linéarité de l'analyse factorielle est beaucoup plus forte que celle de voisinae des cartes de Kohonen, elle peut donc contrarier un bon ajusteent des données. Elle peret, néanoins, de faire des projections sur des plans qui sont des représentations plus failières aux utilisateurs que les cartes de Kohonen. Par contre, pour ces dernières, la représentation est conjuuée avec la classification, ce qui la rend plus fiable que la cobinaison classification hiérarchique analyse factorielle. De plus, les cartes de Kohonen ont des propriétés de robustesse que ne possède pas l analyse factorielle dont les axes principaux sont sensibles aux valeurs extrêes. Enfin, l enseble des bases de données où la carte de Kohonen peut être appliquée contient le doaine d application de l analyse factorielle. 68