L UTILISATION DES CARTES DE KOHONEN DANS LA CLASSIFICATION Patrick Rousset CEREQ rousset@cereq.fr
Quel apport pour une nouvelle méthode dans l analyse de grandes bases de données par rapport à des méthodes performantes et éprouvées? L évolution des enquêtes va vers plus d information : plus d individus enquêtés. plus de questions posées. L ajout d information doit aboutir à plus de connaissance. Ceci implique par exemple: Résoudre les problèmes de visualisation et de synthèse. Dépasser les 3 ou 4 dimensions principales. Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d axes). Percevoir des nuances de comportement chez certaines sous populations.
Plan Présentation de la classification de Kohonen. Quelques outils graphiques d analyse spécifiques. Quelques exemples de typologies à l aide de cet algorithme. Comparaison avec le couple classification-analyse factorielle. Quelques aspects théoriques sur l algorithme.
La classification de Kohonen Classification à nombre de classes fixé. Adaptée aux données de grandes tailles. Introduit une notion de voisinage entre les classes. Utilise un support graphique : la carte associée qui représente au mieux les résultats. Peut se voir comme une généralisation des centres mobiles (en particulier la version stochastique de Forgy).
La carte : Un réseau d unités organisées selon une structure particulière. Le réseau peut avoir plusieurs structures : La ficelle 1 2 3 4 5 6 7 C 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 La grille A 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 B 43 44 45 46 47 48 49 D C Le cylindre A LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE B
Caractérisation de la peau du visage. En collaboration avec Christiane Guinot (CERIES) Les données: La qualité de la peau de jeunes femmes. Individus: 212 jeunes femmes volontaires. 17 variables binaires correspondent au relevé de la présence ou de l absence de 17 critères (visuels comme «l aspect gras de la peau» ou tactiles comme «la sensation rêche au toucher») : La distance utilisée est la distance euclidienne.
Carte, classification et notion de voisinage. Classer les individus revient à associer à chacun d eux une unité de la carte. Dans Les individus cet exemple de on classes a choisi voisines une grille sont à 49 proches unités qui dans symbolisent l espace d entrée. 49 classes. Leur organisation sur la carte traduit la proximité inter-classes. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Quelques outils graphiques d analyse. Le principe est dans tous les cas d utiliser les cases pour représenter une ou plusieurs caractéristiques de la classe associée. Nom des individus. Liste de propriétés. Tableau de fréquences. Camemberts, histogrammes. Courbes. Box plots. Etc
Cartographie d une variable qualitative endogène ou exogène. L exemple du critère peau jaune 25 % des individus de la classe 14 ont une «peau jaune» 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Cartographie d une variable qualitative endogène ou exogène. L exemple du critère peau jaune Bleu: le critère est présent Rose: absent
La carte comme aide à l interprétation. La carte traduit au mieux la structure de voisinage. Elle permet de traiter ensemble les classes voisines qui ont une caractéristique commune (on parle alors de caractéristique d une région de la carte). Elle permet de percevoir des effets locaux ( une caractéristique qui distingue deux classes voisines). Elle indique lorsqu une caractéristique se ventile sur deux régions (deux zones non connexes sur la carte).
2 niveaux de classification. Les centres de classes sont regroupés en macro-classes à l aide d une classification hiérarchique. La couleur de fond de chaque unité indique la macro-classe. Ces Macro-classes regroupent en général des régions connexes et sont donc cohérentes avec la structure de voisinage. La couleur de fond des unités indique la macro-classe d appartenance.
Quelques exemples de typologies à l aide des cartes de Kohonen. La structuration de l offre de formation. Les profils de consommation des ménages canadiens. Les courbes : La consommation électrique journalière nationale polonaise. Les parcours professionnels.
Exemple 1 : La structuration de l offre de formation. En collaboration avec Josiane Vero (CEREQ) 428 organismes décrivent 1200 pôles de formation à travers 8 dimensions elles-même détaillées en items. L individu est le pôle. Les variables sont les items des dimensions. La distance est la distance du χ². Les dimensions d un pôle de formation pouvant être : Un domaine ou une spécialité de formation. Un public particulier. Un diplôme ou titre préparé. Un type de financeur ou client particulier. modalité de réalisation des formations (alternance, fest, ). Un niveau de formation visé. Une offre de service intégrant des prestations en amont ou en aval de la formation. Un territoire particulier.
La structuration de l offre de formation 1. Demandeurs d emploi Financement public l au V et VI s homologués au Vbis et VI ice aux personnes la collectivité ômes d'état 4. Formations diplômantes ômes d'état riés ômes d'état ices amont alités de réalisation Diplômes d'etat Diplômes d'etat Local NiveauIV Demandeurs d'emploi Financement public Local Niveau V et VI Titres homologués Service aval Niveau V et VI Titres homologués Niveau I et III Titres homologués Public multiple Titres homologués Service amont Niveau IV Modalité de réalisation Financement public Salariés Territoire national Niveau V et VI Titres homologués Service aval 5. Tertiaire administratif Service aval territoire national Diplômes d'état Niveau I et II Modalités de réalisation Services multiples Salariés 2. Services aux personnes et à la collectivité Services amont Zone région Salariés Niveau III Salariés Service amont Service amont Tertiaire administratif Salariés Territoire national 3. Tertiaire administratif 6. Titres homologués 7. certificats Services am Territoire natio Services multip Niveau IV, II Public mult Tertiaire administratif Niveau III Salariés Services multiples Financement publi Financement employ Services amont Niveau III 8. Spécialités industrielles 9. Salariés Financement employeur 10. Formations Disciplinaires générales Financement employeur Financement employeur Territoire national
Cartographie des catégories de prestataires de formation continue. Répartition du chiffre d affaire. 1. «Demandeurs d emploi Financement public» 2. «Services aux personnes et à la collectivité» 3. «Tertiaire administratif» Associatif : 62% Public : 25% Associatif : 42% Privé lucratif : 35% Public : 18% Privé lucratif : 43% Entreprise : 25% Associatif : 22% 4. «Formations diplômantes» Public : 41% Privé lucratif : 28% Associatif : 27% 8. «Spécialités industrielles» Privé lucratif : 27% Entreprise : 28% Public : 26% 5. «Tertiaire administratif Service aval» Entreprise : 41% Privé lucratif : 28% Associatif : 25% 9. «Salariés Financement employeur» Privé lucratif : 28% 6. «Titres homologués» 7. «certificats» Public : 38% Entreprise : 51% Associatif : 30% Associatif : 29% Privé lucratif : 25% Privé lucratif : 16% 10. «Formations Disciplinaires Générales» Privé lucratif : 50% Associatif : 23% Entreprise : 14% En % du produit tot >25% [10-15 [5-10% <5%
Exemple 2 : Profil de consommation des canadiens Statistiques Canada a consommation d environ 10000 ménages entre 1986 et 1992 st décrite par un profil en pourcentage dans 20 produits : valeurs de la consommation (y 1, y j, y 20 ) profil (x 1, x j, x 20 ) où a distance utilisée est la distance du χ² x j = i y j y i et 20 j= 1 x j = 1 alcool al.dom al.ext charges comm. divers don educatio habill. logemen loisirs loterie meubles santé secu soin tabac tr.pers tr.pub. vehicule
Croisement de la classification avec une variable qualitative exogène. Cartographie des locataires Cartographie de la richesse locataire propriétaire pauvres quasi pauvres moyens quasi riches riches
Exemple 3: Profils de courbes : La consommation électrique nationale Polonaise. dimanche 01 mars 1987 lumière chauffage activité domestique lundi 02 mars 1987 Chauffage et activité industrielle et professionnelle Chauffage et activité domestique repas repas 0 10 20 Heure 0 10 20 Heure Loisir de soirée (télé) et repas Influence du chauffage Activité industrielle de la production industrielle et professionnelle de l activité domestique lundi 08 août 1988 0 10 20
Résultat de la classification : les cartes NB= 38 NB= 47 NB= 49 NB= 12 NB= 26 NB= 15 NB= 40 NB= 59 NB= 61 NB= 30 NB= 39 NB= 21 NB= 25 NB= 13 NB= 28 NB= 10 NB= 88 NB= 32 NB= 45 NB= 12 A C B NB= 26 NB= 51 NB= 44 NB= 25 NB= 20 NB= 5 NB= 29 NB= 45 NB= 26 NB= 42 NB= 14 NB= 50 NB= 11 NB= 9 NB= 44 NB= 32 NB= 3 NB= 0 NB= 0 NB= 34 NB= 16 NB= 48 NB= 38 NB= 13 NB= 41 NB= 19 NB= 6 NB= 46 NB= 29 NB= 17 LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE NB= 20 NB= 1 NB= 4 NB= 24 NB= 41 NB= 0 NB= 18 NB= 28 NB= 28 NB= 40 NB= 48 NB= 75 NB= 9 NB= 4 NB= 17 NB= 20 NB= 21 NB= 31 NB= 33 NB= 33 NB= 22 NB= 31 NB= 18 NB= 24 NB= 33 NB= 17 NB= 19 NB= 35 NB= 42 NB= 43 D NB= 47 NB= 35 NB= 33 NB= 25 NB= 22 NB= 22 NB= 14 NB= 14 NB= 42 NB= 37 NB= 66 NB= 24 NB= 33 NB= 42 NB= 47 NB= 36 NB= 10 NB= 21 NB= 48 NB= 52
Cartographie des jours Certains samedi sont ouvrés Particularité des lundi Les samedi et ponts Les dimanche et jours fériés dimanche lundi mar->ven samedi
Cartographie des mois : Le suivi des mois se lit sur la carte janvier février mars avril mai juin juillet août septem octobre novembre décemb 2 jours de semaine d'octobre à mars 10 11 et 12 1 3 jours de semaine de février et m ars 10 samedi d'hiver 11 12 2 1 3 dimanche d'octobre à février jours de semaine d'avril et septembre dimanche de mars, avril et septembre samedi et dimanche d'été jours de semaine de m ai à aout
Exemple 4 : Parcours professionnels. Données extraites de «Génération 92» (2422 parcours de jeunes femmes sorties au niveau du bac). Les variables du calendrier représentent les situations mensuelles des 57 mois consécutifs de juillet 92 à avril 97. Codage de la situation mensuelle selon 7 états. Choix d une distance entre les trajectoires qui intègre une distance entre les états suivant le coût en temps du passage par l état pour atteindre le CDI. 1- CDI ou CDD stabilisé sur CDI 2- CDD 3- CES 4- Contrat de qualification ou d apprentissage 5- Recherche d emploi 6- Inactivité 7- Formation études
Représentation de l évolution mensuelle de la part de chaque état pour les individus. D après les travaux d Yvette Grelet Exemple d une classe où : Dans les premiers mois, environ 50% des individus sont sur un contrat CDD, 25% en CDI et 25% au chômage. Dans les derniers mois, 100% sont en CDI.
Les individus sont répartis dans leurs classes d affectation. ES-Chômage Perte de CDI Q ->CDI CDI immédiat CDD ->CDI
Comparaison avec le couple classique : Classification-Analyse factorielle La différence dominante est la suivante : L analyse factorielle rend bien compte des grandes distances. La carte de Kohonen met plus souvent en évidence des effets de petites distances. La carte de Kohonen peut se percevoir comme «l ajustement des données par une surface» non linéaire qui généralise «l ajustement par un plan».
Cas d une structure non linéaire. Une distribution en fer à cheval. Les points sont représentés sur les axes d origine, les couleurs du graphique de type correspondent à une classification de type Ward.
plan principal plan secondaire Carte de Kohonen
L exemple de la qualité de la peau a une structure de type fer à cheval. Les centroïdes de la classification de Kohonen sont reliés à leurs voisins et projetés sur le plan principal (des centroïdes) Couleur des macro-classes ord de la surface
Le couple classification - carte de Kohonen remplace classification - analyse factorielle. Une classification C est faite à partir d une méthode au choix. La carte de Kohonen ne sert dans ce cas qu à visualiser la classification C et non à classer. Restriction: La distance choisie pour l algorithme de Kohonen est cohérente avec celle de la classification (Euclidienne pour Euclidienne ou Ward, χ² pour χ², etc.).
Classification Analyse factorielle Exemple de la qualité de la peau On Sur observe le plan principal, plusieurs zones repère de recouvrement les individus par leur classe (classification hiérarchique distance de Ward à 6 niveaux)
Classification Analyse factorielle. Certaines distances intra-classes paraissent très grande sur le plan à cause d un effet d écrasement.
Comparaison de deux classifications. Hiérarchique avec la distance de Ward Segmentation Classification hiérarchique (distance de Ward) Groupe 1 ) Classification issue de la segmentation Groupe 5 ' Groupe 2! Groupe 3 + Groupe 4 # Groupe 6 % Classe 1 ) Classe 2 # 14,2% 0,5% 2,4% 8,5% 0,5% 12,7% 6,6% Classe 3 ' 3,3% 8,0% 4,3% Classe 4! 0,9% 0,9% 2,8% 15,1% 2,4% Classe 5 + 11,3% Classe 6 % 0,5% 5,2%
La projection des classifications sur la carte. Hiérarchique Segmentation Classes 1->6 cas 10% de la classe 1, 20% de la classe 2..., 60% de la classe 6
!!!!!!!! # ) + # # # # # # # # # # ) ) ) ) ) ) ) ) )!! + + + + % % # La classification projetée une surface. #! #! #! Correspondance couleur symbole
Visualisation la structure intrinsèque des données à partir des cartes. La représentation par la carte dispose les unités de façon ordonnées ce qui traduit mal la distorsion du nuage de points. Certains outils graphiques servent à rendre compte de la structure intrinsèque des données : En représentant la distance entre classes voisines. En représentant la matrice des distances inter-classes.
Distance locale. Les bords Le coté des droit unités est sont détaché séparés du centre par des espaces d épaisseur proportionnelle à la distance entre les centres de classe.
Propriétés La distance locale permet de visualiser la structure locale. Elle est simple à utiliser. Par contre elle ne fait pas apparaître les distances entre les classes éloignées. Elle ne permet pas entre autre de percevoir un éventuel repliement de la carte.
Visualisation de la structure des données à partir de la carte. La Matrice (49x49) des distances entre les centres de classes a 2401 valeurs. Elle contient toute l information pour comprendre la structure des données. Mais elle est impossible à lire sous cette forme. Représentation de la distance entre la classe1 et toutes les autres. d(c1,c1) d(c1,c2) d(c1,c3),,, d(c1,c47) d(c1,c48) d(c1,c49) d(c2,c1) d(c2,c2) d(c2,c3) d(c2,c47) d(c2,c78) d(c2,c49) d(c3,c1) d(c3,c2) d(c1,c1) d(c1,c2) d(c3,c3) d(c1,c3) d(c1,c4) d(c1,c5) d(c3,c47) d(c1,c6) d(c3,c48) d(c1,c7) d(c3,c49) d(c1,c8) d(c1,c9) d(c1,c10) d(c1,c11) d(c1,c12) d(c1,c13) d(c1,c14),, d(c47,c1) d(c47,c2) d(c47,c3) d(c47,c47) d(c47,c48) d(c47,c49) d(c48,c1) d(c48,c2) d(c48,c3) d(c48,c47) d(c48,c48) d(c48,c49) d(c49,c1) d(c49,c2) d(c49,c3),,, d(c49,c47) d(c49,c48) d(c49,c49) d(c1,c43) d(c1,c44) d(c1,c45) d(c1,c46) d(c1,c47) d(c1,c48) d(c1,c49)
Visualisation de la structure des données. Représentation de la distance inter classes. La grille est divisée en boîtes et chaque boîte en cases. Les angles haut à gauche et bas à droite sont proches Le côté droit est éloigné du l intensité de couleur du couple (boîte c, case reste c ) de correspond la distribution à la distance entre les classes c et c (la plus claire est la plus petite).
Visualisation de la structure des données. Conclusion. On peut représenter la structure locale de façon simple. La représentation complète de la structure intrinsèque est très précise mais assez lourde du fait de la grande quantité d information présente.
Conclusion : Quel apport au final. Résoudre les problèmes de visualisation et de synthèse. Dépasser les 3 ou 4 dimensions principales : localement. Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d axes). Percevoir des nuances de comportement chez certaines sous populations. Le gain essentiel est de voir autrement.
Annexe.
Les algorithmes de classification. Les classiques : - La classification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné à priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. - L algorithme de Kohonen (SOM). nombre de classes fixé, données de grande taille, cartes de Kohonen, notion de voisinage entre les classes.
L algorithme de Kohonen : Une généralisation des Centres Mobiles On détermine une structure de voisinage entre les classes. Initialisation aléatoire des représentants de classes. A chaque itération : - On tire au hasard une observation x(t+1). - On détermine le représentant R le plus proche de x et sa classe C. - On modifie - Cas Centres Mobiles (Forgy 1965) : seul R. - Cas Kohonen : R et les représentants des classes voisines de C. Par la formule : R( t + 1) = R( t) + ε ( t)( x( t + 1) R( t)) Remarque : Si R et R sont modifiés ensemble, ils se rapprochent R( t + 1) R'( t + 1) = (1 ε ( t)) R( t) R( t) A la fin les représentants des classes voisines et leurs individus sont aussi voisins.
L état des travaux théoriques. La démonstration de la convergence n est pas aboutie (hormis dans un cadre restreint). La structure de la carte peut varier lorsque l on relance l algorithme. Une relance multiple à l aide de bootstraps permet de contrôler la cohérence. Cette méthode (avec bootstraps) utilisée sur certains exemples ont confirmé une cohérence de la structure (les classes voisines restent voisines «assez souvent»).
Exemple 5 : Les hedge funds Classer les Hedge Funds sans à priori sur leur catégorie. Vérifier la crédibilité des types existants (Micropal). Caractériser les types à partir de leur mesure de performance. Les données : 294 fonds entre January 1975 to September 2000 (67 Months).
Exemple : Les hedge funds nds are represented in their own class Representative funds and macroclasses
large central area A ring zon Interpretation of One-to-one Representative Fund Distances specific categories
Characterization of K-classes with a Four-level Fund Style Typology (MSDW) Multiple Styles irectional Trading (1) elative Value (2) ecialist Credit (3) ock Selection (4) Grey or Magenta
Dispatching Funds onto the Map Interpretation from a Four-level Fund Style typology Contingency of (Fund Style k-class) = n ik Contingency of Fund Style = n i. Bar chart size = n n ik i. irectional Trading (1) elative Value (2) ecialist Credit (3) ock Selection (4)
Characterization of K-classes with a Performance Measurement High Sharpe s Ratios (grey level) can be found on the whole map Medium-high (yellow level) are mainly in the green zone Low and Medium-low Ratios (magenta and blue levels) are mainly located in the central zone of the map (green and magenta zone) Low Sharpe s Ratios (1) Medium-low (2) Medium-high (3) High (4)
Characterization of K-classes with a Performance Measurement Conditional versus Unconditional Sharpe s Ratio density Conditional versus Unconditional Box-plot of Sharpe s Ratios