L UTILISATION DES CARTES DE KOHONEN DANS LA CLASSIFICATION. Patrick Rousset CEREQ rousset@cereq.fr



Documents pareils
VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

La classification automatique de données quantitatives

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Introduction au Data-Mining

Introduction au datamining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

I. Entrée en vigueur de l avenant salaires n 21 à compter du 1 er novembre 2013

La mobilité professionnelle revêt

Coup de Projecteur sur les Réseaux de Neurones

Agrégation des portefeuilles de contrats d assurance vie

Logiciel XLSTAT version rue Damrémont PARIS

Classification non supervisée

Synthèse Contrat. d Objectifs. Diagnostic Les services de l automobile En Midi-Pyrénées. Réalisation Observatoire régional emploi, formation, métiers

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

EN LIGNE. EMPLOYEUR Pôle emploi

Relation entre deux variables : estimation de la corrélation linéaire

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Elaborer des Tableaux de Bord Ressources Humaines

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

éclairages QUI SONT LES ALLOCATAIRES INDEMNISÉS PAR L ASSURANCE CHÔMAGE? Près de 3 demandeurs d emploi sur 5 sont couverts par l Assurance chômage

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction au Data-Mining

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

A. Le contrôle continu

MCMC et approximations en champ moyen pour les modèles de Markov

Mise de jeu 2 La certification des formations

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Sommaire. L entrée en vigueur de l avenant n 21 sur les salaires minima au 1 er novembre 2013

ACCRÉDITATION DES CENTRES PRIVÉS ET DES PROGRAMMES DE FORMATION PROFESSIONNELLE EN HAÏTI. Formulaire de demande d une autorisation de fonctionnement

Annexe commune aux séries ES, L et S : boîtes et quantiles

Sillage Météo. Notion de sillage

Extraction d informations stratégiques par Analyse en Composantes Principales

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

LIVRET D ACCUEIL CCAS. des services à la personne. CENTRE COMMUNAL D ACTION SOCIALE Ville de La Verrière. + d infos :

Copropriété: 31, rue des Abondances Boulogne-Billancourt

MANUEL DU BLENDED LEARNING

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

INITIATION À LA COMPTABILITÉ GÉNÉRALE

REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA

Statistique : Résumé de cours et méthodes

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

L évolution des formes

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999)

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Item 169 : Évaluation thérapeutique et niveau de preuve

Définitions. Définitions sur le logement

Etude statistique des données fournies par la CCIJP

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Exercice sur la planification de l élaboration d un programme TPMDidacticiel de MS Project pour la planification de projets

Les algorithmes de base du graphisme

TRAVAUX DE RECHERCHE DANS LE

Dares Analyses. Les bas salaires en France entre 1995 et 2011

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

1 - Le catalogue d états prêts à l emploi p.2


Famille multirésidence : recensement et sources alternatives

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Aide-mémoire de statistique appliquée à la biologie

Bulletin d information en économie de la santé n 32 - octobre questions 37% 24% Cadre et profession intellect. Profession intermédiaire

Associations Dossiers pratiques

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

«Manuel Pratique» Gestion budgétaire

Sociologie des joueurs en ligne

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Diplômes et insertion professionnelle

Les algorithmes de fouille de données

ALLOCATIONS CHOMAGE. Effet au 01/07/2014

Améliorer les performances du site par l'utilisation de techniques de Web Mining

LES STAGIAIRES. 1. Qui sont les «stagiaires» au sens de la réglementation?

ACP Voitures 1- Méthode

L Univers SWIFTNet. Transformons l essai. Multiplexons les relations

GERER SON BUDGET 1- LE BUDGET

ANALYSE DU RISQUE DE CRÉDIT

données en connaissance et en actions?

CAISSE D EPARGNE Pour toutes les actions débutant le 19/02/2015

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

A. BONNEFOND Maître de conférences en neuroscience cognitive Laboratoire d imagerie et de neuroscience cognitive Université de Strasbourg

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Apprentissage Automatique

1 - PRESENTATION GENERALE...

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

L INSEE EN BREF. L Insee en bref. La mesure du chômage par l Insee. N 4 Septembre Combien y a t il de chômeurs en France?

Une étude de différentes analyses réalisées par le BIT

CAHIER DES CHARGES DE LA FORMATION OUVERTURE D ACTION. Certificat de Qualification Professionnelle des Services de l Automobile

Fête de la science Initiation au traitement des images

Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme

Transcription:

L UTILISATION DES CARTES DE KOHONEN DANS LA CLASSIFICATION Patrick Rousset CEREQ rousset@cereq.fr

Quel apport pour une nouvelle méthode dans l analyse de grandes bases de données par rapport à des méthodes performantes et éprouvées? L évolution des enquêtes va vers plus d information : plus d individus enquêtés. plus de questions posées. L ajout d information doit aboutir à plus de connaissance. Ceci implique par exemple: Résoudre les problèmes de visualisation et de synthèse. Dépasser les 3 ou 4 dimensions principales. Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d axes). Percevoir des nuances de comportement chez certaines sous populations.

Plan Présentation de la classification de Kohonen. Quelques outils graphiques d analyse spécifiques. Quelques exemples de typologies à l aide de cet algorithme. Comparaison avec le couple classification-analyse factorielle. Quelques aspects théoriques sur l algorithme.

La classification de Kohonen Classification à nombre de classes fixé. Adaptée aux données de grandes tailles. Introduit une notion de voisinage entre les classes. Utilise un support graphique : la carte associée qui représente au mieux les résultats. Peut se voir comme une généralisation des centres mobiles (en particulier la version stochastique de Forgy).

La carte : Un réseau d unités organisées selon une structure particulière. Le réseau peut avoir plusieurs structures : La ficelle 1 2 3 4 5 6 7 C 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 La grille A 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 B 43 44 45 46 47 48 49 D C Le cylindre A LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE B

Caractérisation de la peau du visage. En collaboration avec Christiane Guinot (CERIES) Les données: La qualité de la peau de jeunes femmes. Individus: 212 jeunes femmes volontaires. 17 variables binaires correspondent au relevé de la présence ou de l absence de 17 critères (visuels comme «l aspect gras de la peau» ou tactiles comme «la sensation rêche au toucher») : La distance utilisée est la distance euclidienne.

Carte, classification et notion de voisinage. Classer les individus revient à associer à chacun d eux une unité de la carte. Dans Les individus cet exemple de on classes a choisi voisines une grille sont à 49 proches unités qui dans symbolisent l espace d entrée. 49 classes. Leur organisation sur la carte traduit la proximité inter-classes. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

Quelques outils graphiques d analyse. Le principe est dans tous les cas d utiliser les cases pour représenter une ou plusieurs caractéristiques de la classe associée. Nom des individus. Liste de propriétés. Tableau de fréquences. Camemberts, histogrammes. Courbes. Box plots. Etc

Cartographie d une variable qualitative endogène ou exogène. L exemple du critère peau jaune 25 % des individus de la classe 14 ont une «peau jaune» 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

Cartographie d une variable qualitative endogène ou exogène. L exemple du critère peau jaune Bleu: le critère est présent Rose: absent

La carte comme aide à l interprétation. La carte traduit au mieux la structure de voisinage. Elle permet de traiter ensemble les classes voisines qui ont une caractéristique commune (on parle alors de caractéristique d une région de la carte). Elle permet de percevoir des effets locaux ( une caractéristique qui distingue deux classes voisines). Elle indique lorsqu une caractéristique se ventile sur deux régions (deux zones non connexes sur la carte).

2 niveaux de classification. Les centres de classes sont regroupés en macro-classes à l aide d une classification hiérarchique. La couleur de fond de chaque unité indique la macro-classe. Ces Macro-classes regroupent en général des régions connexes et sont donc cohérentes avec la structure de voisinage. La couleur de fond des unités indique la macro-classe d appartenance.

Quelques exemples de typologies à l aide des cartes de Kohonen. La structuration de l offre de formation. Les profils de consommation des ménages canadiens. Les courbes : La consommation électrique journalière nationale polonaise. Les parcours professionnels.

Exemple 1 : La structuration de l offre de formation. En collaboration avec Josiane Vero (CEREQ) 428 organismes décrivent 1200 pôles de formation à travers 8 dimensions elles-même détaillées en items. L individu est le pôle. Les variables sont les items des dimensions. La distance est la distance du χ². Les dimensions d un pôle de formation pouvant être : Un domaine ou une spécialité de formation. Un public particulier. Un diplôme ou titre préparé. Un type de financeur ou client particulier. modalité de réalisation des formations (alternance, fest, ). Un niveau de formation visé. Une offre de service intégrant des prestations en amont ou en aval de la formation. Un territoire particulier.

La structuration de l offre de formation 1. Demandeurs d emploi Financement public l au V et VI s homologués au Vbis et VI ice aux personnes la collectivité ômes d'état 4. Formations diplômantes ômes d'état riés ômes d'état ices amont alités de réalisation Diplômes d'etat Diplômes d'etat Local NiveauIV Demandeurs d'emploi Financement public Local Niveau V et VI Titres homologués Service aval Niveau V et VI Titres homologués Niveau I et III Titres homologués Public multiple Titres homologués Service amont Niveau IV Modalité de réalisation Financement public Salariés Territoire national Niveau V et VI Titres homologués Service aval 5. Tertiaire administratif Service aval territoire national Diplômes d'état Niveau I et II Modalités de réalisation Services multiples Salariés 2. Services aux personnes et à la collectivité Services amont Zone région Salariés Niveau III Salariés Service amont Service amont Tertiaire administratif Salariés Territoire national 3. Tertiaire administratif 6. Titres homologués 7. certificats Services am Territoire natio Services multip Niveau IV, II Public mult Tertiaire administratif Niveau III Salariés Services multiples Financement publi Financement employ Services amont Niveau III 8. Spécialités industrielles 9. Salariés Financement employeur 10. Formations Disciplinaires générales Financement employeur Financement employeur Territoire national

Cartographie des catégories de prestataires de formation continue. Répartition du chiffre d affaire. 1. «Demandeurs d emploi Financement public» 2. «Services aux personnes et à la collectivité» 3. «Tertiaire administratif» Associatif : 62% Public : 25% Associatif : 42% Privé lucratif : 35% Public : 18% Privé lucratif : 43% Entreprise : 25% Associatif : 22% 4. «Formations diplômantes» Public : 41% Privé lucratif : 28% Associatif : 27% 8. «Spécialités industrielles» Privé lucratif : 27% Entreprise : 28% Public : 26% 5. «Tertiaire administratif Service aval» Entreprise : 41% Privé lucratif : 28% Associatif : 25% 9. «Salariés Financement employeur» Privé lucratif : 28% 6. «Titres homologués» 7. «certificats» Public : 38% Entreprise : 51% Associatif : 30% Associatif : 29% Privé lucratif : 25% Privé lucratif : 16% 10. «Formations Disciplinaires Générales» Privé lucratif : 50% Associatif : 23% Entreprise : 14% En % du produit tot >25% [10-15 [5-10% <5%

Exemple 2 : Profil de consommation des canadiens Statistiques Canada a consommation d environ 10000 ménages entre 1986 et 1992 st décrite par un profil en pourcentage dans 20 produits : valeurs de la consommation (y 1, y j, y 20 ) profil (x 1, x j, x 20 ) où a distance utilisée est la distance du χ² x j = i y j y i et 20 j= 1 x j = 1 alcool al.dom al.ext charges comm. divers don educatio habill. logemen loisirs loterie meubles santé secu soin tabac tr.pers tr.pub. vehicule

Croisement de la classification avec une variable qualitative exogène. Cartographie des locataires Cartographie de la richesse locataire propriétaire pauvres quasi pauvres moyens quasi riches riches

Exemple 3: Profils de courbes : La consommation électrique nationale Polonaise. dimanche 01 mars 1987 lumière chauffage activité domestique lundi 02 mars 1987 Chauffage et activité industrielle et professionnelle Chauffage et activité domestique repas repas 0 10 20 Heure 0 10 20 Heure Loisir de soirée (télé) et repas Influence du chauffage Activité industrielle de la production industrielle et professionnelle de l activité domestique lundi 08 août 1988 0 10 20

Résultat de la classification : les cartes NB= 38 NB= 47 NB= 49 NB= 12 NB= 26 NB= 15 NB= 40 NB= 59 NB= 61 NB= 30 NB= 39 NB= 21 NB= 25 NB= 13 NB= 28 NB= 10 NB= 88 NB= 32 NB= 45 NB= 12 A C B NB= 26 NB= 51 NB= 44 NB= 25 NB= 20 NB= 5 NB= 29 NB= 45 NB= 26 NB= 42 NB= 14 NB= 50 NB= 11 NB= 9 NB= 44 NB= 32 NB= 3 NB= 0 NB= 0 NB= 34 NB= 16 NB= 48 NB= 38 NB= 13 NB= 41 NB= 19 NB= 6 NB= 46 NB= 29 NB= 17 LES BORDS DU RECTANGLE A ET B SE REJOIGNENT POUR FORMER UN CYLINDRE NB= 20 NB= 1 NB= 4 NB= 24 NB= 41 NB= 0 NB= 18 NB= 28 NB= 28 NB= 40 NB= 48 NB= 75 NB= 9 NB= 4 NB= 17 NB= 20 NB= 21 NB= 31 NB= 33 NB= 33 NB= 22 NB= 31 NB= 18 NB= 24 NB= 33 NB= 17 NB= 19 NB= 35 NB= 42 NB= 43 D NB= 47 NB= 35 NB= 33 NB= 25 NB= 22 NB= 22 NB= 14 NB= 14 NB= 42 NB= 37 NB= 66 NB= 24 NB= 33 NB= 42 NB= 47 NB= 36 NB= 10 NB= 21 NB= 48 NB= 52

Cartographie des jours Certains samedi sont ouvrés Particularité des lundi Les samedi et ponts Les dimanche et jours fériés dimanche lundi mar->ven samedi

Cartographie des mois : Le suivi des mois se lit sur la carte janvier février mars avril mai juin juillet août septem octobre novembre décemb 2 jours de semaine d'octobre à mars 10 11 et 12 1 3 jours de semaine de février et m ars 10 samedi d'hiver 11 12 2 1 3 dimanche d'octobre à février jours de semaine d'avril et septembre dimanche de mars, avril et septembre samedi et dimanche d'été jours de semaine de m ai à aout

Exemple 4 : Parcours professionnels. Données extraites de «Génération 92» (2422 parcours de jeunes femmes sorties au niveau du bac). Les variables du calendrier représentent les situations mensuelles des 57 mois consécutifs de juillet 92 à avril 97. Codage de la situation mensuelle selon 7 états. Choix d une distance entre les trajectoires qui intègre une distance entre les états suivant le coût en temps du passage par l état pour atteindre le CDI. 1- CDI ou CDD stabilisé sur CDI 2- CDD 3- CES 4- Contrat de qualification ou d apprentissage 5- Recherche d emploi 6- Inactivité 7- Formation études

Représentation de l évolution mensuelle de la part de chaque état pour les individus. D après les travaux d Yvette Grelet Exemple d une classe où : Dans les premiers mois, environ 50% des individus sont sur un contrat CDD, 25% en CDI et 25% au chômage. Dans les derniers mois, 100% sont en CDI.

Les individus sont répartis dans leurs classes d affectation. ES-Chômage Perte de CDI Q ->CDI CDI immédiat CDD ->CDI

Comparaison avec le couple classique : Classification-Analyse factorielle La différence dominante est la suivante : L analyse factorielle rend bien compte des grandes distances. La carte de Kohonen met plus souvent en évidence des effets de petites distances. La carte de Kohonen peut se percevoir comme «l ajustement des données par une surface» non linéaire qui généralise «l ajustement par un plan».

Cas d une structure non linéaire. Une distribution en fer à cheval. Les points sont représentés sur les axes d origine, les couleurs du graphique de type correspondent à une classification de type Ward.

plan principal plan secondaire Carte de Kohonen

L exemple de la qualité de la peau a une structure de type fer à cheval. Les centroïdes de la classification de Kohonen sont reliés à leurs voisins et projetés sur le plan principal (des centroïdes) Couleur des macro-classes ord de la surface

Le couple classification - carte de Kohonen remplace classification - analyse factorielle. Une classification C est faite à partir d une méthode au choix. La carte de Kohonen ne sert dans ce cas qu à visualiser la classification C et non à classer. Restriction: La distance choisie pour l algorithme de Kohonen est cohérente avec celle de la classification (Euclidienne pour Euclidienne ou Ward, χ² pour χ², etc.).

Classification Analyse factorielle Exemple de la qualité de la peau On Sur observe le plan principal, plusieurs zones repère de recouvrement les individus par leur classe (classification hiérarchique distance de Ward à 6 niveaux)

Classification Analyse factorielle. Certaines distances intra-classes paraissent très grande sur le plan à cause d un effet d écrasement.

Comparaison de deux classifications. Hiérarchique avec la distance de Ward Segmentation Classification hiérarchique (distance de Ward) Groupe 1 ) Classification issue de la segmentation Groupe 5 ' Groupe 2! Groupe 3 + Groupe 4 # Groupe 6 % Classe 1 ) Classe 2 # 14,2% 0,5% 2,4% 8,5% 0,5% 12,7% 6,6% Classe 3 ' 3,3% 8,0% 4,3% Classe 4! 0,9% 0,9% 2,8% 15,1% 2,4% Classe 5 + 11,3% Classe 6 % 0,5% 5,2%

La projection des classifications sur la carte. Hiérarchique Segmentation Classes 1->6 cas 10% de la classe 1, 20% de la classe 2..., 60% de la classe 6

!!!!!!!! # ) + # # # # # # # # # # ) ) ) ) ) ) ) ) )!! + + + + % % # La classification projetée une surface. #! #! #! Correspondance couleur symbole

Visualisation la structure intrinsèque des données à partir des cartes. La représentation par la carte dispose les unités de façon ordonnées ce qui traduit mal la distorsion du nuage de points. Certains outils graphiques servent à rendre compte de la structure intrinsèque des données : En représentant la distance entre classes voisines. En représentant la matrice des distances inter-classes.

Distance locale. Les bords Le coté des droit unités est sont détaché séparés du centre par des espaces d épaisseur proportionnelle à la distance entre les centres de classe.

Propriétés La distance locale permet de visualiser la structure locale. Elle est simple à utiliser. Par contre elle ne fait pas apparaître les distances entre les classes éloignées. Elle ne permet pas entre autre de percevoir un éventuel repliement de la carte.

Visualisation de la structure des données à partir de la carte. La Matrice (49x49) des distances entre les centres de classes a 2401 valeurs. Elle contient toute l information pour comprendre la structure des données. Mais elle est impossible à lire sous cette forme. Représentation de la distance entre la classe1 et toutes les autres. d(c1,c1) d(c1,c2) d(c1,c3),,, d(c1,c47) d(c1,c48) d(c1,c49) d(c2,c1) d(c2,c2) d(c2,c3) d(c2,c47) d(c2,c78) d(c2,c49) d(c3,c1) d(c3,c2) d(c1,c1) d(c1,c2) d(c3,c3) d(c1,c3) d(c1,c4) d(c1,c5) d(c3,c47) d(c1,c6) d(c3,c48) d(c1,c7) d(c3,c49) d(c1,c8) d(c1,c9) d(c1,c10) d(c1,c11) d(c1,c12) d(c1,c13) d(c1,c14),, d(c47,c1) d(c47,c2) d(c47,c3) d(c47,c47) d(c47,c48) d(c47,c49) d(c48,c1) d(c48,c2) d(c48,c3) d(c48,c47) d(c48,c48) d(c48,c49) d(c49,c1) d(c49,c2) d(c49,c3),,, d(c49,c47) d(c49,c48) d(c49,c49) d(c1,c43) d(c1,c44) d(c1,c45) d(c1,c46) d(c1,c47) d(c1,c48) d(c1,c49)

Visualisation de la structure des données. Représentation de la distance inter classes. La grille est divisée en boîtes et chaque boîte en cases. Les angles haut à gauche et bas à droite sont proches Le côté droit est éloigné du l intensité de couleur du couple (boîte c, case reste c ) de correspond la distribution à la distance entre les classes c et c (la plus claire est la plus petite).

Visualisation de la structure des données. Conclusion. On peut représenter la structure locale de façon simple. La représentation complète de la structure intrinsèque est très précise mais assez lourde du fait de la grande quantité d information présente.

Conclusion : Quel apport au final. Résoudre les problèmes de visualisation et de synthèse. Dépasser les 3 ou 4 dimensions principales : localement. Pouvoir travailler sur des nuances par rapport aux grandes dimensions (mouvements non-linéaires au lieu d axes). Percevoir des nuances de comportement chez certaines sous populations. Le gain essentiel est de voir autrement.

Annexe.

Les algorithmes de classification. Les classiques : - La classification hiérarchique. un regroupement pour chaque niveau, dendrogramme. Il existe une version qui utilise un graphe de voisinage donné à priori (L. Lebart). - Les centres mobiles, K-means, simple competitive learning. nombre de classes fixé, données de grande taille. Les réseaux de neurones : - Le perceptron multicouches. apprentissage supervisé. - L algorithme de Kohonen (SOM). nombre de classes fixé, données de grande taille, cartes de Kohonen, notion de voisinage entre les classes.

L algorithme de Kohonen : Une généralisation des Centres Mobiles On détermine une structure de voisinage entre les classes. Initialisation aléatoire des représentants de classes. A chaque itération : - On tire au hasard une observation x(t+1). - On détermine le représentant R le plus proche de x et sa classe C. - On modifie - Cas Centres Mobiles (Forgy 1965) : seul R. - Cas Kohonen : R et les représentants des classes voisines de C. Par la formule : R( t + 1) = R( t) + ε ( t)( x( t + 1) R( t)) Remarque : Si R et R sont modifiés ensemble, ils se rapprochent R( t + 1) R'( t + 1) = (1 ε ( t)) R( t) R( t) A la fin les représentants des classes voisines et leurs individus sont aussi voisins.

L état des travaux théoriques. La démonstration de la convergence n est pas aboutie (hormis dans un cadre restreint). La structure de la carte peut varier lorsque l on relance l algorithme. Une relance multiple à l aide de bootstraps permet de contrôler la cohérence. Cette méthode (avec bootstraps) utilisée sur certains exemples ont confirmé une cohérence de la structure (les classes voisines restent voisines «assez souvent»).

Exemple 5 : Les hedge funds Classer les Hedge Funds sans à priori sur leur catégorie. Vérifier la crédibilité des types existants (Micropal). Caractériser les types à partir de leur mesure de performance. Les données : 294 fonds entre January 1975 to September 2000 (67 Months).

Exemple : Les hedge funds nds are represented in their own class Representative funds and macroclasses

large central area A ring zon Interpretation of One-to-one Representative Fund Distances specific categories

Characterization of K-classes with a Four-level Fund Style Typology (MSDW) Multiple Styles irectional Trading (1) elative Value (2) ecialist Credit (3) ock Selection (4) Grey or Magenta

Dispatching Funds onto the Map Interpretation from a Four-level Fund Style typology Contingency of (Fund Style k-class) = n ik Contingency of Fund Style = n i. Bar chart size = n n ik i. irectional Trading (1) elative Value (2) ecialist Credit (3) ock Selection (4)

Characterization of K-classes with a Performance Measurement High Sharpe s Ratios (grey level) can be found on the whole map Medium-high (yellow level) are mainly in the green zone Low and Medium-low Ratios (magenta and blue levels) are mainly located in the central zone of the map (green and magenta zone) Low Sharpe s Ratios (1) Medium-low (2) Medium-high (3) High (4)

Characterization of K-classes with a Performance Measurement Conditional versus Unconditional Sharpe s Ratio density Conditional versus Unconditional Box-plot of Sharpe s Ratios