PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2



Documents pareils
La classification automatique de données quantitatives

ACP Voitures 1- Méthode

Consommation de flotte ( )

2 nd semestre. Synthèse de l étude D3 Parcours Analyse de la fidélité des clients par marque. En partenariat avec

Marché de l'automobile - Automobile - Type de carrosserie - Modèle d'automobile

Honda se place en tête de la satisfaction des propriétaires français de nouveaux véhicules pour la troisième année consécutive

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au Data-Mining

"Étude TOPÉO" Le Concept de la voiture low cost en France => Cas concret : la NANO de TATA

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Classification non supervisée

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Agrégation des portefeuilles de contrats d assurance vie

Ricco.Rakotomalala

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La systématique de la statistique TCS 2009 des pannes de voitures

Scénario: Données bancaires et segmentation de clientèle

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Arbres binaires de décision

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Contactez-nous pour une étude personnalisée ILS ONT CHOISI I CAR DMS. Reconnaissance des constructeurs : Interface avec les réseaux :

Arbres de Décision. 1 Introduction

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au datamining

Introduction au Data-Mining

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

données en connaissance et en actions?

Spécificités, Applications et Outils

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Tableau comparatif ATE

Cycle de formation certifiante Sphinx

Logiciel XLSTAT version rue Damrémont PARIS

Introduction à l approche bootstrap

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

LE PARC VEHICULES LEGERS DU CERN. A. Dagan. Résumé

PETITES FAMILIALES ET CABRIOLETS

La Création de Valeur Durable des Constructeurs Automobiles

Extraction d informations stratégiques par Analyse en Composantes Principales

Brochure ALD ELECTRIC PART OF ALD NEWMOBILITY

La Nissan Leaf 2.0 est élue Grand Prix Auto Environnement

PRIX AUTO ENVIRONNEMENT MAAF 2014

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Toutes les unités de moyeu de rechange ne se valent pas. L ignorer peut vous coûter cher en temps, argent et clients perdus.

Agenda de la présentation

Adaptez-vous aux nouvelles tendances de la distribution automobile

Chapitre 1 : Introduction au contrôle de gestion. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 1

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Publications, ressources, liens, logiciels,

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

LOW COST TOUT INCLUS FIAT PANDA. Moteur: Essence A/C Radio CD Assurance tous risques sans franchise Réservoir plein PRIX / SEMAINE

1 - PRESENTATION GENERALE...

DATA MINING - Analyses de données symboliques sur les restaurants

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Les algorithmes de fouille de données

Algorithmes d'apprentissage

L'analyse des données à l usage des non mathématiciens

INTRODUCTION AU DATA MINING

Biostatistiques : Petits effectifs

Huiles moteurs pour véhicules légers

Analyse de la variance Comparaison de plusieurs moyennes

Projet de Traitement du Signal Segmentation d images SAR

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

INF6304 Interfaces Intelligentes

Travailler avec les télécommunications

COMMENTAIRE. Services économiques TD LES VENTES DE VÉHICULES AU CANADA DEVRAIENT DEMEURER ROBUSTES, MAIS LEUR CROISSANCE SERA LIMITÉE

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Akka Technologies au service de la voiture électrique - Cartech.fr

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Améliorer les performances du site par l'utilisation de techniques de Web Mining

INNOVATION. HAUTE PERFORMANCE. SÉCURITÉ. HIER. AUJOURD HUI. DEMAIN.

ESIEA PARIS

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Statistique : Résumé de cours et méthodes

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Principe d un test statistique

GOL502 Industries de services

Des solutions complètes Diagnostic des calculateurs et analyse des composants des systèmes moteur par Bosch

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

Pratique des options Grecs et stratégies de trading. F. Wellers

WAFASALAF. L innovation, la clé du leadership

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Construire un tableau de bord par Marc Maisonneuve

REVUE DE STATISTIQUE APPLIQUÉE

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

CONCEPTION D UN MONITORING DES QUARTIERS COUVRANT L ENSEMBLE DU TERRITOIRE DE LA RÉGION DE BRUXELLES-CAPITALE

BOÎTES DE VITESSES MANUELLES AUTOMATIQUES FRANCE PARIS

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Assurer notre développement malgréles vents contraires. 12 septembre 2011

Transcription:

Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

PLAN. Classification automatique, typologie, etc.. Interprétation des groupes 3. Classement d un nouvel individu 4. Les arbres de classification 5. Bilan Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

La typologie ou le Clustering ou l Apprentissage non-supervisé Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

Classification automatique Typologie, apprentissage non-supervisé X (tous quantitatifs, pour l instant) Pas de Y à prédire Modele Prix Cylindree Puis s ance Poids Consom m ation Groupe Daihatsu Cuore 6 846 3 65 5.7 Suzuki Swift. GLS 49 993 39 79 5.8 Fiat Panda Mam bo L 45 899 9 73 6. VW Polo.4 6 74 39 44 955 6.5 Opel Corsa.i Eco 485 95 33 895 6.8 Subaru Vivio 4WD 373 658 3 74 6.8 Toyota Corolla 949 33 55 7. Opel Astra.6i 6V 5 597 74 8 7.4 Peugeot 36 XS 8 35 76 74 9 Renault Safrane.. V 366 65 5.7 Seat Ibiza. GTI 5 983 85 75 9.5 VW Golt. GTI 358 984 85 55 9.5 Citroen Z X Volcane 875 998 89 4 8.8 Fiat Tem pra.6 Liberty 6 58 65 8 9.3 Fort Escort.4i PT 3 39 54 8.6 Honda Civic Joker.4 99 396 66 4 7.7 Volvo 85.5 398 435 6 37.8 Ford Fiesta. Z etec 974 4 55 94 6.6 Hyundai Sonata 3 3899 97 7 4.7 Lancia K 3. LS 58 958 5 55.9 Mazda Hachtback V 36 497 33.8 Mitsubishi Galant 399 998 66 3 7.6 Opel Om ega.5i V6 477 496 5 67.3 Peugeot 86. 3695 998 89 56.8 Nissan Primera. 695 997 9 4 9. Seat Alhambra. 364 984 85 635.6 Toyota Previa salon 59 438 97 8.8 Volvo 96 Kombi aut 493 473 5 57.7 Objectif : identifier des groupes d observations ayant des caractéristiques similaires (ex. comportement d achats de clients, caractère «polluant» de véhicules, etc.) On veut que : () Les individus dans un même groupe se ressemblent le plus possible () Les individus dans des groupes différents se démarquent le plus possible Pourquoi? Identifier des structures sous-jacentes dans les données Résumer des comportements Affecter de nouveaux individus à des catégories Identifier les cas totalement atypiques Identifier les catégories (groupes) de voitures «similaires» (c.-à-d. qui se ressemblent) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

M ode le Prix Cylindre e Puissa nce Poids Consomma tion Groupe Renault Safrane.. V 366 65 5.7 c_hac_ Volvo 85.5 398 435 6 37.8 c_hac_ Hyundai Sonata 3 3899 97 7 4.7 c_hac_ Lancia K 3. LS 58 958 5 55.9 c_hac_ Mazda Hachtback V 36 497 33.8 c_hac_ Opel Om ega.5i V6 477 496 5 67.3 c_hac_ Peugeot 86. 3695 998 89 56.8 c_hac_ Seat Alham bra. 364 984 85 635.6 c_hac_ Toyota Previa salon 59 438 97 8.8 c_hac_ Volvo 96 Kom bi aut 493 473 5 57.7 c_hac_ Opel Astra.6i 6V 5 597 74 8 7.4 c_hac_ Peugeot 36 XS 8 35 76 74 9 c_hac_ Seat Ibiza. GTI 5 983 85 75 9.5 c_hac_ VW Golt. GTI 358 984 85 55 9.5 c_hac_ Citroen Z X Volcane 875 998 89 4 8.8 c_hac_ Fiat Tem pra.6 Liberty 6 58 65 8 9.3 c_hac_ Fort Es cort.4i PT 3 39 54 8.6 c_hac_ Honda Civic Joker.4 99 396 66 4 7.7 c_hac_ Mitsubishi Galant 399 998 66 3 7.6 c_hac_ Nissan Prim era. 695 997 9 4 9. c_hac_ Daihatsu Cuore 6 846 3 65 5.7 c_hac_3 Suzuki Swift. GLS 49 993 39 79 5.8 c_hac_3 Fiat Panda Mam bo L 45 899 9 73 6. c_hac_3 VW Polo.4 6 74 39 44 955 6.5 c_hac_3 Opel Corsa.i Eco 485 95 33 895 6.8 c_hac_3 Subaru Vivio 4WD 373 658 3 74 6.8 c_hac_3 Toyota Corolla 949 33 55 7. c_hac_3 Ford Fiesta. Z etec 974 4 55 94 6.6 c_hac_3 Exemple des voitures Segments «classiques» des voitures : petites, moyennes, berlines/monospaces (X) PCA Axis _ vs. (X) PCA Axis _ by (Y ) Cluster_HAC_ Sur les premiers axes de l ACP Axe : 9.5% Petites voitures Moyennes Grosses berlines et/ou monospaces - -3 - - 3 c _h ac _ c _hac _ c _h ac _3 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

Classification automatique Objectifs Principe : Constituer des groupes «naturels» de manière à ce que les individus dans un même groupe se ressemblent, et les individus dans des groupes différents soient dissemblables. Autres visions : Identifier des groupes d individus ayant un comportement (ou des caractéristiques) homogènes Proposer un résumé des données en explicitant ses principales dimensions (oppositions) Mettre en évidence les principales structures dans les données (définir des «concepts») Construction d une taxonomie (classification hiérarchique) d objets (cf. taxonomie des espèces) Illustration dans le plan Points clés dans la constitution des groupes. Quantifier : La proximité entre individus La proximité entre groupes La proximité entre individu et un groupe (lors de la construction et l affectation) Le degré de compacité d un groupe L éloignement global entre les groupes (séparabilité) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

Classification ascendante hiérarchique Une technique très populaire Principe : Calculer la dissimilarité entre les individus Agglomérations successives en fusionnant en priorité les groupes les plus proches (cf. stratégies d agrégation : saut minimum, méthode de WARD, etc.) Hauteur = Distance entre groupes HAC -- Dendrogram Avantages Hiérarchie de partition (taxonomie) Indications sur la proximité entre groupes (choix du nombre de groupes très difficile, il n y a pas de solution «optimale») Propose des solutions alternatives (que l on peut interpréter ou approfondir) Inconvénients Mise en œuvre sur des grandes bases (cf. stratégies mixtes) Problèmes récurrents de la classification Détection du «bon» nombre de groupes Interprétation des groupes (Avec) L utilisation des variables illustratives Classement d un nouvel individu obs. 4 var. actives de «coûts» (prix, conso. ville et autoroute, prime assurance) premiers axes factoriels 9% inertie Méthode de Ward (les axes ne doivent pas être réduites!!!) Solution à 3 classes demandée (solution à classes souvent triviale) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

Détection du «bon» nombre de groupe Quelques repères Hauteur paliers d'agrégation Evolution de l'inertie intra-classes Ecart entre les noeuds.6.4..8.6.4. Distance d agrégation la plus élevée Les groupes à fusionner sont très éloignés WSS..8.6.4. Recherche du «coude» Significatif d un changement structurel dans les données 3 4 5 6 7 8 9 3 4 5 6 7 8 9 3 4 5 6 7 8 9 3 4 5 6 7 8 9 Nombre de classes Nombre de classes Le choix du «bon» nombre de classes reste ouvert. Il est indissociable de l interprétation des classes et du cahier des charges de l étude. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

Comprendre l appartenance d un individu à un groupe Utilisation des variables actives et des variables illustratives Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9

Interprétation des groupes sur les variables actives Analyse factorielle Principe : Comprendre pourquoi les observations dans un même groupe sont ensemble. Comprendre ce qui différencie les groupes. ( X ) P C A A x is _ v s. ( X ) P C A A x is _ b y ( Y ) C lu s te r _ H A C _ Avantage Vision multivariée des données Inconvénients A la difficulté d interprétation des - groupes vient s ajouter la difficulté d interprétation des axes factoriels. - D autant plus compliqué lorsque + - 3 des premiers axes sont significatifs. - - 3 4 5 6 c _ h a c _ c _ h a c _ c _ h a c _ 3 Attribute Axis_ Axis_ Axis_3 Axis_4 - Corr. % (Tot. %) Corr. % (Tot. %) Cor r. % (Tot. %) Corr. % (Tot. %) price.897 8 % (8 %).479 % (8 %) -.454 8 % ( %) -.77 % ( %) normalized-losses.383 % ( %) -.9474 9 % ( %) -.39 % ( %).9 % ( %) conso-ville.963 9 % (9 %).498 % (93 %).383 6 % (98 %) -.87 % ( %) conso-autoroute.9678 94 % (94 %).57 % (95 %).66 3 % (98 %).4 % ( %) Var. Expl..759 69 % (69 %).9377 3 % (9 %).663 7 % (99 %).369 % ( %) Remarque Aide au choix du nombre de groupes. Dans notre exemple, on peut se demander si «4 groupes» n est pas plus approprié. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Interprétation des groupes sur les variables actives Statistiques descriptives comparatives Principe de la «valeur test» Principe : Comparer les paramètres [moyenne, proportion] calculés pour la totalité de l échantillon et pour le groupe concerné. Avantage : Simplicité. La valeur test donne une idée de l importance de l écart Inconvénient : Analyse univariée. Ne tient pas compte explicitement des liaisons entre les variables [on doit le faire nous même]. Valeur test : Statistique du test de comparaison à un standard Remarques : Le standard est le paramètre calculé sur la totalité de l échantillon : Ce n est pas un vrai test (échantillons non indépendants) 3 : La statistique a tendance à être exagérée sur les variables actives, ce n est pas le cas pour les variables illustratives 4 : Seuil critique +/- (très lointaine référence à la loi normale) 5 : Mieux vaut se concentrer sur les valeurs extrêmes, les oppositions et les décrochements Var.Quantitative (Moyenne) [Classe k] vt = Var.Qualitative (Proportion) [Classe k, Caractère j] S E( S) vt = = σ S x k n nk n x σ n x k nk n j nkj n n n n n k j n j k n n n Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Description factorielle ou Valeur test? ( X ) P C A A x is _ v s. ( X ) P C A A x is _ b y ( Y ) C lu s t e r _ H A C _ - Description condensée mais (parfois) réductrice Ex. la différence entre C et C3 sur l axe tient essentiellement au prix en réalité. - - 3 - - 3 4 5 6 c _ h a c _ c _ h a c _ c _ h a c _ 3 Description détaillée mais vite (trop) touffue, à mesure que le nombre de variables et de groupes augmente Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Variables illustratives Comprendre, illustrer et désigner les groupes Projection factorielle Variables quantitatives Variables qualitatives.9.8.7.6.5.4 Correlation scatterplot (PCA Axis_ vs. PCA Axis_) height PCA Axis_ vs PCA Axis_ w agon 4w d PCA Axis_.3.. -. -. -.3 compression-ratio peak-rpm length engine-size horsepower PCA Axis_ fw d diesel std gas sedan turbo convertible -.4 hardtop -.5 -.6 rw d -.7 -.8 hatchback -.9 PCA A xis_ - - -.9 -.8 -.7 -.6 -.5 -.4 -.3 -. -.. PCA Axis_..3.4.5.6.7.8.9 fuel-type aspiration body-style drive-wheels Toujours les mêmes difficultés inhérentes à la lecture d une analyse factorielle Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

Variables illustratives Comprendre, illustrer et désigner les groupes S appuyer sur les valeurs tests Cluster_ HAC_ =c_ hac_ Description of " Cluster_ HAC_ " Cluster_ HAC_ =c_ hac_ Cluster_ HAC_ =c_ hac_ 3 Examples [ 63.7 %] 8 Examples [ 5. %] Examples [ 3.3 %] 63 Att - Desc Test value Group Overral Att - Desc Test value Group Overral Att - Desc Test value Group Overral Continuous attributes : Mean (StdDev) Continuous attributes : Mean (StdDev) Continuous attributes : Mean (StdDev) compression-ratio.9.34 (4.5).6 (4.) engine-size. 54.9 (44.9) 6. (4.) horsepower 7.3 3.84 (3.5).79 (37.84) peak-rpm -. 56.65 (48.37) 5.94 (47.36) horsepower 6.9 83.8 (9.64).79 (37.84) length 6. 8.5 (8.99) 74.7 (.43) height -.8 53.66 (.) 53.77 (.45) length 5.7 96.9 (7.79) 74.7 (.43) engine-size 4 43. (9.69) 6. 5.94 (4.) engine-size -8.4 7.5 (7.57) 6. (4.) height. 53.85 (.89) 53.77 (.45) peak-rpm.8 553.7 (466.36) (47.36) length -8.6 68.48 (9.83) 74.7 (.43) peak-rpm -.3 49. (359.94) 5.94 (47.36) height.8 53.97 (.86) 53.77 (.45) horsepower -. 8.7 (7.9).79 (37.84) compression-ratio -.4 8.43 (.9).6 (4.) compression-ratio -..6 (4.8).6 (4.) Discrete attributes : [Recall] Accuracy Discrete attributes : [Recall] Accuracy Discrete attributes : [Recall] Accuracy drive-wheels=fwd 7.5 [ 84.9 %] 78.9 % 59.% drive-wheels=rwd 4.3 [ 3.7 %]. % 36.3% drive-wheels=rwd 6.3 [ 58.9 %] 68.3 % 36.3% aspiration=std 3.6 [ 69.5 %] 89. % 8.6% body-style=sedan bodystyle=convertible. [ 8.3 %] 8. % 47.8% aspiration=turbo body- 4.5 [ 6. %] 36.5 % 8.4% num-of-doors=_missing. [. %].6 %.%.6 [. %]. %.5% style=convertible.4 [ 6. %] 4.8 %.5% body-style=hatchback.9 [ 68. %] 36.7 % 34.3% aspiration=std.5 [ 6. %]. % 8.6% num-of-doors=two.7 [ 34. %] 46. % 4.3% drive-wheels=4wd.9 [ 77.8 %] 5.5 % 4.5% body-style=hardtop.3 [ 6.7 %]. % 3.% body-style=wagon.5 [ 36. %] 4.3 %.4% num-of-doors=four.4 [ 64.9 %] 57.8 % 56.7% fuel-type=gas. [ 5.5 %]. % 9.% fuel-type=diesel bodystyle=hatchback.4 [ 35. %]. %.% body-style=hardtop. [ 66.7 %] 3. % 3.% num-of-doors=four. [ 5.3 %] 6. % 56.7%. [ 3.9 %] 34.9 % 34.3% fuel-type=diesel. [ 65. %]. %.% num-of-doors=two num-ofdoors=_missing -. [ 4.7 %] 4. % 4.3% fuel-type=gas -.4 [ 3.9 %] 88.9 % 9.% body-style=wagon [ 64. %].5 %.4% -.3 [. %]. %.% num-of-doors=four -.5 [ 9.8 %] 54. % 56.7% fuel-type=gas -. [ 63.5 %] 89.8 % 9.% drive-wheels=4wd -.7 [. %]. % 4.5% drive-wheels=4wd -.6 [. %] 3. % 4.5% body-style=sedan -.3 [ 6.5 %] 46.9 % 47.8% fuel-type=diesel -. [. %]. %.% body-style=sedan -.6 [ 9. %] 44.4 % 47.8% num-of-doors=two -.6 [ 6. %] 4.6 % 4.3% body-style=wagon -. [. %]. %.4% body-style=hardtop num-ofdoors=_missing -.8 [ 6.7 %].6 % 3.% body-style=convertible -. [. %].8 %.5% bodystyle=hatchback aspiration=turbo -.5 [. %]. % 8.4% - [. %]. %.% aspiration=turbo -3.6 [ 37.8 %].9 % 8.4% -.3 [. %]. % 34.3% aspiration=std -4.5 [ 4.4 %] 63.5 % 8.6% drive-wheels=rwd -8. [ 7.4 %] 5.6 % 36.3% drive-wheels=fwd -3.9 [. %]. % 59.% drive-wheels=fwd -6 [ 5. %] 8.6 % 59.% Visibilité individuelle des variables Possibilité de filtrer de manière à ne faire apparaître que les v.t. élevés Mêmes difficultés de lecture dès que les variables et les groupes augmentent Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

Affectation d un nouvel individu à un groupe sur la base des variables actives ou illustratives Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

Classement d un individu Sur la base des variables actives Principe : Se baser sur la proximité pour attribuer un individu à un groupe Attention : «Proximité» doit être en rapport avec la stratégie d agrégation utilisée (ex. saut minimum, saut maximum, Ward, etc.) ( X ) P C A A x is _ v s. ( X ) P C A A x is _ b y ( Y ) C lu s t e r _ H A C _ - - Quel groupe pour o? Saut minimum : Saut maximum : + - 3 - - 3 4 5 6 c _ h a c _ c _ h a c _ c _ h a c _ 3 Difficile à industrialiser : il faudrait disposer de tous les individus, tout le temps? Difficile à interpréter : quels sont les caractères qui associent (le plus) cet individu au groupe? Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

Classement d un individu Sur la base des variables illustratives Attribute Category Informations fuel-type Discrete values aspiration Discrete values num-of-doors Discrete 3 values body-style Discrete 5 values drive-wheels Discrete 3 values wheel-base Continue - length Continue - width Continue - height Continue - curb-weight Continue - num-of-cylinders Discrete 7 values engine-size Continue - compression-ratio Continue - horsepower Continue - peak-rpm Continue - price Continue - normalized-losses Continue - conso-ville Continue - conso-autoroute Continue - Pour désigner l appartenance à un groupe Ex. Caractéristiques intrinsèques des véhicules Ex. Descriptifs signalétiques de la clientèle (âge, sexe, etc.) Pour élaborer les groupes homogènes Ex. Constituer des groupes en termes de coûts d utilisation Ex. Comportement d achats / à différents produits Problème : le principe de la proximité devient très difficile à gérer Objectif : Produire une règle d affectation facilement industrialisable (intégrable facilement dans les systèmes d information) Remarque : On se retrouve dans un cadre proche du supervisé, sauf que l on essaie de prédire des groupes qui résument des caractéristiques multivariées (par le clustering) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

Classement des individus Basé sur des règles Utilisation des arbres de décision La simple lecture de la fiche technique permet de déterminer le «coût global» d usage d un véhicule Avantage : Très simple à mettre en œuvre Inconvénient : Des groupes peuvent ne pas être «purs» (mélange de classes). Normal les processus d apprentissage ne sont pas les mêmes, et ne sont pas (forcément) liés Souci : Sont rassemblés des véhicules situés dans des groupes différents Remarque : Cette démarche peut être étendue à une caractérisation à l aide des variables actives (avec les mêmes inconvénients ) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

S appuyer sur le principe de la segmentation pour constituer des groupes homogènes Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9

Arbres de classification Principe Objectif : S appuyer sur le processus de segmentation dans un problème multivarié c.-à-d. lier le processus de constitution de groupes homogènes avec la construction de la règle d affectation ( Y, K, YI ) = f ( X, K, X J ; α) Sert à caractériser Sert à construire l homogénéité des groupes les groupes Remarque : Y = X est un cas particulier tout à fait licite Attribute Category Informations fuel-type Discrete values aspiration Discrete values num-of-doors Discrete 3 values body-style Discrete 5 values drive-wheels Discrete 3 values wheel-base Continue - length Continue - width Continue - height Continue - curb-weight Continue - num-of-cylinders Discrete 7 values engine-size Continue - compression-ratio Continue - horsepower Continue - peak-rpm Continue - price Continue - normalized-losses Continue - conso-ville Continue - conso-autoroute Continue - Mêmes éléments à traiter que pour un arbre de décision Critère pour le choix de la variable de segmentation Borne de découpage d un descripteur continu Regroupement des modalités d une variable catégorielle Détection de la «bonne» taille de l arbre (et donc du bon nombre de groupes) L affectation d un individu à un groupe est immédiat Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de classification Exemple des voitures Hauteur des paliers pour identifier le nombre «pertinent» de classes [Choix de la bonne taille de l arbre] Problème n 3 Description des classes Calcul de la borne de discrétisation [Et critère de regroupement pour les variables catégorielles] Problème n Choix des variables de segmentation Problème n Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de Classification Critère pour le choix de la variable de segmentation Mesurer l homogénéité des groupes : Généraliser la notion de variance à la notion d inertie Critère : Généralisation multivariée de la décomposition de la variance, le théorème d Huygens. Choisir alors la variable qui maximise le gain d inertie c.-à-d. l inertie inter-classes B = T - W On veut produire des sous-groupes homogènes On veut que les barycentres soient éloignés les uns des autres n K K pid ( i, g) = pkd ( gk, g) + i = k = k = i G T = B + W k p d i ( i, g k ) Concrètement Pour un sommet à segmenter Trier les variables selon le gain d inertie et choisir celle qui le maximise (Faire le parallèle avec CART) T W [Le praticien peut intervenir lors de la construction de l arbre!!!] Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de classification Traitement des variables continues Principe : Idem les arbres de décision. Pour découper une variable X, la technique consiste à tenter toutes les segmentations possibles (entre points successifs) et choisir la borne qui maximise le gain d inertie Exemple de situations (parmi d autres) à comparer (X) pet_length vs. (X) pet_w idth (X) pet_length vs. (X) pet_w idth g B g B g A g A 3 4 5 6 3 4 5 6 = B/T = 8% = B/T = 63% Formule simplifiée du gain d inertie Critère de WARD B = n n A A + n n B B d ( g A, g B ) Tri : O(n log n) on peut pré-trier la base Recherche : O(n) très rapide Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

Arbres de classification Regroupement des modalités (var. catégorielles) Principe : Par convention l arbre est binaire pour éviter la fragmentation des données (cf. CART). Comment procéder au regroupement des modalités des variables catégorielles à L (L > ) modalités? HAC -- Dendrogram Démarche : Regrouper en priorité les modalités correspondant à des groupes d individus proches (Minimiser la perte d inertie consécutive à un regroupement Critère de WARD). Réitérer en fusionnant au fur et à mesure les groupes : bref, CAH sur les modalités Ex. Segmentation sur la variable «body-style» m m 4 m 5 m 3 m 6 m % % [] body-style ={hardtop,sedan,wagon... 34% 63% [] 7.8.5 body-style ={convertible,hatchba... 69%.7 37% [] Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

Arbres de classification Choix du nombre adéquat de groupes Méthode classique : Comme pour la CAH. S inspirer des paliers (gain) et du coude (cumulée) de l inertie expliquée, en association avec l interprétation des groupes, pour choisir le «bon» nombre de classes. Evolution de l'inertie intra-classes Méthode inspirée de CART : Subdiviser le fichier en «growing» et «pruning». Choisir le plus petit arbre avec une inertie expliquée «convenable» [Le «coude» toujours et encore] Remarque : Attention à l instabilité sur les petits fichiers. Comme CART, ne pas utiliser cette technique lorsque les effectifs sont faibles..9.8.7.6.5.4.3.. Grow ing set Pruning set 3 4 5 6 7 9 3 4 5 6 7 8 9 Nombre de groupes AUTOS : 3 groupes semblent le plus adéquat Rappel : La CAH en proposait 3 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

Arbres de classification Comparaison des résultats avec la CAH Question : Les arbres de classification introduisent une contrainte supplémentaire (exploration monothétique) dans la recherche de la solution. Est-ce que ça les pénalise? [On se place dans le cadre où les variables actives servent également de variables de segmentation, sinon les résultats ne seraient pas comparables] Comparaison des solutions dans le er plan factoriel 3 3 CAH Arbre de Classification -4-3 - - 3 4 5 6 7-4 -3 - - 3 4 5 6 7 Croisement des groupes construits - - - - -3-3 -4-4 Les performances des deux méthodes (en termes d inertie expliquée) sont similaires dans la grande majorité des cas (cf. références) Ex. AUTOS B (CAH) = 6% B (Arbres) = 6% Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

Arbres de classification Régularisation et traitement des variables actives discrètes Quelques pistes Idée générique de la régularisation Projection factorielle des données Prendre les X premiers axes (ex. la moitié) Distance euclidienne simple sur les axes pour les calculs d inerties Idée : Lisser les données pour n utiliser que l information «utile» et évacuer les fluctuations aléatoires (N.B. Prendre tous les axes = Travailler dans l espace originel) Variables actives qualitatives : ACM (Analyse factorielle des correspondances multiples) Variables actives continues (quantitatives) : ACP (Analyse en composantes principales) Mélange variables actives qualitatives et quantitatives : Découper les variables quantitatives en intervalles (ex. méthode «fréquences égales» symétrise les distributions) + ACM Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

Bilan -- Les arbres de classification Une technique de classification automatique : vise à créer des groupes homogènes au regard d un certain nombre de variables actives + Permet de produire directement une règle d affectation «industrialisable» + Interprétation directe des groupes à l aide des mêmes règles + Rapidité/capacité à traiter de grandes bases (similaire aux arbres de décision) + Possibilité de guider la recherche des classes (construction interactive s appuyer sur la connaissance du domaine pour produire des groupes pertinents) + Possibilité de dissocier variables actives [expliquées] (pour apprécier l homogénéité des groupes ex. comportement d achat) et variables de segmentation [explicatives] (pour élaborer et expliquer les groupes ex. caractéristiques signalétiques des personnes) Même outils d interprétations que les autres méthodes de typologie (projection factorielle, comparaisons univariées, etc.) Possibilité de description selon les variables actives et illustratives Problème toujours ouvert : choisir le «bon» nombre de groupes Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

Bibliographie En ligne M. Chavent, C. Guinot, Y. Lechevallier, M. Tenenhaus «Méthodes divisives de classification et segmentation non supervisée : recherche de la typologie de la peau humaine saine», RSA, Vol. 47, N 4, pp. 87-99, 999. http://www.numdam.org/numdam-bin/fitem?id=rsa_999 47_4_87_ M. Gettler-Summa, C. Pardoux «La classification automatique» http://www.ceremade.dauphine.fr/~touati/edogest-seminaires/classification.pdf G. Bisson «Évaluation et catégorisation» http://www-lipn.univ-paris3.fr/seminaires/a3cte/presentations/a3cte-evaluation.bisson.pdf Ouvrages R. Rakotomalala, T. Le Nouvel «Interactive Clustering Tree : Une méthode de classification descendante adaptée aux grands ensembles de données», RNTI-A-, Numéro Spécial : «Data Mining et Apprentissage statistique : Application en assurance, banque et marketing», pp. 75-94, 7. J.P. Nakache, J. Confais «Approche pragmatique de la classification», TECHNIP, 4. L. Lebart, A. Morineau, M. Piron «Statistique exploratoire multidimensionnelle», DUNOD, 4. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9