La classification de données quantitatives avec SPAD



Documents pareils
EXERCICES : DÉNOMBREMENT

Statistique descriptive bidimensionnelle

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Limites des Suites numériques

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

1 Mesure et intégrale

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Les Nombres Parfaits.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Chapitre 3 : Fonctions d une variable réelle (1)

Processus et martingales en temps continu

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Cours 5 : ESTIMATION PONCTUELLE

Séquence 5. La fonction logarithme népérien. Sommaire

Dénombrement. Chapitre Enoncés des exercices

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

SÉRIES STATISTIQUES À DEUX VARIABLES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

20. Algorithmique & Mathématiques

Statistique Numérique et Analyse des Données

STATISTIQUE AVANCÉE : MÉTHODES

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Cours de Statistiques inférentielles

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

STATISTIQUE : TESTS D HYPOTHESES

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Etude de la fonction ζ de Riemann

Chapitre 3 : Transistor bipolaire à jonction

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Probabilités et statistique pour le CAPES

Principes et Méthodes Statistiques

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

14 Chapitre 14. Théorème du point fixe

Chap. 5 : Les intérêts (Les calculs financiers)

Initiation à l analyse factorielle des correspondances

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

2 ième partie : MATHÉMATIQUES FINANCIÈRES

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Comportement d'une suite

Les algorithmes de tri

Formation d un ester à partir d un acide et d un alcool

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

CHAPITRE 2 SÉRIES ENTIÈRES

Neolane Leads. Neolane v6.0

Gérer les applications

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Exercices de mathématiques

Terminale S. Terminale S 1 F. Laroche

55 - EXEMPLES D UTILISATION DU TABLEUR.

Baccalauréat S Asie 19 juin 2014 Corrigé

Module 3 : Inversion de matrices

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Séries réelles ou complexes

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Suites et séries de fonctions

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

MESURE DE L'INFORMATION

4 Approximation des fonctions

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Université Pierre et Marie Curie. Biostatistique PACES - UE

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Compte Sélect Banque Manuvie Guide du débutant

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

RECHERCHE DE CLIENTS simplifiée

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Processus géométrique généralisé et applications en fiabilité

Neolane Message Center. Neolane v6.0

Sommaire Chapitre 1 - L interface de Windows 7 9

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Introduction : Mesures et espaces de probabilités

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

La maladie rénale chronique

Des résultats d irrationalité pour deux fonctions particulières

La classification automatique de données quantitatives

DETERMINANTS. a b et a'

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Échantillonnage et estimation

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Télé OPTIK. Plus spectaculaire que jamais.

ESIEA PARIS

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Régulation analogique industrielle ESTF- G.Thermique

Guide des logiciels de l ordinateur HP Media Center

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

n tr tr tr tr tr tr tr tr tr tr n tr tr tr Nom:... Prénom :...

Création et développement d une fonction audit interne*

Transcription:

La classificatio de doées quatitatives avec SPAD SPAD effectue toujours ue ACP de la matrice des doées quatitatives X " p avat de faire la classificatio des idividus. Les méthodes de classificatio s appliquet alors o pas à la matrice iitiale X " p, mais à la matrice " #q des q " p premières composates pricipales. Remarques : Das le cas de doées qualitatives, SPAD effectue ue AFCM (Aalyse Factorielle des Correspodaces multiples) et applique la classificatio à la matrice des q premières composates pricipales. Si elles sot mixtes pour pouvoir faire l AFCM, il faut au préalable recoder les variables quatitatives e variables qualitatives. Il est équivalet d appliquer la CAH de Ward ou l algorithme des cetres mobiles : o aux idividus décrits par X (resp. la matrice cetrée-réduite Z) o aux idividus décrits par " où " est la matrice de toutes les composates pricipales (q=p) issues de l ACP o ormée (resp. l ACP o ormée). E gééral, avec SPAD o choisit d appliquer la méthode de classificatio à " avec q < p. Le ombre de composates coservées peut-être choisi de ombreuses maières. Souvet, il est choisi aux vues de l éboulis (parfois appelée histogramme) des valeurs propres, du pourcetage d iertie expliquée par les q composates, ou ecore e foctio du ombre de valeurs propres plus grades que 1. 1 Classificatio hiérarchique de Ward et classificatio mixte Das SPAD la méthode de classificatio est toujours appliquée à la matrice " #q des premières composates pricipales issue d ue ACP ormée ou d ue ACP o ormée. Deux méthodes de classificatio sot proposées : - La classificatio hiérarchique de Ward (RECIP) - La classificatio mixte (SEMIS) q " p La classificatio mixte utilise cojoitemet la CAH de Ward et l algorithme des cetres mobiles afi de chercher à réuir leurs avatages et palier à leurs icovéiets : La CAH de Ward fourit e gééral ue partitio mois boe (au ses du critère d iertie itra-classe) que les cetres mobiles. De plus, si ue mauvaise agrégatio a été effectuée à ue étape, cela se répercute sur toutes les partitios suivates. Les icovéiets de la méthode des cetres mobiles sot : - le ombre de classes fixées au départ - la partitio fiale déped des choix iitiaux E revache La méthode des cetres mobiles a l avatage d être rapide et de permettre de traiter de grads jeux de doées. La CAH fourit ue suite de partitios emboîtées et doe ue idicatio du ombre de classes.

La classificatio mixte das SPAD procède doc de la maière suivate : Première étape : O défiit d abord ue partitio de l esemble des idividus, e u ombre K de classes plus grad que le ombre de classes que l o cherche. Pour trouver cette partitio, SPAD propose deux possibilités : o appliquer les cetres mobiles pour trouver cette partitio e K classes. Par exemple, si l o a =10000 idividus, o peut predre K=100 par exemple. o trouver L partitios e K classes par la méthode des cetres mobiles, e chageat à chaque fois les idividus tirés au hasard das l étape d iitialisatio. Défiir esuite les groupemets stables c est à dire les sousesembles d idividus qui ot toujours été das la même classe das les L partitios. Si L=2, o cosidère deux partitios P 1, P 2 e K classes et o obtiet la partitio-produit ayat K K classes. La classe C kk de cette partitio produit cotiet les idividus apparteat à la classe k de P 1, et à la classe k de P 2. Les classes de la partitio «produit» coteat au mois u idividus costituet les groupemets stables. E pratique, L=2 deux partitios suffiset pour détermier les groupemets stables. Das l exemple ci-dessous, 5 idividus ot été classés das la classe 1 de la partitio 1 et das la classe 1 de la partitio 2,.. et il y a 9 groupemets stables Partitio 1 38 35 40 30 5 25 0 Partitio 2 43 30 8 5 40 3 2 25 Si l o a =10000 idividus par exemple que l o veut u partitio ayat au plus 100 groupemet stable, o applique deux fois les cetres mobiles pour trouver deux partitios e K=10 classes. Deuxième étape : O applique esuite la CAH sur les classes de la partitio obteue à l étape précédete. Pour cela, u ouveau tableau de doées est costruit ou chaque lige est le cetre de gravité des idividus d ue classe (calculés sur la matrice " #q ). Il y a doc autat de liges que de classes. Chaque lige (représetat ue classe) est podérée par la somme des poids des idividus de la classe. Les sigletos de la hiérarchie trouvée par classificatio mixte e sot doc pas les idividus de départ mais les cetres de gravités classes obteues à la première étape. Cette première étape est ue étape de réductio du ombre d idividus. Cette étape est particulièremet utile lorsque le ombre d idividus au départ est grad. E effet, le dedrogramme d ue hiérarchie est alors vite illisible. 2 Coupure du dedrogramme Si o veut maiteat sélectioer des partitios issues de cette hiérarchie, o applique la méthode PARTI-DECLA. Cette méthode permet : - soit de choisir les coupures qui ous itéresset : il faut spécifier le ombre de classes des partitios que l o souhaite étudier. - soit de laisser le logiciel défiir automatiquemet ces coupures. Il faut juste lui dire combie o veut de partitios et il défiira alors automatiquemet leurs ombres de classes.

E pratique, il vaut souvet mieux regardez successivemet les partitio e 2, 3, classes et s arrêter lorsqu o e trouve plus de boe iterprétatio. Esuite, pour chaque partitio aisi reteue, la méthode PARTI-DECLA va cosolider la partitio. Pour cela, l algorithme des cetres mobiles est appliqué e preat comme cetres iitiaux les cetres de gravité des classes de cette partitio. Ue ouvelle partitio dot le pourcetage d iertie expliquée est écessairemet supérieur ou égale à celui de la partitio de Ward, est aisi obteue. Pour chaque partitio après cosolidatio, la méthode peut fourir : - pour chaque classe, les paregos des classes (dot le ombre est à fixer par l utilisateur). Les paregos d ue classe sot les idividus les plus proches de so cetre de gravité. E ce ses, ce sot des idividus représetatifs de la classe, - l iterprétatio de ses classes e foctios des variables (voir sectio suivate). 3 Iterprétatio des classes d'ue partitio O peut iterpréter ue classe d ue partitio : - à partir du cetre de gravité de la classe ou des paragos, - à partir des variables. Si o veut iterpréter les classes d ue partitio e terme de variable, o peut fourir ue iterprétatio uidimesioelle des classes à partir des variables de l'aalyse. C est ce qui est fait avec la méthode PARTI-DECLA de SPAD multidimesioelle des classes à partir des variables. Das ce cas, la partitio défiit ue ouvelle variable dite variable de classe, qui joue le rôle de la variable à expliquer das ue aalyse discrimiate. O peut etre autre effectuer : - Ue méthode de segmetatio comme CART (approche o paramétrique) - Ue aalyse discrimiate (liéaire ou quadratique) à partir des composates factorielles, et reveir esuite aux variables iitiales Ici, ous ous itéressos uiquemet à l iterprétatio uidimesioelle, les méthodes multidimesioelles de segmetatio ou d aalyse discrimiate faisat l objet d u autre cours. L objectif de la descriptio uidimesioelle des classes d ue partitio das SPAD cosiste à défiir les variables et les modalités qui caractériset ue classe. O peut caractériser les classes par les variables illustrative ou par les variables actives. La méthode PARTI-DECLA permet doc de caractériser les classes par les modalités des variables qualitatives ou par les variables quatitatives. Das les deux cas (quatitatif ou qualitatif), o compare la moyee (ou la fréquece) d'ue variable (ou d'ue modalité) sur la classe et das l'échatillo global. 3.1 Caractérisatio d'ue classe par les modalités des variables qualitatives 3.1.1 Défiitio d ue valeur test O défiit la variable N ks =ombre d'idividus de la classe C k, ayat la modalité s. Sous l'hypothèse H 0 que les idividus qui costituet la classe soiet tirés au hasard et sas remise

das l échatillo global, cette variable suit ue distributio hypergéométrique d'espérace et de variace : E(N ks ) = s k " 2 # (N ks ) = s s $ k #1 1# ' s & ) % ( où est le ombre d'idividus, k est l'effectif de la classe C k et s est le ombre d'idividus possédat la modalité s. Cette distributio peut être approximée par ue distributio ormale si les effectifs des classes sot assez élevés. O a alors la statistique : t(n ks ) = N ks " E(N ks ) #(N ks ) O calcule alors la p-valeur : qui suit ue loi ormale cetrée réduite p(s) = P( t(n ks ) > t( ks )) où ks est le ombre d'idividus de la classe C k possédat la modalité s. La valeur t( ks ) est appelée la valeur test de la modalité s das la classe C k. Plus t( ks ) est grad e valeur absolue, plus cette probabilité est faible et plus l'hypothèse H 0 d'u tirage aléatoire est rejeté et doc plus la modalité s est caractéristique de la classe C k. Efi, plus t( ks ) est grad t( ks ) est positif, plus N ks > E(N ks ) et plus o dira que la modalité s est sur-représetée das la classe C k. A l iverse, plus t( ks ) est grad t( ks ) est égatif, plus N ks < E(N ks ) et plus o dira que la modalité s est sous-représetée das la classe C k. 3.1.2 Lecture des résultats Le listig de la méthode PARTI-DECLA doe pour chaque classe des partitios la liste des modalité (ordoée par valeurs de t( ks ) décroissat) pour lesquelles t( ks ) est supérieur à u certai seuil que l o peut modifier das les paramètres de la méthode. O a aisi ue sélectio des modalités qui caractériset bie la classe. Pour chacue de ces modalités, le listig doe comme résultat : "MOD/CLA" = proportio d idividus de la classe qui possèdet cette modalité "CLA/MOD" = ks k = proportio d idividus qui possèdet cette modalité qui se trouvet das cette classe = ks s Ue modalité caractérise d'autat mieux ue classe que ces deux idicateurs sot grads, simultaémet. E effet, si 100% des idividus de la classe possèdet cette modalité ("MOD/CLA"=100%), ot peut retrouver cette modalité das d'autres classes. Pour mesurer cela, o regarde quel est le pourcetage d'idividus possédat cette modalité qui se trouvet das la classe. Aisi, si "CLA/MOD"=100%, la classe cotiet tous les idividus ayat la modalité.

3.2 Caractérisatio d'ue classe par ue variable quatitative O calcule là aussi pour chaque variable quatitative ue valeur test défiie de la maière suivate : O appelle Y la variable quatitative. Sous l'hypothèse H 0 que les idividus qui costituet la classe soiet tirés au hasard et sas remise das l échatillo global (i.e. la moyee das la classe est «égale» à la moyee globale), la variable Y k = moyee de Y das la classe C k, a ue espérace et variace égale à : E(Y k ) = Y " 2 k (Y) = # k " 2 (Y) #1 k où " 2 (Y) est la variace empirique de Y. D'après le théorème cetral limite, la statistique : t(y k ) = Y k "Y suit ue ormale cetrée réduite # k (Y) O calcule alors la p-valeur : p(y k ) = P( t(y k ) > t(y k )) où y k est la moyee de la variable Y das la classe C k. La valeur t(y k ) est appelée la valeur test de la variable Y das la classe C k. O raisoe aisi exactemet comme das le cas de la caractérisatio d'ue classe par ue modalité. Plus la valeur test t(y k ) est grade (e valeur absolue) et plus la probabilité est petite, plus la variable cotiue caractérise la classe. Ue valeur test égative idique que la moyee de cette variable das la classe est plus faible que la moyee das tout l'échatillo. Et vice et versa. Le listig de la méthode PARTI-DECLA doe pour chaque classe des partitios la liste (ordoée par valeurs de t(y k ) décroissat) des variables pour lesquelles t(y k ) est supérieur à u certai seuil que l o peut modifier das les paramètres de la méthode. Pour chacue de ces variables sélectioées, o lit égalemet les valeurs suivates : sa moyee das la classe et das tout l échatillo, idem pour l écart-type. Remarque 1 : Lorsque les variables sot actives, o e peut pas doer d'iterprétatio statistique aux valeurs test calculées puisque ces variables ot participé à la costructio de ces classes. Les valeurs test permettet éamois d'opérer u tri sur les variables actives et s'iterprètet comme des écarts etre les valeurs prises par cette variable das la classe, et das tout l'échatillo. Remarque 2 : La méthode PARTI-DECLA permet d'autres types de caractérisatios comme par exemple, la caractérisatio des classes par les axes factoriels. Cela permet de détermier les directios das lesquels les classes sot bie représetées. Référece : J.P. Nakacha, J. Cofais, "Approche pragmatique de la classificatio", Duod.