GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1

Contents 1 Introduction 3 1.1 Classer et Classier................................ 3 1.2 Vocabulaire.................................... 3 2 Classication Ascendante Hierarchique (CAH) 4 2.1 Introduction.................................... 4 2.2 Critère d'agrégation................................ 5 2.3 Principe-Algorithme............................... 6 2.4 Méthode de Ward................................. 6 2.5 Attention aux inversions............................. 7 3 Classication K-means 8 4 Les classications avec SAS 9 4.1 Les procédures: cluster - varclus - fastclus - tree................ 9 4.2 La procédure CLUSTER............................. 9 4.2.1 But..................................... 9 4.2.2 Choix de la distance........................... 9 goutte@math.univ-paris13.fr Master 2 EID 07/08 2

1 Introduction Pour rappel l'analyse de données, c'est: Méthodes factorielles: ACP AFC ACM Classication automatique: Classication hiérarchique (tree clustering): création d'arbres. Classication ascendante hiérarchique (CAH) Classication descendante hiérarchique Partitionnement (clustering): création de partitions, classes. 1.1 Classer et Classier Il est important de ne pa confondre Classer et Classier. Classier = construire des classes. On construit notre propre système de partionnement en fonction de l'information de notre base. Classer = classement dans des classes préétablies. On utilise un partionnement déjà existant. 1.2 Vocabulaire Voici deux notions importantes: Classe monothétique : classe dont tous les individus possèdent une caractéristique en commun. Classe polythétique : classe dont les individus possèdent plusieurs attributs en commun mais pas forcément tous (classe plus ou moins homogène) goutte@math.univ-paris13.fr Master 2 EID 07/08 3

2 Classication Ascendante Hierarchique (CAH) 2.1 Introduction La Classication Ascendante Hierarchique (CAH) s'applique "normalement" sur des individus statistiques (personnes, entreprises, données nancières,...). On souhaite regrouper ces individus selon un critère de ressemblance. On cherche donc à isoler des informations de notre base qui "rapprochent" des individus entre eux et qui en éloignent d'autres. Les données que nous possédons sont donc les suivantes: un tableau individus x variables. un tableau de distances entre individus. Nous devonc pour cela dénit les paramètres suivants: Les données d'origine (brutes, normalisées,...) La distance entre individus (euclidienne, χ 2,...) Le critère d'agrégation entre deux classes (saut minimum, diamètre=saut maximum, ward, moyenne,...) goutte@math.univ-paris13.fr Master 2 EID 07/08 4

2.2 Critère d'agrégation goutte@math.univ-paris13.fr Master 2 EID 07/08 5

2.3 Principe-Algorithme goutte@math.univ-paris13.fr Master 2 EID 07/08 6

Cependant lorsque l'on agrège 2 éléments, l'inertie intra-classe augmente et l'inertie interclasse diminue. Le critère de Ward tente de minimiser ces variations. Graphes: 2.5 Attention aux inversions Un critère d'agrégation doit être une fonction croissante. Certaines mauvaises "bonnes idées" de critère d'agrégation ne respecte pas cette condition et présente alors des inversion dans le dendrogramme (arbre). Voci un exemple d'inversion. Graphes: goutte@math.univ-paris13.fr Master 2 EID 07/08 7

3 Classication K-means Principe et Graphes: goutte@math.univ-paris13.fr Master 2 EID 07/08 8

4 Les classications avec SAS 4.1 Les procédures: cluster - varclus - fastclus - tree Deux procédures SAS permettent de réaliser des classications: La PROC CLUSTER. La PROC VARCLUS (Cette procédure eectue une classication de variables). Pour dessiner les arbres et les "couper": La PROC TREE. Pour eectuer des partitions : La PROC FASTCLUS. 4.2 La procédure CLUSTER 4.2.1 But Le but de la méthode est de construire une partition de l'ensemble des individus de telle sorte que les individus d'une même classe soient "proches" et ceux issus de classes distinctes soient "éloignés". 4.2.2 Choix de la distance Pour savoir si des individus sont proches ou éloignés, il faut mesurer la distance qui les sépare. Nous devons donc choisir une distance. Quantitative : Distance euclidienne. Qualitative: Distance χ 2. La syntaxe de la procédure T-Test est la suiante: PROC CLUSTER METHOD= <options>; BY variables; VAR variables; ID variable; FREQ variable; RUN; Les options: Algorithme 1: Syntaxe de la procédure CLUSTER goutte@math.univ-paris13.fr Master 2 EID 07/08 9

DATA=Table-SAS. OUTTREE=Table-SAS : Table SAS qui contient les données concernant l'arbre. METHOD=indique le critère d'agrégation à utiliser. De façon plus concrête: * METHOD: SAS connaît 11 méthodes diérentes pour eectuer la classication. AVER- AGE, CENTROID, COMPLETE, DENSITY, EML, FLEXIBLE, MCQUITTY, MEDIAN, SINGLE, TWOSTAGE, WARD. Nous utiliserons souvent WARD, CENTROID ou AVER- AGE. * OUTTREE =Nom de chier de données SAS. Pour indiquer un chier de données où SAS mettra les résultats des calculs de la procédure CLUSTER. Ces résultats pourront être récupérés par la procédure PROC TREE qui permet d'eectuer un découpage en classes des données, de tracer un pseudo dendrogramme. * STANDARD :Pour demander à SAS de travailler sur des données centrées réduites. * NOTIE : Pour demander à SAS de ne pas vérier l'existence d'exaequos. * RSQUARE : Pour acher le R 2 qui est l'indice mesurant la qualité de la classication dont nous parlions plus haut (Inertie inter-classes/inertie-totale). Cette option est automatiquement activée pour METHOD=WARD. SAS ache également un R 2 partiel qui est en fait la perte de R 2 à chaque étape. * NOPRINT : Supprime l achage. PROC VARCLUS <options>; BY variables; VAR variables; WEIGHT variable; RUN; Algorithme 2: Syntaxe de la procédure VARCLUS Les options: DATA=Table-SAS OUTTREE=Table-SAS MAXCLUSTER= CENTROID goutte@math.univ-paris13.fr Master 2 EID 07/08 10

PROC TREE <options>; BY variables; ID variable; RUN; Algorithme 3: Syntaxe de la procédure TREE Les options: DATA=Table-SAS OUT=Table-SAS NCL=nombre de classe HORIZONTAL PROC FASTCLUS MAXCLUSTERS= ; BY variables; VAR variables; ID variable; WEIGHT variable; RUN; Algorithme 4: Syntaxe de la procédure FASTCLUS Les options: DATA=Table-SAS OUT=Table-SAS goutte@math.univ-paris13.fr Master 2 EID 07/08 11

Liste des Algorithmes 1 Syntaxe de la procédure CLUSTER....................... 9 2 Syntaxe de la procédure VARCLUS....................... 10 3 Syntaxe de la procédure TREE......................... 11 4 Syntaxe de la procédure FASTCLUS...................... 11 goutte@math.univ-paris13.fr Master 2 EID 07/08 12