GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

Documents pareils
La classification automatique de données quantitatives

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Séance 11 : Typologies

ACP Voitures 1- Méthode

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Classification non supervisée

1 - PRESENTATION GENERALE...

Compte-rendu de projet de Système de gestion de base de données

Agrégation des portefeuilles de contrats d assurance vie

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Scénario: Données bancaires et segmentation de clientèle

Etudes marketing et connaissance client

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Algorithmes d'apprentissage

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

chapitre 4 Nombres de Catalan

INTRODUCTION AU DATA MINING

Introduction au datamining

Logiciel XLSTAT version rue Damrémont PARIS

Big Data et Graphes : Quelques pistes de recherche

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Big Data et Graphes : Quelques pistes de recherche

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Ebauche Rapport finale

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Mode d'emploi du plugin Grayscale_Granulometry

TP2 - Conguration réseau et commandes utiles. 1 Généralités. 2 Conguration de la machine. 2.1 Commande hostname

(VM(t i ),Q(t i+j ),VM(t i+j ))

Individus et informations supplémentaires

La Gestion de fichiers Supports réalisés avec OpenOffice.org 2.3 Writer. La Gestion de fichiers. Niveau : Débutant Auteur : Antonio da Silva

Arbres binaires de décision

Introduction au Data-Mining

Encryptions, compression et partitionnement des données

DATAMINING C4.5 - DBSCAN

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Application de K-means à la définition du nombre de VM optimal dans un cloud

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Optimisation, traitement d image et éclipse de Soleil

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Spécificités, Applications et Outils

Analyse dialectométrique des parlers berbères de Kabylie

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Année Universitaire 2009/2010 Session 2 de Printemps

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

DATA MINING - Analyses de données symboliques sur les restaurants

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Raja Bases de données distribuées A Lire - Tutoriel

SAS de base : gestion des données et procédures élémentaires

Questions d Entretiens en Finance de Marché Retour 2011/2012

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

TD 1 - Structures de Traits et Unification

ESIEA PARIS

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

1. Vocabulaire : Introduction au tableau élémentaire

Extraction d informations stratégiques par Analyse en Composantes Principales

Statistiques Descriptives à une dimension

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Propagation sur réseau statique et dynamique

FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles

Pierre Couprie. «Analyser la musique électroacoustique avec le logiciel ianalyse» EMS08

Introduction. Préambule. Le contexte

Les algorithmes de fouille de données

Docteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Complet Intuitif Efficace. Références

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

Introduction au Data-Mining

Rappels sur les suites - Algorithme

Chapitre 4: Dérivée d'une fonction et règles de calcul

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Statistique : Résumé de cours et méthodes

Segmentation d'images à l'aide d'agents sociaux : applications GPU

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

OPTIMISATION À UNE VARIABLE

Chapitre 1 : Introduction aux bases de données

Equilibrage de charge multi-critère pour les serveurs DNS(SEC)

Recherche dans un tableau

Travaux pratiques avec RapidMiner

ODS : organiser et diffuser des sorties

L export de SAS vers Excel expliqué à ma fille

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

1 Modélisation d être mauvais payeur

Peut-on tout programmer?

ALGORITHMES DE CLASSIFICATION

Entrepôt de données 1. Introduction

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Bases de données réparties: Fragmentation et allocation

Transcription:

LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1

Contents 1 Introduction 3 1.1 Classer et Classier................................ 3 1.2 Vocabulaire.................................... 3 2 Classication Ascendante Hierarchique (CAH) 4 2.1 Introduction.................................... 4 2.2 Critère d'agrégation................................ 5 2.3 Principe-Algorithme............................... 6 2.4 Méthode de Ward................................. 6 2.5 Attention aux inversions............................. 7 3 Classication K-means 8 4 Les classications avec SAS 9 4.1 Les procédures: cluster - varclus - fastclus - tree................ 9 4.2 La procédure CLUSTER............................. 9 4.2.1 But..................................... 9 4.2.2 Choix de la distance........................... 9 goutte@math.univ-paris13.fr Master 2 EID 07/08 2

1 Introduction Pour rappel l'analyse de données, c'est: Méthodes factorielles: ACP AFC ACM Classication automatique: Classication hiérarchique (tree clustering): création d'arbres. Classication ascendante hiérarchique (CAH) Classication descendante hiérarchique Partitionnement (clustering): création de partitions, classes. 1.1 Classer et Classier Il est important de ne pa confondre Classer et Classier. Classier = construire des classes. On construit notre propre système de partionnement en fonction de l'information de notre base. Classer = classement dans des classes préétablies. On utilise un partionnement déjà existant. 1.2 Vocabulaire Voici deux notions importantes: Classe monothétique : classe dont tous les individus possèdent une caractéristique en commun. Classe polythétique : classe dont les individus possèdent plusieurs attributs en commun mais pas forcément tous (classe plus ou moins homogène) goutte@math.univ-paris13.fr Master 2 EID 07/08 3

2 Classication Ascendante Hierarchique (CAH) 2.1 Introduction La Classication Ascendante Hierarchique (CAH) s'applique "normalement" sur des individus statistiques (personnes, entreprises, données nancières,...). On souhaite regrouper ces individus selon un critère de ressemblance. On cherche donc à isoler des informations de notre base qui "rapprochent" des individus entre eux et qui en éloignent d'autres. Les données que nous possédons sont donc les suivantes: un tableau individus x variables. un tableau de distances entre individus. Nous devonc pour cela dénit les paramètres suivants: Les données d'origine (brutes, normalisées,...) La distance entre individus (euclidienne, χ 2,...) Le critère d'agrégation entre deux classes (saut minimum, diamètre=saut maximum, ward, moyenne,...) goutte@math.univ-paris13.fr Master 2 EID 07/08 4

2.2 Critère d'agrégation goutte@math.univ-paris13.fr Master 2 EID 07/08 5

2.3 Principe-Algorithme goutte@math.univ-paris13.fr Master 2 EID 07/08 6

Cependant lorsque l'on agrège 2 éléments, l'inertie intra-classe augmente et l'inertie interclasse diminue. Le critère de Ward tente de minimiser ces variations. Graphes: 2.5 Attention aux inversions Un critère d'agrégation doit être une fonction croissante. Certaines mauvaises "bonnes idées" de critère d'agrégation ne respecte pas cette condition et présente alors des inversion dans le dendrogramme (arbre). Voci un exemple d'inversion. Graphes: goutte@math.univ-paris13.fr Master 2 EID 07/08 7

3 Classication K-means Principe et Graphes: goutte@math.univ-paris13.fr Master 2 EID 07/08 8

4 Les classications avec SAS 4.1 Les procédures: cluster - varclus - fastclus - tree Deux procédures SAS permettent de réaliser des classications: La PROC CLUSTER. La PROC VARCLUS (Cette procédure eectue une classication de variables). Pour dessiner les arbres et les "couper": La PROC TREE. Pour eectuer des partitions : La PROC FASTCLUS. 4.2 La procédure CLUSTER 4.2.1 But Le but de la méthode est de construire une partition de l'ensemble des individus de telle sorte que les individus d'une même classe soient "proches" et ceux issus de classes distinctes soient "éloignés". 4.2.2 Choix de la distance Pour savoir si des individus sont proches ou éloignés, il faut mesurer la distance qui les sépare. Nous devons donc choisir une distance. Quantitative : Distance euclidienne. Qualitative: Distance χ 2. La syntaxe de la procédure T-Test est la suiante: PROC CLUSTER METHOD= <options>; BY variables; VAR variables; ID variable; FREQ variable; RUN; Les options: Algorithme 1: Syntaxe de la procédure CLUSTER goutte@math.univ-paris13.fr Master 2 EID 07/08 9

DATA=Table-SAS. OUTTREE=Table-SAS : Table SAS qui contient les données concernant l'arbre. METHOD=indique le critère d'agrégation à utiliser. De façon plus concrête: * METHOD: SAS connaît 11 méthodes diérentes pour eectuer la classication. AVER- AGE, CENTROID, COMPLETE, DENSITY, EML, FLEXIBLE, MCQUITTY, MEDIAN, SINGLE, TWOSTAGE, WARD. Nous utiliserons souvent WARD, CENTROID ou AVER- AGE. * OUTTREE =Nom de chier de données SAS. Pour indiquer un chier de données où SAS mettra les résultats des calculs de la procédure CLUSTER. Ces résultats pourront être récupérés par la procédure PROC TREE qui permet d'eectuer un découpage en classes des données, de tracer un pseudo dendrogramme. * STANDARD :Pour demander à SAS de travailler sur des données centrées réduites. * NOTIE : Pour demander à SAS de ne pas vérier l'existence d'exaequos. * RSQUARE : Pour acher le R 2 qui est l'indice mesurant la qualité de la classication dont nous parlions plus haut (Inertie inter-classes/inertie-totale). Cette option est automatiquement activée pour METHOD=WARD. SAS ache également un R 2 partiel qui est en fait la perte de R 2 à chaque étape. * NOPRINT : Supprime l achage. PROC VARCLUS <options>; BY variables; VAR variables; WEIGHT variable; RUN; Algorithme 2: Syntaxe de la procédure VARCLUS Les options: DATA=Table-SAS OUTTREE=Table-SAS MAXCLUSTER= CENTROID goutte@math.univ-paris13.fr Master 2 EID 07/08 10

PROC TREE <options>; BY variables; ID variable; RUN; Algorithme 3: Syntaxe de la procédure TREE Les options: DATA=Table-SAS OUT=Table-SAS NCL=nombre de classe HORIZONTAL PROC FASTCLUS MAXCLUSTERS= ; BY variables; VAR variables; ID variable; WEIGHT variable; RUN; Algorithme 4: Syntaxe de la procédure FASTCLUS Les options: DATA=Table-SAS OUT=Table-SAS goutte@math.univ-paris13.fr Master 2 EID 07/08 11

Liste des Algorithmes 1 Syntaxe de la procédure CLUSTER....................... 9 2 Syntaxe de la procédure VARCLUS....................... 10 3 Syntaxe de la procédure TREE......................... 11 4 Syntaxe de la procédure FASTCLUS...................... 11 goutte@math.univ-paris13.fr Master 2 EID 07/08 12