Partie 1 : Étude des caractéristiques d un ensemble d hôtels



Documents pareils
La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

ACP Voitures 1- Méthode

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Scénario: Données bancaires et segmentation de clientèle

Introduction à l approche bootstrap

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Imputation par la moyenne

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Logiciel XLSTAT version rue Damrémont PARIS

Analyse en Composantes Principales

Introduction au Data-Mining

Le VIH et votre cœur

ESIEA PARIS

1 Complément sur la projection du nuage des individus

23. Interprétation clinique des mesures de l effet traitement

Introduction au Data-Mining

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Séance 11 : Typologies

SAS de base : gestion des données et procédures élémentaires

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

De la mesure à l analyse des risques

Un exemple de régression logistique sous

Les algorithmes de fouille de données

«Boire un verre de vin par jour augmente la longévité.»

Classification non supervisée

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

LES FACTEURS DE RISQUE

Introduction au datamining

Mémo d utilisation de ADE-4

Statistique Descriptive Multidimensionnelle. (pour les nuls)

MAP 553 Apprentissage statistique

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Arbres binaires de décision

Apprentissage Automatique

Théorie et codage de l information

PROJET MODELE DE TAUX

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Loi binomiale Lois normales

TABLE DES MATIERES. C Exercices complémentaires 42

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Chapitre 3. Les distributions à deux variables

Quelques éléments de statistique multidimensionnelle

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Data mining 1. Exploration Statistique

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

TSTI 2D CH X : Exemples de lois à densité 1

Individus et informations supplémentaires

1 - PRESENTATION GENERALE...

PROBABILITES ET STATISTIQUE I&II

Exercice : la frontière des portefeuilles optimaux sans actif certain

Le modèle de régression linéaire

Introduction. Préambule. Le contexte

Test de terrain ou test de laboratoire pour la performance en endurance?

Cours de méthodes de scoring

Relation entre deux variables : estimation de la corrélation linéaire

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèles pour données répétées

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Analyse dialectométrique des parlers berbères de Kabylie

IFT3245. Simulation et modèles

Conception de Médicament

De la mesure à l analyse des risques

Etudes marketing et connaissance client

Cours IV Mise en orbite

Partie 5 : La consommation et l investissement

Le VIH et votre apparence physique

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

Probabilités conditionnelles Loi binomiale

IBM SPSS Regression 21

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Mesure agnostique de la qualité des images.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Scénario: Score d appétence de la carte visa premier

Simulation de variables aléatoires

Programmation linéaire

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Cycle de formation certifiante Sphinx

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Quantification Scalaire et Prédictive

Feuille TD n 1 Exercices d algorithmique éléments de correction

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Le modèle de Black et Scholes

L'analyse des données à l usage des non mathématiciens

Transcription:

Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au confort, à la qualité et à la situation d un ensemble d hôtels. Importer les données sous R. Quelles sont les différentes variables? Quelle est leur nature? Qui sont les individus sur qui on va faire porter la classification? Obtenir les statistiques descriptives, les covariances et les corrélations entre les variables quantitatives du jeu de données. Classification hiérarchique ascendante Faire la classification hiérarchique ascendante des observations en utilisant les distances eulidienne et Manhattan et les liaisons simple, complète et de Ward. Dans chacun des cas, représenter le dendogramme, proposer un nombre de classes, lister les hôtels (et les pays) de chaque classe, donner la moyenne de chaque classe et interpréter les résultats. Par exemple, si hotels est la table de données : Pays = hotels[,1] hotelsnum = hotels[,-1] d.h = dist(hotelsnum,"euclidean") cah.h = hclust(d.h,"ward") str(cah.h) plot(cah.h,hang =-1) dev.new() plot(cah.h$height) nbcl = 3 1

split(rownames(hotelsnum),cutree(cah.h,k=nbcl)) (s.pays = split(pays,cutree(cah.h,k=nbcl)) pca.h = PCA(hotelsnum) plot(pca.h$ind$coord[,1:2], pch=21, bg=c("red", "green", "blue")[cutree(cah.h,k=nbc Obtient-on les mêmes résultats si on réduit les données? Quelle est la meilleure classification? Pourquoi? K-moyennes 1. Obtenir la classification des hôtels en trois groupes à l aide de la méthode des K-moyennes qui portera sur toutes les variables numériques du tableau. Représenter graphiquement les trois groupes sur les premiers plans factoriels de l ACP. Qu observe t on? Lister les hôtels (et les pays) de chaque classe, donner les centres de chaque classe et interpréter les résultats. Pour obtenir la classification, on fait par exemple nbcl = 3 centers.init = hotelsnum[sample(1:length(hotelsnum[,1]),nbcl),] ; K = kmeans(hotelsnum, centers.init) Comment est initialisé l algorithme? Obtient-on toujours le même résultat quand on change l initialisation? Proposer une autre méthode d initialisation. Obtient-on le même résultat si on travaille avec des données réduites? centréesréduites? 2. Obtenir la classification des hôtels en trois groupes à l aide de la méthode des K-moyennes qui portera sur les coordonnées des hôtels dans le premier plan factoriel. Représenter graphiquement les trois groupes sur les premiers plans factoriels de l ACP. Qu observe t on? Lister les hôtels (et les pays) de chaque classe, donner les centres de chaque classe et interpréter les résultats. 3. Quelles sont les différences de classement entre les classements des questions 1 et 2 précédentes? Le premier plan factoriel traduit-il fidèlement l ensemble des données? (voir valeurs propres). 2

4. Sélection de modèle. Il est possible d associer un critère BIC au modèle obtenu quand on fait de la classification par la méthode des moyennes mobiles. On peut en effet supposer qu on obtient un modèle de mélange gaussien : dans chaque classe le vecteur des variables X suit une loi de Gauss de moyenne µ k et de variance Σ k. Ainsi la densité de X est donnée par f X (x) = K π k φ k (x; µ k, Σ k ) k=1 avec π k la probabilité a priori de la classe k. Estimer le critère BIC pour des modèles à K = 2 jusqu à K = 7 classes. Quel est le meilleur modèle selon ce critère? Estimer aussi pour chacun des modèles le rapport de l inertie inter-classe sur l inertie totale. Quel est le meilleur modèle selon ce critère? Ces résultats sont-ils cohérents? 5. On décide de vérifier si l attribution des étoiles est conforme aux critères de constitution des groupes par la méthode des K-moyennes. Puisqu il existe 6 catégories d étoiles de 0 à 5, classer les hôtels en 6 groupes à l aide de la méthode des K-moyennes portant cette fois ci sur toutes les variables à l exclusion des variables prix et étoiles. Comparer la répartition des hotels dans les groupes et leur nombre d étoiles. On peut utiliser la fonction table. Attention, les groupes ne sont pas nécéssairement numérotés par ordre croissant d étoiles. 3

Partie 2 : Sélection de variables par classification On dispose d une base de données collectant certains facteurs qui sont susceptibles d influencer la maladie cardiaque d hommes du Western Cape, Afrique de Sud (voir http://www-stat.stanford.edu/~tibs/elemstatlearn/, South African Heart Disease). Les variables renseignées sont les suivantes : sbp : pression sanguine systolique (systolic blood pressure) tobacco : la quantité de tabac consommé cumulée (cumulative tobacco (kg)) ldl : taux de cholestérol dans le sang (low density lipoprotein cholesterol) adiposity : adiposité famhist : antécédents familiaux : Present s il y a eu des antécédants familiaux (family history of heart disease (Present, Absent)) typea : comportement de type A (type-a behavior) obesity : obésité alcohol : consommation courante d alcool (current alcohol consumption) age : age au moment de l attaque cardiaque (age at onset) chd : variable réponse codée 1 si la maladie du coeur est présente, 0 sinon (response, coronary heart disease ) Vous trouverez ces données sur la page web du cours. Matrice de similarité On calcule tout d abord une matrice de similarité que l on pourra utiliser pour faire de la classification et/ou du positionnement multidimensionnel. Ici on choisit d utiliser le T de Tschuprow qui permet de mesurer la similarité entre deux variables qualitatives. Considérons deux variables qualitatives, X à r modalités et Y à s modalités. Le T de Tschuprow défini par χ 2 T = observé n ν où ν = (r 1)(s 1) et χ 2 observé = n [ r l=1 s h=1 n 2 lh n l+ n +h 1 ] Ici n lh représente le nombre d individus tels que x = l et y = h, n l+ est le nombre d individus tels que x = l et n +h le nombre d individus tels que y = h. On observe 4

que T est une fonction croissante du χ observé. Et le premier terme du χ observé donne une approximation empirique du rapport P (X = x, Y = y)) P (X = x)p (Y = y) On rappelle que si X et Y sont indépendantes (et donc distantes), ce rapport est égal à 1 et, en conséquence, le T de Tschuprow proche de 0. L éxecution de ce programme peut être fastidieuse car elle requiert de nombreux lancement de la proc freq (pour discrétiser les variables continues notamment). Il est conseillé de réfléchir en amont à la sélection de variables et de réduire un peu le jeu de données avant de lancer %dtprow quand le jeu de données est important (ce qui n est pas le cas ici). %let listev = sbp tobacco ldl adiposity famhist typea obesity alcohol age chd ; %dtprow(heart_disease,&listev,outprox = sasuser.dtschvp) ; Classification Une classification hiérarchique est ensuite opérée sur le tableau dtschvp obtenu par dtprow. L idée est alors de sélectionner un sous-ensemble de variables en ne retenant, par exemple qu une variable dans certains groupes ou encore de réaliser une analyse factorielle (afcm) par groupe pour aider au choix. proc cluster data = sasuser.dtschvp method=ward outtree=tree ; var &listev ; copy varname; proc tree data=tree graphics hor out=chclasse ncluster = 5 ; id varname ; run; Positionnement multidimensionnel Un positionnement multidimensionnel des variables tenant compte de leurs distances respectives apporte une vision complémentaire : proc mds data=sasuser.dtschvp shape=square out=result; var &listev ; object varname ; 5

run ; proc sort data=result out = result1 ; by varname ; proc sort data =chclasse out= result2 ; by varname ; run ; data resul; merge result1 result2; by varname ; run ; %couleur(resul,cluster) ; %gafcx(ident=varname,nc=6,col=coul) ; Choix de variables Aidez vous des résultats précédents pour proposer une sélection de 2 à 5 variables discriminantes pour prédire la présence/absence de maladie. Ajuster des modèles discriminant à l aide de la discrim pour les variables que vous avez retenues. Valider et comparer les modèles obtenus. 6