T. D. n o 13 Analyse en composantes principales

Documents pareils
ESIEA PARIS

Gestion des données avec R

Initiation à l analyse en composantes principales

Mémo d utilisation de ADE-4

ACP Voitures 1- Méthode

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Lire ; Compter ; Tester... avec R

Extraction d informations stratégiques par Analyse en Composantes Principales

THOMAS COOK GROUPES. Crète Séjour Iérapétra

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Dimensionnement Introduction

Statistiques avec la graph 35+

Descriptif de la Villa Deep Sea

Statistique : Résumé de cours et méthodes

1 Complément sur la projection du nuage des individus

Un exemple de régression logistique sous

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique

La Garantie Santé. Enfin une complémentaire santé qui répond à vos attentes. Mutuelle soumise aux dispositions du livre II du Code de la Mutualité,

Des villas d exception pour des vacances à-la-carte

LE TABLEAU SYNTHÈSE DES BOURSES UNIVERSITAIRES

Radisson Blu Resort & Thalasso, Djerba, Tunisie. Bienvenue au Radisson Blu

La classification automatique de données quantitatives

Groupe de travail Gestion des identités Les usages et les services ATELIER 2

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Le Relax Hôtel & Restaurant, Mahe

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Logiciel XLSTAT version rue Damrémont PARIS

Introduction aux Statistiques et à l utilisation du logiciel R

NOM DE L ELEVE :.. Dossier à rendre complété avant le 16 Mars 2015 (afin de vous éviter le temps des formalités lors de la pré-rentrée).

FICHE TECHNIQUE 2014/ 2015

Elle répond à l ensemble des attentes que vous avez exprimées au cours de notre entretien.

TP1 : LOGICIEL R ET PRÉDICTION DE L EFFLORESCENCE ALGALE

L'analyse des données à l usage des non mathématiciens

LastMinutes & Promos. Club Le Capet** Pension complète Période de départs : 26/06/15 > 26/06/15 Durée : 10 jours. Hôtels H-Top **** Tous régimes

Assises Européennes du Bâtiment Basse Consommations. Frédéric ric FRUSTA. Président Directeur Général. ENERGIVIE 25 Juin 2010

Typologie des séjours en Bourgogne en 2007 Suivi de la Demande Touristique 2007

Recommandation prédictive

INFORMATIONS PRATIQUES

GUIDE. «La Cadière d Azur accessible à tous»

Accompagnement sur mesure ou solution vpack pré-packagée

Radisson Blu Resort & Thalasso DJERBA TUNISIE

Analyse en Composantes Principales

Unity Real Time 2.0 Service Pack 2 update

SPHINX Logiciel de dépouillement d enquêtes

Départs automne 2010 : Égypte

GUIDE D APPLICATION DE LA TAXE DE SEJOUR

S initier aux probabilités simples «Un jeu de cartes inédit»

LA BANQUE NATIONALE DE SERBIE EXPRIME SES REMERCIEMENTS À LA BANQUE DE FRANCE POUR LES COPIES DE DOCUMENTS D ARCHIVES

Séance 0 : Linux + Octave : le compromis idéal

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Accès aux antiviraux contre les hépatites dans les pays à bas et moyens revenus : produire localement des génériques. Maurice Cassier CNRS CERMES3

Utilisation du monitoring en temps réel

Une entreprise sur mesure

INTRODUCTION AU LOGICIEL R

LOCATIONS ETUDIANTS 2012

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

HAUTE SAISON et «weekend-only» pendant la moyenne saison

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Technologie Esthétique Services. Logiciel pour avocats sensibles aussi à... l esthétique. SECIB Le choix de l excellence

Le Groupe George V Eatertainment crée l événement. Le Buddha-Bar Hotel Paris Un lieu de vie, une invitation au voyage...

modèles génériques applicables à la synthèse de contrôleurs discrets pour l Internet des Objets

LES RETOMBÉES ÉCONOMIQUES DE LA PÊCHE DE LOISIRS DANS LE SECTEUR DU LAC DU BOURGET. Restitution - 13 octobre 2014

Un monde infini de privilèges

L ECONOMIE SOCIALE ET SOLIDAIRE

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

LA TETE DANS LES ETOILES!

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Mode Opératoire Ciel Gestion commerciale V 12 et s (2006)

TA/UTAX Mobile Print L impression mobile TA Triumph Adler pour Androïd et ios

Le marché immobilier en France

BOOK TOURISME D AFFAIRES

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Individus et informations supplémentaires

Digital /Social Marketing. NADAV EVENT MANAGEMENT Contact : Nadya CHAMOR contact@nadavevent.com

ERIC FRECHON. La cuisine pour un vélo, cela semble bien surprenant. Et pourtant, c est bien pour cela qu Eric Frechon est arrivé aux fourneaux.

LES PARADOXES DU DESIR

3 48 Sud / Est SEYCHELLES

SINCE 1973 AZUR PAYSAGE. DOSSIER de PRESENTATION de L ENTREPRISE. DOSSIER PHOTOS de REALISATIONS

GUIDE RESIDENCES ETUDIANTES - CPGE ECE - St LOUIS Ste BARBE

Baccalauréat professionnel GESTION ADMINISTRATION

Analyse des correspondances avec colonne de référence

C est à vous qu il appartient de mettre en place des conditions optimales pour permettre la meilleure réalisation possible.

touristique : quelle vision partager? Les perspectives de normalisation AFNOR Responsable Développement Sport, Loisirs

DRIVING CENTER.

UE C avancé cours 1: introduction et révisions

ACAF LIBREVILLE 2015 / INFORMATIONS UTILES

Bilan de référencement

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

REPUBLIQUE FRANÇAISE 2015/... DCM N

Compagnie des Transports Strasbourgeois. Rénovation et modernisation du réseau tram : poursuite du plan pluriannuel cet été

HERBIER NUMERIQUE COLLABORATIF DE MAURICE. enseignants des établissements à programme français de Maurice

Maison au bord de l eau 5 chambres Piscine Jacuzzi Dock A proximité immédiate du Normandy Shores Golf Club.

TEAM-BUILDING BOOK 2015

MAP 553 Apprentissage statistique

ANNEX 12. Marketing brochure (See attached document) & Visit:

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

BUREAU CENTRAL FRANÇAIS

LE DIAMANT L ANSE BLEUE HHNF. en Hébergement Seul

DÉTAILS ET RÈGLEMENTS DE LA LOTO VOYAGE 2014

Transcription:

T. D. n o 13 Analyse en composantes principales Exercice 1. Étude des caractéristiques d un ensemble d hôtels Partie I 1. Récupérer les données dans R en exécutant les instructions suivantes. Penser à remplacer "C:\\..." par le répertoire dans lequel vous avez enregistré le fichier que vous souhaitez ouvrir. > Chemin <- "C:\\..." > hotels <- read.csv(paste(chemin, "MASTER2TD21_EX1.CSV", + sep = ""), row.names = 1) 2. Quelles sont les différentes variables reproduites dans le tableau au verso? Quelle est leur nature? Qui sont les individus sur qui on va faire porter l analyse en composantes principales? Obtenir les statistiques descriptives, les covariances et les corrélations entre les variables quantitatives du jeu de données. Créer ensuite le graphique en étoile des hôtels. PAYS ETOILE CONFORT CHAMBRE 1 : 8 Min. :0.000 Min. :2.00 Min. : 50.0 2 :12 1st Qu. :2.000 1st Qu. :4.00 1st Qu. :148.0 3 : 5 Median :3.000 Median :5.00 Median :250.0 4 :10 Mean :2.974 Mean :5.18 Mean :261.2 5 Turquie : 4 3rd Qu. :4.000 3rd Qu. :6.00 3rd Qu. :317.0 6 Max. :5.000 Max. :9.00 Max. :800.0 CUISINE SPORT PLAGE PRIX 1 Min. : 1.000 Min. : 0.000 Min. : 0.00 Min. : 369.0 2 1st Qu. : 5.000 1st Qu. : 4.000 1st Qu. : 6.50 1st Qu. : 447.0 3 Median : 7.000 Median : 6.000 Median : 8.00 Median : 495.0 4 Mean : 6.667 Mean : 6.231 Mean : 7.77 Mean : 529.9 5 3rd Qu. : 9.000 3rd Qu. :10.000 3rd Qu. :10.00 3rd Qu. : 574.0 6 Max. :10.000 Max. :10.000 Max. :10.00 Max. :1101.0 > palette(rainbow(12, s = 0.6, v = 0.75)) > stars(hotels, key.loc = c(14.5, 2), draw.segments = T, + main = "Diagramme en étoile des h^otels") > palette("default") 1

ETOILE CONFORT CHAMBRE CUISINE SPORT PLAGE PRIX ETOILE 2.24 1.48 18.03 2.36 0.43-0.51 111.63 CONFORT 1.48 2.47 17.01 2.32 0.19-0.22 102.57 CHAMBRE 18.03 17.01 22449.75 167.10 246.90 74.76-721.16 CUISINE 2.36 2.32 167.10 7.02 4.18 1.84 207.25 SPORT 0.43 0.19 246.90 4.18 11.87 4.98 147.87 PLAGE -0.51-0.22 74.76 1.84 4.98 7.39 126.37 PRIX 111.63 102.57-721.16 207.25 147.87 126.37 19006.99 ETOILE CONFORT CHAMBRE CUISINE SPORT PLAGE PRIX ETOILE 1.00 0.63 0.08 0.60 0.08-0.12 0.54 CONFORT 0.63 1.00 0.07 0.56 0.04-0.05 0.47 CHAMBRE 0.08 0.07 1.00 0.42 0.48 0.18-0.03 CUISINE 0.60 0.56 0.42 1.00 0.46 0.26 0.57 SPORT 0.08 0.04 0.48 0.46 1.00 0.53 0.31 PLAGE -0.12-0.05 0.18 0.26 0.53 1.00 0.34 PRIX 0.54 0.47-0.03 0.57 0.31 0.34 1.00 Diagramme en étoile des hôtels Appolpon Caravel Christina Economy Hanikian Beach Eden Beach Marina Beach Xenia Almohades Atlas Atlas Arnadi I Chems Dunes d'or La Résidence M'Diq Omayades Tour Hassan Sud Bahia Alfa Mar App Do Mar De Lagos Madeira Reid's Abou Sofiane Asdrubal Colombes Darnaour Mimosa Omarit Orangers Penelope Dauphin Or Ulysse CONFORT CHAMBRE ETOILE PAYS Kuriat Palace Hippocampe Sultan CUISINE SPORT PRIX PLAGE 2

3. Faire l analyse en composantes principales du tableau de données, puis construire les diagrammes des valeurs propres suivants. Par combien d axes l information est-elle résumée de manière satisfaisante? > library(factominer) > res.pca <- PCA(hotels, quali.sup = 1, scale.unit = TRUE, + ncp = 8, graph = FALSE) > barplot(res.pca$eig$per, ylab = "Inertie expliquée (%)", + xlab = "Composante") > barplot(res.pca$eig$cum, ylab = "Inertie cumulée expliquée (%)", + xlab = "Composante") > abline(h = 80, lty = 2, lwd = 2) Inertie expliquée (%) 0 10 20 30 40 Inertie cumulée expliquée (%) 0 20 40 60 80 100 Composante Composante 3. Représenter les individus dans le premier et le second plan factoriel en étiquetant les données de telle sorte que l on puisse identifier à quel hôtel est associé chaque point tout en indiquant les pays où sont implantés les hôtels. > plot(res.pca, choix = "ind", habillage = 1) > plot(res.pca, choix = "ind", habillage = 1, axes = c(3, + 4)) 3

Individuals factor map (PCA) Dimension 2 (24.76%) 4 2 0 2 4 Turquie M'DiqDarnaour Dauphin Or Dunes d'or La Résidence Abou Sofiane HippocampePenelope Sultan Orangers Turquie Hanikian Xenia Colombes Omarit Beach Eden Beach Asdrubal Ulysse Marina BeachDe Lagos Economy Alfa Mar AppolponMimosa Kuriat Palace Madeira Atlas Caravel Reid's Sud Bahia Omayades Atlas App Arnadi Do Mar I Tour Hassan Christina Almohades Chems 4 2 0 2 4 Dimension 1 (42.47%) 4

Individuals factor map (PCA) Dimension 4 (6.21%) 2 1 0 1 2 3 Turquie La Résidence Kuriat Christina Palace App Do Mar Tour Appolpon Hassan Marina Beach EconomyM'Diq Sultan Hippocampe De Lagos Reid's Omayades Hanikian Eden Beach Penelope Beach Atlas Almohades Arnadi I Madeira Turquie Sud Omarit Bahia Asdrubal Colombes Ulysse Abou Alfa Sofiane Mar Dunes Dauphin Orangers d'or Atlas Darnaour Mimosa Xenia Chems Caravel 3 2 1 0 1 2 3 Dimension 3 (14.49%) Commenter la qualité de la représentation obtenue sur les quatre premiers axes factoriels en analysant le contenu des tableaux suivants : res.pca$var$coord, res.pca$var$cor, res.pca$var$cos2, res.pca$var$contrib. res.pca$ind$coord, res.pca$ind$cos2, res.pca$ind$contrib. 4. Construire les cercles des corrélations des variables avec le premier et le second axe factoriel puis avec le troisième et le quatrième axe factoriel. On obtiendra des graphiques similaires à ceux reproduits ci-dessous. > plot(res.pca, choix = "var") > plot(res.pca, choix = "var", axes = c(3, 4)) 5

Variables factor map (PCA) Variables factor map (PCA) Dimension 2 (24.76%) PLAGE SPORT CHAMBRE PRIX CUISIN CONFORT ETOILE Dimension 4 (6.21%) PLAGE PRIX CONFORT CUISINE SPORT ETOILE CHAMBRE Dimension 1 (42.47%) Dimension 3 (14.49%) 5. La fonction dimdesc permet d obtenir une description automatique des axes de l ACP. Commenter ses résultats lorsqu elle est appliquée à res.pca. 6. La fonction coord.ellipse permet d obtenir des régions de confiance pour les modalités d une variable qualitative. Commenter ses résultats lorsqu elle est appliquée à res.pca. > elldata = cbind.data.frame(hotels[, 1], res.pca$ind$coord) > coordell = coord.ellipse(elldata, bary = TRUE) > plot.pca(res.pca, habillage = 1, ellipse = coordell, + new.plot = F) > plot.pca(res.pca, habillage = 1, ellipse = coordell, + new.plot = F) 6

Individuals factor map (PCA) Dimension 2 (24.76%) 4 2 0 2 4 Turquie M'DiqDarnaour Dauphin Or Dunes d'or La Résidence Abou Sofiane HippocampePenelope Sultan Orangers Turquie Hanikian Xenia Colombes Omarit Beach Eden Beach Asdrubal Ulysse Marina BeachDe Lagos Economy Alfa Mar AppolponMimosa Kuriat Palace Madeira Atlas Caravel Reid's Sud Bahia Omayades Atlas App Arnadi Do Mar I Tour Hassan Christina Almohades Chems 4 2 0 2 4 Dimension 1 (42.47%) Partie II Comparer les résultats que vous venez d obtenir avec ceux reproduits ci-dessous. On commencera par chercher la différence existant entre l analyse qui vient d être faite et celle qui a été réalisée ci-dessous. On s intéressera en particulier au rôle joué par la variable P rix. En quoi cette seconde manière d analyser les données est-elle plus intéressante? Enfin commenter les résultats obtenus. > library(factominer) > res.pca2 <- PCA(hotels, quali.sup = 1, quanti.sup = 8, + scale.unit = TRUE, ncp = 8, graph = FALSE) 7

Inertie expliquée (%) 0 10 20 30 40 Inertie cumulée expliquée (%) 0 20 40 60 80 100 Composante Composante Individuals factor map (PCA) Dimension 2 (28.5%) 3 2 1 0 1 2 3 Turquie Hippocampe Economy Dauphin Or Dunes d'or Sultan Penelope La Résidence Abou Sofiane Orangers Turquie Xenia Eden Beach Hanikian Beach Asdrubal Marina Omarit Colombes Beach Appolpon Atlas Arnadi I Ulysse De Lagos Alfa Mar Mimosa Madeira Kuriat Reid's Palace Atlas Omayades Caravel Sud Bahia App Do Mar Christina M'Diq Chems Darnaour Almohades Tour Hassan 4 2 0 2 Dimension 1 (41.86%) 8

Individuals factor map (PCA) Dimension 4 (6.93%) 1 0 1 2 Turquie La Résidence Christina Appolpon Tour Hassan Caravel Eden Beach M'Diq Almohades Atlas Omarit Arnadi Penelope I Omayades Kuriat App Palace Do Mar Marina Beach Economy Sud Bahia Hanikian Beach Sultan Turquie Madeira Dauphin Or Orangers De Lagos Dunes d'or Alfa Asdrubal Hippocampe Mar Reid's Atlas Colombes Mimosa Chems Xenia Abou Sofiane Ulysse Darnaour 2 1 0 1 Dimension 3 (13.18%) Variables factor map (PCA) Variables factor map (PCA) Dimension 2 (28.5%) PLAGE SPORT CHAMBRE PRIX CUISIN CONFORT ETOILE Dimension 4 (6.93%) CHAMBRE CONFORT CUISINE SPORT ETOILE PRIX PLAGE Dimension 1 (41.86%) Dimension 3 (13.18%) 9

Individuals factor map (PCA) Dimension 2 (28.5%) 3 2 1 0 1 2 3 Turquie Hippocampe Economy Dauphin Or Dunes d'or Sultan Penelope La Résidence Abou Sofiane Orangers Turquie Xenia Eden Beach Hanikian Beach Asdrubal Marina Omarit Colombes Beach Appolpon Atlas Arnadi I Ulysse De Lagos Alfa Mar Mimosa Madeira Kuriat Reid's Palace Atlas Omayades Caravel Sud Bahia App Do Mar Christina M'Diq Chems Darnaour Almohades Tour Hassan 4 2 0 2 Dimension 1 (41.86%) 10

NUMERO NOM PAYS ETOILE CONFORT CHAMBRE CUISINE SPORT PLAGE PRIX 1 Appolpon 1 4 56 2 0 8 390 2 Caravel 4 7 471 7 6 5 468 3 Christina 2 7 93 3 0 5 427 4 Economy 1 3 56 1 0 8 369 5 Eden Beach 1 4 286 3 4 7 499 6 Hanikian Beach 3 6 282 5 10 10 526 7 Marina Beach 3 6 310 7 7 10 587 8 Xenia 3 4 300 6 10 8 534 9 4 5 146 5 1 0 447 10 Almohades 4 6 250 8 0 3 482 11 Atlas 4 5 196 9 6 6 511 12 Atlas Arnadi I 4 7 324 10 6 5 532 13 Chems 4 5 138 3 2 0 450 14 Dunes d or 3 4 400 10 10 10 569 15 La Résidence 0 5 366 7 4 10 419 16 M Diq 0 3 300 5 7 10 421 17 Omayades 4 6 144 7 4 8 579 18 5 7 330 10 5 5 598 19 Sud Bahia 4 5 260 5 2 6 495 20 Tour Hassan 5 7 170 10 1 10 730 21 Alfa Mar 4 6 254 7 10 8 646 22 App,Do Mar 4 8 140 7 6 10 652 23 De Lagos 4 6 273 10 10 10 802 24 Madeira 5 7 260 10 8 10 761 25 Reid s 5 7 169 10 10 10 1101 26 Abou Sofiane 3 4 225 5 10 10 434 27 Asdrubal 4 4 225 7 6 10 489 28 Colombes 3 5 250 9 10 8 436 11

NUMERO NOM PAYS ETOILE CONFORT CHAMBRE CUISINE SPORT PLAGE PRIX 29 Darnaour 2 3 550 6 9 8 399 30 3 6 800 10 10 10 477 31 Mimosa 2 4 150 5 6 4 375 32 Omarit 3 5 425 7 7 8 486 33 Orangers 3 4 366 5 8 8 447 34 Penelope 0 5 200 5 10 7 473 35 Ulysse 4 4 130 8 7 10 495 36 Dauphin Or Turquie 3 4 500 8 10 10 617 37 Hippocampe Turquie 1 2 50 1 5 10 489 38 Kuriat Palace Turquie 4 9 232 10 10 10 520 39 Sultan Turquie 0 3 110 7 6 8 534.................................... 12