Session 1 durée 3 heures



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

1 Complément sur la projection du nuage des individus

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse des données à l usage des non mathématiciens

Logiciel XLSTAT version rue Damrémont PARIS

Analyse en Composantes Principales

Introduction à l approche bootstrap

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

ACP Voitures 1- Méthode

Introduction. Préambule. Le contexte

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Scénario: Données bancaires et segmentation de clientèle

SPHINX Logiciel de dépouillement d enquêtes

Statistique Descriptive Multidimensionnelle. (pour les nuls)

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Séries Statistiques Simples

1 - PRESENTATION GENERALE...

Statistique : Résumé de cours et méthodes

Analyse des correspondances avec colonne de référence

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Puissances d un nombre relatif

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

TS Physique Satellite à la recherche de sa planète Exercice résolu

Initiation à l analyse en composantes principales

Chapitre 3. Les distributions à deux variables

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Exemples d utilisation de G2D à l oral de Centrale

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Leçon N 4 : Statistiques à deux variables

FORMULES DE CALCUL. Prix = PV TTC = PV HT x (1 + taux de TVA) TVA = PV HT x taux de TVA PV HT = PV TTC 1 + taux de TVA

Baccalauréat ES Amérique du Nord 4 juin 2008

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Statistiques Descriptives à une dimension

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction au datamining

STATISTIQUES DESCRIPTIVES

BACCALAUREAT GENERAL MATHÉMATIQUES

TP 7 : oscillateur de torsion

Chapitre 4 : Régression linéaire

BACCALAURÉAT PROFESSIONNEL SUJET

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Traitement des données avec Microsoft EXCEL 2010

Q6 : Comment calcule t-on l intensité sonore à partir du niveau d intensité?

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Fonctions de plusieurs variables

T de Student Khi-deux Corrélation

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Evaluation de la variabilité d'un système de mesure

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Individus et informations supplémentaires

Exercice : la frontière des portefeuilles optimaux sans actif certain

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

INTRODUCTION AU DATA MINING

Entrepôt de données 1. Introduction

Quelques éléments de statistique multidimensionnelle

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

MAP 553 Apprentissage statistique

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

«Tous les sons sont-ils audibles»

INF6304 Interfaces Intelligentes

Statistiques avec la graph 35+

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Calcul élémentaire des probabilités

Séance 0 : Linux + Octave : le compromis idéal

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Suites numériques. Exercice 1 Pour chacune des suites suivantes, calculer u 1, u 2, u 3, u 10 et u 100 : Introduction : Intérêts simpleset composés.

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

FICHE 1 Fiche à destination des enseignants

Travaux pratiques avec RapidMiner

VI. Tests non paramétriques sur un échantillon

Les probabilités. Chapitre 18. Tester ses connaissances

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

ESIEA PARIS

SDLS08 - Modes propres d'une plaque carrée calculés sur base réduite

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques à deux variables

Logistique, Transports

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Mesures et incertitudes

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Statistiques 0,14 0,11

Étalonnage Consolidation au Québec

Questionnaire sur les Antécédents Linguistiques. (Version 2.0, 2012)

PROGRAMME (Susceptible de modifications)

Activités numériques [13 Points]

Transcription:

Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une ACP (7 points) A 2 B C Soit le tableau T = D2 E F x quantitatives x, y, z y décrivant pour les 6 individus A,B,,F les valeurs prises par les variables z / Construction de la matrice des corrélations a. Calculer la moyenne, la variance et les écart-type des variables. b. Déterminer le tableau centré réduit. c. En déduire que la matrice des corrélations est M= d. Interpréter cette matrice. 2/ Ajustement du nuage des individus a. Déterminer les valeurs propres de M. b. Interpréter ces valeurs propres en terme d inertie. En déduire le % d inertie projeté sur chaque axe. c. Déterminer un vecteur propre unitaire associé à λ et λ 2. d. Quelle est la signification des axes définis par ces vecteurs? 3/ Représentation des individus a. Calculer les composantes principales F et F 2. b. Quelle est la signification de F et F 2? c. Placer les individus dans le plan (u,u 2 ) (prendre pour unité 4cm) 4/ Représentation des variables a. Calculer les facteurs principaux G et G 2. b. Quelle est la signification de G et G 2? c. Placer les variables dans le plan (v,v 2 ) et tracer le cercle des corrélations.

Exercice 2 : Analyse de documents (7 points) Une entreprise veut choisir un nom pour un nouveau produit, qui doit paraître de qualité supérieure, prestigieux, luxueux, convenant à un public masculin, connaisseur, raffiné, distingué, de niveau socioéconomique élevé... L'entreprise hésite entre 2 marques (cf ère ligne du tableau ci-dessous). Pour faire un choix entre ces marques, un échantillon de clients potentiels a été interrogé. Onze attributs leur étaient proposés (cf. ère colonne du tableau). Pour chaque attribut, la personne interrogée devait désigner une ou plusieurs marques auxquelles l'attribut se rapportait le mieux. Les résultats obtenus sont les suivants : Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaque Pavois Cocker Escale Hotesse Total Vieillot 2 4 38 8 9 5 9 4 Nouveauriche 2 9 9 2 9 7 2 Sobreélégant 9 23 5 7 6 2 7 2 3 7 3 Cocasse 3 5 5 6 5 2 8 4 25 2 2 8 Racé 4 33 7 8 3 6 6 4 5 5 5 3 99 Mièvre 3 9 7 7 5 2 9 6 9 6 3 87 Distingué 9 7 4 2 6 5 4 5 27 Vulgaire 4 4 32 2 6 9 7 3 7 94 Pour un 9 2 23 4 7 3 5 5 5 3 6 Pour une 9 3 9 8 4 2 6 8 6 23 33 2 Pour une 7 5 2 7 2 6 9 24 94 petite Total 78 2 6 32 83 84 78 7 79 23 84 5 45 On traite ce tableau par une méthode d'analyse des données multidimensionnelles. Les principaux résultats sont rassemblés dans les tableaux et graphiques ci-dessous :. Fréquences Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaqu Pavois Cocker Escale Hotesse Total e Vieillot,9%,7%,22% 3,32%,57%,87%,79%,44%,79%,35%,%,9% 9,69% Nouveau-riche,75%,79%,9%,96%,87%,79%,9%,9%,75%,79%,6%,5% 9,6% Sobre-élégant,79% 2,%,9%,3%,6%,96%,52%,7%,6%,5%,26%,48% 9,87% Cocasse,9%,26%,3%,3%,52%,44%,5%,57%,35% 2,8%,7%,7% 9,43% Racé,35% 2,88%,6%,7%,26%,52%,52%,35%,44%,3%,44%,26% 8,65% Mièvre,26%,79%,9%,6%,6%,44%,5%,79%,52%,79%,52%,4% 7,6% Distingué,96%,79%,9%,48%,35%,83%,52%,9%,44%,35%,44% 2,36% 9,69% Vulgaire,35%,35% 2,79%,7%,52%,%,79%,6%,26%,87%,87%,6% 8,2% Pour un,79%,5% 2,%,35%,6%,4%,44%,44%,87%,44%,4%,% 9,26% Pourune,79%,26%,79%,7%,35%,7%,52%,7%,9%,52% 2,% 2,88% 9,78% Pour une petite,6%,44%,7%,6%,96%,7%,52%,96%,79% 2,%,87%,% 8,2% Total 6,8% 9,78% 9,26%,53% 7,25% 7,34% 6,8% 6,2% 6,9%,74% 7,34%,4% %

2. Fréquences lignes Orly Alezan Corsaire Directoire Ducat Fonteno Icare Zodiaqu Pavois Cocker Escale Hotesse Total y e Vieillot,9%,8% 2,6% 34,23% 6,22% 9,% 8,% 4,5% 8,% 3,6%,%,9% % Nouveau-riche 8,8% 8,8%,9%,% 9,9% 8,8%,9%,9% 8,8% 8,8% 6,36%,9% % Sobre-élégant 7,96% 2,35%,88% 3,27% 6,9% 9,73% 5,3%,77% 6,9%,62% 2,65% 5,4% % Cocasse,93% 2,78% 3,89% 3,89% 5,56% 4,63%,% 6,67% 3,7% 23,5%,85%,85% % Racé 4,4% 33,33% 7,7% 8,8% 3,3% 6,6% 6,6% 4,4% 5,5% 5,5% 5,5% 3,3% % Mièvre 3,45%,34%,5% 8,5% 8,5% 5,75% 3,79%,34% 6,9%,34% 6,9% 4,94% % Distingué 9,9% 8,%,9% 5,32% 3,6% 8,92% 5,4%,9% 4,5% 3,6% 4,5% 24,32% % Vulgaire 4,26% 4,26% 34,4% 2,3% 6,38%,% 9,57% 7,45% 3,9%,64%,64% 7,45% % Pour un 8,49%,32% 2,7% 3,77% 6,6% 2,26% 4,72% 4,72% 9,43% 4,72% 2,26%,% % Pour une 8,4% 2,68% 8,4% 7,4% 3,57%,79% 5,36% 7,4%,89% 5,36% 2,54% 29,46% % Pour une petite 7,45% 5,32% 2,3% 7,45%,7% 2,3% 6,38%,7% 9,57% 25,53%,64%,% % Total 6,8% 9,78% 9,26%,53% 7,25% 7,34% 6,8% 6,2% 6,9%,74% 7,34%,4% % 3. Fréquences colonnes Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaque Pavois Cocker Escale Hotesse Total Vieillot,28%,79% 3,2% 28,79% 2,69%,9%,54% 7,4%,39% 3,25%,%,87% 9,69% Nouveauriche 25,64% 8,4%,94% 8,33% 2,5%,7%,28%,4% 25,32% 7,32% 8,33%,43% 9,6% Sobreélégant,54% 2,54%,94%,36% 8,43% 3,% 7,69% 2,82% 8,86% 9,76% 3,57% 4,78% 9,87% Cocasse,28% 2,68% 4,5%,36% 7,23% 5,95% 5,38% 25,35% 5,6% 2,33% 2,38%,74% 9,43% Racé 5,3% 29,46% 6,6% 6,6% 3,6% 7,4% 7,69% 5,63% 6,33% 2,2% 5,95% 2,6% 8,65% Mièvre 3,85% 8,4%,94% 5,3% 8,43% 5,95% 5,38% 2,68% 7,59% 7,32% 7,4%,3% 7,6% Distingué 4,% 8,4%,94% 2,88% 4,82% 25,% 7,69%,4% 6,33% 3,25% 5,95% 23,48% 9,69% Vulgaire 5,3% 3,57% 3,9%,52% 7,23%,%,54% 9,86% 3,8% 8,3%,9% 6,9% 8,2% Pour un,54%,7% 2,7% 3,3% 8,43% 5,48% 6,4% 7,4% 2,66% 4,7% 5,48%,% 9,26% Pour une,54% 2,68% 8,49% 6,6% 4,82% 2,38% 7,69%,27%,27% 4,88% 27,38% 28,7% 9,78% Pour une 8,97% 4,46%,89% 5,3% 3,25% 2,38% 7,69% 5,49%,39% 9,5%,9%,% 8,2% petite Total % % % % %, % % % % % % % 4. Valeurs propres Nombre Valeurs Propres et Inertie de toutes les Dimensions de Dims. Inertie Totale =,6855 Chi 2 = 696,79 dl = p =, ValProp. %age %age Chi 2 Inertie Cumulé,82 29,92 29,92 28,4852 2,33 2,8484 5,7694 52,2368 3,43 7,42 68,95 9,4437 4,82 3,34 82,255 92,954 5,64,537 92,7832 73,383 6,22 3,487 96,2649 24,262 7,,8232 98,88 2,74 8,89,46 99,549,8 9,26,4338 99,9829 3,223,,7,,92

5. Résultats relatifs aux lignes NomLigne Coordonnées Ligne et Contributions à l'inertie Standardisation : Profils ligne et colonne Coord Coord Coord Masse Inertie Ctr Cos 2 Ctr Cos 2 Ctr Cos 2... N F F.2 F 3 F F F 2 F 2 F.3 F3 Vieillot,266 -,572,662,97,44,38,78,238,362,48,486 Nouveauriche 2 -,436 -,57 -,7,96,89,,337,8,43,, Sobre-élégant 3 -,49 -,26 -,94,99,48,9,567,35,59,35,27 Cocasse 4,64 -,8,25,94,95,96,66,,23,, Racé 5 -,3 -,27 -,74,86,,,,47,3,4,7 Mièvre 6 -,9,33 -,44,76,28,3,36,,5,,9 Distingué 7 -,667,4,262,97,99,237,74,,,64, Vulgaire 8,686,544,26,82,23,22,57,83,325,, Pour un 9,249,3 -,8,93,68,3,39,2,38,,26 Pour une -,33,779,83,98,33,53,8,447,732,3,4 Pour une petite,292 -,29 -,28,82,72,39,6,,3,37,89 6. Résultats relatifs aux colonnes Nom Col. Coordonnées Colonne et Contributions à l'inertie Standardisation : Profils ligne et colonne Coord. Coord. Coord. Masse Inertie Ctr Cos 2 Ctr Cos 2 Ctr Cos 2 N F F.2 F 3 F F F 2 F 2 F.3 F3 Orly -,452, -,8,68,55,76,49,5,2,4,3 Alezan 2 -,262 -,267 -,723,98,34,37,83,53,86,49,627 Corsaire 3,88,393,25,93,74,332,572,7,35,4,4 Directoire 4 -,34 -,482,484,5,,,2,22,439,259,442 Ducat 5,6 -,288,26,72,33,,94,45,32,47,248 Fontenoy 6 -,395 -,27,52,73,6,63,32,4,46,6,46 Icare 7,267,,55,68,26,27,3,,,2,3 Zodiaque 8,537,4 -,38,62,6,98,492,6,22,,3 Pavois 9 -,6 -,35 -,27,69,48,5,32,48,22,,2 Cocker,322 -,7 -,339,7,78,6,235,,3,8,26 Escale -,35,676 -,8,73,73,,2,252,754,5, Hotesse 2 -,724,552,24,,6,289,54,23,34,44,47

, Tracˇ 2D des Coordonnˇes Ligne & Colonne ; Dimension : x 2 Table d'entrˇe (Lignes x Colonnes) : x 2 Standardisation : Profils ligne et colonne,8 Pourune Escale,6,4 Hotesse Vulgaire Corsaire,2, -,2 Orly Distinguˇ Mi vre Nouveau-riche Sobre-ˇlˇgant Fontenoy Alezan Pavois Racˇ Pourun Zodiaque Icare Pourunepetite Cocker Cocasse Ducat -,4 -,6 Directoire Vieillot Dimension 2; Valeur Propre :,3296 (2,85 % d'inertie) -,8 -, -,8 -,6 -,4 -,2,,2,4,6,8, Dimension ; Valeur Propre :,828 (29,92 % d'inertie) ) a) Quelle est la méthode d'analyse utilisée ici? Pourquoi utilise-t-on cette méthode? b) Quelle information nous apporte le test du Khi deux présenté en 4. Coord.L. Coord.C. 2) a) Dans le tableau des fréquences lignes, on lit 2,35% à l'intersection de la ligne "sobre-élégant" et de la colonne "alezan". Comment a été obtenue cette valeur? Que signifie-t-elle? b) Comparer qualitativement le profil de la marque "Corsaire" au profil moyen. 3) a) Au vu du tableau des valeurs propres, combien de variables factorielles faudrait-il étudier dans le cadre d'une étude complète des données observées? b) Quel résultat manque-t-il pour aider au choix des axes? c) Dans cette étude, on se limite aux trois premiers axes. Quel pourcentage d'inertie est expliqué par ces trois axes? 4) a) Rappeler la définition de la notion de qualité de représentation d'un point. b) Les points sont-ils bien représentés dans le plan F-F2? 5) Etude de la première variable factorielle a) On considère le nuage des attributs. Quels sont les individus dont la contribution est supérieure à la moyenne? Pour chacun d'eux, préciser le signe de la coordonnée correspondante. Comment peut-on interpréter cet axe en termes d'opposition entre attributs. b) Même question pour le nuage des marques envisagées. 6) Mener une étude analogue pour la deuxième variable. 7) Faire une synthèse des deux études précédentes en décrivant les résultats obtenus dans le premier plan factoriel. 8) A votre avis, quelle est la marque qui a finalement été retenue par l'entreprise?

Exercice 3 : Classification (6 points) Cinq objets sont représentés en grandeur. La distance utilisée entre les objets est la distance euclidienne (mesurée en mm au double-décimètre). I. Construction d'une CAH / Construire le tableau de distance. Les distances seront exprimées en mm (arrondir au mm près). 2/ Effectuer une CAH sur ce tableau en utilisant comme critère d'agrégation celui du "saut minimal". a. Construire tous les tableaux intermédiaires b. Construire le dendrogramme résultant. c. Construire le tableau des distances ultramétriques correspondant. d. Quelle est la partition qui vous semble préférable. En déduire les groupes.

II Classification à l'aide de centres mobiles Construire une partition en deux classes des objets à l'aide de la méthode des centres mobiles. On choisira comme premiers centres mobiles les objets et 3. Décrire sur les différentes figures les étapes successives. Etape Etape 2 Etape 3 Etape 4