Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une ACP (7 points) A 2 B C Soit le tableau T = D2 E F x quantitatives x, y, z y décrivant pour les 6 individus A,B,,F les valeurs prises par les variables z / Construction de la matrice des corrélations a. Calculer la moyenne, la variance et les écart-type des variables. b. Déterminer le tableau centré réduit. c. En déduire que la matrice des corrélations est M= d. Interpréter cette matrice. 2/ Ajustement du nuage des individus a. Déterminer les valeurs propres de M. b. Interpréter ces valeurs propres en terme d inertie. En déduire le % d inertie projeté sur chaque axe. c. Déterminer un vecteur propre unitaire associé à λ et λ 2. d. Quelle est la signification des axes définis par ces vecteurs? 3/ Représentation des individus a. Calculer les composantes principales F et F 2. b. Quelle est la signification de F et F 2? c. Placer les individus dans le plan (u,u 2 ) (prendre pour unité 4cm) 4/ Représentation des variables a. Calculer les facteurs principaux G et G 2. b. Quelle est la signification de G et G 2? c. Placer les variables dans le plan (v,v 2 ) et tracer le cercle des corrélations.
Exercice 2 : Analyse de documents (7 points) Une entreprise veut choisir un nom pour un nouveau produit, qui doit paraître de qualité supérieure, prestigieux, luxueux, convenant à un public masculin, connaisseur, raffiné, distingué, de niveau socioéconomique élevé... L'entreprise hésite entre 2 marques (cf ère ligne du tableau ci-dessous). Pour faire un choix entre ces marques, un échantillon de clients potentiels a été interrogé. Onze attributs leur étaient proposés (cf. ère colonne du tableau). Pour chaque attribut, la personne interrogée devait désigner une ou plusieurs marques auxquelles l'attribut se rapportait le mieux. Les résultats obtenus sont les suivants : Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaque Pavois Cocker Escale Hotesse Total Vieillot 2 4 38 8 9 5 9 4 Nouveauriche 2 9 9 2 9 7 2 Sobreélégant 9 23 5 7 6 2 7 2 3 7 3 Cocasse 3 5 5 6 5 2 8 4 25 2 2 8 Racé 4 33 7 8 3 6 6 4 5 5 5 3 99 Mièvre 3 9 7 7 5 2 9 6 9 6 3 87 Distingué 9 7 4 2 6 5 4 5 27 Vulgaire 4 4 32 2 6 9 7 3 7 94 Pour un 9 2 23 4 7 3 5 5 5 3 6 Pour une 9 3 9 8 4 2 6 8 6 23 33 2 Pour une 7 5 2 7 2 6 9 24 94 petite Total 78 2 6 32 83 84 78 7 79 23 84 5 45 On traite ce tableau par une méthode d'analyse des données multidimensionnelles. Les principaux résultats sont rassemblés dans les tableaux et graphiques ci-dessous :. Fréquences Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaqu Pavois Cocker Escale Hotesse Total e Vieillot,9%,7%,22% 3,32%,57%,87%,79%,44%,79%,35%,%,9% 9,69% Nouveau-riche,75%,79%,9%,96%,87%,79%,9%,9%,75%,79%,6%,5% 9,6% Sobre-élégant,79% 2,%,9%,3%,6%,96%,52%,7%,6%,5%,26%,48% 9,87% Cocasse,9%,26%,3%,3%,52%,44%,5%,57%,35% 2,8%,7%,7% 9,43% Racé,35% 2,88%,6%,7%,26%,52%,52%,35%,44%,3%,44%,26% 8,65% Mièvre,26%,79%,9%,6%,6%,44%,5%,79%,52%,79%,52%,4% 7,6% Distingué,96%,79%,9%,48%,35%,83%,52%,9%,44%,35%,44% 2,36% 9,69% Vulgaire,35%,35% 2,79%,7%,52%,%,79%,6%,26%,87%,87%,6% 8,2% Pour un,79%,5% 2,%,35%,6%,4%,44%,44%,87%,44%,4%,% 9,26% Pourune,79%,26%,79%,7%,35%,7%,52%,7%,9%,52% 2,% 2,88% 9,78% Pour une petite,6%,44%,7%,6%,96%,7%,52%,96%,79% 2,%,87%,% 8,2% Total 6,8% 9,78% 9,26%,53% 7,25% 7,34% 6,8% 6,2% 6,9%,74% 7,34%,4% %
2. Fréquences lignes Orly Alezan Corsaire Directoire Ducat Fonteno Icare Zodiaqu Pavois Cocker Escale Hotesse Total y e Vieillot,9%,8% 2,6% 34,23% 6,22% 9,% 8,% 4,5% 8,% 3,6%,%,9% % Nouveau-riche 8,8% 8,8%,9%,% 9,9% 8,8%,9%,9% 8,8% 8,8% 6,36%,9% % Sobre-élégant 7,96% 2,35%,88% 3,27% 6,9% 9,73% 5,3%,77% 6,9%,62% 2,65% 5,4% % Cocasse,93% 2,78% 3,89% 3,89% 5,56% 4,63%,% 6,67% 3,7% 23,5%,85%,85% % Racé 4,4% 33,33% 7,7% 8,8% 3,3% 6,6% 6,6% 4,4% 5,5% 5,5% 5,5% 3,3% % Mièvre 3,45%,34%,5% 8,5% 8,5% 5,75% 3,79%,34% 6,9%,34% 6,9% 4,94% % Distingué 9,9% 8,%,9% 5,32% 3,6% 8,92% 5,4%,9% 4,5% 3,6% 4,5% 24,32% % Vulgaire 4,26% 4,26% 34,4% 2,3% 6,38%,% 9,57% 7,45% 3,9%,64%,64% 7,45% % Pour un 8,49%,32% 2,7% 3,77% 6,6% 2,26% 4,72% 4,72% 9,43% 4,72% 2,26%,% % Pour une 8,4% 2,68% 8,4% 7,4% 3,57%,79% 5,36% 7,4%,89% 5,36% 2,54% 29,46% % Pour une petite 7,45% 5,32% 2,3% 7,45%,7% 2,3% 6,38%,7% 9,57% 25,53%,64%,% % Total 6,8% 9,78% 9,26%,53% 7,25% 7,34% 6,8% 6,2% 6,9%,74% 7,34%,4% % 3. Fréquences colonnes Orly Alezan Corsaire Directoire Ducat Fontenoy Icare Zodiaque Pavois Cocker Escale Hotesse Total Vieillot,28%,79% 3,2% 28,79% 2,69%,9%,54% 7,4%,39% 3,25%,%,87% 9,69% Nouveauriche 25,64% 8,4%,94% 8,33% 2,5%,7%,28%,4% 25,32% 7,32% 8,33%,43% 9,6% Sobreélégant,54% 2,54%,94%,36% 8,43% 3,% 7,69% 2,82% 8,86% 9,76% 3,57% 4,78% 9,87% Cocasse,28% 2,68% 4,5%,36% 7,23% 5,95% 5,38% 25,35% 5,6% 2,33% 2,38%,74% 9,43% Racé 5,3% 29,46% 6,6% 6,6% 3,6% 7,4% 7,69% 5,63% 6,33% 2,2% 5,95% 2,6% 8,65% Mièvre 3,85% 8,4%,94% 5,3% 8,43% 5,95% 5,38% 2,68% 7,59% 7,32% 7,4%,3% 7,6% Distingué 4,% 8,4%,94% 2,88% 4,82% 25,% 7,69%,4% 6,33% 3,25% 5,95% 23,48% 9,69% Vulgaire 5,3% 3,57% 3,9%,52% 7,23%,%,54% 9,86% 3,8% 8,3%,9% 6,9% 8,2% Pour un,54%,7% 2,7% 3,3% 8,43% 5,48% 6,4% 7,4% 2,66% 4,7% 5,48%,% 9,26% Pour une,54% 2,68% 8,49% 6,6% 4,82% 2,38% 7,69%,27%,27% 4,88% 27,38% 28,7% 9,78% Pour une 8,97% 4,46%,89% 5,3% 3,25% 2,38% 7,69% 5,49%,39% 9,5%,9%,% 8,2% petite Total % % % % %, % % % % % % % 4. Valeurs propres Nombre Valeurs Propres et Inertie de toutes les Dimensions de Dims. Inertie Totale =,6855 Chi 2 = 696,79 dl = p =, ValProp. %age %age Chi 2 Inertie Cumulé,82 29,92 29,92 28,4852 2,33 2,8484 5,7694 52,2368 3,43 7,42 68,95 9,4437 4,82 3,34 82,255 92,954 5,64,537 92,7832 73,383 6,22 3,487 96,2649 24,262 7,,8232 98,88 2,74 8,89,46 99,549,8 9,26,4338 99,9829 3,223,,7,,92
5. Résultats relatifs aux lignes NomLigne Coordonnées Ligne et Contributions à l'inertie Standardisation : Profils ligne et colonne Coord Coord Coord Masse Inertie Ctr Cos 2 Ctr Cos 2 Ctr Cos 2... N F F.2 F 3 F F F 2 F 2 F.3 F3 Vieillot,266 -,572,662,97,44,38,78,238,362,48,486 Nouveauriche 2 -,436 -,57 -,7,96,89,,337,8,43,, Sobre-élégant 3 -,49 -,26 -,94,99,48,9,567,35,59,35,27 Cocasse 4,64 -,8,25,94,95,96,66,,23,, Racé 5 -,3 -,27 -,74,86,,,,47,3,4,7 Mièvre 6 -,9,33 -,44,76,28,3,36,,5,,9 Distingué 7 -,667,4,262,97,99,237,74,,,64, Vulgaire 8,686,544,26,82,23,22,57,83,325,, Pour un 9,249,3 -,8,93,68,3,39,2,38,,26 Pour une -,33,779,83,98,33,53,8,447,732,3,4 Pour une petite,292 -,29 -,28,82,72,39,6,,3,37,89 6. Résultats relatifs aux colonnes Nom Col. Coordonnées Colonne et Contributions à l'inertie Standardisation : Profils ligne et colonne Coord. Coord. Coord. Masse Inertie Ctr Cos 2 Ctr Cos 2 Ctr Cos 2 N F F.2 F 3 F F F 2 F 2 F.3 F3 Orly -,452, -,8,68,55,76,49,5,2,4,3 Alezan 2 -,262 -,267 -,723,98,34,37,83,53,86,49,627 Corsaire 3,88,393,25,93,74,332,572,7,35,4,4 Directoire 4 -,34 -,482,484,5,,,2,22,439,259,442 Ducat 5,6 -,288,26,72,33,,94,45,32,47,248 Fontenoy 6 -,395 -,27,52,73,6,63,32,4,46,6,46 Icare 7,267,,55,68,26,27,3,,,2,3 Zodiaque 8,537,4 -,38,62,6,98,492,6,22,,3 Pavois 9 -,6 -,35 -,27,69,48,5,32,48,22,,2 Cocker,322 -,7 -,339,7,78,6,235,,3,8,26 Escale -,35,676 -,8,73,73,,2,252,754,5, Hotesse 2 -,724,552,24,,6,289,54,23,34,44,47
, Tracˇ 2D des Coordonnˇes Ligne & Colonne ; Dimension : x 2 Table d'entrˇe (Lignes x Colonnes) : x 2 Standardisation : Profils ligne et colonne,8 Pourune Escale,6,4 Hotesse Vulgaire Corsaire,2, -,2 Orly Distinguˇ Mi vre Nouveau-riche Sobre-ˇlˇgant Fontenoy Alezan Pavois Racˇ Pourun Zodiaque Icare Pourunepetite Cocker Cocasse Ducat -,4 -,6 Directoire Vieillot Dimension 2; Valeur Propre :,3296 (2,85 % d'inertie) -,8 -, -,8 -,6 -,4 -,2,,2,4,6,8, Dimension ; Valeur Propre :,828 (29,92 % d'inertie) ) a) Quelle est la méthode d'analyse utilisée ici? Pourquoi utilise-t-on cette méthode? b) Quelle information nous apporte le test du Khi deux présenté en 4. Coord.L. Coord.C. 2) a) Dans le tableau des fréquences lignes, on lit 2,35% à l'intersection de la ligne "sobre-élégant" et de la colonne "alezan". Comment a été obtenue cette valeur? Que signifie-t-elle? b) Comparer qualitativement le profil de la marque "Corsaire" au profil moyen. 3) a) Au vu du tableau des valeurs propres, combien de variables factorielles faudrait-il étudier dans le cadre d'une étude complète des données observées? b) Quel résultat manque-t-il pour aider au choix des axes? c) Dans cette étude, on se limite aux trois premiers axes. Quel pourcentage d'inertie est expliqué par ces trois axes? 4) a) Rappeler la définition de la notion de qualité de représentation d'un point. b) Les points sont-ils bien représentés dans le plan F-F2? 5) Etude de la première variable factorielle a) On considère le nuage des attributs. Quels sont les individus dont la contribution est supérieure à la moyenne? Pour chacun d'eux, préciser le signe de la coordonnée correspondante. Comment peut-on interpréter cet axe en termes d'opposition entre attributs. b) Même question pour le nuage des marques envisagées. 6) Mener une étude analogue pour la deuxième variable. 7) Faire une synthèse des deux études précédentes en décrivant les résultats obtenus dans le premier plan factoriel. 8) A votre avis, quelle est la marque qui a finalement été retenue par l'entreprise?
Exercice 3 : Classification (6 points) Cinq objets sont représentés en grandeur. La distance utilisée entre les objets est la distance euclidienne (mesurée en mm au double-décimètre). I. Construction d'une CAH / Construire le tableau de distance. Les distances seront exprimées en mm (arrondir au mm près). 2/ Effectuer une CAH sur ce tableau en utilisant comme critère d'agrégation celui du "saut minimal". a. Construire tous les tableaux intermédiaires b. Construire le dendrogramme résultant. c. Construire le tableau des distances ultramétriques correspondant. d. Quelle est la partition qui vous semble préférable. En déduire les groupes.
II Classification à l'aide de centres mobiles Construire une partition en deux classes des objets à l'aide de la méthode des centres mobiles. On choisira comme premiers centres mobiles les objets et 3. Décrire sur les différentes figures les étapes successives. Etape Etape 2 Etape 3 Etape 4