Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h



Documents pareils
La classification automatique de données quantitatives

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Scénario: Données bancaires et segmentation de clientèle

Logiciel XLSTAT version rue Damrémont PARIS

ACP Voitures 1- Méthode

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Introduction au datamining

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Classification non supervisée

Introduction. Préambule. Le contexte

Introduction à l approche bootstrap

Extraction d informations stratégiques par Analyse en Composantes Principales

Quelques éléments de statistique multidimensionnelle

Statistique : Résumé de cours et méthodes

Chapitre 3. Les distributions à deux variables

INTRODUCTION AU DATA MINING

Relation entre deux variables : estimation de la corrélation linéaire

Arbres binaires de décision

Agrégation des portefeuilles de contrats d assurance vie

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

LES DIFFERENTS TYPES DE MESURE

1 Complément sur la projection du nuage des individus

L'analyse des données à l usage des non mathématiciens

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

ESIEA PARIS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Individus et informations supplémentaires

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Localisation des fonctions

Séries Statistiques Simples

PRIX DE VENTE À L EXPORTATION GESTION ET STRATÉGIES

Analyse en Composantes Principales

Traitement des données avec Microsoft EXCEL 2010

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

1 - PRESENTATION GENERALE...

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Leçon N 4 : Statistiques à deux variables

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Mémo d utilisation de ADE-4

Cycle de formation certifiante Sphinx

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Data mining 1. Exploration Statistique

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

De la mesure à l analyse des risques

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Théorie des sondages : cours 5

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Découverte du tableur CellSheet

INF6304 Interfaces Intelligentes

Analyse de grandes bases de données en santé

Chaînes de Markov au lycée

Enjeux mathématiques et Statistiques du Big Data

Baccalauréat ES Amérique du Nord 4 juin 2008

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Comment créer et administrer une campagne?

Exercices Corrigés Premières notions sur les espaces vectoriels

Aide-mémoire de statistique appliquée à la biologie

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Chapitre 1 : Évolution COURS

Complet Intuitif Efficace. Références

SERIE 1 Statistique descriptive - Graphiques

Initiation à l analyse en composantes principales

Régression linéaire. Nicolas Turenne INRA

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Les algorithmes de fouille de données

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Chapitre 6 : Consolidation par paliers et consolidation directe

Etude du niveau stress ressenti par les salariés de plusieurs entreprises du tertiaire. Un outil de mesure.

Statistique Descriptive Élémentaire

L'INTÉRÊT COMPOSÉ. 2.1 Généralités. 2.2 Taux

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Transmission d informations sur le réseau électrique

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

Programmation par contraintes. Laurent Beaudou

Introduction au Data-Mining

Analyse des correspondances avec colonne de référence

Fonctions de plusieurs variables

BACCALAUREAT GENERAL MATHÉMATIQUES

MATHÉMATIQUES. Mat-4104

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Introduction au Data-Mining

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Initiation à l algorithmique

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Mathématiques financières

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Transcription:

I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera les formules utilisées. On conservera quatre chiffres après la virgule. On pourra répondre directement sur le document. Analyse des Données Examen terminal - Durée 3h Questions de cours 1. Dans le cadre d une ACPN, peut-on, en observant uniquement le nuage des individus dans le plan factoriel principal, déterminer les individus qui contribuent à la formation du premier axe factoriel? Justifier votre réponse en l accompagnant d une représentation graphique succincte. 2. Dans le cadre d une ACPN, peut-on, en observant uniquement le nuage des variables dans le premier plan factoriel, déterminer les variables qui sont bien représentées? Justifier votre réponse en l accompagnant d une représentation graphique succincte. 3. Dans le cadre d une ACPN, peut-on, en observant que deux points-variables sont proches dans le premier plan factoriel, en déduire que les variables associées sont fortement corrélées positivement? Justifier votre réponse en l accompagnant d une ou plusieurs représentation(s) graphique(s) succincte(s). 4. Dans le cadre d une AFC, peut-on, en observant uniquement le nuage des profils-lignes dans le plan factoriel principal, déterminer les profils qui contribuent à la formation du premier axe factoriel? Justifier votre réponse en l accompagnant d une ou plusieurs représentation(s) graphique(s) succincte(s). Exercice n o 1 On souhaite effectuer une analyse de satisfaction via une ACP normée de marques de téléphones sans fil. Les caractéristiques retenues sont les suivantes : Sonnerie (S) Qualité sonore (QS) Qualité de transmission (QT) Autonomie (A) Facilité d utilisation (FU) La sonnerie a été évaluée selon une échelle allant de 1 à 3 (1=faible, 2=moyen, 3=élevé) tandis que les autres variables ont été évaluées selon une échelle allant de 1 à 10 (1=très mauvais,..., 10=excellent). Les résultats moyens obtenus sont les suivants : Marque S QS QT A FU 1 2.1 6.7 8.8 7.5 6.0 2 1.9 5.8 6.1 4.0 7.0 3 2.0 6.2 7.8 6.9 6.8 4 1.4 5.8 5.4 8.6 6.2 5 2.0 6.6 7.0 6.3 7.9 6 1.7 5.6 5.6 9.3 6.7 7 1.7 5.8 5.6 4.0 7.3 8 2.0 5.9 6.9 7.0 6.6 1 1. Indiquer dans quel espace sera représenté le nuage des points-individus. Justifier votre réponse. 2. Indiquer dans quel espace sera représenté le nuage des points-variables. Justifier votre réponse. 3. Compléter le tableau suivant : Variable Moyenne Ecart type S 0.2179 QS 6.05 0.3808 QT 6.65 A FU 0.5644 Commenter succinctement, selon le contexte, les valeurs numériques obtenues. 4. En déduire les coordonnées du barycentre du nuage des individus ainsi que la matrice Ds 1. 5. Après calculs, on a obtenu la matrice des corrélations suivante : 1.0000 0.6778 0.8381.2423 0.1575 0.6778 1.0000 0.8460.0018 0.0785 := 0.8381 0.8460 1.0000 0.0677.2285.2423.0018 0.0677 1.0000.5455 0.1575 0.0785.2285.5455 1.0000 Commenter succinctement, selon le contexte, ces coefficients, puis indiquer le rôle joué par cette matrice dans le cadre de l ACP normée. 6. La réalisation de l ACP sous SAS a donné les valeurs propres et les vecteurs propres suivants : V P u1 u2 u3 u4 u5 2.5837 0.5688.1324.1772 0.6594.4389 1.6248 0.5627 0.0362 0.3754.6300.3798 0.5060 0.5953 0.1986.1349 0.0004 0.7668 0.2668.0701 0.6785 0.6358 0.3611.0097 0.0187 0.0227.6938 0.6366 0.1946 0.2740 Calculer la somme des valeurs propres? Cette valeur est-elle en accord avec les résultats du cours? Justifier votre réponse. 7. Calculer pour chacun des axes les pourcentages d inertie. En déduire les pourcentages d inertie cumulés. 8. Selon le critère de la moyenne combien d axe doit-on conserver? Justifier votre réponse. 9. Donner la formule permettant de calculer les composantes principales. Sachant que le tableau de données centréréduit est représenté par la matrice 1.1471 1.7070 1.9041 0.4448 1.4395 0.2294 0.6565 0.4871 1.5012 0.3322 0.6883 0.3939 1.0185 0.1112 0.0222 Z := 2.0647 0.6565 1.1070 1.0564 1.0851 0.6883 1.4444 0.3100 0.2224 1.9267 0.6883 1.1818 0.9300 1.4456 0.1993 0.6883 0.6565 0.9300 1.5012 0.8637 0.6883 0.3939 0.2214 0.1668 0.3765 compléter les composantes principales suivantes : 2.6827 1.2112 Ψ 1 = 2, 3015 1.7160 1.1897 0.2814 2 1.5886 0.2163 Ψ 2 = 0.9828 1.7351 0.3130

10. Représenter graphiquement le nuage des individus dans le plan principal. 11. Déduire de cette représentation graphique (c est-à-dire sans calculs!) les individus qui contribuent significativement à la formation de chacun des axes. Justifier votre réponse. 12. Compléter le tableau ci-dessous individus Cr i (1) Cr i (2) 1 0.1942 2 0.0084 0.1508 3 0.0710 4 0.2563 0.1730 5 0.1015 0.1651 6 0.0743 7 0.0685 8 0.0038 0.0075 A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la formation des deux premiers axes. Retrouvez-vous les individus énumérés à la question précédente? 13. Compléter le tableau ci-dessous individus Qual 1 (i) Qual 2 (i) Qual 1 2 (i) 1 0.7108 2 0.0561 0.6353 3 0.0279 4 0.6450 0.2737 5 0.3267 0.3344 6 0.1986 7 0.2968 0.6313 8 0.0935 En déduire les individus qui sont bien représentés dans le plan principal. 14. En faisant usage des relations de transition, calculer les deux premiers facteurs liés aux variables. En déduire les variables corrélées avec chacun des axes. Justifier votre réponse. 15. Représenter graphiquement le nuage des variables dans le plan principal. 16. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal? En déduire les variables très bien représentées. 17. Compléter le tableau ci-dessous variables Qual 1 (j) Qual 2 (j) Qual 1 2 (j) V1 V2 0.8180 V3 0.0641 V4 0.0127 0.7480 V5 0.0013 A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les variables qui sont bien représentées dans le plan principal. Retrouvez-vous les variables énumérées à la question précédente? 18. A l aide du nuage des variables, donner une interprétation contextuelle à chacun des axes du plan principal. 19. En déduire une explication quant à la position des individus dans le premier plan factoriel. Exercice n o 2 On dispose d un fichier de données (cf. Annexe 1) contenant 31 étudiants de STID1 sur lesquels on a observé quatre notes : Informatique (Note1) Algorithmique (Note2) Bases mathématiques (Note3) Techniques mathématiques (Note4) N.B : le dernier élève identifié sous le label 99 est un élève fictif représentant un individu moyen dans les quatre matières citées ci-dessus. En d autres mots, c est un individu supplémentaire ne participant pas à la construction des axes. On a réalisé, sous SAS, une Analyse en Composantes Principales Normée (ACPN) de ce tableau de données, dont les résultats sont donnés dans les annexes. Réaliser l interprétation de cette ACPN, en vous aidant des questions suivantes : 1. Commenter succintement la moyenne et l écart type de chacune des quatre variables. 2. Commenter brièvement les coefficients de corrélation linéaire. 3. Interpréter les valeurs de la table Eigenvalues of the Correlation Matrix. Combien d axes doit-on théoriquement conserver pour obtenir une représentation graphique synthétique des nuages de points. Justifier votre réponse. 4. Interpréter la table Eigenvectors. 5. Quels sont les individus qui contribuent de manière significative à la formation des deux premiers facteurs. Dans chacun des cas, caractériser le facteur. 6. Quels sont les individus qu il faudra éliminer lors de l interprétation? Justifier votre réponse. 7. A l aide de la représentation graphique du cercle des corrélations dans le plan factoriel 1 2, déterminer les variables qui sont bien représentées. 8. Déterminer puis classer selon leur importance les variables corrélées avec le premier facteur (resp. avec le deuxième facteur). 9. Donner une interprétation contextuelle du premier facteur. Interpréter la position des individus selon ce premier facteur. 10. Donner une interprétation contextuelle du second facteur. Interpréter la position des individus selon ce deuxième facteur. 11. En tenant compte de l interprétation contextuelle donnée à chacun des axes, étudier la position des individus dans le plan factoriel principal. Peut-on mettre en évidence des groupes d individus, et si oui, lesquels? On a réalisé une Classification Ascendante Hiérarchique (CAH) sous SAS avec la méthode Ward. Cette classification a fourni trois diagrammes : le dendrogramme, la représentation graphique de la fonction de Ward ainsi la représentation graphique de la fonction d inertie inter-classes (cf Annexes). 1. En observant la fonction d inertie inter-classes, déterminer le nombre de classes à conserver pour réaliser une partition la plus homogène possible des élèves. Justifier votre réponse. 2. En observant la fonction de Ward, déterminer le nombre de classes à conserver pour réaliser une partition la plus homogène possible des élèves. Justifier votre réponse. Ce dernier résultat confirme-t-il celui obtenu précédemment? 3. Couper l arbre en fonction du nombre de classes retenues. Encadrer sur le dendrogramme les classes ainsi formées. 3 4

Annexe 1 Annexe 2 Données brutes Résultats ACP 5 6

Annexe 3 Annexe 4 Aides à interprétations Nuage des observations 7 8

Annexe 5 Annexe 6 Nuage des variables Inertie interclasses 9 10

Annexe 7 Annexe 8 Perte d inertie interclasses Dendrogramme 11 12