Examen d analyse de données

Documents pareils
CONTENU NUMERIQUE SÉMINAIRE 2 18/06/2013 RÉGION RHÔNE-ALPES

Extraction d informations stratégiques par Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Logiciel XLSTAT version rue Damrémont PARIS

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Mots- clé : dette publique ; fédéralisme ; classements ; provinces ; états ; cantons ; länder.

BIG DATA À LA FRANCAISE QUELLES INNOVATIONS POUR LES PROCHAINES CAMPAGNES?

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

La classification automatique de données quantitatives

INF6304 Interfaces Intelligentes

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

FORMULAIRE DE STATISTIQUES

Statistiques Descriptives à une dimension

Aide-mémoire de statistique appliquée à la biologie

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

SPHINX Logiciel de dépouillement d enquêtes

Calculs de probabilités avec la loi normale

Sondage sur le travail de conseiller d arrondissement et de conseiller municipal

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Traitement des données avec Microsoft EXCEL 2010

1 Complément sur la projection du nuage des individus

Individus et informations supplémentaires

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Étudier en Allemagne Guide pratique pour étudiants étrangers. 3 e édition

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

2.4 Représentation graphique, tableau de Karnaugh

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Statistiques à une variable

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Commentaires formulés lors de la période de consultation officielle, du 15 mai au 1 ier juin 2015

La médiatrice d un segment

Mémo d utilisation de ADE-4

Localisation des fonctions

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

COMBIEN UN MÉDECIN A-T-IL BESOIN D ARGENT POUR SA RETRAITE?

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Auto-Entreprise : Activités : Eric SOTY - Siret n Formation Bureautique, continue d'adultes. Tél : Fax :

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Formules et Approches Utilisées dans le Calcul du Coût Réel

Analyse de la variance Comparaison de plusieurs moyennes

Commentaires. Michael Narayan. Les taux de change à terme

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

ELECTIONS. Mode d Emploi

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Exemples d utilisation de G2D à l oral de Centrale

Représentation d une distribution

Sondage web sur la démocratie et la participation citoyenne

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Analyse en Composantes Principales

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Les intentions de vote pour les élections régionales en Midi-Pyrénées- Languedoc-Roussillon

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Régime à cotisation déterminée. On sait ce qu on met dedans; ce qu on retirera à la retraite dépend du rendement.

Poll-O Guide de l utilisateur. Pierre Cros

Etude des propriétés empiriques du lasso par simulations

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

ACP Voitures 1- Méthode

Introduction à l approche bootstrap

DOCM Solutions officielles = n 2 10.

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

Fonctions de plusieurs variables

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

L analyse boursière avec Scilab

Raisonnement probabiliste

Supports. Images numériques. notions de base [1]

Projet de Traitement du Signal Segmentation d images SAR

Cours 1 : introduction

1. Vocabulaire : Introduction au tableau élémentaire

TSTI 2D CH X : Exemples de lois à densité 1

M2 IAD UE MODE Notes de cours (3)

Orientation professionnelle Charpentier bois

MAP 553 Apprentissage statistique

Initiation à l analyse en composantes principales

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

72% des Français prêts à payer plus cher un produit fabriqué en France. Mais pas à n importe quel prix!

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

La pratique du coaching en France. Baromètre 2010

Conseil économique et social

MANUEL UTILISATEUR. Application 4trip

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

23. Interprétation clinique des mesures de l effet traitement

L'analyse des données à l usage des non mathématiciens

avec des nombres entiers

Arbres binaires de décision

Table des matières. I Mise à niveau 11. Préface

Relation entre deux variables : estimation de la corrélation linéaire

Transcription:

Examen d analyse de données Fabrice Rossi 5 février 2013 Il est vivement conseillé de traiter les questions de chaque exercice dans l ordre, afin de pouvoir éventuellement s appuyer sur les conclusions d une analyse pour faciliter les suivantes. Les deux exercices sont totalement indépendants. J attends des réponses précises et concises. Les questions qui appellent une réponse binaire (oui/non) demandent bien entendu une réponse argumentée sans laquelle aucun point ne sera compté. 1 Votes des représentants (États-Unis d Amérique) 1.1 Présentation des données On considère la base de données des votes effectués par les membres de la Chambre des représentants des EUA en 1984 sur 16 propositions importantes. Chaque individu est un membre de la Chambre décrit par 17 variables nominales. La variable Parti prend les modalités Démocrate et Républicain. Les autres variables, V1 à V16 représentent les votes et prennent les valeurs OUI, NON et NSP (pour une absence de vote). Il y a 267 représentants démocrates et 168 représentants républicains. 1.2 Visualisation Question 1 La figure 1 représente le vote effectué à la première proposition en fonction du parti d appartenance du représentant. La proposition 1 est elle l objet d un consensus entre les deux parti? Peut-on déterminer simplement à partir de la figure 1 si la proposition est adoptée à la majorité (relative)? Question 2 La figure 2 représente le pourcentage de réponses OUI en fonction de la question. D après cette figure, quelle est la proposition pour laquelle le vote est le plus indécis? Si on fait l hypothèse que les votes les plus francs sont ceux qui opposent le plus les républicains aux démocrates, sur quelles propositions pourra-t-on constater ce clivage? Comment déterminer de façon simple la proposition qui oppose le plus républicains et démocrates (de façon exacte, c est-à-dire sans faire l hypothèse simplificatrice précédente)? Question 3 En utilisant un critère bien choisi, l analyste décide d étudier les propositions représentées par la figure 3. Qu est-ce qui oppose ces deux figures? D après ces figures, peut-on espérer retrouver l orientation politique d un représentant en fonction de ses votes? Parmi les trois propositions représentées graphiquement dans les figures 1 et 3, quel vote semble le plus adapté pour une telle tâche? 1

HouseVotes84 Démocrate Républicain NSP OUI V1 NON Parti Figure 1 Diagramme mosaïque pour la première proposition 0.0 0.1 0.2 0.3 0.4 0.5 0.6 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 Figure 2 Pourcentage de vote OUI à chaque proposition 2

HouseVotes84 Démocrate Républicain HouseVotes84 Démocrate Républicain NSP NSPOUI OUI V2 V4 NON NON Parti Parti 1.3 Analyse supervisée Figure 3 Diagrammes mosaïques pour deux propositions Dans cette partie, on cherche à prédire l appartenance au parti démocrate en fonction des votes effectués par un représentant en utilisant un classifieur bayésien naïf. Question 4 Rappelez l hypothèse d indépendance conditionnelle associée au classifieur bayésien naïf (dans le contexte des votes). Cette hypothèse semble-t-elle a priori réaliste pour les données étudiées? HouseVotes84 NON OUI NSP NON HouseVotes84 NON OUI NSP NSP NSP OUI V4 V4 OUI NON V3 Démocrates V3 Républicains Figure 4 Diagrammes mosaïques pour deux propositions selon le parti d appartenance Question 5 La figure 4 représente les votes à la proposition 4 en fonction des votes à proposition 3 (parti par parti). Discutez la pertinence de l hypothèse du classifieur bayésien naïf en vous appuyant sur cette figure. 3

Républicains NON NSP OUI V1 134 3 31 V2 73 20 75 V3 142 4 22 V4 2 3 163 V5 8 3 157 V6 17 2 149 V7 123 6 39 V8 133 11 24 V9 146 3 19 V10 73 3 92 V11 138 9 21 V12 20 13 135 V13 22 10 136 V14 3 7 158 V15 142 12 14 V16 50 22 96 Démocrates NON NSP OUI V1 102 9 156 V2 119 28 120 V3 29 7 231 V4 245 8 14 V5 200 12 55 V6 135 9 123 V7 59 8 200 V8 45 4 218 V9 60 19 188 V10 139 4 124 V11 126 12 129 V12 213 18 36 V13 179 15 73 V14 167 10 90 V15 91 16 160 V16 12 82 173 Table 1 Table des votes de chaque parti aux 16 propositions Question 6 La table 1 représente les votes de chaque parti aux 16 propositions. Quelles grandeurs nécessaires à la mise en œuvre d un classifieur bayésien naïf peuvent être évaluées grâce à cette table? Question 7 Soit un représentant ayant voté selon le vecteur de réponse V suivant : V1 V2 V3 V4 V5 V6 V7 V8 OUI NON NSP OUI NON OUI OUI OUI V9 V10 V11 V12 V13 V14 V15 V16 NON NON OUI NON NON NON NON OUI Donner le rapport de probabilités P (Démocrate V ) tel qu estimé par le classifieur bayésien naïf. P (Républicain V ) On rappelle qu il y 267 représentants démocrates et 168 représentants républicains. On se contentera de donner une formule numérique sans chercher à simplifier la fraction obtenue (ni à évaluer les produits). Démocrate Républicain Démocrate 239 28 Républicain 14 154 Table 2 Matrice de confusion du classifier bayésien : chaque ligne correspond au parti réel des représentants, chaque colonne au parti prédit par le classifieur. Question 8 En utilisant le classifieur bayésien naïf, on obtient la matrice de confusion de la table 2 (sur l ensemble des données). Commentez les résultats. Peut-on en particulier estimer de façon satisfaisante la qualité du modèle à partir de cette table? Question 9 L analyste s intéresse aux représentants les plus difficiles à classer pour le classifieur bayésien naïf (c est-à-dire les plus ambigus). Comment déterminer ces représentants? 4

La table 3 donne les votes des 6 représentants les plus difficiles à classer. Expliquez pourquoi les deux premiers représentants de cette table sont effectivement difficile à classer (en vous appuyant notamment sur la table 1). 398 167 243 74 391 278 Parti Démocrate Républicain Républicain Républicain Démocrate Républicain V1 OUI OUI NON OUI NSP NON V2 OUI NON NON NON NSP NON V3 NON OUI NON OUI NON OUI V4 NON OUI NON OUI NON OUI V5 OUI OUI OUI OUI NSP OUI V6 NSP OUI OUI NON OUI OUI V7 NON OUI OUI OUI NSP OUI V8 NON OUI NON NON NON OUI V9 NON NON NON OUI NON NON V10 NON OUI NON OUI NON OUI V11 OUI NON NON NON OUI NON V12 NON OUI NSP NON OUI NON V13 OUI NON NON OUI NON NON V14 OUI OUI OUI OUI OUI OUI V15 NON OUI OUI NON NON NON V16 OUI OUI OUI OUI NSP OUI Table 3 Représentants difficiles à classer pour le classifieur bayésien naïf Question 10 L analyse s intéresse ensuite aux représentants les plus mal classés par le classifieur bayésien naïf. Comment déterminer ces représentants? La table 4 donne les votes des 6 représentants les plus mal classés. Expliquez pourquoi les deux premiers représentants de cette table sont mal classés (en vous appuyant notamment sur la table 1). Peut-on espérer bien classer ces représentants avec une autre méthode que le classifieur bayésien naïf? Question 11 En utilisant une validation croisée à 3 blocs, l analyste estime la matrice de confusion de la méthode du classifieur bayésien naïf donnée par la table 5. Commentez les résultats, notamment en comparant avec la table 2. 2 Élections au Bundestag (Allemagne) 2.1 Présentation des données On étudie les élections du Parlement allemand (le Bundestag) en 2009. L Allemagne est constituée de 299 circonscriptions (zones électorales). Chaque circonscription (un individu dans les données) est décrite par 16 variables numériques et une variable nominale. La variable nominale state précise l état de la circonscription (l Allemange est découpée en 16 états). Les 16 autres variables sont à valeurs entières et désignent des votes, exceptées la variable eligible qui donne le nombre d électeurs de la circonscription. Chaque citoyen donne 2 votes qui peuvent être soit valide, soit invalide (valid1 et valid2 comptent les votes valides, invalid1 et invalid2 comptent les votes invalides). Les 10 autres variables restantes donnent le nombre de premier et second votes obtenus par les cinq partis allemands : les sociaux démocrates SPD1 et SPD2, les conservateurs chrétiens UNION1 et UNION2, les verts GRUENE1 et GRUENE2, les libéraux FDP1 et FPD2, et enfin la gauche LINKE1 et LINKE2. 5

408 268 376 72 389 177 Parti Démocrate Républicain Démocrate Républicain Démocrate Républicain V1 NON OUI NON OUI NON NON V2 NON NON OUI OUI OUI NON V3 NON NON NON OUI OUI OUI V4 OUI NON OUI OUI OUI OUI V5 OUI NON OUI NON OUI NON V6 OUI NON OUI NON OUI NON V7 NON OUI NON OUI NON OUI V8 NON OUI NON OUI NON OUI V9 NON OUI NON OUI NON OUI V10 NON OUI NON OUI NON OUI V11 OUI NON OUI OUI NON NON V12 OUI NON OUI NON OUI NON V13 OUI NON NON NON OUI NON V14 OUI OUI OUI OUI OUI OUI V15 NON NON NON NON NON OUI V16 NON OUI NON OUI NSP OUI Table 4 Représentants mal classés par le classifieur bayésien naïf Démocrate Républicain Démocrate 239 28 Républicain 15 153 Table 5 Matrice de confusion du classifier bayésien estimée par validation croisée : chaque ligne correspond au parti réel des représentants, chaque colonne au parti prédit par le classifieur. Question 12 D après la description des données, quelles relations de dépendance entre certaines variables peut-on attendre? 2.2 Nombre de votants Question 13 La figure 5 donne une estimation de la distribution des tailles des circonscriptions en nombre d électeurs (chaque tiret vertical sous la courbe représente une circonscription). Sachant que le nombre moyen d électeurs par circonscription est de 207921 et que l écart-type de cette grandeur est de 22936, que dire de l homogénéité des circonscriptions en terme de nombre d électeurs? Question 14 La figure 6 représente le nombre de votants en fonction du nombre d électeurs, avec en superposition les prévisions d un modèle linéaire reliant les deux variables. Commentez cette figure. 2.3 Orientation politique des circonscriptions On s intéresse dans cette section aux votes aux différents partis. On exclue donc de l analyse la variable indiquant l état, et les variables donnant respectivement le nombre d électeurs, le nombre de votes et le nombre de votes valides. Les votes sont ensuite transformés en pourcentage des votes exprimés (ce qui revient, par exemple, à diviser la variable SPD1 par valid1 et la variable SPD2 par valid2). On réalise une analyse en composantes principales des données ainsi obtenue en centrant les données sans les normaliser. 6

Estimation de la densité de la variable eligible Density 0.000000 0.000010 150000 200000 250000 Figure 5 Distribution des tailles des circonscriptions votes 100000 140000 180000 160000 180000 200000 220000 240000 260000 eligible Figure 6 Nombre de votes en fonction du nombre d électeurs 7

Variance conservée (%) 0 20 40 60 80 100 1 2 3 4 5 6 7 8 9 10 Nombres de composantes Figure 7 Pourcentage de variance expliquée en fonction du nombre de composantes conservées dans l ACP Question 15 Justifiez brièvement les choix de l analyste. Quel serait l effet d une normalisation dans ce contexte? La figure 7 représente le pourcentage de variance expliquée par l ACP en fonction du nombre de composantes conservées. Question 16 Que peut-on dire des dernières composantes (à partir de la sixième composante)? Est-ce surprenant? Question 17 D après la figure 7, combien de composantes faudrait-il conserver pour ne pas perdre trop d information? Que dire d une représentation sur les deux premiers axes? Question 18 Commentez la représentation des circonscriptions sur le plan factoriel (deux premiers axes principaux, figure 8), en utilisant en particulier le cercle des corrélations (figure 9) pour interpréter les résultats ainsi que les liens entre les variables. Question 19 La figure 10 représente les circonscriptions sur le plan factoriel état par état (un plan factoriel par état). En utilisant cette représentation et la figure 9, discutez l homogénéité politique des états et leur orientation (les partis dominants). On réalise maintenant une classification hiérarchique des données en utilisant le critère de Ward. Le dendrogramme obtenu est représenté sur la figure 11. Question 20 Commentez le dendrogramme en indiquant en particulier quel(s) nombre(s) de classes considérer pour construire une partition des circonscriptions. Question 21 Proposez une technique de visualisation des résultats de la classification permettant d analyser les liens entre les classes de circonscriptions, les votes et les états. Quels statistiques pourrait-on calculer pour résumer l orientation politique des circonscriptions dans chaque classe et/ou dans chaque état? 8

PC2 0.3 0.2 0.1 0.0 0.1 0.2 0.2 0.0 0.2 0.4 0.6 PC1 Figure 8 Représentation des circonscriptions sur le premier plan factoriel PC2 1.0 0.5 0.0 0.5 1.0 UNION2 UNION1 FDP2 FDP1 GRUENE1 GRUENE2 SPD1 SPD2 LINKE1 LINKE2 1.0 0.5 0.0 0.5 1.0 PC1 Figure 9 Cercle des corrélations 9

0.2 0.0 0.2 0.4 0.2 0.0 0.2 0.4 Sachsen Sachsen Anhalt Schleswig Holstein Thueringen 0.3 0.2 0.1 0.0 0.1 0.2 0.3 Niedersachsen Nordrhein Westfalen Rheinland Pfalz Saarland 0.3 0.2 0.1 0.0 0.1 0.2 PC2 0.3 Bremen Hamburg Hessen Mecklenburg Vorpommern 0.3 0.2 0.1 0.0 0.1 0.2 0.3 Baden Wuerttemberg Bayern Berlin Brandenburg 0.3 0.2 0.1 0.0 0.1 0.2 0.3 0.2 0.0 0.2 0.4 0.2 0.0 0.2 0.4 PC1 Figure 10 Représentation des circonscriptions sur le premier plan factoriel en fonction des états Critère de Ward Height 0 5 10 15 Figure 11 Dendrogramme de la classification pour le critère de Ward 10