Analyse des Données. Travaux Pratiques 3

Dimension: px
Commencer à balayer dès la page:

Download "Analyse des Données. Travaux Pratiques 3"

Transcription

1 Analyse des Données Travaux Pratiques 3 1 Introduction Ce TP sera consacré aux analyses factorielles. La première partie présentera un exemple réel (et poussé) d une analyse factorielle des correspondances où l interprétation des différents axes est primordiale. La seconde partie montre un façon de combiner classification et analyses factorielles. Pour pouvoir utiliser les algorithmes d analyses factorielles, il est nécessaire de charger la bibliothèque correspondante dans R : library(mass) De même, les algorithmes de classification ascendante hiérarchique que nous allons utiliser par la suite sont présents dans la bibliothèque cluster. Pour charger la dite bibliothèque on procède donc de la même manière que précédemment : library(cluster) Remarque : Si on est un fana du click, on pourra aussi utiliser la commande générale package.manager(). Récapitulons les différentes étapes de l A.F.C. : N = (n ij ) est le tableau initial, il contient L lignes et K colonnes, et n i j n ij. K L On note n i = n ij et n j = n ij les marges de la ligne i et de la colonne j, j=1 i=1 D L =diag(n 1,..., n L ) et D K =diag(n 1,..., n K ) Pour l analyse en ligne on utilise la matrice X L = DL 1 N, et pour l analyse en colonne la matrice X K = DK 1t N Analyse en ligne : La métrique utilisée pour les individus est M L = ndk 1, La métrique utilisée pour les caractères est D = 1 D n L, la variance est alors égale à t X L DX L = V. On note u α les vecteurs propres de la matrice M L V de valeurs propres λ α (classés par ordre décroissant en supprimant la valeur propre triviale 1) 1. Les composantes principales sont alors les c α = X L u α dont le carré des normes vaut λ α (la métrique étant celle des caractères). La contribution d un individu i à la composante principale c α est alors égale à 1 λ α n i n (ci α) 2. 1 où α varie de 1 à r = Inf{K 1, L 1} qui est le nombre de valeurs propres, excepté la valeur propre triviale 1. 1

2 Le cosinus carré de l angle entre un individu i (une ligne de X L ) et une composante r principale c α est égal à (c i α) 2 / (c i β) 2 β=1 Analyse en colonne : La métrique utilisée pour les individus est M K = ndl 1, La métrique utilisée pour les caractères est D = 1 D n K, la variance est alors égale à t X K DX K = V. On note v α les vecteurs propres de la matrice M K V de valeurs propres λ α (classés par ordre décroissant en supprimant la valeur propre triviale 1) identiques aux valeurs propres de l analyse en lignes. Les composantes principales sont alors les d α = X K v α dont le carré des normes vaut λ α (la métrique étant celle des caractères). La contribution d un caractère j à la composante principale α est alors égale à 1 n j λ α n (dj α) 2. Le cosinus carré de l angle entre un caractère j (une ligne de X K ) et une composante r principale d α est égal à (d j α) 2 / (d j β )2. En résumé : c α = X L u α, d α = X K v α, c α = λ α v α, d α = λ α u α, λ α = n ( λ α v i n α) i 2 = i j β=1 n ( λ α u j n α) 2. j Attention : La commande que nous allons utiliser par la suite est corresp(). Les résultats de corresp() sont donnés dans l optique d une analyse canonique. On peut cependant faire le parallèle avec les résultats vus en cours : les corrélations canoniques correspondent aux racines carrées des valeurs propres les facteurs canoniques (row et column scores) correspondent aux vecteurs propres. Ainsi les column scores sont exactement les vecteurs propres de l analyse en lignes, et les row scores les vecteurs propres de l analyse en colonnes. 2 Fume, c est de l A.F.C. Cette étude de cas est extraite de l ouvrage de Jean-Pierre Benzécri Analyse des données. Tome 2 : l analyse des correspondances. Il s agit d une étude réelle dont nous avons complété les objectifs. Parmi les questions, certaines ne concernent pas spécifiquement l analyse statistique ; elles sont destinées à faciliter l interprétation des résultats de l AFC. Une enquête a été effectuée auprès de cent fumeurs afin de choisir les noms de deux nouvelles marques de cigarettes. La première marque est destinée à une clientèle masculine : 2

3 L homme ciblé est un connaisseur distingué, raffiné mais viril, de niveau socio-économique élevé. La seconde symbolise un public féminin, élégant, assuré, dynamique. Douze marques ont été retenues : Orly (Orl) Alezan (Ale) Corsaire (Cor) Directoire (Dir) Ducat (Duc) Fontenoy (Fon) Icare (Ica) Zodiac (Zod) Pavois (Pav) Cocker (Coc) Escale (Esc) Hôtesse (Hot) Pour évaluer leur image auprès du public, onze attributs ont été proposés aux fumeurs : vieillot - désuet (VD) nouveau riche (NR) sobre, élégant (SE) cocasse - ridicule (CR) racé (RA) mièvre (MI) distingué (DI) vulgaire - commun (VC) pour un homme (HO) pour une femme (FE) pour une petite nature (NA) On a demandé à chacun des cent gumeurs d associer une ou plusieurs parques qui selon eux conviennent le mieux. Le tableau de données est alors le suivant : Orl Ale Cor Dir Duc Fon Ica Zod Pav Coc Esc Hot VD NR SE CR RA MI DI VC HO FE NA Analyse On effectuera : un calcul du tableau des distances du χ 2, 3

4 une analyse factorielle des correspondances, Afin de rendre les résultats de la fonction corresp() plus manipulables, on va commencer par créer une fonction R (commande function()) qui à partir du résultat de la commande corresp(), retournera dans une liste (commande list) les éléments de base permettant d interpréter une AFC, c est-à-dire : les pourcentages d inerties expliqués par chaque axe, les composantes principales c α et d α, la qualité de représentation de chaque ligne/colonne sur chaque axe (cosinus carré), la contribution de chaque ligne/colonne à chaque axe. On créera également une deuxième fonction qui permettra représenter simultanément les lignes et les colonnes sur un axe ou un plan factoriel arbitraire. On pourra utiliser les commandes plot, text (ajout de libellés des lignes et/ou colonnes), points et abline (tracé des axes x = 0 et y = 0). 2.2 Interprétation 1 Le tableau de données est-il un tableau de contingence? Quelles sont les marques les plus fréquemment citées? Que peut-on dire des attributs? 2 Les publics visés ont-ils des points communs? Quels sont les attributs correspondants? Pourquoi a-t-on proposé des attributs ne leur correspondant pas? 3 Regarder les distances du χ 2 entre les marques (on utilisera pour cela la commande dist()). Quelles sont les marques dont les distances sont les plus faibles? Les plus élevées? Comment interpréter ces résultats? 4 En examinant les valeurs propres et leur diagramme, déterminer les axes principaux qu il faut garder dans les analyses. 5 A l aide du plan 1x2, expliquer la différence entre les marques les plus distantes les unes des autres, et la ressemblance entre les marques les plus proches. Quelles sont les marques bien représentées sur le plan 1x2? Quelles sont les marques importantes dans l interprétation des axes 1 et 2? 6 Que peut-on dire des attributs? De quel côté de l axe 1 se trouvent les marques qui correspondent aux publics visés? 7 Quelle interprétation peut-on proposer à l attribut Pour une femme tel qu il apparaît le long de l axe 2? De l axe 4? 8 Que peut-on dire de l axe 5? 3 Médicaments Cette étude tend à déterminer quels médicaments utiliser pour traiter telle ou telle maladie. Les données ont été collectées après une enquête auprès de médecins à qui l on a demandé d indiquer pour chaque maladie les médicaments utilisés. 4

5 Ces données sont regroupées dans un tableau dont les colonnes représentent les médicaments et les lignes les maladies. Un élément a ij du tableau est donc le nombre de fois (pour l ensemble des médecins) où le médicament i a été prescrit pour la maladie j. 7 maladies ont été retenues : Typhoïde (TFD) Salmonellose digestive (SAL) Affection ORL (ORL) Pneumopathie (PNE) Méningite (MEN) Affection des voies urinaires (URI) Staphylococcie (STA) Ainsi que 6 médicaments : Péniciline (peni) Tifomycine (tifo) Tétracyline (tetr) Erythromycine (eryt) Tiophénicol (tiop) Gentalline (gent) Le tableau de données est le suivant (on pourra le retrouver dans le fichier nommé maladies.txt) : peni tifo tetr eryt tiop gent TFD SAL ORL PNE MEN URI STA Analyse en ligne Fréquence Plus Transformer le tableau d origine pour permettre une analyse des différentes maladies : i.e. diviser chaque élément d une ligne par l effectif de la ligne et obtenir ainsi le tableau (transposé) des profils lignes (la commande RowSums() est là pour ça) Disease Distance Le tableau calculé précédemment nous permet de calculer une distance (pour le coup euclidienne) entre les maladies. La calculer. Que peut-on en conclure? Remarque : on pourra utiliser la commande dist() 5

6 3.1.3 Classification des maladies Représenter une classification ascendante hiérarchique des maladies. Quelle méthode de classification utiliser? Le faire. Remarque : hclust(). Une commande générale pour effectuer une CAH à partir d une distance est Dessiner c est classer Que signifient les attributs du résultat de la commande hclust()? En particulier, quid des attributs merge et height? Tracer le dendrogramme. L interpréter Et c est parti Faire l A.F.C de notre tableau. Combien d axes principaux pouvons-nous avoir? Que représente les différents attributs du résultat? Combien d axes pouvons-nous retenir dans l étude? Analyse des deux premiers axes Quel est le pourcentage d inertie expliqué par le premier et le deuxième axe? Les maladies/médicaments sont-ils bien représentés par le plan formé par ces deux axes? Contributions Quelles sont les contributions des maladies/médicaments à chacun des 2 premiers axes? Représentation graphique Tracer sur les deux premiers axes factoriels les différentes maladies ainsi que les médicaments les plus importants dans la création des axes. Que signifient les axes et qu en déduit-on pour les maladies? Dendrogramme et A.F.C. Les résultats de l A.F.C. sont-ils cohérents avec ceux trouvés en faisant une classification hiérarchique des maladies? Que nous apporte l utilisation conjointe des deux méthodes? 6

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 FactoMineR est un paquet R qui implémente les principales méthodes d analyse de données. Si le paquet n est pas déjà

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

TD de statistique : introduction à R

TD de statistique : introduction à R TD de statistique : introduction à R Jean-Baptiste Lamy 11 octobre 2007 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre; il est disponible gratuitement

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Travaux dirigés. Introduction à R 1

Travaux dirigés. Introduction à R 1 Introduction à R 1 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre ; il est disponible gratuitement et tourne sur différents systèmes (PC Linux, PC Windows,

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Statistiques avec la graph 35+

Statistiques avec la graph 35+ Statistiques avec la graph 35+ Enoncé : Dans une entreprise, on a dénombré 59 femmes et 130 hommes fumeurs. L entreprise souhaite proposer à ses employés plusieurs méthodes pour diminuer, voire arrêter,

Plus en détail

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances A travers ce TD, nous allons apprendre à mettre en oeuvre l analyse factorielle des correspondances.

Plus en détail

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples 1 ACM avec R Plusieurs packages fournissent des outils permettant de réaliser

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

STATISTIQUES A UNE VARIABLE EXERCICES CORRIGES

STATISTIQUES A UNE VARIABLE EXERCICES CORRIGES STATISTIQUES A UNE VARIALE EXERCICES CORRIGES Exercice n Les élèves d une classe ont obtenu les notes suivantes lors d un devoir : Note 4 5 8 0 4 5 8 0 Effectif 4 7 6 4 ) Déterminer l étendue et le mode

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

STATISTIQUE avec la calculatrice TI-nspire. Applications : Tableur & listes - Données et statistiques

STATISTIQUE avec la calculatrice TI-nspire. Applications : Tableur & listes - Données et statistiques STATISTIQUE avec la calculatrice TI-nspire. Applications : Tableur & listes - Données et statistiques 1) Caractère qualitatif : représentations graphiques Moyen de locomotion pour venir à l école. x i

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Problème 4: Les diagrammes suivants représentent la distribution de 4 variables discrètes X1, X2, X3 et X4 :

Problème 4: Les diagrammes suivants représentent la distribution de 4 variables discrètes X1, X2, X3 et X4 : Cours 5-62-96 : Traitement et analyse des données Test autodiagnostique PARTIE 1 : Problème 1 : Pour chacune des distributions ci-dessous, identifier la population et la variable étudiée en précisant si

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

2.1. Les fonctions. Les fonctions se définissent de la manière suivante : NomDeLaFonction(param1, param2,...)= { \\ Code de la fonction

2.1. Les fonctions. Les fonctions se définissent de la manière suivante : NomDeLaFonction(param1, param2,...)= { \\ Code de la fonction TP1, prise en main de Pari/GP et arithmétique Le programme que nous allons utiliser pour les TP se nomme PARI/GP dont le point fort est la théorie des nombres (au sens large). Il est donc tout à fait adapter

Plus en détail

STATISTIQUES 2 : MOYENNE, MEDIANE, ECART-TYPE

STATISTIQUES 2 : MOYENNE, MEDIANE, ECART-TYPE Chapitre 4bis STATISTIQUES 2 : MOYENNE, MEDIANE, ECART-TYPE BAC PRO 3 Objectifs (à la fin du chapitre, je dois être capable de ) : - Calculer une moyenne - Calculer une médiane (caractère discret) - Tracer

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Les quatre opérations sur les nombres entiers Statistiques et probabilités I. Code Unités Devoirs Code Unités Devoirs

Les quatre opérations sur les nombres entiers Statistiques et probabilités I. Code Unités Devoirs Code Unités Devoirs 1 re secondaire 2 e secondaire Les quatre opérations sur les nombres entiers Statistiques et probabilités I MAT-1005-2 2 3 MAT-2008-2 2 3 (+, -, x, ) dans l ensemble des entiers Z. Ce premier cours portant

Plus en détail

Analyse de données multidimensionnelles

Analyse de données multidimensionnelles Analyse de données multidimensionnelles M1 Statistique et économétrie, 2014 Projet - V. Monbet Le projet est composé de deux parties indépendantes. Les données sont disponibles sur la page web du cours.

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

TP Statistique n o 1

TP Statistique n o 1 Préparation Agrégation Bordeaux Année 0-03 TP Statistique n o L objectif de ce TP est de vous familiariser avec le logiciel Matlab (qui n est pas libre...). Matlab n est pas à la base un langage de calcul

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Analyse Combinatoire

Analyse Combinatoire Analyse Combinatoire 1) Équipes On dispose d un groupe de cinq personnes. a) Combien d équipes de trois personnes peut-on former? b) Combien d équipes avec un chef, un sous-chef et un adjoint? c) Combien

Plus en détail

1) LA SAISIE DU QUESTIONNAIRE

1) LA SAISIE DU QUESTIONNAIRE Mercatique - BRITO TP LA DECOUVERTE DE SPHINX Objectifs : Revoir le fonctionnement de Sphinx Analyser les réponses grâce aux tris 1) LA SAISIE DU QUESTIONNAIRE Dans un premier temps, nous allons construire

Plus en détail

1 Vos journaux préférés et votre appartenance politique

1 Vos journaux préférés et votre appartenance politique 1 Vos journaux préférés et votre appartenance politique Sommaire 1.1 Objectifs................................................... 1 1.2 Description................................................. 1 1.3

Plus en détail

Épreuve d informatique 2011

Épreuve d informatique 2011 A 2011 INFO. MP ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES, ÉCOLES NATIONALES SUPÉRIEURES DE L AÉRONAUTIQUE ET DE L ESPACE, DE TECHNIQUES AVANCÉES, DES TÉLÉCOMMUNICATIONS, DES MINES DE PARIS, DES MINES DE

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Analyse des Données. Travaux Pratiques 0

Analyse des Données. Travaux Pratiques 0 Analyse des Données Travaux Pratiques 0 Introduction La maison-page du logiciel se trouve à l adresse www.r-project.org. Toutes les réponses aux questions relatives à la bonne exécution de ce TP (commandes,

Plus en détail

TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE

TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE Statistique Numérique et Analyse de Données Ecole des Ponts ParisTech, 2 ème année TP2 : ANALYSE DESCRIPTIVE MULTIVARIÉE Analyse des données de peintures de Rembrandt et de Van Gogh On se propose, à titre

Plus en détail

1 Un objet aléatoire de base : le dé

1 Un objet aléatoire de base : le dé Dans le monde des statistiques, il est bien évident qu on ne fait plus aucun calcul à la main. Si nous le faisons en cours de mathématiques, c est pour mieux comprendre ce que font les divers logiciels

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

3 - Salaires. Il va falloir compléter une succession de fenêtres pour arriver au graphique final.

3 - Salaires. Il va falloir compléter une succession de fenêtres pour arriver au graphique final. 3 - Objectif : Traiter les statistiques descriptives à l'aide du tableur Excel. Partie 1 : Représentations graphiques 1.1 Histogrammes Les données brutes sont placées dans les deux premières colonnes 1

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage

TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage TP 1 : Présentation générale du logiciel, l aide en ligne et les bases du langage est distribué gratuitement à partir du site du CRAN (Comprehensive R Archive Network) : http://www.r-project.org/. Je vous

Plus en détail

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SEPTEMBRE 2008 TABLE DES MATIÈRES INTRODUCTION... 3 SONDAGE ET ÉCHANTILLONNAGE... 3 SONDAGE... 3 ÉCHANTILLONNAGE... 4 COMPILATION DES RÉSULTATS... 4

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

L ACP sous SPSS. À Propos de ce document. Introduction

L ACP sous SPSS. À Propos de ce document. Introduction L ACP sous SPSS À Propos de ce document... Introduction... La démarche à suivre sous SPSS.... «Descriptives».... «Extraction».... «Rotation».... «Scores».... «Options»... Analyse des résultats.... Les

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

Didacticiel - Etudes de cas Charger un fichier EXCEL

Didacticiel - Etudes de cas Charger un fichier EXCEL Objectif Montrer comment importer directement dans TANAGRA un fichier au format EXCEL (version 97 & 2000). Le principal avantage de cette procédure est qu il est possible de modifier à la volée le fichier

Plus en détail

TP statistiques : Analyses en Composantes Principales (ACP)

TP statistiques : Analyses en Composantes Principales (ACP) TP statistiques : Analyses en Composantes Principales (ACP) Introduction Nous allons, à partir données du ministère de l intérieur et l INSEE, étudier les divers facteurs liés aux accidents de la route.

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

TD 2: AFCM Analyse Factorielle des Correspondances Multiples

TD 2: AFCM Analyse Factorielle des Correspondances Multiples TD 2: AFCM Analyse Factorielle des Correspondances Multiples 1 Questions de cours 1. Rappeler les objectifs d une AFCM. Définir la ressemblance entre deux individus, entre deux variables, entre deux modalités

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

I) Deux propriétés importantes Propriété 1 Si A est multiple de B et B est un multiple de n, alors A est un multiple de n.

I) Deux propriétés importantes Propriété 1 Si A est multiple de B et B est un multiple de n, alors A est un multiple de n. Extrait de cours de maths de 5e Chapitre 1 : Arithmétique Définition 1. Multiples et diviseurs Si, dans une division de D par d, le reste est nul, alors on dit que D est un multiple de d, que d est un

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

...fin du cours précédent

...fin du cours précédent ...fin du cours précédent num voiture moto cheval camion bus âne mulet 1 1 1 0 1 0 0 0 2 1 1 0 1 0 0 0 3 1 1 0 1 0 0 0 4 0 1 1 1 0 1 1 5 1 0 0 1 1 0 0 6 1 0 0 1 1 0 0 7 1 0 0 1 1 0 0 8 1 0 0 1 1 0 0 9

Plus en détail

Un corrigé de l épreuve de mathématiques du baccalauréat blanc

Un corrigé de l épreuve de mathématiques du baccalauréat blanc Terminale ES Un corrigé de l épreuve de mathématiques du baccalauréat blanc EXERCICE ( points). Commun à tous les candidats On considère une fonction f : définie, continue et doublement dérivable sur l

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Les macros SAS. d'analyse des données

Les macros SAS. d'analyse des données INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES DIRECTION GÉNÉRALE 18, boulevard Adolphe Pinard - 75675 PARIS CEDEX 14 Les macros SAS d'analyse des données Document n F 9405 15 mars 1994

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

6GEI500 Signaux et systèmes. Laboratoire #2

6GEI500 Signaux et systèmes. Laboratoire #2 6GEI500 Signaux et systèmes Laboratoire #2 Analyse en fréquences avec MATLAB Automne 2009. Objectifs Se familiariser avec l analyse en fréquences avec MATLAB Explorer le phénomène de Gibbs Faire une analyse

Plus en détail

Partie 2 Statistique- Chapitre 8 Tableaux Croisés

Partie 2 Statistique- Chapitre 8 Tableaux Croisés Partie 2 Statistique- Chapitre 8 Tableaux Croisés PLAN: Cours... 2 TABLEAUX CROISES... 2 1. Tableau des effectifs... 2 2. Tableau des fréquences un rapport à l'effectif total... 2 3. Tableau des fréquences

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Première L juin 2008 A B C D E F G

Première L juin 2008 A B C D E F G Première L juin 2008 Liban 1. Exercice 1 (10 points) On fournit ci-dessous un tableau statistique relatif aux accidents de la route avec des piétons en France. Ce tableau est obtenu à l'aide d'un tableur,

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr1103 Initiation à l analyse en composantes principales A.B. Dufour & D. Clot Une première approche très intuitive et interactive de l ACP. Table des matières 1 Introduction

Plus en détail

Exercice 2. Population de Bruxelles de 18 à 65 ans selon le sexe et le statut d occupation - 2010

Exercice 2. Population de Bruxelles de 18 à 65 ans selon le sexe et le statut d occupation - 2010 Chapitre 1. Tableau à double entrée Exercices : solutions Texte provisoire. Merci pour les remarques, commentaires, suggestions Exercice 1 1.a. Population de Bruxelles selon le sexe et la nationalité Hommes

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail