GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

Dimension: px
Commencer à balayer dès la page:

Download "GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali"

Transcription

1 LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID Master 2 EID 07/08 1

2 1 Introduction 1.1 Les Analyses Factorielles Nous étudierons les diérents types d'analyses factorielles. Le choix du type dépendra des variables à analyser. ACP : des variables quantitatives (Analyse en Composante Principale) AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Le nom de ces procedures sous SAS sont: PROC FACTOR (ACP avec Rotation des axes) PROC PRINCOMP (Regression logistique linéaire methode maximum de vraisemblance) PROC CORRESP (Analyse des correspondances simples et multiples) 1.2 Pourquoi? Les méthodes d'analyses factorielles sont souvent regroupées sous le terme générique d'analyse des données. Les méthodes d'analyses factorielles ou d'analyse des données se situent essentiellement dans un contexte exploratoire. En eet, l'analyse des données peut être dénie comme l'extension de la statistique descriptive au cas multidimensionnel. Les analyses factorielles sont avant tout descriptives et permettent une analyse simultanée d'un ensemble de variables. Les analyses factorielles ont pour but de «résumer» au mieux des tableaux rectangulaires de données Pour cela diérentes techniques se distinguent selon la nature des données analysées: quantitatives, qualitatives, les deux. Leurs démarches consistenet à remplacer les variables d'origine, nombreuses, par de nouvelles variables, synthétiques, en nombre inférieur et à conserver les premières d'entre elles. Au sens qu'on ne conservera que celle apportant le plus d'informations. Au nal, les variables d'origine sont remplacées par des axes, combinaisons des variables d'origine, et perpendiculaires deux à deux. Ces axes permettent de positionner les individus et les variables origines sur des plans en 2D. C'est ce que nous appelerons projection ( ou nuages)des individus, ou des variables sur les deux meilleurs axes factorielles. 1.3 Les méthodes Comme nou sl'avons vu plus haut il y a trois principales méthodes: ACP : des variables quantitatives (Analyse en Composante Principale) Master 2 EID 07/08 2

3 AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Avant de s'interesser en détail à l'acp, parlons des deux autres méthodes. Analyse Factorielle des Correspondances: AFC L'AFC traite des données diérentes de celles requises par l'acp. En eet, l'acp traite des données quantitatives alors que l'afc permet le traitement des tableaux croisés encore appelés tableaux de contingence. Un tableau de contingence doit vérier la propriété suivante : la somme des éléments en ligne possède une signication, de même que la somme des éléments en colonnes. L'objectif de l'afc est alors d'étudier la nature de la liaison éventuelle entre les deux caractères. D'un point de vue algorithmique, la diérence entre l'acp et l'afc réside seulement dans le choix de la métrique. En ce sens qu'une métrique permet de mesurer une distance entre deux vecteurs (un individu est un vecteur dans l'espace des variables, une variable est un vecteur dans l'espace des individus). En ACP, la métrique utilisée est la distance euclidienne. En AFC, la métrique est la distance du Khi-2. A part la métrique et la nature des données, la démarche en AFC est identique à la démarche en ACP. Analyse des Correspondances Multiples: ACM Historiquement, l'acm est un simple prolongement de l'afc aux tableaux de données mis sous forme binaire ou tableaux logiques. En eet, faire une ACM sur deux variables qualitatives est identique à faire une AFC sur le tableau de contingence de ces deux variables. Cependant si l'acm ressemble à l'afc sur le plan technique, sur le plan des objectifs elle s'apparente plus à l'acp à travers l'analyse de tableaux individus-variables. Remarque : L'ACM peut traiter des variables quantitatives, mais celles-ci doivent au préalable être découper en classes. Initialement, le tableaux des données se résume à une matrice X, où une ligne correspond à un individu et une colonne à une modalité d'une variable. Ce tableau est composé de 0 et de 1. La méthode est alors semblable à celle de l'acp que nous verrons par la suite. 2 L'Analyse en Composantes Principales (ACP) 2.1 Représentation mathématique On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont des variables (mensurations, taux, températures,...) et dont les lignes représentent des Master 2 EID 07/08 3

4 individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années...). On note X ce tableau de données. X: Tableau de données X 11 X 1p. X ij. X n1 X np X ij : Valeur de la i me observation pour la j ime variable X i. : i me observation du tableau X.j : j me variable du tableau n : Eectif des individus p: Nombre de variables 2.2 Objectif Notre objectif est d'extraire l'essentiel de l'information contenue dans le tableau de données X et d'en fournir une représentation se prêtant plus aisément à l'interprétation. Autrement dit, nous nous proposons de rechercher une représentation des n individus dans un sousespace de l'espace initial. Nous cherchons donc à dénir k nouvelles variables, combinaison des p de l'espace initial, qui font perdre le moins d'information possible. Ces k variables seront appelées composantes principales et les axes qu'elles déterminent axes principaux. 2.3 Rappels mathématiques L'analyse du nuage de points utilise la notion fondamentale de distance. On munit l'espace des individus de la distance euclidienne classique. d(x i., X j. ) 2 = n k=1 X ik X jk 2 On désigne par g le centre de gravité du nuage : g = 1 n n i=1 X i. g est donc un vecteur de dimension n. La matrice X est généralement centrée sur le centre de gravité : X 11 X 1 X 1p X p X =..... X n1 X 1 X np X p Elle peut être aussi réduite : Master 2 EID 07/08 4

5 X 11 X 1 X 1p X p σ(x p) σ(x 1 ) X =..... X n1 X 1 σ(x 1 ) X np X p σ(x p) On peut alors calculer les matrices de covariances et de corrélations. En eet une fois la matrice X transformée en X ou X, il sut de la multiplier par sa transposée X t pour obtenir: la matrice de variance-covariance si X est juste centrée. la matrice de corrélation si X est centrée réduite, autrement dit normée. Covariances = 1/n X t X Correlations = 1/n X t X Ces deux matrices sont des matrice carrées de taille p, symétriques, et réelles. Elles sont diagonalisables dans une base orthonormée. Dans la suite nous noterons par X les matrices X et/ou X. 2.4 Projections sur un sous-espace Le principe de l'acp est de trouver un axe u, issu d'une combinaison linéaire des X.j, tel que la variance du nuage autour de cet axe soit maximale. Nous cherchons donc le vecteur u tel que la pojection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice de covariance ou de corrélation précédement calculée. La projection de l'échantillon des X sur u s'écrit : La variance empirique de π u (X) vaut donc : π u (X) = X u π u (X) t 1/n π u (X) = u t X t 1/n X u } {{ } C Comme nous l'avons vu plus haut C est diagonalisable dans une base orthonormée, notons P la matrice de changement de base associée et la matrice diagonale associée. On obtient ainsi que : π u (X) 1/n π u (X) = u t P t P u = (P u) t (P u) } {{ } v Avec cette réécriture, nous cherchons le vecteur unitaire v qui maximise v t v où = Diag(λ 1,..., λ p ) est diagonale. Rangeons les valeurs de la diagonale de en ordre décroissant. On peut rapidement vérier qu'il sut de prendre le premier vecteur unitaire on a alors : v t v = λ 1 Master 2 EID 07/08 5

6 On a donc que la diagonalisation de la matrice de corrélation (ou de covariance si on se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le plus d'inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la plus grande valeur propre. De même le deuxième vecteur qui explique la plus grande part de l'inertie restante est le deuxième vecteur propre, etc. Finalement, la question de l'acp se ramène donc à un problème de diagonalisation de la matrice de corrélation. 2.5 ACP sous SAS Deux procédures SAS permettent de réaliser des Analyses en composantes principales: PROC PRINCOMP PROC FACTOR Pour dessiner les plans factoriels (nuages des individus et des variables), deux autres procédures sont utilisées Pour adapter les tables : la PROC TRANSPOSE Pour éditer le graphique : la PROC PLOT Remarque : Quand on utilise une PROC PRINCOMP, il est nécessaire d'enchaîner sur une PROC FAC- TOR METHOD=SCORE si on souhaite dessiner les plans factoriels. PROC PRINCOMP <options>; BY variables; VAR variables; RUN; Algorithme 1: Procédure PRINCOMP Les options sont: DATA=Table-SAS OUT=Table-SAS: Table SAS qui contient les données initiales plus les scores des individus sur les composantes principales. OUTSTAT=Table-SAS: Table SAS qui contient les moyennes, variances, nombres d'observations, corrélations ou covariances, les valeurs propres et les composantes principales (scores des variables). Master 2 EID 07/08 6

7 PROC FACTOR <options>; BY variables; VAR variables; RUN. Algorithme 2: Procédure FACTOR Les options sont: DATA=Table-SAS OUT=Table-SAS OUTSTAT=Table-SAS METHOD=Name Name=PRINCIPAL : réalise une ACP à partir d'un tableau individus-variables Name=SCORE : réalise une ACP à partir des scores des variables sur des composantes principales (par exemple, la table OUSTAT d'une PROC PRINCOMP). NFACTORS=n : détermine le nombre de facteur maximum qui doit être extrait. Nécessaire si on utilise l'option OUT= Master 2 EID 07/08 7

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 8 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Les macros SAS. d'analyse des données

Les macros SAS. d'analyse des données INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES DIRECTION GÉNÉRALE 18, boulevard Adolphe Pinard - 75675 PARIS CEDEX 14 Les macros SAS d'analyse des données Document n F 9405 15 mars 1994

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Analyse multidimensionnelle de données longitudinales

Analyse multidimensionnelle de données longitudinales Analyse multidimensionnelle de données longitudinales Ndèye Niang Conservatoire National des Arts et Métiers Plan Introduction Terminologie-Notations Méthodes directes Coefficient d association vectorielle

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES

HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES

COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES COURS DE DATA MINING 6 : MODELISATION NON-SUPERVISEE LES ANALYSES FACTORIELLES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 6 : Modélisation non-supervisée

Plus en détail

L analyse en composantes principales

L analyse en composantes principales L analyse en composantes principales 1 La méthode 1 Les données, les objectifs de la méthode L Analyse en Composantes Principales (ACP) est la méthode adaptée à l exploration synthétique de l information

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC

L analyse Factorielle des correspondances. 1/ Préambule descriptif de l AFC L analyse Factorielle des correspondances...2 1/ Préambule descriptif de l AFC...2 Exemples de types de données que l AFC peut aborder:...2 Quelques types de tableaux traités par l AFC...3 2/ Exercice

Plus en détail

Analyse des données et Data Mining

Analyse des données et Data Mining Analyse des données et Data Mining Analyse en composantes principales utc sy09 1 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée

Plus en détail

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL

Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL Analyse en composantes principales Christine Decaestecker & Marco Saerens ULB & UCL LINF 2275 Stat. explor. multidim. 1 A.C.P.: Analyse en Composantes Principales Analyse de la structure de la matrice

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Chapitre 2: Analyse en Composante Principale

Chapitre 2: Analyse en Composante Principale Chapitre 2: Analyse en Composante Principale Mohamed Essaied Hamrita ISMAI, Université Kairouan. Tunisie mhamrita@gmail.com http://hamrita.e-monsite.com/ Février 2014 Plan du chapitre Inroduction Motivation

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification François Husson, Julie Josse & Jérôme Pagès Laboratoire de mathématiques appliquées - 65 rue de St-Brieuc

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

Mémoire de n d'étude: Etudes statistiques. Mémoire de n d'étude: Etudes statistiques. Nicolas Sutton-Charani. Université Montpellier 1 1/31

Mémoire de n d'étude: Etudes statistiques. Mémoire de n d'étude: Etudes statistiques. Nicolas Sutton-Charani. Université Montpellier 1 1/31 1/31 Mémoire de n d'étude: Etudes statistiques Nicolas Sutton-Charani Université Montpellier 1 Plan Rappels de cours La base La Statistique Types des variables Outils mathématiques Statistiques descriptives

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Examen d'analyse des données

Examen d'analyse des données Université d'angers Janvier 2007 Master 1 MIM : Analyse des données Examen d'analyse des données Durée : 3 heures Les documents ne sont pas autorisés. La calculatrice est autorisée. Exercice I (7 points)

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

CHAPITRE 10 ANALYSE FACTORIELLE DES CORRESPONDANCES. Master 2ème Année Page 1

CHAPITRE 10 ANALYSE FACTORIELLE DES CORRESPONDANCES. Master 2ème Année Page 1 CHAPITRE 10 ANALYSE FACTORIELLE DES CORRESPONDANCES Master 2ème Année Page 1 Plan 1. Les données 2. L'AFC est une AC particulière 3. Les représentations graphiques 4. Les aides à l'interprétation 5. Une

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

Espaces vectoriels euclidiens. Groupe orthogonal

Espaces vectoriels euclidiens. Groupe orthogonal 19 Espaces vectoriels euclidiens. Groupe orthogonal Dans un premier temps, E est un espace vectoriel réel de dimension n 1. 19.1 Espaces vectoriels euclidiens Dénition 19.1 On dit qu'une forme bilinéaire

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

Université Jinan Faculté de Gestion Tripoli - Liban. Statistiques. Examen Préparatoire. Version 1

Université Jinan Faculté de Gestion Tripoli - Liban. Statistiques. Examen Préparatoire. Version 1 Université Jinan Faculté de Gestion Tripoli - Liban Statistiques Examen Préparatoire Version 1 2011-2010 Statistiques Université de Jinan Faculté de Gestion Table des matières 1 Analyse statistique d'une

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Analyse en Composantes Principales avec XLSTAT

Analyse en Composantes Principales avec XLSTAT Analyse en Composantes Principales avec XLSTAT Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données proviennent du US Census Bureau (le

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Analyse des Données. Travaux Pratiques 3

Analyse des Données. Travaux Pratiques 3 Analyse des Données Travaux Pratiques 3 1 Introduction Ce TP sera consacré aux analyses factorielles. La première partie présentera un exemple réel (et poussé) d une analyse factorielle des correspondances

Plus en détail

Cours 3: Inversion des matrices dans la pratique...

Cours 3: Inversion des matrices dans la pratique... Cours 3: Inversion des matrices dans la pratique... Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module complémentaire de maths, année 2012 1 Rappel de l épisode précédent

Plus en détail

Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows

Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows 57 Une introduction à l'analyse en Composantes Principales avec SPSS pour Windows Dominique DESBOIS INRA-ESR Nancy et SCEES 4 avenue de Saint-Mandé, 75570 Paris Cedex 12. Fax : +33 1 49 55 85 11 Mel :

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Une revue des méthodes de discrimination pour la spectrométrie PIR (centrée sur les méthodes linéaires) JM Roger. jean-michel.roger@cemagref.

Une revue des méthodes de discrimination pour la spectrométrie PIR (centrée sur les méthodes linéaires) JM Roger. jean-michel.roger@cemagref. Une revue des méthodes de discrimination pour la spectrométrie PIR (centrée sur les méthodes linéaires) JM Roger jean-michel.roger@cemagref.fr Plan Qu'est ce que la discrimination? Le modèle de l'analyse

Plus en détail

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques»

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» STAGE «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» PROGRAMME DETAILLE Intervenant : PARIS nicolas Cabinet : OPTIMA

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie

133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie 133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie Pierre Lissy March 8, 2010 On considère un espace vectoriel euclidien de dimension nie n, le produit scalaire sera noté

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie Annette Paugam Diagonalisation des auto-adjoints Applications aux formes quadratiques : Directions principales Applications en Géométrie, en Statistique et en Mécanique Les paragraphes, 2, 3 donnent un

Plus en détail

Reconnaissance de la marque d'une canette à partir d'une photo numérisée pour décients visuels Catherine Sauvaget et Bounkong Khamphousone

Reconnaissance de la marque d'une canette à partir d'une photo numérisée pour décients visuels Catherine Sauvaget et Bounkong Khamphousone Université Paris 8 Master 2 Technologie et Handicap Sous la direction de : Jaime Lopez Krahe et Pascale Pousset Reconnaissance de la marque d'une canette à partir d'une photo numérisée pour décients visuels

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT

HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT Table analytique des matières 1. La structure d'espace vectoriel 1. Espaces

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. Solution des exercices d algèbre linéaire

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. Solution des exercices d algèbre linéaire UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 3 4 Master d économie Cours de M. Desgraupes MATHS/STATS Document : Solution des exercices d algèbre linéaire Table des matières

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY Introduction à l'analyse multivariée (factorielle) sous R Stéphane CHAMPELY 7 septembre 2005 2 Table des matières 1 Introduction 5 1.1 Les données multivariées....................... 5 1.2 L'approche factorielle

Plus en détail

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan Module A ALGEBRE MATRICIELLE Prçesentation - Plan Ce module occupe une place particuliçere dans le dispositif de formation ça la statistique mis en place par le service de Formation Permanente et le dçepartement

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Analyse de données avec R - M1 - Livret pédagogique

Analyse de données avec R - M1 - Livret pédagogique Analyse de données avec R - M1 - Livret pédagogique Laurent Beauguitte, CNRS, UMR IDEES laurent.beauguitte@univ-rouen.fr 11 septembre 2015 Ceci est une version provisoire qui sera complétée au fur et à

Plus en détail

Calcul Matriciel. Chapitre 10. 10.1 Qu est-ce qu une matrice? 10.2 Indexation des coefficients. 10.3 Exemples de matrices carrées.

Calcul Matriciel. Chapitre 10. 10.1 Qu est-ce qu une matrice? 10.2 Indexation des coefficients. 10.3 Exemples de matrices carrées. Chapitre 10 Calcul Matriciel 101 Qu est-ce qu une matrice? Définition : Soit K un ensemble de nombres exemples, K = N, Z, Q, R, C, n, p N On appelle matrice à n lignes et p colonnes la données de np nombres

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances

Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances Analyse de données M1 Statistique et économétrie - 2013 V. Monbet Analyse factorielle des correspondances A travers ce TD, nous allons apprendre à mettre en oeuvre l analyse factorielle des correspondances.

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

PC* Devoir 6: Corrigé 2011 2012. Partie I : Généralités

PC* Devoir 6: Corrigé 2011 2012. Partie I : Généralités PC* Devoir 6: Corrigé 20 202 Partie I : Généralités I.A - Questions préliminaires a b c I.A.) M S M = b l m avec (a, b, c, l, m, t) R 6. c m t Les éléments de S sont les matrices de la forme : M = ae +

Plus en détail

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes :

3.1 Espace vectoriel. La multiplication par un scalaire. L'addition et la multiplication par un scalaire obeissent aux regles suivantes : .1 Espace vectoriel Un espace vectoriel de dimension p sur le corps des reels IR est une construction mathematique dont les elements sont des vecteurs. Il est deni par deux operations : L'addition. Soient

Plus en détail

Illustration sur un exemple de diverses procédures graphiques et quantitatives.

Illustration sur un exemple de diverses procédures graphiques et quantitatives. Au-delà de l'analyse des correspondances multiples : Illustration sur un exemple de diverses procédures graphiques et quantitatives Yannick Savina Jean-Marc Bernard Laboratoire de Psychologie Environnementale

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Laboratoire 2 Extraction des caractéristiques

Laboratoire 2 Extraction des caractéristiques Laboratoire 2 Extraction des caractéristiques L objectif de l extraction et de la sélection de caractéristiques est d identifier les caractéristiques importantes pour la discrimination entre classes. Après

Plus en détail