GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali



Documents pareils
1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Introduction. Préambule. Le contexte

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Statistique Descriptive Multidimensionnelle. (pour les nuls)

L'analyse des données à l usage des non mathématiciens

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Programmes des classes préparatoires aux Grandes Ecoles

Quelques éléments de statistique multidimensionnelle

Analyse des correspondances avec colonne de référence

Logiciel XLSTAT version rue Damrémont PARIS

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 3. Les distributions à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

NOTATIONS PRÉLIMINAIRES

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

L analyse des données par les graphes de similitude

Couples de variables aléatoires discrètes

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Data mining 1. Exploration Statistique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Individus et informations supplémentaires

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Introduction au Data-Mining

STATISTIQUES. UE Modélisation pour la biologie

(VM(t i ),Q(t i+j ),VM(t i+j ))

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Statistique Descriptive Élémentaire

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Exercice : la frontière des portefeuilles optimaux sans actif certain

Cours de Mécanique du point matériel

Deux disques dans un carré

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Chapitre 2 Le problème de l unicité des solutions

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Scénario: Données bancaires et segmentation de clientèle

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Simulation de variables aléatoires

Enjeux mathématiques et Statistiques du Big Data

SAS de base : gestion des données et procédures élémentaires

1 Imputation par la moyenne

Exercices Corrigés Premières notions sur les espaces vectoriels

I. Polynômes de Tchebychev

Introduction à la Statistique Inférentielle

Programmation linéaire

«Cours Statistique et logiciel R»

Introduction à l approche bootstrap

Vers l'ordinateur quantique

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

Recherche dans un tableau

Analyse de corrélation Étude des dépendances - Variables quantitatives

Avant-après, amont-aval : les couples de tableaux totalement appariés

Initiation à l analyse en composantes principales

Cours de méthodes de scoring

SIG ET ANALYSE EXPLORATOIRE

Chapitre 1. Une porte doit être ouverte et fermée. 1.1 Les enjeux de l'informatique quantique

Fonctions de plusieurs variables

Évaluation de la régression bornée

Modèles pour données répétées

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Cours d analyse numérique SMI-S4

INF6304 Interfaces Intelligentes

Introduction au Data-Mining

FORMULAIRE DE STATISTIQUES

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Optimisation, traitement d image et éclipse de Soleil

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Mode d'emploi du plugin Grayscale_Granulometry

SPHINX Logiciel de dépouillement d enquêtes

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Plus courts chemins, programmation dynamique

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Cycle de formation certifiante Sphinx

3 Approximation de solutions d équations

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

ENSAE - DAKAR BROCHURE D'INFORMATION SUR LE CONCOURS DE RECRUTEMENT D ÉLÈVES INGÉNIEURS STATISTICIENS ÉCONOMISTES (I S E) Option Mathématiques CAPESA

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

La place de SAS dans l'informatique décisionnelle

Exemples de Projets SAFI

Cours 9 : Plans à plusieurs facteurs

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Transcription:

LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1

1 Introduction 1.1 Les Analyses Factorielles Nous étudierons les diérents types d'analyses factorielles. Le choix du type dépendra des variables à analyser. ACP : des variables quantitatives (Analyse en Composante Principale) AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Le nom de ces procedures sous SAS sont: PROC FACTOR (ACP avec Rotation des axes) PROC PRINCOMP (Regression logistique linéaire methode maximum de vraisemblance) PROC CORRESP (Analyse des correspondances simples et multiples) 1.2 Pourquoi? Les méthodes d'analyses factorielles sont souvent regroupées sous le terme générique d'analyse des données. Les méthodes d'analyses factorielles ou d'analyse des données se situent essentiellement dans un contexte exploratoire. En eet, l'analyse des données peut être dénie comme l'extension de la statistique descriptive au cas multidimensionnel. Les analyses factorielles sont avant tout descriptives et permettent une analyse simultanée d'un ensemble de variables. Les analyses factorielles ont pour but de «résumer» au mieux des tableaux rectangulaires de données Pour cela diérentes techniques se distinguent selon la nature des données analysées: quantitatives, qualitatives, les deux. Leurs démarches consistenet à remplacer les variables d'origine, nombreuses, par de nouvelles variables, synthétiques, en nombre inférieur et à conserver les premières d'entre elles. Au sens qu'on ne conservera que celle apportant le plus d'informations. Au nal, les variables d'origine sont remplacées par des axes, combinaisons des variables d'origine, et perpendiculaires deux à deux. Ces axes permettent de positionner les individus et les variables origines sur des plans en 2D. C'est ce que nous appelerons projection ( ou nuages)des individus, ou des variables sur les deux meilleurs axes factorielles. 1.3 Les méthodes Comme nou sl'avons vu plus haut il y a trois principales méthodes: ACP : des variables quantitatives (Analyse en Composante Principale) goutte@math.univ-paris13.fr Master 2 EID 07/08 2

AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Avant de s'interesser en détail à l'acp, parlons des deux autres méthodes. Analyse Factorielle des Correspondances: AFC L'AFC traite des données diérentes de celles requises par l'acp. En eet, l'acp traite des données quantitatives alors que l'afc permet le traitement des tableaux croisés encore appelés tableaux de contingence. Un tableau de contingence doit vérier la propriété suivante : la somme des éléments en ligne possède une signication, de même que la somme des éléments en colonnes. L'objectif de l'afc est alors d'étudier la nature de la liaison éventuelle entre les deux caractères. D'un point de vue algorithmique, la diérence entre l'acp et l'afc réside seulement dans le choix de la métrique. En ce sens qu'une métrique permet de mesurer une distance entre deux vecteurs (un individu est un vecteur dans l'espace des variables, une variable est un vecteur dans l'espace des individus). En ACP, la métrique utilisée est la distance euclidienne. En AFC, la métrique est la distance du Khi-2. A part la métrique et la nature des données, la démarche en AFC est identique à la démarche en ACP. Analyse des Correspondances Multiples: ACM Historiquement, l'acm est un simple prolongement de l'afc aux tableaux de données mis sous forme binaire ou tableaux logiques. En eet, faire une ACM sur deux variables qualitatives est identique à faire une AFC sur le tableau de contingence de ces deux variables. Cependant si l'acm ressemble à l'afc sur le plan technique, sur le plan des objectifs elle s'apparente plus à l'acp à travers l'analyse de tableaux individus-variables. Remarque : L'ACM peut traiter des variables quantitatives, mais celles-ci doivent au préalable être découper en classes. Initialement, le tableaux des données se résume à une matrice X, où une ligne correspond à un individu et une colonne à une modalité d'une variable. Ce tableau est composé de 0 et de 1. La méthode est alors semblable à celle de l'acp que nous verrons par la suite. 2 L'Analyse en Composantes Principales (ACP) 2.1 Représentation mathématique On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont des variables (mensurations, taux, températures,...) et dont les lignes représentent des goutte@math.univ-paris13.fr Master 2 EID 07/08 3

individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années...). On note X ce tableau de données. X: Tableau de données X 11 X 1p. X ij. X n1 X np X ij : Valeur de la i me observation pour la j ime variable X i. : i me observation du tableau X.j : j me variable du tableau n : Eectif des individus p: Nombre de variables 2.2 Objectif Notre objectif est d'extraire l'essentiel de l'information contenue dans le tableau de données X et d'en fournir une représentation se prêtant plus aisément à l'interprétation. Autrement dit, nous nous proposons de rechercher une représentation des n individus dans un sousespace de l'espace initial. Nous cherchons donc à dénir k nouvelles variables, combinaison des p de l'espace initial, qui font perdre le moins d'information possible. Ces k variables seront appelées composantes principales et les axes qu'elles déterminent axes principaux. 2.3 Rappels mathématiques L'analyse du nuage de points utilise la notion fondamentale de distance. On munit l'espace des individus de la distance euclidienne classique. d(x i., X j. ) 2 = n k=1 X ik X jk 2 On désigne par g le centre de gravité du nuage : g = 1 n n i=1 X i. g est donc un vecteur de dimension n. La matrice X est généralement centrée sur le centre de gravité : X 11 X 1 X 1p X p X =..... X n1 X 1 X np X p Elle peut être aussi réduite : goutte@math.univ-paris13.fr Master 2 EID 07/08 4

X 11 X 1 X 1p X p σ(x p) σ(x 1 ) X =..... X n1 X 1 σ(x 1 ) X np X p σ(x p) On peut alors calculer les matrices de covariances et de corrélations. En eet une fois la matrice X transformée en X ou X, il sut de la multiplier par sa transposée X t pour obtenir: la matrice de variance-covariance si X est juste centrée. la matrice de corrélation si X est centrée réduite, autrement dit normée. Covariances = 1/n X t X Correlations = 1/n X t X Ces deux matrices sont des matrice carrées de taille p, symétriques, et réelles. Elles sont diagonalisables dans une base orthonormée. Dans la suite nous noterons par X les matrices X et/ou X. 2.4 Projections sur un sous-espace Le principe de l'acp est de trouver un axe u, issu d'une combinaison linéaire des X.j, tel que la variance du nuage autour de cet axe soit maximale. Nous cherchons donc le vecteur u tel que la pojection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice de covariance ou de corrélation précédement calculée. La projection de l'échantillon des X sur u s'écrit : La variance empirique de π u (X) vaut donc : π u (X) = X u π u (X) t 1/n π u (X) = u t X t 1/n X u } {{ } C Comme nous l'avons vu plus haut C est diagonalisable dans une base orthonormée, notons P la matrice de changement de base associée et la matrice diagonale associée. On obtient ainsi que : π u (X) 1/n π u (X) = u t P t P u = (P u) t (P u) } {{ } v Avec cette réécriture, nous cherchons le vecteur unitaire v qui maximise v t v où = Diag(λ 1,..., λ p ) est diagonale. Rangeons les valeurs de la diagonale de en ordre décroissant. On peut rapidement vérier qu'il sut de prendre le premier vecteur unitaire on a alors : v t v = λ 1 goutte@math.univ-paris13.fr Master 2 EID 07/08 5

On a donc que la diagonalisation de la matrice de corrélation (ou de covariance si on se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le plus d'inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la plus grande valeur propre. De même le deuxième vecteur qui explique la plus grande part de l'inertie restante est le deuxième vecteur propre, etc. Finalement, la question de l'acp se ramène donc à un problème de diagonalisation de la matrice de corrélation. 2.5 ACP sous SAS Deux procédures SAS permettent de réaliser des Analyses en composantes principales: PROC PRINCOMP PROC FACTOR Pour dessiner les plans factoriels (nuages des individus et des variables), deux autres procédures sont utilisées Pour adapter les tables : la PROC TRANSPOSE Pour éditer le graphique : la PROC PLOT Remarque : Quand on utilise une PROC PRINCOMP, il est nécessaire d'enchaîner sur une PROC FAC- TOR METHOD=SCORE si on souhaite dessiner les plans factoriels. PROC PRINCOMP <options>; BY variables; VAR variables; RUN; Algorithme 1: Procédure PRINCOMP Les options sont: DATA=Table-SAS OUT=Table-SAS: Table SAS qui contient les données initiales plus les scores des individus sur les composantes principales. OUTSTAT=Table-SAS: Table SAS qui contient les moyennes, variances, nombres d'observations, corrélations ou covariances, les valeurs propres et les composantes principales (scores des variables). goutte@math.univ-paris13.fr Master 2 EID 07/08 6

PROC FACTOR <options>; BY variables; VAR variables; RUN. Algorithme 2: Procédure FACTOR Les options sont: DATA=Table-SAS OUT=Table-SAS OUTSTAT=Table-SAS METHOD=Name Name=PRINCIPAL : réalise une ACP à partir d'un tableau individus-variables Name=SCORE : réalise une ACP à partir des scores des variables sur des composantes principales (par exemple, la table OUSTAT d'une PROC PRINCOMP). NFACTORS=n : détermine le nombre de facteur maximum qui doit être extrait. Nécessaire si on utilise l'option OUT= goutte@math.univ-paris13.fr Master 2 EID 07/08 7