Analyse de données. Version de Marc Dinh. Hervé Bertrand

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Extraction d informations stratégiques par Analyse en Composantes Principales

Fonctions de deux variables. Mai 2011

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

La classification automatique de données quantitatives

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

ACP Voitures 1- Méthode

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Fonctions de plusieurs variables

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

I. Polynômes de Tchebychev

L'analyse des données à l usage des non mathématiciens

Introduction. Préambule. Le contexte

Logiciel XLSTAT version rue Damrémont PARIS

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Cours de Mécanique du point matériel

Chapitre 3. Les distributions à deux variables

1S Modèles de rédaction Enoncés

CCP PSI Mathématiques 1 : un corrigé

Leçon N 4 : Statistiques à deux variables

Cours Fonctions de deux variables

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Relation entre deux variables : estimation de la corrélation linéaire

Calcul intégral élémentaire en plusieurs variables

Résolution de systèmes linéaires par des méthodes directes

LE PRODUIT SCALAIRE ( En première S )

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Programmation linéaire

Analyse de la variance Comparaison de plusieurs moyennes

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie.

Cours d Analyse. Fonctions de plusieurs variables

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

TSTI 2D CH X : Exemples de lois à densité 1

I. Ensemble de définition d'une fonction

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Algorithmes pour la planification de mouvements en robotique non-holonome

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

M2 IAD UE MODE Notes de cours (3)

Représentation géométrique d un nombre complexe

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Programmes des classes préparatoires aux Grandes Ecoles

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Cours 7 : Utilisation de modules sous python

Chapitre 2. Matrices

Angles orientés et trigonométrie

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Chapitre 2 : Caractéristiques du mouvement d un solide

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Analyse des correspondances avec colonne de référence

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Deux disques dans un carré

Évaluation de la régression bornée

Le contexte. Le questionnement du P.E.R. :

Mesures et incertitudes

Exercice : la frontière des portefeuilles optimaux sans actif certain

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Initiation à l analyse en composantes principales

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Feuille d exercices 2 : Espaces probabilisés

Géométrie dans l espace Produit scalaire et équations

FORMULAIRE DE STATISTIQUES

Notion de fonction. Résolution graphique. Fonction affine.

Python - introduction à la programmation et calcul scientifique

Cours 02 : Problème général de la programmation linéaire

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Cours Informatique Master STEP

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Polynômes à plusieurs variables. Résultant

Plan du cours : électricité 1

3 Approximation de solutions d équations

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

INTRODUCTION AU DATA MINING

Introduction à l approche bootstrap

Limites finies en un point

ELEC2753 Electrotechnique examen du 11/06/2012

Individus et informations supplémentaires

La construction du temps et de. Construction du temps et de l'espace au cycle 2, F. Pollard, CPC Bièvre-Valloire

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Transcription:

Analyse de données 2012 Version de Marc Dinh 11 février 2012 Hervé Bertrand 1

Sommaire 1 Objectif de l ADD 3 2 Type de données 4 3 Calcul matriciel et ADD 4 4 Approche géométrique : ellipsoïde d inertie 5 I Paramètres d un nuage de points : approche statistique 6 1 Paramètres statistiques 6 2 Matrices fondamentales 6 II Analyse en composantes principales (ACP) 8 1 Aperçu général 8 2 ACP d un exemple 8 2

Introduction Prérequis Algèbre linéaire (calcul matriciel, plus précisément la diagonalisation) ; Statistiques (paramètres statistiques : moyenne, variance, covariance, coefficient de corrélation) ; Probabilités (probabilités conditionnelles, indépendance, loi de probabilité continue). 1 Objectif de l ADD L ADD est une notion à la fois ancienne (analyser des données) mais aussi extrêmement récent au niveau de techniques mathématiques utilisées, on a besoin d outils de calcul que seule l informatique offre. Chaque utilisateur de l ADD peut et doit être en mesure de créer ses propres méthodes pour répondre à ses besoins. Le cours se restreint aux analyses factorielles. L ADD est un domaine qui regroupe diverses méthodes mathématiques qui permettent d organiser des données (en très grand nombre) afin de permettre ensuite une interprétation de ces données qui soit la plus pertinente possible. On s intéressera à trois types d ADD : Analyse en composantes principales (ACP) ; Analyse factorielle des correspondances (AFC) ; Analyse des composantes multiples (ACM). Dans les trois cas, ce sont des méthodes d analyse factorielle. Au départ, on a des données (sous différentes formes), on peut les considérer comme des points dans un espace à de multiples dimensions. Si on considère une classe (ou une promotion), la population étudiée, les élèves, 130 individus et, on associe à chaque individu des données (résultats scolaires, âge, sexe, dimensions physiques, milieu social...). On peut imaginer, ainsi, une quinzaine de variables pour chaque individu. On peut étudier cet individu dans un espace avec autant de dimensions que de variables. L idée de l analyse factorielle est d associer à ce type de séries de données de nouvelles données qui permettent d avoir une interprétation plus facile. Pour reprendre l exemple, prenons les résultats scolaires, des données personnelles et des données socio-économiques, on pourrait essayer d agréger tous les résultats scolaires dans une valeur (la moyenne), définir un paramètre qui permettrait de représenter tous les paramètres personnels. On va remplacer tous ces données par trois ou quatre nouvelles données. Mais, on va définie des méthodes permettant de réaliser ces objectifs tout en ayant des soucis de validité, de contrôle, de connaissance de ce que l on a conservé et perdu. On s appliquera assez souvent à un aspect graphique ou géométrique. Le problème qui se pose, c est comment visualiser et interpréter un nuage de points dans un espace de dimension très grande? On va tenter de passer à un plan, en faisant des projections. Sauf qu en projetant, on va perdre des informations. L idée est de définir la «meilleure» projection possible du nuage de points. La démarche que l on utilisera en permanence : Traiter les données initiales dans le but d éliminer les biais statistiques et les effets d échelle Pour les effets d échelle, exactement les mêmes données ne donneront pas le même résultat. Il faut imposer des normalisations (en termes d échelle et d unités) pour éviter ces effets-là. Un biais statistique, ce sont des données statistiques qui vont aboutir à des résultats peu fiables. Par exemple, la moyenne, si toutes les données sont comprises entre 1 et 3, et une autre 100. Dans ce cas, on peut tout à fait avoir une moyenne de 10, alors que toutes les 3

autres données sont entre 1 et 3. Ce sont des données valables qui donnent un résultat non significatif. Quantifier la notion d «information» ; Notamment grâce aux notions de variance, de covariance et de corrélation. Par exemple, la variable sexe dans une promotion d une école d ingénieurs est peu intéressante, car il a peu de dispersion car peu de filles, d où l importance de la variance ; Si on a des variables très proches, il faut définir des notions de distance, des variables proches portent des informations proches. Il faut, donc, introduire différentes notions de distance. Réaliser des changements d axes en définissant des axes hiérarchisés selon la part d information contenue, suivant la quantité d information ; Choisir les axes de projection en contrôlant la perte d information Réaliser la projection et effectuer l analyse en la validant par les différents paramètres obtenus au cours de la méthode. 2 Type de données 2.1 Tableau de données Le plus souvent présenté comme des tableaux à double entrées dans lesquels les lignes correspondront aux individus statistiques (sauf AFC) ; les colonnes pourront correspondre soit aux variables statistiques, soit aux modalités prises par les variables statistiques. 2.2 Variables 2.2.1 En ACP Il faut que les variables soient quantitatives et de même importance (à peu près). Ainsi, pour reprendre l exemple précédent, le sexe n est pas quantitatif si on considère qu il peut être masculin ou féminin, et ce n est pas parce qu une variable prend des valeurs numériques qu elle est quantitative. La moyenne par rapport au sexe n a pas de sens. Pour l importance, la couleur des yeux (même si ce n est pas quantitatif) et les notes en informatique n ont, par exemple, pas la même importance. C est pour cette raison qu il faut appliquer une pondération, mais cette méthode ne sera pas étudiée car moins complexe. 2.2.2 En AFC Deux variables sur une population. 2.2.3 En ACM Des variables sur une population. Si on a que des variables quantitatives, cette méthode n est pas la plus pertinente. 3 Calcul matriciel et ADD 3.1 Matrices symétriques C est une matrice carrée dont les éléments sont symétriques par rapport à la diagonale. 4

3.1.1 Propriété Soit M une matrice quelconque, alors les matrices t M M et M t M sont symétriques. 3.2 Distance Si U et V, deux vecteurs colonnes dans une base orthonormée. Le produit scalaire de U et de V vaut t U V ; La distance euclidienne est U = t U U. 3.3 Diagonalisation On a une matrice donnée, carrée, on détermine s il existe une nouvelle base dans laquelle la matrice que l on considère peut s écrire sous la forme d une matrice diagonale. La diagonalisation n est pas toujours possible. 3.3.1 Propriété Toute matrice symétrique est diagonalisable dans R. 4 Approche géométrique : ellipsoïde d inertie Graphique ellipsoïde 5

Première partie Paramètres d un nuage de points : approche statistique 1 Paramètres statistiques Sera envoyé par le professeur 2 Matrices fondamentales 2.1 Matrice de variance covariance 2.1.1 Définition X C désignant la matrice des données centrées. On appelle matrice de variance covariance la matrice Σ = 1 t X C X C n Remarque Σ est une matrice symétrique. Var ( ) x C 1 Cov ( ) x C 1, x C 2 Cov ( ) x C 1, x C 3 Σ = Cov ) x C 2, x C 1 Var ( ) x C 2 Cov ( ) x C 2, x C 3 Cov ( ) x C 3, x C 1 Cov ( ) x C 3, x C 2 Var ( ) x C 3 ( ) a1 b X = 1 c 1 a 2 b 2 c 2 ( X C a1 = 1 B c 1 C ) a 2 Ā b 2 B c 2 C a 1 Ā a t X C 2 Ā = b 1 B b 2 B c 1 C c 2 C Σ = 1 ( a1 Ā b 1 B c 1 C ) 1 a Ā a 2 Ā 2 a 2 Ā b 2 B c 2 C b 1 B b 2 B c 1 C c 2 C Var (A) Cov (A, B) Cov (A, C) Σ = Cov (B, A) Var (B) Cov (B, C) Cov (C, A) Cov (C, B) Var (C) trσ = Var (A) + Var (B) + Var (C) La trace que l on appelle aussi la variance totale. 6

2.2 Matrice des corrélations R 2.2.1 Définition X S désignant la matrice des données centrées réduites, on appelle matrice des corrélations R. 2.2.2 Remarques R = 1 t X S X S n 1 ρ ( ) x S 1, x S 2 ρ ( ) x S 1, x S 3 R = ρ ( ) x S 2, x S 1 1 ρ ( ) x S 2, x S 3 ρ ( ) x S 3, x S 1 ρ ( ) x S 3, x S 2 1 La trace d une matrice de corrélation est toujours égale au nombre de variables ; Les coefficients qui constituent R sont des coefficients de corrélation et sont compris entre -1 et 1. 7

Deuxième partie Analyse en composantes principales (ACP) 1 Aperçu général p variables quantitatives X 1, X 2... X p, population de n individus. Si X 1, X 2... X p sont corrélées, il existe des redondances. L idée de l ACP est d éliminer les redondances, donc de transformer les p variables initiales X 1... X p en p nouvelles variables appelées «facteurs» f 1... f p. Ensuite, il faudra conserver k facteurs (k p) en conservant un maximum d information. Une redondance est une corrélation. Il faudra que les facteurs ne soient pas corrélés. 1.1 La transformation Transformation (X 1... X p ) (f 1... f p ) ; Compression Extraction des p facteurs, k facteurs paramètre : qualité globale d explication = qge. Pour la transformation, on a une matrice Σ (ou R) donnée que l on va transformer en matrice diagonale (sans covariance ni corrélation). Donc, la diagonalisation de la matrice Σ ou R. Diagonaliser c est déterminer les valeurs propres (qui vont donner les coefficients sur la diagonale) et déterminer une nouvelle base, celle des vecteurs propres modélisée par une matrice U, qui va nous donner les nouveaux axes et les nouveaux facteurs. Enfin, il faut effectuer un changement { A de base sur les données initiales A C ou A S devient F = C U A S U principales (les coordonnées des individus dans la nouvelle base). On aura donc : A C ou A S, matrice d origine ; U, matrice des vecteurs propres de la diagonalisation de Σ ou de R ; Λ, matrice diagonale des valeurs propres ; F, matrice des composantes principales. 1.2 L interprétation, matrice des composantes «Identifier» les facteurs, c est-à-dire donner une signification concrète aux facteurs ; idée : calculer les corrélations entre les variables et les facteurs à partir d une matrice de saturation S = 1 n t X S F Λ 1 2 2 ACP d un exemple x, prix du lait, y, prix de l eau, z, prix de l huile. X = 6, Var (X) = 2, σ x = 2 Données initiales - moyennes / écarts-type (pour matrice centrée réduite). Les moyennes de chaque variable sont égales à zéro, la somme en colonnes doit être égale à 0. Vérification : La taille de la matrice de corrélation : matrice carrée d ordre p (le nombre de variables), elle est toujours symétrique, les termes qui ne sont pas sur la diagonale sont entre -1 et 1, ceux sur la diagonale sont à 1. 8

La trace de cette matrice est appelée variance totale, c est la quantité totale d information de celle-ci. Diagonalisation de la matrice de corrélation, il faut déterminer ses valeurs propres (λ est une valeur propre si R λi = 0, donc on ajoute λ sur la diagonale, on calcule et on résout) puis ses vecteurs propres. On obtient p valeurs propres dans la matrice diagonale Λ. Remarque On classe systématiquement les valeurs propres dans l ordre décroissant. Le premier facteur a pour variance 1, 855, le deuxième 0, 955, etc. La variance totale des facteurs est la même que la variance totale des variables. Il n y a pas eu de perte d information au cours de la transformation mathématique. Contribution du i e valeur propre axe : p 100. On va projeter sur deux axes, la qualité globale d explication qge = 93, 6 %, la somme de la contribution de ces deux axes (ici 61,8 % et 31,8 %), on a perdu 6,4 %. On a une interprétation de très bonne qualité. On chercher à avoir au moins 60 % de qge, dans ce cas-là, on augmente le nombre de projections, si on prend 3 axes au lieu de 2, on aura trois images, entre l axe 1 et 2, le 2 et le 3, le 3 et le 1. Vecteurs propres On calcule les vecteurs propres. Si λ est une valeur propre d une matrice M, un vecteur propre associé à λ est un vecteur u tel que : Mu = λu. Il y a toujours une infinité de vecteurs propres. Les vecteurs propres donnent la nouvelle base, dans laquelle se trouvera notre nuage de points. Règle On fixe une règle systématique en ADD, parmi cette infinité de vecteurs propres, on choisit des vecteurs propres unitaires ou normés, c est-à-dire de norme égale à 1. Propriété Les vecteurs propres sont orthogonaux 2 à 2. Donc le produit scalaire entre ces vecteurs doit être nul. Il est nécessaire pour obtenir certains paramètres, il faut travailler avec la matrice U complète, donc avec tous les axes, même si on ne projette que sur deux d entre eux. F est une matrice de taille 5 3, 5 individus et 3 variables. La matrice F est centrée, il suffit de faire la somme en colonne pour le vérifier (on trouve 0) ; elle n est pas forcément réduite. Les ordres de grandeur sur le premier axes sont plus grands que les autres. Qualité de représentation d un individu sur un axe (qlt ou cos 2 ). Dessin 1 Le point est-il réellement proche de l axe 1 ou est-ce un effet de la projection? Dessin 2 On ne va pas s intéresser à l angle mais à son cosinus. Si le cos 2 est proche de 1, le point sera proche de l axe, s il est proche de 0, il sera éloigné de l axe. cos 2 (m i ; axe k) coord (m i ; axe k) 2 coord (mi, axe j) 2 Si qlt 1, alors m i proche de l axe k ; si qlt 0, alors m i est éloigné de l axe k. Grâce à la qualité, on sélectionne les individus intéressants. La somme de toutes les qualités d un individu est toujours égale à 1. 9

Matrice des saturations S = 1 n t A S F Λ 1 2 La matrice de saturation est toujours carrée, d ordre p (nombre de variables). Elle est construite pour indiquer les coefficients de corrélation (compris entre -1 et 1). Si le coefficient est proche de -1 ou 1, les variables sont très corrélées entre elles, s il est proche de 0, elles ont peu de corrélation. Cercle de corrélation S = [s ij ] 1 i p 1 j p p s 2 ij = 1 j=1 p s 2 ij = λ j i=1 La première propriété va avoir une traduction graphique. p = 3 s 2 i1 + s 2 i2 + s 2 i3 = 1 Donc x 2 + y 2 + z 2 = 1 Les points qui représentent les variables sont toujours situés sur une hypersphère de centre 0 et de rayon 1. Dessins Les projetés des points variables sont situés à l intérieur du cercle de centre O et de rayon 1. On voit que X éloigné du plan défini par l axe 1 et l axe 2, on voit que X est éloigné sur cercle, alors que Z et Y respectivement proches de l axe 2 et de l axe 1, sont proches du cercle. Les points proches du centre ne sont pas, en réalité, proches des axes constituant le repère. Les représentations graphiques Il y en a deux types : le cercle des corrélations Cercle des corrélations Cercle du polycopié Représentation des individus dans le plan 1-2 Cf. poly. Interprétation En ACP, l un des premiers éléments est d essayer d identifier les axes, on ne sait pas à quoi correspondent les nouvelles variables. Il faut donner une signification à ces axes. On va chercher à savoir à quels axes ces variables sont corrélées (matrice des saturations, matrice des corrélations... ). Dans un cercle de corrélation, les seuls points intéressant sont situés à proximité du cercle et à proximité des axes. Ici, les trois variables sont proches du cercle. Le premier facteur va être fortement influencé par les deux premières variables V 1 et V 2. Le deuxième axe le sera avec V 3, cet axe est pratiquement celui du prix de l huile. Les vecteurs représentant OV 1 et OV 2 d un côté, et OV 3 de l autre sont orthogonaux, donc peu corrélés. Il peut aussi y avoir une anti-corrélation (coefficients négatifs et proches de -1), les évolutions sont liées mais opposées, ce qui diffère de la non-corrélation. 10

La matrice des corrélations montre aussi que la corrélation entre l axe 1, V 1 et V 2 semble fondée. Les points intéressant dans la représentation sont les points extrêmes et proches des axes. On revient aux données initiales (matrice centrée réduite) et on cherche ce qui caractérise ces points. Les prix de I 1 sont en-dessous de la moyenne pour les deux premiers produits, ceux de I 4 bien au-dessus, l axe 1 pourrait qualifier les prix. Pour le second axe, I 1 et I 2 ont un prix élevé pour le 3 e produit, contrairement à I 3 et I 4. La démarche est basée sur deux éléments, la représentation graphique et les tableaux de valeurs (et tous les éléments de choix ou de tri). On confronte en permanence les différents aspects (graphiques et matriciels). Il peut arriver assez fréquemment qu il ne soit pas possible de faire ressortir des éléments très intéressants. On a des moyens qui peuvent nous permettre de valider, ou non, certaines hypothèses, l introduction de points supplémentaires (réels ou imaginaires). On peut introduire des magasins virtuels dans lesquels on exagère les prix pour vérifier la première hypothèse. Ici, on représente les points supplémentaires sous forme de matrice : 1 1 1 A (points supplémentaires) = 10 10 10 1 10 1 Points très faibles partout ; Points très élevés partout ; Prix très faible pour le dernier produit (donc normalement très bas sur le second axe). On a confirmation des interprétations faites avec la nouvelle représentation. Résumé Pour faire une ACP, il faut observer la nature des données, il faut que les variables soient quantitatives et aient à peu près la même importance (sinon il faut modifier les données initiales ou supprimer des variables). Quel type d ACP va-t-on faire, centrée réduite ou centrée? Dans un cas, l ACP centrée, faite avec la matrice de variance covariance ; une matrice centrée réduite, faite avec la diagonalisation de la matrice de corrélation. Réduire, c est faire en sorte d uniformiser les variances ou les écarts types, cela semble idiot si on suppose que les variables ont le même poids. Le problème se situe au niveau suivant, il y a trois cas de figures où l ACP centrée réduite est nécessaire : variables avec des unités différentes, les mêmes données peuvent modifier de façon substantielle la variance, introduisant un biais statistique ; si jamais on a des écarts types ou des ordres de grandeur trop différents, si on s intéresse à la longueur d une voiture (en mètres) puis au diamètre d une durite (de 0,01 à 0,03 mètre), l importance de la longueur sera plus élevée par rapport à celle du diamètre de la durite ; si les moyennes sont trop différentes. On calcule la matrice centrée (réduite), on diagonalise en choisissant des vecteurs propres unitaires, on fait le choix des axes de projection (qge) puis la matrice de saturations, représentations graphiques puis les interprétations. 11

Table des matières 1 Objectif de l ADD 3 2 Type de données 4 2.1 Tableau de données................................... 4 2.2 Variables........................................ 4 2.2.1 En ACP..................................... 4 2.2.2 En AFC..................................... 4 2.2.3 En ACM.................................... 4 3 Calcul matriciel et ADD 4 3.1 Matrices symétriques.................................. 4 3.1.1 Propriété.................................... 5 3.2 Distance......................................... 5 3.3 Diagonalisation..................................... 5 3.3.1 Propriété.................................... 5 4 Approche géométrique : ellipsoïde d inertie 5 I Paramètres d un nuage de points : approche statistique 6 1 Paramètres statistiques 6 2 Matrices fondamentales 6 2.1 Matrice de variance covariance............................ 6 2.1.1 Définition.................................... 6 2.2 Matrice des corrélations R............................... 7 2.2.1 Définition.................................... 7 2.2.2 Remarques................................... 7 II Analyse en composantes principales (ACP) 8 1 Aperçu général 8 1.1 La transformation................................... 8 1.2 L interprétation..................................... 8 2 ACP d un exemple 8 12