Séance 2: Modèle Euclidien



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Chapitre 3. Les distributions à deux variables

L'analyse des données à l usage des non mathématiciens

Extraction d informations stratégiques par Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Introduction. Préambule. Le contexte

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cours de méthodes de scoring

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

I. Polynômes de Tchebychev

Introduction à l approche bootstrap

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Cours 9 : Plans à plusieurs facteurs

STATIQUE GRAPHIQUE ET STATIQUE ANALYTIQUE

Différentiabilité ; Fonctions de plusieurs variables réelles

Théorie et codage de l information

1S Modèles de rédaction Enoncés

Cours 02 : Problème général de la programmation linéaire

Plan du cours Cours théoriques. 29 septembre 2014

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

3 Approximation de solutions d équations

Cours 7 : Utilisation de modules sous python

Programmation linéaire et Optimisation. Didier Smets

Exercices - Polynômes : corrigé. Opérations sur les polynômes

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Calcul différentiel sur R n Première partie

Programmes des classes préparatoires aux Grandes Ecoles

Le contexte. Le questionnement du P.E.R. :

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Correction de l examen de la première session

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

FORMULAIRE DE STATISTIQUES

aux différences est appelé équation aux différences d ordre n en forme normale.

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Programmation linéaire

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Programmation linéaire

ACP Voitures 1- Méthode

Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables

Cours d analyse numérique SMI-S4

Chapitre 2. Matrices

Apprentissage Automatique

Enjeux mathématiques et Statistiques du Big Data

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Apprentissage non paramétrique en régression

Angles orientés et trigonométrie

Statistique Descriptive Élémentaire

Arbres binaires de décision

Évaluation de la régression bornée

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Introduction. Mathématiques Quantiques Discrètes

Calcul Formel et Numérique, Partie I

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Modèles pour données répétées

Individus et informations supplémentaires

Le Modèle Linéaire par l exemple :

REVUE DE STATISTIQUE APPLIQUÉE

INF6304 Interfaces Intelligentes

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Amphi 3: Espaces complets - Applications linéaires continues

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

NOTATIONS PRÉLIMINAIRES

Capes Première épreuve

[ édité le 30 avril 2015 Enoncés 1

Introduction à MATLAB R

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Couples de variables aléatoires discrètes

Modèles et Méthodes de Réservation

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. ses côtés opposés. ses côtés opposés de. deux côtés opposés

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Mesure d angles et trigonométrie

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

L ALGORITHMIQUE. Algorithme

Quelques éléments de statistique multidimensionnelle

Correction du Baccalauréat S Amérique du Nord mai 2007

Texte Agrégation limitée par diffusion interne

Résolution de systèmes linéaires par des méthodes directes

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Python - introduction à la programmation et calcul scientifique

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le théorème des deux fonds et la gestion indicielle

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Cours de Mécanique du point matériel

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Chapitre 0 Introduction à la cinématique

Limitations of the Playstation 3 for High Performance Cluster Computing

Transcription:

Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat

Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie 1 Généralités Objectifs Rappel de notations 2 Métrique sur les INDIVIDUS Rôle de la structure métrique pour les INDIVIDUS Cas général (INDIVIDUS) Exemples de métriques (INDIVIDUS) 3 Métrique sur les VARIABLES 4 Inertie Cas unidimensionnel Cas multi-dimensionnel Décomposition de l inertie

Deuxième partie II Modèle Euclidien

Objectifs Analyse du tableau de données X Objectifs à préciser Possibilité d analyse des variables colonnes Possibilité d analyse des individus lignes Les variables et individus seront représentés dans des espaces euclidiens MULTIDIMENSIONNELS

Nuage des individus lignes Nuage d individus X qui synthétise les données : x1 1... x j 1... x p 1........... X = xi 1... x j... i x p i........... xn 1... x j i... xn p Dans cet espace inclus dans R p, on s attache à reproduire et à analyser graphiquement les distances entre individus

Nuage des variables colonnes Nuage des variables à partir de X qui synthétise les données : x1 1... x j 1... x p 1........... X = xi 1... x j... i x p i........... xn 1... x j i... xn p Dans cet espace inclus dans R n, on s attache à représenter graphiquement et à analyser les indices entre variables

Rôle de la structure métrique (INDIVIDUS) On donne le tableau : X = 1 1 4 1 4 4 Selon les choix effectués pour la configuration géométrique des vecteurs de base de R p, les individus ligne de X sont représentés de façon différente : Les positions sont dépendantes des choix de vecteurs de la base.

Cas général dans R p (INDIVIDUS) La configuration des vecteurs de base (e 1, e 2,..., e p ) est caractérisée par les éléments d une matrice symétrique positive M. On a la relation m 1,1... m 1,j... m 1,p........... M =. m i,1... m.. i,j mi,p........... m p,1... m p,j... m p,p avec les relations m i,i = e i 2 m i,j = e i, e j = e i e j cos(e i, e k )

Cas général dans R p (INDIVIDUS) Proposition M est diagonale si et seulement si les vecteurs de base (e j ) j=1..p sont orthogonaux pour la métrique euclidienne. Étant donnés 2 points a et b de R p, on définit : Le produit scalaire entre a et b par La norme de a par a, b M = a Mb=b Ma= a 2 M= Le carré de la distance entre a et b d M (a, b) 2 = Le cosinus de a et b cos M (a, b)=

Cas général dans R p (INDIVIDUS) Cette matrice M définit dans R p une nouvelle géométrie : Nouvelles distances Nouveaux angles Nouvelles isométries Nouvelles orthogonalité : deux points a et b seront M-orthogonaux si et seulement si : a, b M = 0 Décomposition M-ortogonale sur un espace W : x = x W + (x x W ) où u W x x W, u M = 0

Exemples de métriques M (INDIVIDUS) Quelques métriques M utilisées souvent en analyse des données : Cas de variables quantitatives non hétérogènes : M= Cas de variables quantitatives hétérogènes (Variables réduites) M= Cas de variables quantitatives hétérogènes (Mahalanobis) M= Cas de variables quantitatives hétérogènes (Joreskog) M= Cas de variables qualitatives : Effectifs marginaux de chacune des modalités : y +j= M=

Utilisation des poids sur les individus L interprétation géométrique des indices incite fortement à utiliser la métrique diagonale des poids D = Diag(p i ). La variance d une variable colonne... du tableau de données peut s interpréter comme le carré de la longueur d un vecteur de composantes... pour la métrique de R n pondérée par... Produit scalaire entre A et B : Longueur d une variable A : Variance d une variable A : A, B D = A 2 D= Var(A)=

Coefficient de corrélation multiple Ce coefficient est utilisé pour quantifier la variabilité linéaire d une variable x par rapport aux variables x 1,... x p. Il est défini par R(x; {x 1,... x p }) = sup a 1,...a p ρ(x; p a i x i ) R vaut 1 si et seulement si x est combinaison linéaire des x i R = 0 implique x est non corrélée avec tous les x i 0 R 1 Calcul de R : si A désigne la matrice de projection orthogonale sur l espace engendré par les x i, alors R 2 = (x x)a(x x) x x 2 Si x est centrée et X désigne la matrice des individus décrits par les p variables x i, alors R 2 = x X(X X) 1 X x x x i=1

Inertie du nuage de points Une variable descriptive x, n individus L inertie des individus est définie par I(x i ) = Var(x)= L inertie est d autant plus grande que le nuage de points est étalé.

Inertie du nuage de points X nuage de points décrivant n individus et p variables Métrique M, matrice de taille p p g centre de gravité du nuage défini par g= Inertie du nuage X donné par I(X) = I(X, g) = n p i d M (x i, g) 2 i=1 L inertie dépend : de M des poids p i de X

Illustration Pour le nuage des individus lignes du tableau Y ci-dessous 1 1 1 1 X = 1 0 2 1 2 1 Donner : l inertie par rapport à l origine l inertie totale (par rapport au centre de gravité du nuage) On étudiera les questions dans le cas de l équipondération et dans le cas d une pondération (2, 1, 4, 1, 2)/10.

Autres expressions de l inertie On peut également calculer l inertie du nuage de points par rapport à n importe quel point de R p via : I(X, y)= On a également I(X) = 1 p i p j d M (x i, x j ) 2 2 i,j En formulation matricielle : I(X) = Tr(MV) = Tr(VM) I(X) = Tr(XMX D) = Tr(DXMX )

Décomposition de l inertie Si l espace R p se décompose en x i = x W + x W ] alors I(X) = I(X WM ) + I(X W M ) Si on a une partition des individus en groupes G k, on définit Poids P k du groupe k Centre de gravité g k Inertie du groupe k On a alors I(X)=

Décomposition de l inertie On peut définir l inertie à partir des poids et distances inter points Si D 2 désigne la moyenne des carrés des distances inter-points : I totale = 1 2 D 2 = L inertie intra classe vaut alors I intra = 1 P k D 2 k 2 avec D 2 k moyenne des carrés des distances dans le groupe k L inertie inter est définie à partir de la formule de reconstitution k I inter = En regroupant deux classes C 1 et C 2 de poids P 1 et P 2 en une seule classe C 1 C 2 de poids P 1 + P 2, le gain intra est : Gain= P ( 1P 2 D 2 12 D 2 1 + D 2 ) 2 = P 1P 2 g 1 g 2 2 P 1 + P 2 2 P 1 + P 2