Analyse discriminante



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Arbres binaires de décision

Cours de méthodes de scoring

Introduction au Data-Mining

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Introduction. Préambule. Le contexte

Introduction au Data-Mining

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Quantification Scalaire et Prédictive

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

TABLE DES MATIERES. C Exercices complémentaires 42

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Leçon N 4 : Statistiques à deux variables

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Relation entre deux variables : estimation de la corrélation linéaire

ACP Voitures 1- Méthode

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Individus et informations supplémentaires

Méthodes de Simulation

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Fonctions de plusieurs variables

Classification non supervisée

Le modèle de régression linéaire

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Exercice : la frontière des portefeuilles optimaux sans actif certain

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

De la mesure à l analyse des risques

Programmation linéaire

1. Vocabulaire : Introduction au tableau élémentaire

Table des matières. I Mise à niveau 11. Préface

Statistique Descriptive Multidimensionnelle. (pour les nuls)

L'analyse des données à l usage des non mathématiciens

Introduction au datamining

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

données en connaissance et en actions?

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

FORMULAIRE DE STATISTIQUES

Chapitre 2/ La fonction de consommation et la fonction d épargne

Enjeux mathématiques et Statistiques du Big Data

IBM SPSS Regression 21

Théorie de l estimation et de la décision statistique

Cours 9 : Plans à plusieurs facteurs

Data mining 1. Exploration Statistique

Économetrie non paramétrique I. Estimation d une densité

Simulation de variables aléatoires

Logiciel XLSTAT version rue Damrémont PARIS

Soutenance de stage Laboratoire des Signaux et Systèmes

De la mesure à l analyse des risques

3 Approximation de solutions d équations

Quelques éléments de statistique multidimensionnelle

Agrégation des portefeuilles de contrats d assurance vie

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Optimisation, traitement d image et éclipse de Soleil

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Modélisation des carrières salariales. dans Destinie

Chapitre 4: Dérivée d'une fonction et règles de calcul

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

MAP 553 Apprentissage statistique

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

aux différences est appelé équation aux différences d ordre n en forme normale.

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Programmes des classes préparatoires aux Grandes Ecoles

Cours d Analyse. Fonctions de plusieurs variables

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Introduction à la Statistique Inférentielle

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Fonctions de deux variables. Mai 2011

La méthode des scores, particulièrement de la Banque de France

(Customer Relationship Management, «Gestion de la Relation Client»)

Validation probabiliste d un Système de Prévision d Ensemble

Modèles pour données répétées

Modèles et Méthodes de Réservation

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

NON-LINEARITE ET RESEAUX NEURONAUX

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de corrélation Étude des dépendances - Variables quantitatives

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

5 ème Chapitre 4 Triangles

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Programmation linéaire

Transcription:

Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1

Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique" de la séparation inter-classe (encore appelée analyse discriminante factorielle ou analyse discriminante linéaire de Fisher) interprétation bayesienne: classificateur bayesien (optimum au sens de la proba. de l'erreur) dans des conditions particulières pour les données! (encore appelée analyse discriminante décisionnelle, linéaire ou quadratique) Restrictions: Les variables descriptives X 1, X 2,... X p doivent être quantitatives! Analyse discriminante factorielle: principes de base: Objectif: mettre en évidence des différences entre les classes c-à-d entre les observations appartenant à des classes différentes => description des liaisons entre la variable "classe" et les variables quantitatives: les q classes diffèrent-elles sur l'ensemble des variables numériques? LINF2275 2

Méthode: déterminer un/des facteur(s), combinaison(s) linéaire(s) des variables descriptives, qui prenne(nt) des valeurs les + proches possible pour des éléments de la même classe, et les + éloignées possible entre éléments de classes différentes. (= facteurs discriminants) Exemple: Y + + + + + + + + + o o o oo o o o o axe discriminant Formulation: 1) Décomposition de la matrice variance-covariance V Ensemble des n observations x i = un nuage de points, de centre de gravité g et de matrice variance-covariance V. Ce nuage est partagé en q sous-nuages par la variable "classe". Chaque sous-nuage (classe ω k ) d'effectif n k est caractérisé par son centre de gravité (ou centroïde) g k et sa matrice variance-covariance V k. X LINF2275 3

V peut être décomposée en une somme de 2 matrices: V = B + W avec B = matrice de variance inter-classe (B = "between") = matrice variance-covariance pondérée des k centroïdes g k : où g k = (g k1, g k2,..., g kj,..., g kp ) T et g kj = moyenne de X j dans ω k et q B p p = 1 n n k (g 1 k 4 4 g)(g 24 k 4 g) 3 T k =1 (k ) avec c jj' matrice C (k) ( p p) rend compte de la dispersion des centroïdes des classes autour du centre global g. W = matrice de variance intra-classe (W = "within") = moyenne des k matrices variance-covariance des classes: V k q W p p = 1 n k V k n k =1 Généralisation de la relation classique unidimensionnelle valable pour toute variable X dont les valeurs sont regroupées par classe: variance totale = moyenne des variances + variance des moyennes intra inter = (g kj m j )(g kj' m j' ) LINF2275 4

Décomposition variance intra/inter classe La variance empirique totale s écrit LINF2275 5

Décomposition variance Décomposition: intra/inter classe LINF2275 6

Décomposition variance intra/inter classe Et donc la variance totale s écrit LINF2275 7

Projection sur un axe Nous projetons les observations sur un axe L opérateur de projection s écrit LINF2275 8

Projection de la variance Pour la variance within: LINF2275 9

Projection de la variance (suite) LINF2275 10

Projection de la variance Pour la variance between: LINF2275 11

Projection de la variance Pour la variance totale: LINF2275 12

Décomposition de la variance projetée La variance empirique projetée se décompose également en within/between: Et donc LINF2275 13

Problème d optimisation Nous recherchons l axe correspondant à la séparation maximale entre les classes Et donc LINF2275 14

Problème d optimisation Nous avons donc D où Et nous posons LINF2275 15

Problème aux valeurs/vecteurs propres Nous obtenons donc le problème aux valeurs/vecteurs propres Il y a au plus (q 1) valeurs propres nonnulles LINF2275 16

2) Recherche des facteurs discriminants On travaille en variables centrées => g est ramené à l'origine! Le 1er facteur discriminant (F 1 ) est une nouvelle variable, combinaison linéaire des variables descriptives (centrées), dont la variance inter-classe est maximum (ou, de façon équivalente la variance intra-classe est minimum). Géométriquement: le 1er facteur détermine un axe dans le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale. Le 2eme facteur (F 2 ) est non corrélé (perpendiculaire) au 1er et de variance inter-classe max. Etc pour le 3eme... F 1 o F o 2 + o o o + + + + ++ + + + o o o oo + o o o o + ++ o + x x x x xx x x x xx x x x x x LINF2275 17

Propriétés: les facteurs sont entièrement déterminés par la matrice définie par: V -1 B (vecteurs propres) le nbre maximum de facteurs discriminants = q 1 la part de variance inter-classe expliquée = variance inter / variance totale est décroissante entre les facteurs successifs. Toutes ces propriétés s'expliquent par le fait que: une analyse discriminante = ACP sur le nuage des q centroïdes, pondérés par l'effectif des classes n k, dans un espace R p avec V -1 comme métrique! Représentation graphique: Si 2 groupes => 1 seul facteur = axe de projection où la séparation inter-classe est la mieux exprimée => coordonnées sur cet axe = scores discriminants. Si + de 2 groupes => plan discriminant (F 1 et F 2 ) = plan de projection ou la variance inter-classe B (=> dispersion des centroïdes dans le plan) sera la mieux représentée!! LINF2275 18

Interprétation des facteurs: Comme en ACP: corrélations facteurs aux variables initiales + cercle des corrélations avec les 2 premiers facteurs (q > 2) Analyse discriminante décisionnelle => méthode de classification: 1) règle géométrique (règle de Fisher): Les facteurs discriminants donnent la meilleure représentation de la séparation des q centroïdes de classe (dans un espace orthonormé). => pour un individu x projeté dans l'espace des facteurs: attribuer la classe dont le centroïde est le plus proche (au sens de la distance euclidienne): => surfaces de séparation linéaires = hyperplans médians entre les centroïdes: R 1 R 3 R2 projection de g 2 détermination de 3 régions de décision (R 1, R 2, R 3 ) délimitant les points 'sensés' appartenir aux différentes classes LINF2275 19

Traduction dans l'espace de départ (variables descriptives): allocation au centroïde g k le plus proche au sens de la métrique W 1 (distance de Mahalanobis) d 2 M (x, g k ) = (x - g k ) T W 1 (x - g k ) Problèmes: La métrique W 1 est évaluée sur l'ensemble des données => problème si les classes ne sont pas de même "forme" (dispersion). une classe est représentée par son centroïde => problème si le centroïde n'est pas représentatif d'une classe (cas des classes non ellipsoïdales ou composées de sousnuages différents => séparation fortement non linéaire). ω 1 x g g 2 1 ω 2 ω 1 ω 2 g 1 g2 ω 2 ω 1 x sera jugé plus proche de ω 1 que de ω 2 LINF2275 20

Justification: lien avec la classification bayesienne On peut montrer que la règle de Fisher correspond à un classificateur bayesien (minimisation de la proba. de l'erreur) dans les conditions suivantes: chaque classe suit une distribution gaussienne (multivariée) de même matrice variance-covariance W (les nuages de points ont la même 'forme'), les classes sont équidistribuées: mêmes proba. a priori (très facilement généralisable si ce n'est pas le cas) En effet: Lorsque les distributions de classes sont gaussiennes de même matrice variance - covariance V, un classificateur bayesien définit les fonctions discriminantes y k (x) suivantes: (x alloué à ω k si y k (x) > y j (x) pour tout j k): y k (x) = (x - g k ) T W -1 (x - g k ) + 2 ln (P(ω k )) <=> x alloué à ω k si d 2 M (x, g k ) 2 ln (P(ω k )) est minimum!!! règle de Fisher généralisée (dépendant des proba. a priori): favorise les classes fortement représentées! LINF2275 21

Prise de décision Bayesienne dans le cas d un mélange Gaussien Supposons que les observations de chaque classe sont générées par une Gaussienne: Où z est le vecteur des caractéristiques projeté sur les axes discriminants retenus = modèle paramétrique Dans ce cas-ci, nous supposons qu il y a une matrice variance-covariance W égale pour toutes les classes LINF2275 22

Prise de décision Bayesienne dans le cas d un mélange Gaussien Nous devons calculer les probabilités à postériori Nous placons dès lors l observation z dans la classe k telle que LINF2275 23

Prise de décision Bayesienne dans le cas d un mélange Gaussien Ce qui est équivalent à Ou encore Et donc comme la matrice W est commune, LINF2275 24

Généralisation au cas où les matrices variance-covariance W k des classes ne sont pas égales: les fcts discriminantes du classif. bayesien deviennent: y k (x) = ln W k (x g k ) T W k 1 (x g k ) + 2 ln (P(ω k )) déterminant de la matrice Dans ce cas, les surfaces de séparation entre 2 classes (définies par y k (x) = y j (x)) ne sont plus linéaires => analyse discriminante quadratique En pratique: La matrice W, ou les matrices W k doi(ven)t être estimée(s) à partir des exemples disponibles pour chaque classe, ainsi que les P(ω k ). Lorsqu'on fait l'hypothèse d'égalité des matrices W k, la matrice W est obtenue par estimation 'poolée': W pool = (n 1 W 1 + n 2 W 2 +... + n q W q )/n (n = effectif total) L'usage et l'estimation de matrice particulière W k demande que les effectifs de classe soient suffisamment importants! Pour des faibles effectifs l'existence de W k 1 n'est pas tjrs assurée, de même W k peut être nul! LINF2275 25