Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Documents pareils

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

Extraction d informations stratégiques par Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exercice : la frontière des portefeuilles optimaux sans actif certain

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction. Préambule. Le contexte

Introduction à l approche bootstrap

La classification automatique de données quantitatives

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction au Data-Mining

MAP 553 Apprentissage statistique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Exercices Corrigés Premières notions sur les espaces vectoriels

Programmes des classes préparatoires aux Grandes Ecoles

Simulation de variables aléatoires

L'analyse des données à l usage des non mathématiciens

Fonctions de deux variables. Mai 2011

Théorie et codage de l information

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Introduction au Data-Mining

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Soutenance de stage Laboratoire des Signaux et Systèmes

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Programmation linéaire et Optimisation. Didier Smets

Gestion obligataire passive

Quantification Scalaire et Prédictive

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Les algorithmes de base du graphisme

Apprentissage Automatique

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Apprentissage non paramétrique en régression

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

INF6304 Interfaces Intelligentes

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Approximations variationelles des EDP Notes du Cours de M2

Filtrage stochastique non linéaire par la théorie de représentation des martingales

3. Conditionnement P (B)

Modèles et Méthodes de Réservation

Cours de Mécanique du point matériel

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Cours d Analyse. Fonctions de plusieurs variables

Limitations of the Playstation 3 for High Performance Cluster Computing

Intérêt du découpage en sous-bandes pour l analyse spectrale

Fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

PROJET MODELE DE TAUX

Plus courts chemins, programmation dynamique

Cours d analyse numérique SMI-S4

Le Modèle Linéaire par l exemple :

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Cours de méthodes de scoring

Modèles pour données répétées

MISE EN PLACE D UN SYSTÈME DE SUIVI DES PROJETS D INTÉGRATION DES TIC FORMULAIRE DIRECTION RÉGIONALE DE COLLECTE DE DONNÉES

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

3 Approximation de solutions d équations

Quelques éléments de statistique multidimensionnelle

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Interception des signaux issus de communications MIMO

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Le théorème des deux fonds et la gestion indicielle

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Résolution de systèmes linéaires par des méthodes directes

Travaux pratiques avec RapidMiner

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

La boucle for La boucle while L utilisation du if else. while (condition) { instruction(s) }

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Résolution d équations non linéaires

Optimisation, traitement d image et éclipse de Soleil

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Risque de contrepartie sur opérations de marché. Marwan Moubachir

Logiciel XLSTAT version rue Damrémont PARIS

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation

Initiation à l analyse en composantes principales

Espérance conditionnelle

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Économetrie non paramétrique I. Estimation d une densité

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Transcription:

Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech

Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi

Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 3 / 27 F. Rossi Introduction

Motivations intérêt des outils de visualisation très efficaces en dimension 2 corrects en dimension 3 utilisables en dimensions 4 ou 5 (après un apprentissage) limites dilemme lisibilité versus nombre de variables (et d objets) liens entre variables difficiles à comprendre liens entre objets difficiles à comprendre 4 / 27 F. Rossi Introduction

Motivations intérêt des outils de visualisation très efficaces en dimension 2 corrects en dimension 3 utilisables en dimensions 4 ou 5 (après un apprentissage) limites dilemme lisibilité versus nombre de variables (et d objets) liens entre variables difficiles à comprendre liens entre objets difficiles à comprendre solution réduire automatiquement la dimension des données en enlevant des variables ou en calculant de nouvelles coordonnées 4 / 27 F. Rossi Introduction

Placement formulation du problème : données (X i ) 1 i N dans un espace X placement (Y i ) 1 i N dans R Q avec Q petit (2 ou 3) à chaque objet X i est associé un vecteur en basse dimension Y i problème : bien choisir les Y i deux sources de variabilité dans les solutions représentation initiale (nature) des X i critère de choix des Y i questions additionnelles lien entre les X i et les Y i contrôle de la qualité du placement interprétation 5 / 27 F. Rossi Introduction

Données vectorielles X est une matrice N P N objets P variables numériques Critère d approximation Y est de dimension Q < P : on considère les Y i comme des éléments d un sous-espace vectoriel de R P critère de qualité quadratique 1 N N X i Y i 2 i=1 attention : les Y i sont décrits dans une base adaptée problème d optimisation : choisir les meilleurs Y i sous une contrainte de rang 6 / 27 F. Rossi Introduction

Données dissimilarités les X sont décrits seulement par une dissimilarité entre les objets, d X (X i, X j ) Critères d approximation les Y sont dans R p : d(y i, Y j ) = Y i Y j essayer d avoir d(y i, Y j ) d X (X i, X j ) : principe de préservation des distances critère générique 1 N 2 N i=1 j=1 N (d X (X i, X j ) Y i Y j ) 2 F (d X (X i, X j ), Y i Y j ) le rôle de F est de limiter l influence des grandes distances (par exemple) d autres variantes existent 7 / 27 F. Rossi Introduction

Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 8 / 27 F. Rossi Analyse en composantes principales

Analyse en composantes principales méthode de placement pour données numériques inventée par Pearson (1901) approche par projection linéaire idée sous-jacente (modèle factoriel) processus génératif X = YW W est une matrice Q P orthogonale WW T = I Y est une représentation de dimension Q but de l analyse factorielle : retrouver W et Y 9 / 27 F. Rossi Analyse en composantes principales

Projection linéaire soit un système orthonormé (φ j ) 1 j Q de R P, la projection d un X i sur le sous-e. v. associé est P(X i ) = Q (X i φ j )φ T j j=1 erreur de projection 1 N N X i i=1 Q (X i φ j )φ T j j=1 2 meilleure projection : optimisation sur (φ j ) 1 j Q 10 / 27 F. Rossi Analyse en composantes principales

Résolution on suppose les données centrées : N i=1 X i = 0 on note Φ la matrice des φ j (en colonnes) l erreur de projection devient 1 N N X i X i ΦΦ T 2 i=1 minimiser l erreur revient à résoudre maximiser 1 N Tr(XΦΦT X T ) avec Φ T Φ = I solution (admise) : les φ j sont les vecteurs propres de 1 N X T X associés aux P plus grandes valeurs propres 11 / 27 F. Rossi Analyse en composantes principales

ACP on a donc X YW avec W = Φ T et Y = XΦ les colonnes de Φ sont les axes principaux de l ACP les colonnes de Y sont les composantes principales la variance de Y.i est λ i, la i-ème valeur propre de 1 N X T X placement : on conserve les deux premiers axes on affiche les deux premières composantes 12 / 27 F. Rossi Analyse en composantes principales

Conservation de la variance autre vison de l ACP : chercher une direction intéressante dans les données intéressant : avec une forte variabilité analyse similaire à la précédente : axe de projection φ, projection Xφ variance de la projection 1 N XφφT X T (données centrées) maximisation de la variance même problème que précédemment! les axes principaux sont donc des axes de variance maximale 13 / 27 F. Rossi Analyse en composantes principales

Exemples données verre : 213 observations sur 10 variables 9 variables numériques : pas de prise en compte de la variable nominale données iris : 150 observations sur 5 variables 4 variables numériques (et une nominale) centrage et réduction : centrage : obligatoire réduction : au choix de l analyste 14 / 27 F. Rossi Analyse en composantes principales

Données verre normalisé PC2 2 0 2 4 6 6 4 2 0 2 4 PC1 15 / 27 F. Rossi Analyse en composantes principales

Données verre non normalisé PC2 4 2 0 2 4 6 4 2 0 2 PC1 15 / 27 F. Rossi Analyse en composantes principales

Données Iris normalisé PC2 2 1 0 1 2 3 2 1 0 1 2 3 PC1 16 / 27 F. Rossi Analyse en composantes principales

Données Iris non normalisé PC2 1.0 0.5 0.0 0.5 1.0 3 2 1 0 1 2 3 4 PC1 16 / 27 F. Rossi Analyse en composantes principales

Analyse du placement l ACP est une projection linéaire les distances sont donc réduites : si deux points sont proches dans R P ils seront toujours proches dans R Q par ACP mais deux points proches dans le placement ACP ne sont pas nécessairement proches dans l espace d origine les séparations sont exactes les regroupements peuvent être trompeurs 17 / 27 F. Rossi Analyse en composantes principales

Qualité de l approximation Erreur de reconstruction 1 N Tr(X T X) 1 N Tr(XΦΦT X T ) or 1 N Tr(X T X) = P i=1 λ i est la somme des variances des variables 1 N Tr(XΦΦT X T ) = 1 N Tr(ΦT XX T Φ) = Q i=1 λ i Qualité : pourcentage de la variance expliquée Q i=1 λ i P i=1 λ i 18 / 27 F. Rossi Analyse en composantes principales

Représentation graphique 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 Données verre 1 2 3 4 Données Iris 19 / 27 F. Rossi Analyse en composantes principales

Représentation graphique 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 Données verre 1 2 3 4 Données Iris L approximation est bien meilleure pour les données Iris en deux dimensions. 19 / 27 F. Rossi Analyse en composantes principales

Interprétation des axes aide à l interprétation : quel sens accorder aux axes principaux? lien entre les axes et les variables d origine on considère la corrélation entre X.j et Y.k : comme les variables sont centrées, la covariance de X.j et Y.k est 1 N (X T Y ) jk la corrélation entre X.j et Y.k est donc λk φ jk σ j, où σ i est l écart-type de X.j on peut dessiner les variables réduites : cercle des corrélations 20 / 27 F. Rossi Analyse en composantes principales

Données Iris normalisé PC2 2 1 0 1 2 3 2 1 0 1 2 3 PC1 21 / 27 F. Rossi Analyse en composantes principales

Données Iris PC2 1.0 0.5 0.0 0.5 1.0 V2 V3 V4 V1 1.5 1.0 0.5 0.0 0.5 1.0 1.5 PC1 21 / 27 F. Rossi Analyse en composantes principales

Données glass normalisé PC2 2 0 2 4 6 6 4 2 0 2 4 PC1 22 / 27 F. Rossi Analyse en composantes principales

Données glass PC2 1.0 0.5 0.0 0.5 1.0 V7 V1 V9 V3 V8 V6 V5 V2 V4 1.5 1.0 0.5 0.0 0.5 1.0 1.5 PC1 22 / 27 F. Rossi Analyse en composantes principales

Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 23 / 27 F. Rossi Autres méthodes

Limites de l ACP pas de prise en compte des dépendances non linéaires s appuie sur les corrélations : pas de corrélation, pas de simplification! projection linéaire : écrase les données ne préserve pas les distances 24 / 27 F. Rossi Autres méthodes

Limites de l ACP pas de prise en compte des dépendances non linéaires s appuie sur les corrélations : pas de corrélation, pas de simplification! projection linéaire : écrase les données ne préserve pas les distances autres solutions : méthodes de placement non linéaire : pas de lien linéaire entre X et Y optimisation d une mesure de préservation des distances (dissimilarités) 24 / 27 F. Rossi Autres méthodes

Multi Dimensional Scaling famille des algorithmes de Multi Dimensional Scaling méthode de Kruskal-Shepard : minimiser ( d(xi, x j ) y i y j ) 2 i j méthode de Sammon : minimiser ( d(xi, x j ) y i y j ) 2 i j d(x i, x j ) ce qui favorise les petites distances nombreuses autres variantes 25 / 27 F. Rossi Autres méthodes

Données Iris normalisé PC2 2 1 0 1 2 3 2 1 0 1 2 3 PC1 26 / 27 F. Rossi Autres méthodes

Données Iris Sammon iris.sammon$points[,2] 2 1 0 1 2 3 2 1 0 1 2 3 iris.sammon$points[,1] 26 / 27 F. Rossi Autres méthodes

Données glass normalisé PC2 2 0 2 4 6 6 4 2 0 2 4 PC1 27 / 27 F. Rossi Autres méthodes

Données glass Sammon glass.sammon$points[,2] 2 0 2 4 6 6 4 2 0 2 4 6 glass.sammon$points[,1] 27 / 27 F. Rossi Autres méthodes