Méthodes de réduction de dimension

Documents pareils
1 Complément sur la projection du nuage des individus

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Chapitre 3. Les distributions à deux variables

Extraction d informations stratégiques par Analyse en Composantes Principales

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Programmes des classes préparatoires aux Grandes Ecoles

Intégration et probabilités TD1 Espaces mesurés Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

PROBABILITES ET STATISTIQUE I&II

MAP 553 Apprentissage statistique

Économetrie non paramétrique I. Estimation d une densité

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Capes Première épreuve

Exercice : la frontière des portefeuilles optimaux sans actif certain

VI. Tests non paramétriques sur un échantillon

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

3 Approximation de solutions d équations

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Cours Fonctions de deux variables

La classification automatique de données quantitatives

Introduction à l approche bootstrap

TSTI 2D CH X : Exemples de lois à densité 1

Fonctions de plusieurs variables

Apprentissage Automatique

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Texte Agrégation limitée par diffusion interne

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

CCP PSI Mathématiques 1 : un corrigé

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

I. Polynômes de Tchebychev

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Méthodes de Simulation

3. Conditionnement P (B)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Programmation linéaire

Modèles et Méthodes de Réservation

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Repérage d un point - Vitesse et

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Sommaire. Couverture de zone de surveillance dans les réseaux de capteurs. De quoi parle-t-on ici (1/2)? Objectif. De quoi parle-t-on ici (2/2)?

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours d analyse numérique SMI-S4

Apprentissage non paramétrique en régression

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Programmation linéaire

Quantification Scalaire et Prédictive

Théorie des sondages : cours 5

Fonctions de deux variables. Mai 2011

Simulation de variables aléatoires

Travaux dirigés d introduction aux Probabilités

On ne peut pas entendre la forme d un tambour

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Analyse en Composantes Principales

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Le Modèle Linéaire par l exemple :

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

LISTE D EXERCICES 2 (à la maison)

Introduction. Préambule. Le contexte

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Cours Informatique Master STEP

Projet de Traitement du Signal Segmentation d images SAR

Moments des variables aléatoires réelles

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Raisonnement par récurrence Suites numériques

Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.

C1 : Fonctions de plusieurs variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Maîtrise universitaire ès sciences en mathématiques

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

Régression linéaire. Nicolas Turenne INRA

Fonctions de plusieurs variables. Sébastien Tordeux

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Fonctions de plusieurs variables

Modélisation géostatistique des débits le long des cours d eau.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Le concept cellulaire

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Calcul différentiel sur R n Première partie

4 Distributions particulières de probabilités

14. Introduction aux files d attente

Couples de variables aléatoires discrètes

Cours de méthodes de scoring

Programme de la classe de première année MPSI

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Transcription:

5MS04 - Analyse des données Master 2 spécialité Statistiques Université Pierre et Marie Curie Méthodes de réduction de dimension Bertrand MICHEL bertrand.michel@ec-nantes.fr

Pourquoi réduire la dimension? Objectif de visualisation. Au delà de trois axes, il est difficile de se représenter la structure d un nuage de points, surtout si le support de celui-ci n est pas un espace linéaire. Extraction ou création de features (variables) capable de résumer au mieux l information. Efficacité statistique. De nombreuses méthodes en statistiques sont inefficaces en (très) grande dimension. Ex : estimation d une densité par des histogrammes. Coût algorithmique. La complexité des algorithmes d apprentissage dépend de la dimension des données. De façon plus générale : le fléau de la grande dimension.

Pourquoi réduire la dimension?

Pourquoi réduire la dimension? Objectif de visualisation. Au delà de trois axes, il est difficile de se représenter la structure d un nuage de points, surtout si le support de celui-ci n est pas un espace linéaire. Extraction ou création de features (variables) capable de résumer au mieux l information. Efficacité statistique. De nombreuses méthodes en statistiques sont inefficaces en (très) grande dimension. Ex : estimation d une densité par des histogrammes. Coût algorithmique. La complexité des algorithmes d apprentissage dépend de la dimension des données. De façon plus générale : le fléau de la grande dimension.

Le fléau de la grande dimension Définition volontairement un peu vague : le fléau de la grande dimension (curse of dimensionality) désigne certains phénomènes qui ont lieu lorsque l on cherche à analyser des données dans des espaces de grande dimension, alors que ces phénomènes n ont pas lieu dans des espaces de dimension moindre. Idée générale : lorsque le nombre de dimensions augmente, le volume de l espace croît rapidement si bien que les données se retrouvent isolées et deviennent éparses.

Le fléau de la grande dimension Illustration 1 : Interpolation Pour estimer une fonction à D variables avec une précision fixée, il faut un nombre de points qui croit exponentiellement avec D (penser à un maillage de pas r dans [0, 1] D ). conséquence : En grande dimension, la moyenne (ou le vote) calculée sur les plus proches voisins n est plus une quantité locale

Le fléau de la grande dimension Illustration 2 : concentration sur les bords Le volume d un cube est concentré sur ses coins et non dans sa sphère inscrite. lim D Vb D(r) Vc D (r) = 0 où Vb D D (r) et Vc (r) sont les volumes de la boule de rayon r et du cube de rayon 2r. Les points sont concentrés au bord : V D b (R) V b D(r) ( r ) D Vb D(R) = 1 R

Le fléau de la grande dimension Illustration 3 : Probabilités de queue d une distribution gaussienne multivariée. X N D (0, I D ) n 1 5 20 100 P ( X 2) 0.0455 0.54942 0.99995 1.00000 L essentiel de la masse se concentre dans la queue de distribution quand la dimension augmente.

Le fléau de la grande dimension Illustration 4 : Diagonales du cube. Soit v un vecteur reliant le centre du cube [ 1, 1] D de R D à l un de ses sommets : v = (±1,..., ±1). Angle entre axe e i et v : cos θ(e i, v) = ±1 D, qui tend vers 0 quand D tend vers l infini. Les diagonales apparaissent alors comme presque orthogonales à tous les axes. Un groupe de points positionnés près d une diagonale sera représenté près de l origine! Difficile d évaluer les correlations en visualisant les données sur des matrices de nuages.

Le fléau de la grande dimension Illustration 5 : Concentration des normes et des distances. Soient X un vecteur aléatoire de dim D dont les composantes sont i.i.d. Sous des hypotheses de moments, on peut montrer que E X = ad b + O(D 1 ) et Var X = b + O(D 1/2 ) où a et b sont des constantes qui ne dependent que des moments des lois marginales de X. En conséquence, en grande dimension : Les vecteurs apparaissent comme naturellement normalisés. La distance euclidienne entre deux vecteurs aléatoires est approximativement constante. Ce phénomène est problématique par exemple pour les méthodes de type plus proches voisins.

Hypothèse fondamentale de l analyse de données en grande dimension En réalité, les données en grande dimension ne remplissent pas l espace. Elles sont en général concentrées sur ou au voisinage d une sous-variété de dimension inférieure. On rappelle qu une d-variété (manifold) est un espace topologique qui ressemble localement à un espace euclidien. Plus précisément, chacun de ses points admet un voisinage qui est homéomorphe à un espace euclidien de dimension d.

Deux points de vue possible de la réduction de dimension 1. M R D est une sous variété et on cherche à plonger les données X dans un espace de plus faible dimension en préservant le plus possible la géométrie des données. 2. M = f(n) où N est une sous variété d-dimensionelle (la sous variété latente - en général N est un ouvert de R d ). La fonction f : N R D est un plongement (homeomorphisme de N sur son image) avec des propriétés spécifiques (isométrie par exemple). On cherche donc une représentation des données de la forme X f(y ), les variables Y sont appelées variables latentes.

Notions de dimension Soit M une d-sous variété dans R D. Dimension ambiente : D, dimension intrinsèque : d. Soit S un ensemble dénombrable défini sur M. Soit X 1,..., X n iid dans S. On considère C n (r) = 2 n(n 1) i<j 1 Xi X j <r et la limite (qui est bien définie) C(r) := lim n C n (r). La dimension de correlation de S est définie par d corr = lim r 0 log C(r) log r

Notions de dimension Soit un espace métrique (X, ρ), M un ensemble de X. N(r) est le nombre minimal de boules B(x 0, r) nécessaire pour recouvrir M. La dimension de packing (capacity dimension) de M : d capa = lim r 0 log N(r) log r Notion plus générale et plus robuste, mais plus difficile à évaluer en pratique.

Notations On appelle variable une information connue pour n individus. Dans ce cadre, il n est pas nécessaire de voir ces objets comme les réalisations d une variable aléatoire. Sauf précision contraire, les observations seront dans R D. On note e n = (1,..., 1) R n et e D = (1,..., 1) R D. Soient y et z deux variables de R n : cov(y, z) = 1 n var(y) = 1 n i=1...n ȳ = 1 n i=1...n i=1...n y i = 1 n y e n (y i ȳ)(z i z) = 1 n (y ȳe n) (z ze n ). (y i ȳ) 2 = 1 n (y ȳe n) (y ȳe n )

x 1 1... x D 1... x 1 n... x D n Notations Soient x 1,..., x j,..., x D des variables de R n. On note X la matrice des données associées à ces variables : Variables x 1,..., x j,..., x D en colonnes, Individus x 1,..., x i,..., x n en lignes. Point moyen de la matrice des données : x = ( x 1,..., x D ). Les colonnes de la matrice X e n x sont les variables centrées x j x j e D. Matrice de variance-covariance des variables du nuage : S := [ cov(x j, x k ) ] 1 j,k D matrice de Gram G = XX. = 1 n = 1 n ( X en x ) ( X en x ) n (x i x)(x i x). i=1