5MS04 - Analyse des données Master 2 spécialité Statistiques Université Pierre et Marie Curie Méthodes de réduction de dimension Bertrand MICHEL bertrand.michel@ec-nantes.fr
Pourquoi réduire la dimension? Objectif de visualisation. Au delà de trois axes, il est difficile de se représenter la structure d un nuage de points, surtout si le support de celui-ci n est pas un espace linéaire. Extraction ou création de features (variables) capable de résumer au mieux l information. Efficacité statistique. De nombreuses méthodes en statistiques sont inefficaces en (très) grande dimension. Ex : estimation d une densité par des histogrammes. Coût algorithmique. La complexité des algorithmes d apprentissage dépend de la dimension des données. De façon plus générale : le fléau de la grande dimension.
Pourquoi réduire la dimension?
Pourquoi réduire la dimension? Objectif de visualisation. Au delà de trois axes, il est difficile de se représenter la structure d un nuage de points, surtout si le support de celui-ci n est pas un espace linéaire. Extraction ou création de features (variables) capable de résumer au mieux l information. Efficacité statistique. De nombreuses méthodes en statistiques sont inefficaces en (très) grande dimension. Ex : estimation d une densité par des histogrammes. Coût algorithmique. La complexité des algorithmes d apprentissage dépend de la dimension des données. De façon plus générale : le fléau de la grande dimension.
Le fléau de la grande dimension Définition volontairement un peu vague : le fléau de la grande dimension (curse of dimensionality) désigne certains phénomènes qui ont lieu lorsque l on cherche à analyser des données dans des espaces de grande dimension, alors que ces phénomènes n ont pas lieu dans des espaces de dimension moindre. Idée générale : lorsque le nombre de dimensions augmente, le volume de l espace croît rapidement si bien que les données se retrouvent isolées et deviennent éparses.
Le fléau de la grande dimension Illustration 1 : Interpolation Pour estimer une fonction à D variables avec une précision fixée, il faut un nombre de points qui croit exponentiellement avec D (penser à un maillage de pas r dans [0, 1] D ). conséquence : En grande dimension, la moyenne (ou le vote) calculée sur les plus proches voisins n est plus une quantité locale
Le fléau de la grande dimension Illustration 2 : concentration sur les bords Le volume d un cube est concentré sur ses coins et non dans sa sphère inscrite. lim D Vb D(r) Vc D (r) = 0 où Vb D D (r) et Vc (r) sont les volumes de la boule de rayon r et du cube de rayon 2r. Les points sont concentrés au bord : V D b (R) V b D(r) ( r ) D Vb D(R) = 1 R
Le fléau de la grande dimension Illustration 3 : Probabilités de queue d une distribution gaussienne multivariée. X N D (0, I D ) n 1 5 20 100 P ( X 2) 0.0455 0.54942 0.99995 1.00000 L essentiel de la masse se concentre dans la queue de distribution quand la dimension augmente.
Le fléau de la grande dimension Illustration 4 : Diagonales du cube. Soit v un vecteur reliant le centre du cube [ 1, 1] D de R D à l un de ses sommets : v = (±1,..., ±1). Angle entre axe e i et v : cos θ(e i, v) = ±1 D, qui tend vers 0 quand D tend vers l infini. Les diagonales apparaissent alors comme presque orthogonales à tous les axes. Un groupe de points positionnés près d une diagonale sera représenté près de l origine! Difficile d évaluer les correlations en visualisant les données sur des matrices de nuages.
Le fléau de la grande dimension Illustration 5 : Concentration des normes et des distances. Soient X un vecteur aléatoire de dim D dont les composantes sont i.i.d. Sous des hypotheses de moments, on peut montrer que E X = ad b + O(D 1 ) et Var X = b + O(D 1/2 ) où a et b sont des constantes qui ne dependent que des moments des lois marginales de X. En conséquence, en grande dimension : Les vecteurs apparaissent comme naturellement normalisés. La distance euclidienne entre deux vecteurs aléatoires est approximativement constante. Ce phénomène est problématique par exemple pour les méthodes de type plus proches voisins.
Hypothèse fondamentale de l analyse de données en grande dimension En réalité, les données en grande dimension ne remplissent pas l espace. Elles sont en général concentrées sur ou au voisinage d une sous-variété de dimension inférieure. On rappelle qu une d-variété (manifold) est un espace topologique qui ressemble localement à un espace euclidien. Plus précisément, chacun de ses points admet un voisinage qui est homéomorphe à un espace euclidien de dimension d.
Deux points de vue possible de la réduction de dimension 1. M R D est une sous variété et on cherche à plonger les données X dans un espace de plus faible dimension en préservant le plus possible la géométrie des données. 2. M = f(n) où N est une sous variété d-dimensionelle (la sous variété latente - en général N est un ouvert de R d ). La fonction f : N R D est un plongement (homeomorphisme de N sur son image) avec des propriétés spécifiques (isométrie par exemple). On cherche donc une représentation des données de la forme X f(y ), les variables Y sont appelées variables latentes.
Notions de dimension Soit M une d-sous variété dans R D. Dimension ambiente : D, dimension intrinsèque : d. Soit S un ensemble dénombrable défini sur M. Soit X 1,..., X n iid dans S. On considère C n (r) = 2 n(n 1) i<j 1 Xi X j <r et la limite (qui est bien définie) C(r) := lim n C n (r). La dimension de correlation de S est définie par d corr = lim r 0 log C(r) log r
Notions de dimension Soit un espace métrique (X, ρ), M un ensemble de X. N(r) est le nombre minimal de boules B(x 0, r) nécessaire pour recouvrir M. La dimension de packing (capacity dimension) de M : d capa = lim r 0 log N(r) log r Notion plus générale et plus robuste, mais plus difficile à évaluer en pratique.
Notations On appelle variable une information connue pour n individus. Dans ce cadre, il n est pas nécessaire de voir ces objets comme les réalisations d une variable aléatoire. Sauf précision contraire, les observations seront dans R D. On note e n = (1,..., 1) R n et e D = (1,..., 1) R D. Soient y et z deux variables de R n : cov(y, z) = 1 n var(y) = 1 n i=1...n ȳ = 1 n i=1...n i=1...n y i = 1 n y e n (y i ȳ)(z i z) = 1 n (y ȳe n) (z ze n ). (y i ȳ) 2 = 1 n (y ȳe n) (y ȳe n )
x 1 1... x D 1... x 1 n... x D n Notations Soient x 1,..., x j,..., x D des variables de R n. On note X la matrice des données associées à ces variables : Variables x 1,..., x j,..., x D en colonnes, Individus x 1,..., x i,..., x n en lignes. Point moyen de la matrice des données : x = ( x 1,..., x D ). Les colonnes de la matrice X e n x sont les variables centrées x j x j e D. Matrice de variance-covariance des variables du nuage : S := [ cov(x j, x k ) ] 1 j,k D matrice de Gram G = XX. = 1 n = 1 n ( X en x ) ( X en x ) n (x i x)(x i x). i=1