APPRENTISSAGE AUTOMATIQUE. Réduction de dimension

Documents pareils

1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

La classification automatique de données quantitatives

Introduction au Data-Mining

Analyse en Composantes Principales

Laboratoire 4 Développement d un système intelligent

Programmation linéaire

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

Arbres binaires de décision

Programmation linéaire

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction au Data-Mining

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Laboratoire d Automatique et Productique Université de Batna, Algérie

Traitement bas-niveau

Apprentissage Automatique

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Big Data et Graphes : Quelques pistes de recherche

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

I. Polynômes de Tchebychev

INF6304 Interfaces Intelligentes

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Etat de l art de la Reconnaissance de Visage.

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Annexe 6. Notions d ordonnancement.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Big Data et Graphes : Quelques pistes de recherche

Exercices Corrigés Premières notions sur les espaces vectoriels

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Enjeux mathématiques et Statistiques du Big Data

Pourquoi l apprentissage?

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 3. Les distributions à deux variables

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Introduction à l approche bootstrap

Interception des signaux issus de communications MIMO

Gestion des Clés Publiques (PKI)

Cours de Mécanique du point matériel

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Analyse dialectométrique des parlers berbères de Kabylie

ACP Voitures 1- Méthode

Resolution limit in community detection

Programmation Linéaire - Cours 1

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

5. Apprentissage pour le filtrage collaboratif

Fonctions de plusieurs variables

Représentation des Nombres

Régression linéaire. Nicolas Turenne INRA

Mesure agnostique de la qualité des images.

Théorèmes de Point Fixe et Applications 1

Chapitre 5 : Flot maximal dans un graphe

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

de calibration Master 2: Calibration de modèles: présentation et simulation d

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Programmation linéaire et Optimisation. Didier Smets

Revue des algorithmes PCA, LDA et EBGM utilisés en reconnaissance 2D du visage pour la biométrie

NON-LINEARITE ET RESEAUX NEURONAUX

Introduction au datamining

Logiciel XLSTAT version rue Damrémont PARIS

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Vérification audiovisuelle de l identité

Évaluation de la régression bornée

Plus courts chemins, programmation dynamique

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

données en connaissance et en actions?

Cours de Master Recherche

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Cours de méthodes de scoring

Transmission d informations sur le réseau électrique

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Modélisation et Simulation

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Sélection de Caractéristiques pour le Filtrage de Spams

Le théorème des deux fonds et la gestion indicielle

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

FIMA, 7 juillet 2005

CHAPITRE 5. Stratégies Mixtes

Le risque Idiosyncrasique

Gestion obligataire passive

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Echantillonnage Non uniforme

MCMC et approximations en champ moyen pour les modèles de Markov

Approximations variationelles des EDP Notes du Cours de M2

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Travaux pratiques avec RapidMiner

Programmes des classes préparatoires aux Grandes Ecoles

Transcription:

APPRENTISSAGE AUTOMATIQUE Réduction de dimension

Malédiction de la dimensionalité Beaucoup de méthodes d apprentissage ne passent pas bien à l échelle pour des données de grandes dimensions: c est la malédiction de la dimensionnalité Gaussian Mixture Models : O(D 2 ) Plus proches voisins : O(nD) Beaucoup de méthodes d apprentissage ont leurs performances qui décroissent pour des données de grandes dimensions Pour une base d exemples donnée, il y a un nombre maximum de dimensions au delà duquel cela dégrade les performances de l algorithme

Intérêt de la réduction de dimension Identifier les attributs importants Motivations statistiques (e.g., supprimer du bruit) Réduction de la complexité de l algorithme d apprentissage Réduction de la complexité du classifieur : moins de paramètres Des classifieurs plus simples sont plus robustes sur des données moins volumineuses Motivations de visualisation: visualiser les données en 2D ou 3D La dimension intrinsèque des données peut en fait être faible

Classification de documents Pages web Emails Documents D 1 D 2 D M T 1 T 2. T N C 12 0. 6 Sports 3 10. 28 Travel Termes 0 11. 16 Jobs ACM Portal Internet IEEE Xplore Digital Libraries PubMed n n n But : Classifier des documents inconnus dans des catégories Challenge : des milliers de descripteurs Solution : Réduction de dimension 4

Gènes et puces à ADN Puce à ADN n n n But : Classer des nouvelles puces selon une maladie Challenge : des milliers de gènes, peu d instances Solution : réduction de dimension Expression de la puce à ADN 5

Autres données de grandes dimensions Visages Chiffres

Approches de la réduction de dimension La réduction de dimension peut désigner deux processus bien distincts : La sélection d attributs Parmi les D attributs existants, on cherche à sélectionner les D plus informatifs La construction d un espace de dimension réduite par extraction de nouveaux d attributs À partir des attributs existants, on cherche à créer une nouvelle représentation fidèle aux données initales, et dont les premières dimensions sont le plus informatives.! # # # # # # "# x 1 x 2 x D $ &! & # & # & '# & # & "# %& y 1 y 2 y D' (! $ *# & *# & *# & = f *# & *# %& # * )"# x 1 x 2 x D $ + &- &- &- &- &- & %& -,! # # # # # # "# x 1 x 2 x D $ &! & # & # & '# & # & "# %& y 1 y 2 y D' $ & & & & %&

Sélection d attributs La sélection d un modèle passe également par la réduction du nombre de ses entrées Ceci consiste en la sélection d attributs pertinents : comment définir la pertinence? Définition : Un attribut est fortement pertinent si sa suppression entraîne la détérioration du taux de reconnaissance Définition : Un attribut X est faiblement pertinent s il n est pas fortement pertinent et s il existe un sous-ensemble d attributs S tel que le taux de reconnaissance du classifieur en utilisant S est plus élevé que celui obtenu en utilisant S {X}.

Buts de la sélection de variables Idéal : trouver le sous-ensemble minimal nécessaire et suffisant pour le classifieur Classique : sélectionner un sous ensemble de D attributs parmi un ensemble de D attributs (D <D) tel que la valeur d un critère donné soit optimale pour le sous-ensemble de taille D Augmentation du taux de reconnaissance : sélectionner un sous ensemble minimal d attributs qui augmente le taux de reconnaissance Approximation de la distribution des classes originales : sélectionner un sous ensemble minimal pour lequel la distribution des classes est aussi proche que possible de la distribution originale en utilisant tous les attributs

Composants de base Un algorithme de recherche d un sous ensemble (parcourir l espace des sous-ensembles d attributs qui est de taille 2 D -1) Une fonction d évaluation : associe une valeur numérique à un sous-ensemble d attributs (on veut maximiser cette fonction) Un inducteur : un algorithme permettant de générer un classifieur à partir de données d apprentissage Un critère d arrêt : détermine quand l algorithme de recherche doit se terminer Une procédure de validation : permet de déterminer si le sous-ensemble produit est valide.

Schéma récapitulatif

Les espaces de recherche Recherche exhaustive (à éviter) Recherche heuristique Méthodes séquentielles Forward : ajout de variables Backward : retrait de variables Stepwise : ajout possible après retrait Algorithme branch and bound Recherche aléatoire Procédés d échantillonnages aléatoire par algorithmes génétiques ou autres algorithmes évolutionnaires ou bio-inspirés

Les fonctions d évaluation But : fournir une fonction d évaluation qui puisse mesurer la capacité de discrimination d un ensemble d attributs Mesures de distance inter et intra classe Mesure de la théorie de l information Mesure du taux de reconnaissance d un classifieur Méthodes dépendantes du classifieur utilisé

Le graphe des sous-ensembles

Sélections Forward et Backward Forward Backward

Approche Filter et wrapper Suivant que l algorithme de recherche utilise ou non le taux de reconnaissance du classifieur comme fonction d évaluation, on peut répartir les algorithmes de sélection d attributs en deux catégories : Filter : filtrage des attributs avant l induction Wrapper : induction après chaque filtrage des attributs L approche filter est plus rapide, mais la sélection d attributs se fait de façon totalement indépendante du classifieur. L approche wrapper nécessite d effectuer un apprentissage pour chaque sous-ensemble à évaluer

Filter et Wrapper

Filter : Mesure Wilks lambda On cherche à déterminer le pouvoir discriminant des variables Lambda de Wilks W : matrice de covariance intra-classe g # # j= 1 x! C ( ) ( ) l µ j l µ j W = x " x " B : matrice de covariance inter-classes g j= 1 l j t ( ) ( ) B = " n µ! µ µ! µ j j j t

Filter : Mesure Wilks lambda p attributs sélectionnés, g le nombre de groupes, n j le nombre d éléments de la classe C j, µ j la moyenne de la classe C j et µ la moyenne globale Critère d arrêt : D Arrêt si la p-ième variable n est pas significative Autre méthode : maximiser trace B ( ) trace W ( )

Méthodes d extraction d attributs Objectif: Détecter des structures de faibles dimensions dans un espace de très grandes dimensions Principe: Etant donné des données x i! " D, chercher une projection y = f (x) :! D "! D' avec D <D La projection y i! " D' doit préserver le plus d information de l espace original dans R D. Méthodes linéaires Analyse en composantes principales, LDA, MDS Non linéaires basées sur une analyse matricielle La structure de faible dimension est révélée par une décomposition en valeurs et vecteurs propres Liées à la théorie spectrale sur graphes Les matrices sont crées à partir de graphes

Réduction de dimension linéaire Beaucoup de méthodes réduction de dimension populaires sont linéaires! # # # # # # "# Trouver la transformation y=f(x) est guidé par la recherche d une fonction objectif à minimiser ou maximiser Suivant le critère choisi, on peut distinguer les méthodes linéaires selon un objectif de: Représentation du signal : le but de la réduction de dimension est de réduire efficacement la dimensionalité de la représentation Classification : le but est d augmenter la séparabilité des classes dans un espace de dimension réduit Parmi les méthodes linéaires, on distinguera: L Analyse en Composantes Principales (PCA) Objectif de représentation du signal L Analyse Discriminate Linéaire (LDA) Objectif de classification x 1 x 2 x D $ &! & # & # & '# & # & "# %& y 1 y 2 y D' $! & # & & = # # & # %& "# w 11 w 12 w 1D w D'1 w D'D! $ # &# &# &# &# %& # "# x 1 x 2 x D $ & & & & & & %&

L ACP : point de vue variance max L ACP (ou PCA) est une transformation qui préserve le plus possible la variance des données initiales La projection de x est z = w T x Trouver w qui maximise Var(z) Var(z) = Var(w T x) = E[(w T x E[w T x]) 2 ]=E[(w T x w T µ) 2 ] = E[(w T x w T µ)(w T x w T µ)] = E[w T (x µ)(x µ) T w] = w T E[(x µ)(x µ) T ]w = w T w avec E[(x µ)(x µ) T ] =

PCA : maximise la variance L ACP Maximise Var(z) s.t. w =1 max w w 1 T 1 Σw 1 α ( T w w 1) qui a un point stationaire si w 1 = αw 1, c-a-d si w 1 est un vecteur propre de La Variance est alors w T w=α La variance est maximisée si α est le vecteur propre de plus grande valeur propre Seconde composante principale : Max Var(z 2 ), s.t., w 2 =1 et orthogonal à w 1 max w 2 w 2 T!w 2 "! w 2 T w 2 "1 ( ) "! ( w T 2 w 1 " 0) w 2 = α w 2 c-a-d, w 2 est un autre vecteur propre de etc. 1 1

ACP : point de vue meilleure reconstruction linéaire Les données initiales sont On désire obtenir On peut représenter x comme une combinaison linéaire de D vecteurs orthogonaux! x i " R D avec i =1,...,n z i! R D' avec D' << D Avec les u d tels que où si et 0 sinon Les coefficients z d sont de la forme Ceci est une rotation de x vers les coordonnées z

ACP : point de vue meilleure reconstruction linéaire Si l on ne retient que D vecteurs de bases u d, on a L erreur d approximation est alors Que l on peut minimiser

ACP : point de vue meilleure reconstruction linéaire Pour trouver les valeurs optimales des b d, on met la dérivée par rapport aux b d à zéro, on obtient avec Ce qui donne, puisque avec la matrice de covariance

ACP : point de vue meilleure reconstruction linéaire Pour minimiser E D, relativement aux u d, on peut montrer ensuite que cela revient à avoir une base de vecteurs qui satisfait C-a-d, ce sont des vecteur propres de la matrice de covariance On peut réécrire ensuite E D par Cette erreur est minimale si l on enlève les plus petites valeurs propres Solution: retenir les vecteur propres de plus grandes valeurs propres de la matrice covariance (i.e., même solution que la maximisation de la variance)

Exemple On varie le nombre de vecteurs propres utilisés pour la reconstruction de l exemple Original D =1 D =10 D =50 D =250

PCA - Résumé 1) Centrer les données à l origine (i.e., enlever la moyenne) 2) Calculer la matrice de covariance 3) Décomposer la matrice de covariance en vecteurs/valeurs propres 4) Retenir uniquement quelques une des premières dimensions D

Interprétation/Propriétés Vecteurs propres Axes principaux de variance maximum Valeurs propres Variance projetée des entrées selon les axes principaux Dimension significative Le nombre de valeurs propres élevées et non négatives Pour Méthode de décomposition Pas de paramètres Non itératif Pas de minima local Contre Limité à des projections linéaires

Linear Discriminant Analysis - LDA LDA cherche à réduire la dimensionnalité en faisant en sorte que les classes soient bien séparées Il faut disposer d une mesure de séparation: on cherche une projection ou les exemples d une même classe ont une projection proche avec les moyennes des projections des classes qui soient éloignées Le Fisher LDA cherche à maximiser la différence entre entre les moyennes projetées normalisée par une mesure de dispersion intra classe (appelée scattering)

Fisher LDA Pour trouver l optimum w*, nous devons exprimer J(w) en fonction de w La dispersion dans l espace initial (within-class scatter) est S w est la matrice de dispersion intra-classe La dispersion de la projection y peut s exprimer en fonction de S w De même pour les moyennes S B est la matrice de dispersion inter-classe On obtient finalement La solution obtenue est alors

Fisher LDA multi-classes Au lieu d une projection 1D y, on cherche (C-1) projections par (C-1) vecteurs de projections arrangés dans une matrice W Within-class scatter: Between-class scatter: Trouver W* qui maximise Obtenu par les plus grands vecteurs propres de S W -1 S B 33

LDA vs PCA

LDA vs PCA

Metric Multidimensional Scaling Étant donné une matrice de distance entre des points de l espace de départ, trouver des vecteurs y tels que y i " y j # $ ij

MDS Le produit scalaire entre deux vecteurs de l espace initial est On cherche à minimiser une erreur afin de préserver les produits scalaires Solution obtenue par décomposition La projection retenue est alors une version tronquée rescalée des vecteurs propres

Problèmes PCA/LDA effectuent une transformation globale sur les données (translation/rotation/rescaling) Ces méthodent supposent que les données vivent dans un sous-espace linéaire Même pour des méthodes métriques comme MDS, cela ne préserve pas forcément bien les distances relativement à la variété sousjacente des données

ISOMAP Idées Une solution est de trouver une transformation qui préserve les distances géodésiques mesurées sur un graphe des données initiales Pour des exemples proches, la distance Euclidienne fournit une bonne approximation de la distance géodésique Pour des exemples éloignés, la distance géodésique peut être approximée par un calcul de plus court chemin Principe Utiliser des distance géodésiques à la place de distances Euclidiennes dans MDS Étant donné une matrice de distance entre des points de l espace de départ, trouver des vecteurs y tels que y i " y j # g ( $ ij ) 3 étapes Trouver les plus proches voisins de chaque exemple Trouver les plus courts chemins Appliquer MDS

Etapes 1-2-3 Etape 1 Déterminer quels exemples de la variété sont voisins à partir d une distance d X (i,j) dans l espace initial Construire un graphe d adjacence (noeud=points, arêtes pour connecter les noeuds) pondéré par d X (i,j) Sélectionner les k plus proches voisins en s assurant que le graphe est connecté Le graphe obtenu est une approximation de la variété sous-jacente Etape 2 Estimer les distances géodésiques d M (i,j) entre toutes les paires d exemples par l algorithme de Dijkstra: D G Etape 3 Trouver la projection qui préserve le mieux les distances géodésiques estimées Effectuer MDS sur la matrice des distances géodésiques D G

Isomap - Algorithme

ISOMAP on Optdigits - 150-100 - 50 0 50 100 150-150 - 100-50 0 50 100 150 Optdigits after Isomap (with neighborhood graph). 0 0 7 4 6 2 5 5 0 8 7 1 9 5 3 0 4 7 8 4 7 8 5 9 1 2 0 6 1 8 7 0 7 6 9 1 9 3 9 4 9 2 1 9 9 6 4 3 2 8 2 7 1 4 6 2 0 4 6 3 7 1 0 2 2 5 2 4 8 1 7 3 0 3 3 7 7 9 1 3 3 4 3 4 2 8 8 9 8 4 7 1 6 9 4 0 1 3 6 2

Examples

Exemples

Isomap - Propriétés ISOMAP est garanti de découvrir la vraie dimensionnalité et géométrie d une certaine classe de variétés Euclidiennes Cette garantie provient du fait que lorsque le nombre d exemples augmente la distance D G mesurée sur le graphe est une bonne estimation de la distance géodésique D M ISOMAP est très sensible aux courts-circuits Ne necéssite qu un seul paramètre : la taille du voisinage

Locally Linear Embedding LLE utilise une stratégie différente d ISOMAP pour trouver la structure globale de la variété sous-jacente LLE exploite des distances mesurées sur des voisinages locaux linéaires Intuition Les exemples sont supposés provenir d un échantillonnage de la variété Si l on dispose de suffisamment de données (i.e., la variété est bien échantillonnée), on peut supposer que chaque exemple et ses voisins vivent sur un patch localement linéaire de la variété Approche LLE résout le problème en deux étapes Une combinaison linéaire approximant chaque exemple de l espace d entrée est calculée Trouver des coordonnées dans un espace réduit qui soient compatibles avec l approximation linéaire

Caracatérisation locale de la variété Le graphe doit être connecté Les voisinages locaux (appelés patchs) doivent refléter localement la structure des données Les poids caractérisent la structure locale de chaque voisinage : calculés par reconstruction linéaire des entrées à partir des voisins

LLE Partie 1 La géométrie locale des patchs est modélisée par des poids qui permettent de reconstruire chaque exemple par une combinaison linéaire de ses voisins Les erreurs de reconstruction sont mesurées par une fonction d erreur Les poids W ij mesurent la contribution du j ème exemple pour la reconstruction du i ème exemple Les poids W ij sont soumis à deux contraintes Chaque exemple est reconstruit à partir de ses voisins Les lignes de la matrice somment à un : Ces contraintes assurent que, pour chaque exemple, les poids sont invariants par translation, rotation, rescaling Les poids peuvent être obtenus par optimisation d un critère de moindres carrés

LLE Partie 2 Les poids de reconstruction reflètent les propriétés de la géométrie locale, ils doivent bien représenter les patchs locaux de la variété On cherche donc une projection Y de dimension d qui minimise la fonction de cout suivante Cette fonction de cout est similaire à la précédente, mais cette fois les poids W ij sont fixés et nous cherchons les Y i Pour que ce problème d optimisation soit bien posé, on ajoute deux contraintes Puisque les Y i peuvent être translatés sans modifier la fonction de cout, les Y i sont centrés Pour éviter des solutions dégénérées, on impose que les vecteurs de projection aient une matrice de covariance unitaire Ce problème de minimisation peut être résolu en retenant les d plus petits vecteurs propres de la matrice (I-W) T (I-W)

LLE - Résumé

Exemples

Exemples

LLE on Optdigits -3.5-3 -2.5-2 -1.5-1 -0.5 0 0.5 1 1.5 1 1 1 1 1 1 00 7 4 6 2 5 5 0 8 7 1 9 5 3 0 74 8 4 7 8 5 9 1 2 0 6 1 8 7 0 7 6 9 1 9 3 9 4 9 2 1 99 6 43 2 8 2 7 14 6 2 0 4 6 3 7 1 0 2 5 2 2 48 1 7 3 0 3 3 77 9 1 3 3 4 3 4 2 8 8 9 8 4 7 1 6 9 4 0 1 3 6 2

Laplacian EigenMaps Idée Projeter des entrées proches vers des projections proches La proximité (ou similarité) est codée par les poids du graphe

LE - Principe Construction du graphe Pondérer le graphe Calculer les projections en imposant que deux exemple x i et x j dans l espace de départ donnent deux exemples y i et y j sont proches dans l espace de projection On cherche à minimiser le critère Ou bien

LE - Détails Nous savons que Cela revient donc à

LE - Résolution Le calcul de la projection se fait par décomposition et obtention des vecteurs propres Le Laplacien sur graphe est utilisé dans le calcul des poids : On retrouve donc la solution obtenue pour les ratio et Normalized Cuts

Comparaisons Voir http://www.math.ucla.edu/~wittman/mani/ pour un code matlab de comparaison

Comparaisons

PCA

LDA

MDS

ISOMAP

LLE

Kernel PCA Nous avons vu que l ACP permet de définir une projection linéaire des données Les données (M exemples) sont centrées On calcule la matrice de covariance Calculer vecteurs et valeurs propres de C : La projection finale est obtenue en retenant uniquement les D plus grands vecteur propres Le Kernel (Nonlinear) PCA consiste à déterminer la projection dans un espace d attributs implicite obtenu par un noyau de Mercer

Kernel PCA Pour définir le Kernel PCA Nous devons tout d abord projeter les données dans un espace de grandes dimensions F Nous devons définir la matrice de covariance dans cet espace Les données sont supposées centrées On calcule ensuite la décomposition de la matrice

Kernel PCA - Solution Comme nous l avons vu avec l ACP, les vecteur propres peuvent s exprimer comme une combinaison linéaire des exemples On multiplie par des deux cotés de Ce qui donne, combiné avec l expression précédente: Et après regroupement des termes:

Kernel PCA - Solution En définissant une matrice K de dimension M x M L expression précédente devient Ceci peut être résolu par Normalisation Pour assurer que les vecteurs propres sont orthogonaux, ils sont rescalés Comme les α sont des vecteurs propres de K, on a

Kernel PCA - Solution Pour trouver la projection d une nouvelle donnée x, on utilisera : Qui exprime une combinaison linéaire des vecteurs propres Ceci est le principe de l extension de Nyström qui permet de déterminer la projection de points qui n étaient pas parmi les exemples (nommé «out of sample extension») Le Kernel PCA généralise toutes les autres méthodes de réduction de dimension avec un noyau particulier

Centrer dans l espace F Nous avons supposé que les données étaient centrées dans l espace F: La matrice de covariance est alors et il faut résoudre En combinant les deux expressions, on obtient La matrice du noyau centrée peut donc être calculée à partir du noyau initial

Centrer dans l espace F Interprétation

Kernel PCA - Exemple Exemple simple avec 3 modes et 20 exemples par mode

Résultat de l ACP

Résultat du Kernel PCA