Cours IFT6266, Apprentissage Non-Supervisé de Variétés



Documents pareils
Chapitre 5 : Flot maximal dans un graphe

1 Complément sur la projection du nuage des individus

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La classification automatique de données quantitatives

Introduction au Data-Mining

Introduction au Data-Mining

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction à l approche bootstrap

Big Data et Graphes : Quelques pistes de recherche

Analyse en Composantes Principales

Big Data et Graphes : Quelques pistes de recherche

Exercice : la frontière des portefeuilles optimaux sans actif certain

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Plus courts chemins, programmation dynamique

Gestion des Clés Publiques (PKI)

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Apprentissage Automatique

I. Polynômes de Tchebychev

Programmation linéaire

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Classification non supervisée

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Cours d analyse numérique SMI-S4

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Programmes des classes préparatoires aux Grandes Ecoles

Apprentissage non paramétrique en régression

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Cours de Mécanique du point matériel

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Correction du baccalauréat ES/L Métropole 20 juin 2014

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

INF6304 Interfaces Intelligentes

Algorithmes d'apprentissage

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Quantification Scalaire et Prédictive

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Partie 1. La structure des réseaux sociaux

Cours de méthodes de scoring

Résolution d équations non linéaires


Optimisation, traitement d image et éclipse de Soleil

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Pourquoi l apprentissage?

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Cours de Master Recherche

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

3. Conditionnement P (B)

3 Approximation de solutions d équations

Calcul fonctionnel holomorphe dans les algèbres de Banach

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Texte Agrégation limitée par diffusion interne

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Annexe 6. Notions d ordonnancement.

Cours d Analyse. Fonctions de plusieurs variables

Modélisation géostatistique des débits le long des cours d eau.

IFT3245. Simulation et modèles

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Fonctions de plusieurs variables

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Mesures gaussiennes et espaces de Fock

Arbres binaires de décision

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Intégration de la dimension sémantique dans les réseaux sociaux

Enjeux mathématiques et Statistiques du Big Data

Approximations variationelles des EDP Notes du Cours de M2

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Une introduction aux codes correcteurs quantiques

Chapitre 3 : Repères et positionnement 3D

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

MAP 553 Apprentissage statistique

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

FIMA, 7 juillet 2005

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Le modèle de Black et Scholes

Brève introduction à la fouille de grandes bases de données océaniques

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Les algorithmes de fouille de données

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Réglage de la largeur d'une fenêtre de Parzen dans le cadre d'un apprentissage actif : une évaluation

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Extraction d informations stratégiques par Analyse en Composantes Principales

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Cours d introduction à la théorie de la détection

Analyse Combinatoire

Probabilités sur un univers fini

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Transcription:

Cours IFT6266, Apprentissage Non-Supervisé de Variétés L Apprentissage Non-Supervisé L apprentissage non-supervisé vise à caractériser la distribution des données, et les relations entre les variables, sans discriminer entre les variables observées et les variables à prédire. Les formes principales d apprentissage non-supervisé sont les suivantes: L estimation de fonction de densité ou de fonction de probabilité. C est la forme la plus générale d apprentissage non-supervisé. On a un critère clair, la log-vraisemblance (mais certains remettent cela en question). On apprend explicitement la fonction p(x). La découverte de classes naturelles, ou clustering (e.g., l algorithme K-moyennes), qui cherche à découvrir les modes principaux de la distribution, les prototypes, les catégories principales, etc... Cela donne une forme de réduction de dimensionalité qui associe un entier à chaque exemple. L apprentissage de variétés de faible dimension, c est à dire de surfaces (planes ou non-linéaires) près desquelles se retrouvent la majorité des données, en haute dimension. On obtient ainsi une représentation de faible dimension des données, ce qui peut être une étape importante pour visualiser les données et/ou comme prétraitement avant l apprentissage supervisé. Très utile en finance pour réduire la dimensionalité et éviter l overfitting. La classification non-supervisée Il s agit de découvrir les modes principaux (classes) de la distribution. Approche classique: une classe est caractérisée par son centre (un prototype). Beaucoup de critères et d algorithmes ont été proposés. Critère le plus commun: erreur de reconstruction (reconstruire l entrée à partir de sa classe coûte la distance entre l entrée et le prototype central de la classe): C = n i=1 min j x i µ j 2 Algorithme des k-moyennes (K-means) Données = D = {x 1,..., x n } hyper-paramètre = k = nb classes paramètres appris = µ i, i = 1 à k = centres des classes.

1. Initialiser les µ en choisissant µ i = x j au hasard dans D. 2. Définir s i = argmin j x i µ j 2 3. Itérer jusqu à ce que l erreur de reconstruction ne baisse plus. (a) Pour j = 1 à k, µ j = i x i1 si =j = la moyenne des exemples associés au i 1 s i =j prototype j L algorithme converge vite mais est sensible aux minima locaux. Version plus robuste: Hierarchical Clustering 1. Trouver d abord un classification en 2 classes. 2. Partitionner D en deux sous-ensembles D 1 et D 2 associés à ces deux classes. 3. Récursivement partitionner chacun... 4. Critère d arrêt nécessaire: quand le gain apporté par la division d une classe en deux est inférieur à un seuil. L Analyse en Composantes Principales (PCA) On cherche une variété affine qui passe le plus près possible des données x 1,..., x n. On l obtient avec l algorithme suivant: i x i des données: x i = x i x. Soustraire la moyenne x = 1 n Calculer la matrice de covariance empirique des données: C = 1 n 1 Calculer les k vecteurs propres principaux v j de C = n j=1 λ j v j v j. i x i x i. La i-ème coordonnée réduite de x est simplement x.v i (ou bien, pour obtenir des coordonnées de variance unitaire, x.v i λi ). Les points sur la variété affine satisfont l équation ˆx = k i=1 α i v i où α i (i = 1 à k) représentent un nouveau système de coordonnées. Par l orthogonalité des v i, on peut obtenir ces coordonnées simplement en projetant un exemple x sur l affine, donc sur les k vecteurs propres principaux: α i = x.v i. On peut vérifier aisément que (x ˆx) est orthogonal à ˆx, i.e. (x ˆx).ˆx = (x i v i v i x) ( j v j v j x) = x ( j v j v j )x i,j x v i v i v jv j x = x ( j v j v j )x x ( j v j v j )x = 0 en utilisant l orthonormalité des vecteurs propres, v i.v j = 1 i=j.

Notons que les coordonnées ˆx i de ˆx tel que défini ci-haut ont comme variance λ i. Souvent on veut une représentation des données dont la distribution est approximativement normale(0,1) dans toutes les directions ( sphériser la distribution). Dans ce cas on utilise les projections normalisées, dont les coordonnées sont λi x.v i. Voir feuillet pca.pdf sur la page du cours. Le Multi-Dimensional Scaling (MDS) Parfois on a pas les coordonnées des exemples, mais seulement les distances (ou autre mesure de similarité) entre chaque paire d exemples. Le MDS classique trouve une représentation des exemples qui correspond exactement à la PCA, mais en partant de ces distances D ij. L algorithme est le suivant: Moyennes par rangées: µ i = 1 n j D ij. Double centrage (distance vers produit scalaire): P ij = 1(D 2 ij µ i µ j + i µ i ) 1 n Calcul des vecteurs propres v j et valeurs propres λ j principales de la matrice P (avec λ 2 j plus grand). La i-ème coordonnée réduite de l example j est λ i v ji. Notez bien: seuls les exemples d apprentissage recoivent une coordonnée réduite. On peut généraliser le MDS pour permettre des variétés non-linéaires mais on obtient une fonction de coût non-convexe qui peut être difficile à optimiser. Spectral Clustering C est un algorithme de clustering qui consiste en deux étapes: d abord la transformation des données en coordonnées réduites (correspondant à des variétés nonlinéaires), suivi d une étape classique de clustering (comme l algorithme k-moyennes). Algorithme: Appliquer un noyau K(x i, x j ) à chaque paire d exemples (x i, x j ). Normaliser le noyau: K ij = K(x i,x j ) µi µ j où µ i = 1 n ni=1 K(x i, x j ) est la moyenne par rangée. Calculer les vecteurs propres principaux v j de la matrice K. Obtenir les coordonnées de norme 1 pour chaque exemple i: (v 1i, v 2i,..., v ki )/ j v 2 ji.

Appliquer un algorithme de clustering classique (k-moyennes) sur les exemples dans ce nouveau système de coordonnées. Local Linear Embedding (LLE) C est une méthode pour découvrir une variété non-linéaire basée sur l approximation dans un espace de faible dimension des relations géométriques locales dans chaque régions délimitée par les k plus proches voisins d un exemple. Algorithme: Trouver les m plus proches voisins x j de chaque example x i. Trouver pour chaque exemple i les poids w ij sur les voisins j qui minimisent l erreur de régression (x i j w ij x j ) 2, avec la contrainte j w ij = 1. On prend w ij = 0 si j n est pas un voisin de i. Transformer la matrice sparse de poids W en M = (I W ) (I W ) symmétrique. Calculer les k vecteurs propres v j de plus petite valeur propre (excluant la plus petite, qui est 0), ce qui donne les coordonnées réduites des exemples d apprentissage, (v 1i, v 2i,..., v ki ). Notez que les vecteurs propres sont les coordonnées réduites y i pour chaque exemple x i qui minimisent l erreur y i i j w ij y j 2 sous la contrainte que i yij 2 = 1 (normalisation des coordonnées, sinon la solution est y i = 0) et i y ij y ik = 1 j=k (sinon il y a une infinité de solutions correspondant à des rotations des coordonnées). On cherche donc à reproduire la structure géométrique locale, mais avec un système de coordonnées de faible dimension.

ISOMAP Comme LLE, cet algorithme se base sur les relations linéaires locales entre voisins pour capturer la structure de la variété, mais il a aussi une composante globale, en essayant de preserver les distances le long de la variété. Pour cela on essaie d approximer la distance géodésique sur la variété par la distance minimale dans un graphe dont les noeuds sont les exemples et les arcs seulement entre voisins sont associées aux distances locales. L algorithme est le suivant: Calculer les m plus proches voisins de chaque exemple, avec les distances d(x i, x j ) correspondantes, pour peupler le graphe. Calculer la longueur D(x i, x j ) du chemin le plus court dans le graphe entre chaque paire d exemples: D(x i, x j ) = min p k d(p k, p k+1 ) où p est un chemin (p 1, p 2,..p l ) entre x i et x j dans le graphe (p 1 = x i, p l = x j ). Appliquer l algorithme MDS sur la matrice des distances géodésiques, D ij = D(x i, x j ), ce qui donne les coordonnées réduites pour les exemples d apprentissage. Kernel PCA On peut généraliser l algorithme de la PCA avec le truc du noyau. La matrice de covariance C dans l espace des φ(x) (qui peut maintenant être de dimension infinie) est C = 1 ni=1 (φ(x n i ) µ)(φ(x i ) µ) avec µ = 1 n i φ(x i ). Les vecteurs propres u j de cette matrice sont liés aux vecteur propres v j de la matrice de Gram K: K ij = K(x i, x j ) K i K j + K et Ki = 1 n j K(x i, x j ), K = 1 K n i i. On obtient la projection de φ(x) sur le j-eme vecteur principal de C (donc la j-ème coordonnée d un exemple quelquonque x) avec u j.φ(x) = 1 v ji K(x, x i ) λ j où λ j est la j-ème valeur propre de la matrice de Gram K et v ji le i-ème élément du j-ème vecteur propre. i REFERENCES: pour les articles plus détaillés voir la page du cours pour le cours d aujourd hui, ainsi que les références des articles suivants, disponibles sur la page du LISA (http://www.iro.umontreal.ca/ lisa): Y. Bengio, J-F. Paiement, and P. Vincent. Out-of-Sample Extensions for LLE, Isomap, MDS, Eigenmaps, and Spectral Clustering. Technical Report 1238, Département d informatique et recherche opérationnelle, Université de Montréal, 2003.

Y. Bengio, P. Vincent, J-F. Paiement, O. Delalleau, M. Ouimet, and N. Le Roux. Spectral Clustering and Kernel PCA are Learning Eigenfunctions. Technical Report 1239, Département d informatique et recherche opérationnelle, Université de Montréal, 2003.