INF6304 Interfaces Intelligentes



Documents pareils
INF6304 Interfaces Intelligentes

Laboratoire 4 Développement d un système intelligent

Apprentissage Automatique

FIMA, 7 juillet 2005

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Expérience 3 Formats de signalisation binaire

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Cours d analyse numérique SMI-S4

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Raisonnement probabiliste

5. Apprentissage pour le filtrage collaboratif

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Introduction à la théorie des files d'attente. Claude Chaudet

Intégration et probabilités TD1 Espaces mesurés Corrigé

Ingénierie et gestion des connaissances

Optimisation, traitement d image et éclipse de Soleil

Comment rendre un site d e-commerce intelligent

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Baccalauréat ES Amérique du Nord 4 juin 2008

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Cours 7 : Utilisation de modules sous python

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Analyse en Composantes Principales

Tour d horizon de l apprentissage statistique. from Machine Learning to Big Data Analytics

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Le suivi de la qualité. Méthode MSP : généralités

Limites finies en un point

Simulation de variables aléatoires

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Bertrand Cornanguer Sogeti

L analyse de la gestion de la clientèle

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Partie II Cours 3 (suite) : Sécurité de bases de données

Résolution d équations non linéaires

TABLE DES MATIÈRES CHAPITRE I. Les quanta s invitent

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

Sujet : Frais chargés aux détaillants par les émetteurs de cartes de crédit et leurs pratiques

Extraction d informations stratégiques par Analyse en Composantes Principales

La classification automatique de données quantitatives

MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME

Introduction au Data-Mining

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Question 1: Analyse et évaluation des obligations / Gestion de portefeuille

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Agrégation des portefeuilles de contrats d assurance vie

Intégration de la dimension sémantique dans les réseaux sociaux

Correction du baccalauréat ES/L Métropole 20 juin 2014

Bases de données documentaires et distribuées Cours NFE04

4 Exemples de problèmes MapReduce incrémentaux

Le code à barres EAN 13 mes premiers pas...

Cryptographie RSA. Introduction Opérations Attaques. Cryptographie RSA NGUYEN Tuong Lan - LIU Yi 1

Mesures gaussiennes et espaces de Fock

Chapitre 2 Le problème de l unicité des solutions

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Résolution de systèmes linéaires par des méthodes directes

Echantillonnage Non uniforme

Exercice : la frontière des portefeuilles optimaux sans actif certain

Trois méthodes pour la construction de pages WEB personnalisées

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Séries Statistiques Simples

Monitoring d un Datacenter du concept à la réalisation

Principe de symétrisation pour la construction d un test adaptatif

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Techniques de Lyapunov en contrôle quantique pour le couplage dipolaire et polarisabilité

I. Polynômes de Tchebychev

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Laboratoire d Automatique et Productique Université de Batna, Algérie

LOG2420 Analyse et conception d interfaces utilisateur

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Image d un intervalle par une fonction continue

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

MATHEMATIQUES TES Corrigés des devoirs

Feuille d exercices 2 : Espaces probabilisés

Filtrage stochastique non linéaire par la théorie de représentation des martingales

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Bachelor Informatique et Systèmes de Communication

Procédure administrative Vérification des factures et des remboursements

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Équations non linéaires

Représentation géométrique d un nombre complexe

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Lois de probabilité. Anita Burgun

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

Commande Prédictive. J. P. Corriou. LSGC-ENSIC-CNRS, Nancy. corriou@ensic.inpl-nancy.fr

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Intégration et probabilités TD1 Espaces mesurés

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Transcription:

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 1/23 INF6304 Interfaces Intelligentes Systèmes de recommandations 3, Factorisation et réduction de dimensions Michel C. Desmarais Génie informatique et génie logiciel École Polytechnique de Montréal Automne, 2012 (version 28 octobre 2012)

Systèmes de recommandations 3, Factorisation et réduction de dimensions INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 2/23 1 Introduction 2 Décomposition en valeurs singulières 3 Autres factorisation et valeurs manquantes

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 3/23 Factorisation et réduction de dimensions La factorisation permet de représenter une matrice par le produit de deux autres matrices M (m,n) = Q (m,l) P T (n,l) La dimension commune, l, représente les facteurs latents Cette représentation constitue une forme de compression des données Si l égalité tient, au lieu de m n valeurs, on a m l + n l De très nombreuses applications Compression d images, analyse sémantique texte, évaluation cognitive, etc.

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 4/23 2 films, 2 utilisateurs, de 2 dimensions Deux films, deux individus : Princess Orange Rosa R. 2-2 Stanly K. -2 2 L idée est de partir de cette matrice pour dériver les matrices film (item) et individu (utilisateur). À noter que cette matrice est singulière et poserait des problèmes en pratique, mais pasons pour l instant...

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 5/23 2 films, 2 utilisateurs, de 2 dimensions Supposons deux dimensions de fims : 1 2 Humeur : léger sérieux Genre : féminin masculin Film Humeur Genre Matrice films : The Princess Diaries léger (-1) fém. (-1) Orange mécanique sérieux (+1) masc. (+1) Matrice utilisateur : Individu Humeur Genre Rosa Rose -1-1 Stanly Kubrick +1 +1

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 6/23 Films et utilisateurs autour de 2 dimensions

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 7/23 Principes M m n = Q m l P T n l Plusieurs techniques de décomposition : On factorise à partir des vecteurs propres de MM T ce qui entraîne l orthogonalité (analyse en composante principales, PCA) Dans le cas de la technique SVD, on impose aussi la normalité (vecteurs unitaires) La factorisation selon les valeurs non négatives (NMF) apporte des solutions parfois plus naturelles à interpréter Prédictions à partir de la factorisation La factorisation produit une matrice dense, de laquelle des calculs de similarité peuvent être effectués La factorisation repreprésente un modèle et le produit de Q et P constitue une estimation (prédiction), ˆM

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 8/23 Factorisation de matrice pour filtres collaboratifs Supposons la matrice utilisateurs-items M, il s agit alors de la factoriser en deux matrices Q et P : M = QP T Cette approche permet d identifier des facteurs latents qui expliquent le vote Les facteurs se combinent linéairement pour augmenter/diminuer le vote (sommation) Q représente l appartenance des items aux facteurs P représente la préférence des utilisateurs pour les facteurs A donné les meilleurs résultas à Netflix en 2009

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 9/23 Techniques de factorisation SVD Méthode déjà bien connue en recherche d information Décomposition en valeurs positives N exige pas l orthogonalisation de Q i et P u ce qui peut donner des interprétations plus naturelles Solutions multiples Il existe différents algorithmes pour converger vers une solution

Systèmes de recommandations 3, Factorisation et réduction de dimensions INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 10/23 1 Introduction 2 Décomposition en valeurs singulières 3 Autres factorisation et valeurs manquantes

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 11/23 Décomposition en valeurs singulières I M = UΣV T Décomposition en trois matrices : U : matrice orthonormale qui représente les vecteurs propres de MM T V : matrice orthonormale qui représente les vecteurs propres de M T M Σ : matrice diagonale qui représente les valeurs singulières de M (les racines des valeurs propres des vecteurs propres de MM T et M T M.)

1. La communauté de RI y réfère par LIS (Latent Semantic Indexing). INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 12/23 Décomposition en valeurs singulières II Les valeurs singulières de Σ sont ordonnées et indiquent l amplitude relative de chaque vecteur propre. On utilise les n premières valeurs singulières de Σ pour effectuer une réduction de dimension qui peuvent représenter des facteurs latents. C est ce que l on nomme la LSA (Latent Semantic Analysis) 1.

Exemple dans le domaine de domaine de la recherche d information INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 13/23 Le domaine de la recherche d information (RI) partage plusieurs techniques avec les systèmes de recommandations (en fait, ces techniques sont directement utilisables pour les approches contenu) La matrice en RI est plutôt de la forme : termes documents a 11... a 1n..... a m1... a mn

Exemple de contenu (tiré de Landauer et al. 1998) INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 14/23 c1 : Human machine interface for ABC computer applications c2 : A survey of user opinion of computer system response time c3 : The EPS user interface management system c4 : System and human system engineering testing of EPS c5 : Relation of user perceived response time to error measurement m1 : The generation of random, binary, ordered trees m2 : The intersection graph of paths in trees m3 : Graph minors IV : Widths of trees and well-quasi-ordering m4 : Graph minors : A survey

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 15/23 Matrice termes documents c1 c2 c3 c4 c5 m1 m2 m3 m4 human 1 0 0 1 0 0 0 0 0 interface 1 0 1 0 0 0 0 0 0 computer 1 1 0 0 0 0 0 0 0 user 0 1 1 0 1 0 0 0 0 system 0 1 1 2 0 0 0 0 0 response 0 1 0 0 1 0 0 0 0 time 0 1 0 0 1 0 0 0 0 EPS 0 0 1 1 0 0 0 0 0 survey 0 1 0 0 0 0 0 0 1 trees 0 0 0 0 0 1 1 1 0 graph 0 0 0 0 0 0 1 1 1 minors 0 0 0 0 0 0 0 1 1

La réduction de dimensions Les corrélations initiales des paires de termes : human-user : -0,38 human-minors : -0,29 Réduction des dimensions : On ne conserve que les deux premières valeurs singulières (sachant qu il n y a que deux sources de documents). La matrice originale est reproduite avec les dimensions réduites à 2 (toutes les valeurs singulières de la matrice diagonale Σ sont mise à 0). Les corrélations avec la nouvelle matrice sont maintenant : human-user : -0,94 human-minors : -0,83 Ces chiffes sont bien davantage en ligne avec les attentes. INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 16/23

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 17/23 Réduction de dimensions La réduction de dimensions : 1 permet d assigner des valeurs sur une échelle continue là où il n y avait que des valeurs {0,1} ; elle offre donc une solution au problème des matrices creuses ; 2 assigne des valeurs parfois très justes des appartenances des variables aux facteurs latents comme l exemple de Landauer et al. le démontre.

Systèmes de recommandations 3, Factorisation et réduction de dimensions INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 18/23 1 Introduction 2 Décomposition en valeurs singulières 3 Autres factorisation et valeurs manquantes

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 19/23 Factorisation en valeurs non-négatives R u i = W u l H l i Factorisation en deux matrices où l représente les facteurs latents Contrainte de valeurs non-négatives Dans certains contexte, les valeurs négatives ne sont pas naturelles Solutions multiples Recherche par gradient On doit spécifier le nombre de dimensions latentes k

Factorisation excluant les valeurs manquantes et incluant les biais (Koran, Bell et Volinsky, 2009) INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 20/23 R u i = P u l Q l i Pour l ensemble des votes connus, κ, on cherche les valeurs de p et q qui minimisent l équation : (r ui q T i p u ) 2 + λ( q i 2 + p u 2 ) min p,q (u,i) κ où ( q i 2 + p u 2 ) est un facteur de régularisation qui limite les valeurs de p u et q i et que l on contrôle par λ.

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 21/23 Biais Une proportion importante de la variance des votes s explique par : le biais utilisateur : la propention d un individu à des votes faibles ou forts le biais item : la popularité ou l impopularité d un item Il faut donc inclure ces termes dans l équation objective : ˆr ui = µ + b i + b u + q T i p u où b i et b u sont les écarts à la moyenne pour l item i et l utilisateur u respectivement.

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 22/23 Autres facteurs Autres termes qui s ajoutent à l équation objective : Votes implicites (traces utilisateur) Facteurs démographiques Certains termes sont fonction du temps b i (t), b u (t) Un vote peut avoir plus ou moins d importance c ui est alors un facteur multiplicatif de ˆr ui

INF6304 Interfaces Intelligentes Systèmes de recommandations 3,Factorisation et réduction de dimensions 23/23 Impact des facteurs (Koren et al., 2009) 0,951 était la performance du système Netflix initial, et 0,856 est la performance requise pour gagner le prix.