Multimedia IR Modelling Group Accès personnalisé à l information (partie 1 : Introduction) Nathalie Denos Laboratoire d Informatique de Grenoble Equipe MRIM Projet Web Intelligence Réunion «Web et contexte» Lyon, 26 mars 2009 1
Multimedia IR Modelling Group Personnaliser? 2
Pourquoi personnaliser? Aujourd hui il est important d avoir la bonne information au bon moment dès qu elle est disponible Mais c est de plus en plus difficile car la quantité d information s accroît sur le Web dans les bibliothèques numériques Essor des domaines modélisation de l utilisateur (user modeling) accès personnalisé à l information 3
Comment personnaliser? grâce à des outils de modélisation de l utilisateur capables de représenter des besoins d informations spécifiques à l utilisateur les outils d accès à l information pourront éliminer l information non pertinente ordonner l information de la façon la plus adéquate personnaliser la présentation de l information adpater au mieux l interaction homme-machine 4
Activités sujettes à personnalisation recherche d information classique filtrage d information recommandation navigation présentation visualisation 5
Personnalisé? Q Q Recherche d information pertinence degré de pertinence Systèmes de recommandation dynamique de la pertinence Q 6
Communautés de recherche concernées modélisation de l utilisateur (user modeling) apprentissage automatique (machine learning) hypermédia adaptatif (adaptive hypermedia) bibliothèques numériques (digital libraries) Web sémantique interaction homme-machine visualisation de l information recherche d information systèmes de recommandation 7
Conférences spécifiques User Modelling Adaptive Hypermedia UM + AH = UMAP 2009 Recommender Systems Repères Revues et livres de référence User Modeling and User-Adapted Interaction, Éditeur Springer Netherlands The Adaptive Web, Lecture Notes in Computer Science Vol. 4321, Brusilovsky, Peter; Kobsa, Alfred; Nejdl, Wolfgang (Eds.), Springer Berlin / Heidelberg, 2007 8
Références Articles User Profiles for Personalized Information Acces, in The Adaptive Web, Lecture Notes in Computer Science Vol. 4321, Brusilovsky, Peter; Kobsa, Alfred; Nejdl, Wolfgang (Eds.), Springer Berlin / Heidelberg, 54-89, 2007 Burke, R. Hybrid Recommender Systems: Survey and Experiments, in User Modeling and User-Adapted Interaction 12, 4 (Nov. 2002), 331-370, 2002. P. Brusilovsky, C. Callaway, A. Nürnberger (Eds.), Proc. of the Workshop on New Technologies for Personalized Information Access (PIA 2005), part of the 10th Int. Conf. on User Modeling (UM'05), Edinburgh, UK, 2005 Crédits pour diapos et schémas Jaime Teevan. Personalization and Search. University of California, Berkeley, CA, November 2007 Jaime Teevan. Supporting Finding and Re-Finding Through Personalization. Doctoral thesis, Massachusetts Institute of Technology, February 2007 Anand Rajaraman and Jeffrey D. Ullman. Course CS 345 on Data Mining, Stanford University, California, Autumn 2006. 9
Questions posées Mesurer la valeur ajoutée de la personnalisation La notion de pertinence varie-t-elle d une personne à l autre? Modéliser l utilisateur Quelles sont ses caractéristiques? Quels sont ses centres d intérêt? Calculer la pertinence utilisateur Comment utiliser le modèle pour mesurer la pertinence? Autres façon de personnaliser l accès à l information Quels autres aspects peut-on personnaliser? 10
Plan de la présentation Introduction Personnaliser Pourquoi, comment Partie 1 Aujourd hui, quelques exemples Valeur ajoutée de la personnalisation Exemple en RI sur le Web Problématiques et approches Première formalisation Approches RI Approches Filtrage / Recommandation Zoom sur Systèmes de recommandation (introduction) 11
Multimedia IR Modelling Group Aujourd hui RI sur le Web 12
Diversité des usages sur le Web Une interface pour des besoins très différents Requêtes traditionnelles, cartes, conversion de monnaie, Contextualiser Exemple: requête géographique dont les résultats dépendent de l adresse IP Personnaliser Exemple: requête géographique dont les résultats dépendent du profil personnel 13
Répondre au besoin caché derrière la requête Détermination de la langue de la requête Ne pas renvoyer des résultats en japonais à une requête en français Utiliser le contexte de l utilisateur Aujourd hui essentiellement le contexte géographique Corriger la requête / Suggérer des alternatives (expansion) Correction de l orthographe Autres requêtes que vous voudrez peut-être essayer 14
Répondre au besoin caché derrière la requête Deviner quel type d information l utilisateur cherche (raccourcis) Page Web, Carte, Cours d une monnaie, Exemples Carte : grenoble campus Calcul : 5+4 Infos sur un vol : Air France 454 Cours de la bourse : nasdaq Conversion d unité : 1 kg en livres Conversion de monnaie : 1 euro en dollars Stars / célébrités : Lorie Adresse d un professionnel : dentiste Grenoble Téléphone d un collègue : téléphone Joseph Martin Paris 15
Répondre au besoin caché derrière la requête http://www.google.com http://fr.yahoo.com/ http://www.teoma.com/ 16
Répondre au besoin caché derrière la requête 17
Préférences 18
On ratisse large Aujourd hui en proposant des options Personnalisation choix d attributs Filtrage «adulte» 19
Multimedia IR Modelling Group Aujourd hui Systèmes de recommandation 20
Souscrire à des flux 21
Systèmes de recommandation Personnalisé? http://www.amazon.fr/ 22
Système de recommandation http://www.amazon.fr/ (connecté) 23
Système de recommandation Personnalisé http://movielens.umn.edu 24
Système de recommandation critères de recommandation popularité de l item ex : 22 évaluations positives sur 27, 5777 achats, proximité de l item avec d autres items déjà évalués par l utilisateur ex : autres livres de Benaquista ex : autres livres parlant de la musique africaine bonne évaluation de l item par d autres utilisateurs proches = filtrage collaboratif ex : Nathalie aime en général les même livres que Laurent lui recommander les livres achetés par Laurent 25
Plan de la présentation Introduction Personnaliser Pourquoi, comment Aujourd hui, quelques exemples Valeur ajoutée de la personnalisation Exemple en RI sur le Web Problématiques et approches Première formalisation Approches RI Approches Filtrage / Recommandation Zoom sur Systèmes de recommandation (introduction) 26
Multimedia IR Modelling Group Valeur ajoutée de la personnalisation 27
Quelle est la valeur ajoutée de la personnalisation? Jaime Teevan, Susan Dumais, and Eric Horvitz Beyond the Commons: Investigating the Value of Personalizing Web Search in PIA 2005 pp. 84-92 On s intéresse aux résultats, à la méthodologie >>> Cela traite de la RECHERCHE <<< Les personnes veulent-elles des résultats différents pour une même requête? Quelle amélioration peut-on obtenir par rapport à un moteur de recherche générique? Dans quelle mesure la personnalisation apporte-telle une aide? 28
Recherche d information > Requête Contexte de l utilisateur Requête Liste ordonnée Contexte d utilisation, tâche Contexte du domaine 29
Mesurer la valeur de la personnalisation Focus sur la recherche sur le Web Etude de la pertinence utilisateur Ordre et note Même requête, notes différentes Les moteurs de recherche sur le Web sont faits pour la masse Grande marge de progression! > Implications pour la recherche personnalisée 30
Etude de la pertinence utilisateur 15 participants Employés chez Microsoft Managers, équipe de support, programmeurs, etc. Evaluer 50 résultats d une requête Très pertinent Pertinent Non pertinent En se basant sur la préférence personnelle Les participants fournissent aussi une description longue de leur but (intention) ~10 requêtes par personne 31
Etude de la pertinence utilisateur Sélection de requête Requêtes précédemment soumises Requêtes choisies parmi 10 requêtes présélectionnées 32
Corrélation entre les rangs et les notes moyenne Correlation( rank, relevance ) = -0.66 > corrélé pour les rangs 21 à 50 Correlation( rank, relevance ) = -0.07 > non corrélé > l ordre des résultats peut être amélioré 33
Les résultats pertinents sont classés loin encore beaucoup de résultats pertinents aux rangs 11 à 50 les sujets ne sont pas d accord 34
Analyse variation dans les notes car buts et intentions différents même avec des buts très similaires, variation dans les notes, qui suggère les intentions ne sont pas décrites au niveau de détail requis pour distinguer les différents buts 35
Mêmes résultats, notes différentes Fiabilité inter-sujet = 56% IRR = inter-rater reliability Différente d études précédentes Belkin: 94% dans TREC Eastman: 85% sur le Web On a demandé aux sujets d émettre des jugements de pertinence personnels plutôt que des jugements de correspondance thématique générale Certaines requêtes sont plus corrélées que d autres 36
Même requête, sens/intentions différentes Requête : cancer Sens différents Informations sur le signe astrologique du cancer Informations sur les traitements du cancer Intentions différentes Y a-t-il de nouveaux tests pour détecter le cancer? Informations sur les traitements du cancer 37
Même intention, notes différentes Requête : Microsoft Mêmes intentions Informations sur Microsoft, l entreprise Choses liées à la société Microsoft Informations sur Microsoft Corp 31 résultats sur 50 ont été notés pertinent ou très pertinent Les trois sujets étaient d acord seulement pour www.microsoft.com Seulement 6 résultats sur 31 ont comptabilisé plus d un accord Fiabilité inter-sujet : 62% 38
Moteurs de recherche pour la masse 39
Définir le meilleur ordre pour les utilisateurs? prendre le meilleur rang basé sur les jugements de pertinence le comparer au rang affecté à l origine par le moteur avec cette mesure de qualité d un ordre Discounted Cumulative Gain (DCG) pas normalisé i = rang ; G(i) = 1 si Pertinent, 2 si Très pertinent 40
Proximité entre le meilleur ordre et l ordre original Distance Kendall-Tau normalisée pour les listes partiellement ordonnées nombre de désaccords 2 à 2 normalisé par le nombre maximum de désaccords possibles K(L1,L2) = {i,j} P K i,j (L1,L2) P = les paires (non ordonnées) d éléments distincts dans L1 et L2 K i,j (L1,L2) = 0 si i et j sont dans le même ordre K i,j (L1,L2) = 1 si i et j sont dans l ordre inverse 41
Proximité entre le meilleur ordre et Résultats l ordre original K(original, meilleur pour le groupe) = 0.440 < moy (K(original, meilleur pour l individu) = 0.469 > Les ordres originaux semblent mieux satisfaire le groupe que l individu De combien la personnalisation peut-elle améliorer l ordre original? 42
Grande marge de progression Tous >> Le groupe >> L individu Axe des Y = DCG de l ordre idéal pour un individu I (pris au hasard) / DCG du meilleur ordre pour le groupe de X sujets incluant I 43
Comment combler le fossé Aider l utilisateur à mieux spécifier son but requêtes plus longues profil explicite Interagir avec l utilisateur suggestion de requêtes retour de pertinence (relevance feedback) méta-données Inférer le but de la recherche automatiquement grâce aux requêtes précédentes grâce à un modèle plus riche de l utilisateur (contenu, usage) Et ré-ordonner les résultats! > Minimiser l effort en amont pour l utilisateur (ex : pas de profil explicite) > Maximiser le contrôle de l utilisateur 44
Plan de la présentation Introduction Personnaliser Pourquoi, comment Aujourd hui, quelques exemples Valeur ajoutée de la personnalisation Exemple en RI sur le Web Problématiques et approches Première formalisation Approches RI Approches Filtrage / Recommandation Zoom sur Systèmes de recommandation (introduction) 45
Multimedia IR Modelling Group Conclusion 46
Conclusion / enjeux économique / e-commerce proposer des choses à acheter précision honnêteté? attaques? confiance dans le système, explications, transparence, contrôle limiter l effort de l utilisateur? le service personnalisé bien compris a un prix pour l utilisateur diversité rendre accessible plus d informations, les perles rares? seulement au prix d un rapport maîtrisé précision / nouveauté / diversité confidentialité danger à maîtriser je dis tout partout pour être mieux servi sécurisation, intégration des profils 47