recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences



Documents pareils
Exemple PLS avec SAS

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Instructions Mozilla Thunderbird Page 1

Editing and managing Systems engineering processes at Snecma

Forthcoming Database

Bourses d excellence pour les masters orientés vers la recherche

APPENDIX 6 BONUS RING FORMAT

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

: Machines Production a créé dès 1995, le site internet

Industrial Phd Progam

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Algorithmes de recommandation, Cours Master 2, février 2011

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Application Form/ Formulaire de demande

Notice Technique / Technical Manual

Improving the breakdown of the Central Credit Register data by category of enterprises

Face Recognition Performance: Man vs. Machine

VTP. LAN Switching and Wireless Chapitre 4

TRAVAUX DE RECHERCHE DANS LE

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Institut d Acclimatation et de Management interculturels Institute of Intercultural Management and Acclimatisation

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Cell-Based Deformation Monitoring via 3D Point Clouds

Eléments de statistique

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe.

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Nouveautés printemps 2013

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Tier 1 / Tier 2 relations: Are the roles changing?

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

AUDIT COMMITTEE: TERMS OF REFERENCE

BNP Paribas Personal Finance

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Cedric Dumoulin (C) The Java EE 7 Tutorial

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.

FOURTH SESSION : "MRP & CRP"

MASSEY COLLEGE & UNIVERSITY OF TORONTO

Once the installation is complete, you can delete the temporary Zip files..

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

How to Login to Career Page

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

Ingénierie et gestion des connaissances

Bigdata et Web sémantique. les données + l intelligence= la solution

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

MODERN LANGUAGES DEPARTMENT

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Université de XY University of XY. Faculté XY Faculty of XY

Stakeholder Feedback Form January 2013 Recirculation

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

EN UNE PAGE PLAN STRATÉGIQUE

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

COMPTABILITÉ. PCG : provisions pour grosses réparations vs amortissements par composants. Cette étude a pour objet. reflexion. Résumé de l article

Informatique / Computer Science

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Le projet WIKIWATER The WIKIWATER project

QUEL AVENIR POUR LA PHARMACIE HOSPITALIERE EN SUISSE?

Data issues in species monitoring: where are the traps?

Sub-Saharan African G-WADI

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

Logiciel Libre & qualité. Présentation

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Networking Solutions. Worldwide VSAT Maintenance VSAT dans le Monde Entretien. Satellite Communications Les Communications par Satellite

SERVEUR DÉDIÉ DOCUMENTATION

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

The impacts of m-payment on financial services Novembre 2011

Modélisation géostatistique des débits le long des cours d eau.

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

VERS L EXCELLENCE DANS LA FORMATION PROGRAMME D APPUI A LA QUALITE AMELIORATION SUPERIEUR DE LA QUALITE DE L ENSEIGNEMENT TITRE DU PROJET

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

Transcription:

Modélisation des utilisateurs atypiques dans les systèmes de recommandation Directeur de thèse : Anne BOYER Si le directeur de thèse n'apparait pas dans le menu déroulant, vous pouvez indiquer cette information dans la rubrique correspondant Coencadrement : Armelle BRUN Correspondant/Contact : Nom : BOYER Prénom : Anne Mail : anne.boyer@loria.fr armelle.brun@loria.fr Titre en français : Titre en anglais : Mots-clefs : Mots-clefs en anglais : Mise en ligne de l'offre sur le site web : Modélisation des utilisateurs atypiques dans les systèmes de recommandation Atypical user modeling in recommender systems Modélisation utilisateur, modélisation de préférences, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, données aberrantes, anomalies, utilisateurs atypiques. User modeling, preference modeling, recommender systems, data mining, machine learning, learning on sparse data, outliers, anomalies in data, atypical users. Avril 2014 Type de financement : Contrat Doctoral Candidature en ligne du sujet : jusque juin 2014 Année universitaire : 2014-2015 Date de dépôt : Date de début de la thèse : Profil candidat : Octobre 2014 Informatique, Intelligence Artificielle, Sciences cognitives Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

Thématique : Modélisation utilisateur, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, modélisation de données aberrantes. Contexte : Les systèmes de recommandation visent à améliorer l interaction entre des services en ligne et des utilisateurs. Ils proposent aux utilisateurs des ressources qui correspondant à leur goûts et attentes. Les systèmes de recommandation constituent à eux seuls un domaine de recherche en plein essor. Parmi les approches possibles [1], les approches sociales et notamment le filtrage collaboratif [2] sont les plus étudiées à l heure actuelle. Elles exploitent les préférences et actions passées des utilisateurs, en infèrent des profils utilisateurs et estiment des préférences manquantes des utilisateurs en exploitant notamment des similarités de préférence entre utilisateurs. Une fois ces préférences estimées, elles fournissent des recommandations aux utilisateurs. Ces approches ont largement prouvé leur qualité et efficacité ces dernières années, qui sont notamment favorisées par l exploitation de grosses masses de données et de serveurs performants. Les systèmes de recommandations constituent désormais un outil classiquement utilisé dans le monde industriel, notamment dans le cadre du ecommerce, du tourisme, de l apprentissage en ligne, etc. Certains défis scientifiques restent cependant encore à relever, nous pouvons citer l acceptation du système de recommandation par les utilisateurs (impression d intrusion dans la vie privée), le respect de la vie privée, l amélioration de la qualité des recommandations, l intégration de la diversité dans les recommandations, le passage à l échelle, le démarrage à froid, etc. Objectif : Bien que la qualité des recommandations faite aux utilisateurs soit jugée élevée, elle est cependant inégale selon les utilisateurs. Un sousensemble des utilisateurs (en général de petite taille) se voit proposer des recommandations de qualité médiocre, voire de mauvaise qualité. C est ce sous- ensemble d utilisateurs qui est le cœur d intérêt de cette thèse. Nous faisons l hypothèse que ces utilisateurs n ont pas de préférences similaires ou corrélées à celles des autres, et que les approches sociales de la recommandation échouent donc sur ces profils. Nous qualifions ces utilisateurs d utilisateurs «atypiques». Il est cependant important d offrir un service de qualité à l ensemble des utilisateurs. Cela constitue l objectif de cette thèse. Dans cette thèse nous allons donc nous intéresser à la caractérisation de ces utilisateurs atypiques, à leur modélisation de façon à pouvoir les identifier dans une population d utilisateurs et à la proposition de modèles de recommandation originaux, spécifiquement dédiés aux utilisateurs atypiques, leur garantissant ainsi des recommandations de qualité. Un objectif important est de proposer une approche nouvelle, fort probablement radicalement différente des approches classiques. En effet, ces utilisateurs sont peu nombreux (les approches statistiques devront être exploitées avec précaution), avec des préférences non corrélées aux autres

utilisateurs, voire des préférences sur des ressources complètement différentes des autres utilisateurs. Méthode Dans un premier temps, une étude sur la façon dont l atypisme est considéré et modélisé, dans différents domaines, sera effectuée, notamment en psychologie, philosophie, sociologie, etc. Cette étude permettra d identifier ce qui caractérise les personnes dites atypiques, et d en déduire une typologie de façon à déterminer ultérieurement dans quelles mesures ces caractéristiques se retrouvent et peuvent être exploitées dans le cadre de la modélisation utilisateur et les systèmes de recommandation. Notons que le terme atypique n est peutêtre pas celui qui est utilisé dans d autres domaines. Par exemple, en psychologie on utilise plutôt le terme «déviant». Nous nous intéresserons ensuite à la proposition de mesures d identification automatique des utilisateurs atypiques. Ces mesures exploiteront bien évidemment la typologie définie précédemment. Il est à noter que ces utilisateurs sont en relativement faible nombre, et dans ce cas une approche statistique est à utiliser avec précaution. Il faudra également faire attention à ne pas considérer comme atypiques, des utilisateurs qui sont nouveaux dans le système (problème du démarrage à froid). Dans un second temps, il faudra s intéresser à la proposition de nouvelles méthodes de recommandation, toujours dans le cadre des approches sociales, mais adaptées au cas des utilisateurs atypiques. Les méthodes dans ce cas devront tenir compte du faible nombre d utilisateurs atypiques (faible quantité de données), de leur similarité faible avec les autres utilisateurs voire entre eux, voire incalculable (ils peuvent ne renseigner leurs préférences que sur des ressources sur lesquels les autres utilisateurs n expriment pas leurs préférences), ou encore de l impossibilité de les modéliser (comportement/préférences incohérents). Il est probable que les informations devront être exploitées différemment des approches habituelles. Notamment, la question se pose de savoir s il ne faudrait pas utiliser ce qui diffère entre les utilisateurs, plutôt que d utiliser ce qui les rassemble. Les mesures et modèles proposés s inspireront de travaux menés en modélisation utilisateur, en apprentissage automatique, en fouille de données, systèmes de recommandation, il faudra également s inspirer des travaux menés sur l identification de données aberrantes, etc. Présentation détaillée en français Ces dernières années le nombre de ressources mises à disposition des utilisateurs ne cesse de croître, avec pour conséquence que ceuxcis sont submergés par la quantité de ressources auxquelles ils peuvent accéder. Par conséquent, ils n arrivent pas à accéder aux ressources qui correspondent à leurs attentes. Les systèmes de recommandation, par le biais de recommandations qu ils fournissent aux utilisateurs, visent à résoudre ce problème. Ils modélisent les utilisateurs, les ressources ou encore les relations entre utilisateurs et ressources (consultation, notations, commentaires, etc.). par le biais des similarités ou corrélations entre les profils utilisateurs ou entre les ressources.

Les approches sociales de la recommandation, et notamment le filtrage collaboratif, font l hypothèse que les préférences des utilisateurs sont corrélées et qu un utilisateur aimera une ressource que des utilisateurs avec des gouts similaires ont aimé. Ces approches exploitent donc les similarités de préférences (ou de comportement) entre utilisateurs pour inférer des préférences manquantes. Cette hypothèse a montré sa validité au travers de la qualité des recommandations proposées aux utilisateurs, mais également par la popularité acquise par les approches sociales. Bien que la qualité globale des recommandations soit élevée, il est avéré que certains utilisateurs reçoivent des recommandations de qualité moyenne ou de mauvaise qualité. Nous pensons que cette mauvaise qualité est due au fait que l hypothèse cidessus ne s applique pas à ces utilisateurs, et que donc, soit ils ont peu ou pas d utilisateurs similaires, soit il est impossible d évaluer cette similarité. L état de l art s est relativement peu penché sur les utilisateurs dont le comportement ou les préférences sont différents de celui des autres. [3] propose une mesure de déviance qui s applique à chaque utilisateur et qui permet d identifier les utilisateurs atypiques. Cette mesure quantifie la différence de notes d un utilisateur par rapport aux notes moyennes, pour chaque ressource. Cet article a l originalité de séparer les utilisateurs atypiques des non atypiques et chaque ensemble est traité indépendamment l un de l autre, les déviants sont uniquement comparés aux déviants, et de la même façon pour les nondéviants. [4] définit quant à lui une mesure de singularité, propre à une note donnée par un utilisateur sur une ressource, et qui reflète la cohérence de cette note par rapport à la note donnée à cette ressource par la population entière. Elle est utilisée dans le calcul de la similarité entre deux utilisateurs pour pondérer l importance d une ressource. [5] s intéresse à la prise en compte du bruit dans les notes données par les utilisateurs. Une note est qualifiée de bruit si elle ne suit pas la tendance des notes sur cet item. L article s intéresse à la correction des notes bruitées pour améliorer la qualité de la recommandation. L objectif général de cette thèse est donc d identifier et de modéliser les utilisateurs que l on qualifie d utilisateurs atypiques, mais également de fournir des recommandations de qualité à l ensemble des utilisateurs et donc d améliorer celle des utilisateurs atypiques qui reçoivent habituellement de mauvaises recommandations. Nous faisons l hypothèse que les utilisateurs sont des utilisateurs mal modélisés et qui donc, dans les approches sociales à base de voisinage, sont des utilisateurs avec peu de voisins fortement corrélés. L objectif est de proposer des méthodes de modélisation et de recommandation originales, avec une approche probablement à l opposé des approches classiques. Il faudra notamment se pencher sur la modélisation de la différence et non plus sur la modélisation de ce qui est en commun entre les utilisateurs (ce qui les rassemble). Par ailleurs, les travaux sur les données aberrantes ou le bruit dans les données [5] constituent une base aux travaux qui seront menés. L atypicité n est, à l heure actuelle, que très peu étudiée et qui semble émerger. En effet, les approches classiques, qui visent à fournir des recommandations à la grande majorité semblent avoir atteint leurs limites et une des pistes d amélioration concerne ces utilisateurs atypiques. Les grandes entreprises se contentent, pour le moment, de satisfaire la grande majorité des utilisateurs, en oubliant totalement le sousensemble d utilisateurs insatisfaits.

Avancée scientifique et originalité. L originalité de cette thèse vient du fait qu on se focalise sur un sousensemble précis d utilisateurs. Une autre originalité est la définition d une typologie des utilisateurs atypiques, qui n a jamais été faite dans le domaine, et qui s inspire de domaines connexes. Un troisième point fort et challenge partir de la spécification des utilisateurs atypiques pour anticiper la mauvaise qualité des recommandations, à l inverse de certaines approches qui identifient dans un premier temps les utilisateurs avec une mauvaise qualité de recommandation. En synthèse, les étapes qui constitueront ce travail sont : Proposition d une typologie de l atypicité, selon plusieurs points de vue/domaines, et notamment de celui de la modélisation utilisateurs ; Définition de méthodes d identification d utilisateurs atypiques, en fonction de la typologie proposée cidessus ; Proposition de modèles de recommandation adaptés au cas des utilisateurs atypiques : données en faible quantité, modélisation de la différence, etc. ; Validation des modèles sur des corpus de données utilisés par la communauté internationale du domaine et sur des données réelles. Les données réelles incluront les données d utilisateurs en situation de handicap, qui ont des comportements différents de la population en générale. Nous appuierons cette étude sur des collaborations naissantes avec l INSHEA. Présentation détaillée en anglais These last years, the number of resources that users scan access has highly increased, with the consequence that they are overwhelmed by these resources and have difficulties to access those that correspond to their preferences or expectations. Recommender systems, through recommendations they present to users, aim at solving this problem. They model users, resources or relations between users and resources (consultations, ratings, comments, etc.) by exploiting the similarities or correlations between users of resources. Social approaches, especially collaborative filtering, assume that users preferences are correlated and that a user will like a resource that other users, with similar preferences, have liked. These approaches use users similarity of preferences (or behavior) to infer missing preferences. This assumption has been validated, by studying the quality of the recommendations presented to users and with the popularity acquired by the social approaches. Although the average quality of recommendations is high, some users have low quality recommendations. We think that this low quality is due to the fact that the previous assumption is not true for these users: they have few or no similar users, or it is impossible to compute the similarity. Few works in the state of the art have focused on the study of users with a behavior or preferences different from others. [3] proposes a deviance measure, that is computed on each user, and that allows to identify atypical users. This measure quantifies the difference of the ratings of a user, compared to the average rating for each resource. This work splits atypical users and other users, and considers both sets separately. [4] defines a singularity measure, for each rating (a user and a resource), which represents the coherence of this rating compared to the rating the entire

population assigns to this resource. This measure is used to weight the importance of a resource when computing the similarity between two users. [5] is interested in the noise in the ratings of the users. A rating is considered as a noise if it is not in adequacy with the rating of the entire population on the corresponding resource. This work focuses on the automatic correction of the noisy ratings to increase the quality of the recommendations. The general objective of thesis is to identify and model the users, named atypical users, and to provide them with high quality recommendations. We make the hypothesis that these users are not correctly modeled and in neighbor based approaches, these users have few or no highly correlated neighbors. The objective is to design original modeling methods, as well as recommendation approaches, which will probably be at the complete opposite of traditional approaches. The student will particularly focus on modeling the difference between users (traditional approaches focus on common elements. In addition, works on outliers and noise in data [5] will have to be studied as a basis of this work. The steps that will constitute this work are the following : Design a topology of atypicity, according to various domains, especially in user modeling, Design methods to automatically identify atypical users, according to the previously defined typology Proposition of a recommendation model, dedicated to atypical users :sparse data, modeling difference, etc. Validation of the models on corpus of the international community and on real data. Résultat attendu : Le résultat de cette thèse se présente sous la forme d un modèle de recommandation générique, permettant de fournir des recommandations de qualité, quel que soit le profil de l utilisateur, avec une approche différente en fonction de si l utilisateur est considéré comme atypique ou non. Ce modèle pourra être un modèle hybride. Il sera validée sur des données benchmark de la communauté et des données réelles. Profil du candidat : Il est demandé au candidat un fort attrait pour l'intelligence Artificielle, la modélisation statistique, et d avoir un certain degré d'autonomie. Le candidat devra avoir des un cursus en Sciences Cognitives ou en Informatique. En outre, il devra témoigner d'une première expérience réussie dans le domaine des systèmes de recommandation (idéalement pendant un stage recherche de fin de master). Compétences théoriques requises : Modélisation statistique, Systèmes de recommandation, analyse de données et fouille de données Compétences techniques requises : Java, Mathlab. Références bibliographiques :

[1] G. Adomavicius and A. Tuzhilin, Toward the next generation of recommender systems: A survey of the stateoftheart, IEEE transactions on knowledge and data engineering, vol. 17, no. 6, pp. 734 749, 2005. [2] Breese, J., Heckerman, D., Kadie, C.: Empirical analysis of predictive algorithms for collaborative filtering. In: Proc. of UAI98 (1998) [3] Del Prete, L., Capra, L. : DiffeRS : a Mobile Recommender Service, In : Proc of Eleventh International Conference on Mobile Data Management (MDM), 2010. [4] A collaborative filtering similarity measure based on singularities. Bobadilla, J., Ortega, F., Hernando, A. Journal of Information Processing and Management. Volume 48 Issue 2, March, 2012 Pages 204217 [5] Toledo, R. Y., Lopez, L.M., Mota, Y.C. : Managing Natural Noise in Collaborative Recommender Systems, In : joint IFSA World Congress and NAFIPS Annual Meeting (IFSA/NAFIPS), 2013