Modélisation des utilisateurs atypiques dans les systèmes de recommandation Directeur de thèse : Anne BOYER Si le directeur de thèse n'apparait pas dans le menu déroulant, vous pouvez indiquer cette information dans la rubrique correspondant Coencadrement : Armelle BRUN Correspondant/Contact : Nom : BOYER Prénom : Anne Mail : anne.boyer@loria.fr armelle.brun@loria.fr Titre en français : Titre en anglais : Mots-clefs : Mots-clefs en anglais : Mise en ligne de l'offre sur le site web : Modélisation des utilisateurs atypiques dans les systèmes de recommandation Atypical user modeling in recommender systems Modélisation utilisateur, modélisation de préférences, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, données aberrantes, anomalies, utilisateurs atypiques. User modeling, preference modeling, recommender systems, data mining, machine learning, learning on sparse data, outliers, anomalies in data, atypical users. Avril 2014 Type de financement : Contrat Doctoral Candidature en ligne du sujet : jusque juin 2014 Année universitaire : 2014-2015 Date de dépôt : Date de début de la thèse : Profil candidat : Octobre 2014 Informatique, Intelligence Artificielle, Sciences cognitives Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences
Thématique : Modélisation utilisateur, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, modélisation de données aberrantes. Contexte : Les systèmes de recommandation visent à améliorer l interaction entre des services en ligne et des utilisateurs. Ils proposent aux utilisateurs des ressources qui correspondant à leur goûts et attentes. Les systèmes de recommandation constituent à eux seuls un domaine de recherche en plein essor. Parmi les approches possibles [1], les approches sociales et notamment le filtrage collaboratif [2] sont les plus étudiées à l heure actuelle. Elles exploitent les préférences et actions passées des utilisateurs, en infèrent des profils utilisateurs et estiment des préférences manquantes des utilisateurs en exploitant notamment des similarités de préférence entre utilisateurs. Une fois ces préférences estimées, elles fournissent des recommandations aux utilisateurs. Ces approches ont largement prouvé leur qualité et efficacité ces dernières années, qui sont notamment favorisées par l exploitation de grosses masses de données et de serveurs performants. Les systèmes de recommandations constituent désormais un outil classiquement utilisé dans le monde industriel, notamment dans le cadre du ecommerce, du tourisme, de l apprentissage en ligne, etc. Certains défis scientifiques restent cependant encore à relever, nous pouvons citer l acceptation du système de recommandation par les utilisateurs (impression d intrusion dans la vie privée), le respect de la vie privée, l amélioration de la qualité des recommandations, l intégration de la diversité dans les recommandations, le passage à l échelle, le démarrage à froid, etc. Objectif : Bien que la qualité des recommandations faite aux utilisateurs soit jugée élevée, elle est cependant inégale selon les utilisateurs. Un sousensemble des utilisateurs (en général de petite taille) se voit proposer des recommandations de qualité médiocre, voire de mauvaise qualité. C est ce sous- ensemble d utilisateurs qui est le cœur d intérêt de cette thèse. Nous faisons l hypothèse que ces utilisateurs n ont pas de préférences similaires ou corrélées à celles des autres, et que les approches sociales de la recommandation échouent donc sur ces profils. Nous qualifions ces utilisateurs d utilisateurs «atypiques». Il est cependant important d offrir un service de qualité à l ensemble des utilisateurs. Cela constitue l objectif de cette thèse. Dans cette thèse nous allons donc nous intéresser à la caractérisation de ces utilisateurs atypiques, à leur modélisation de façon à pouvoir les identifier dans une population d utilisateurs et à la proposition de modèles de recommandation originaux, spécifiquement dédiés aux utilisateurs atypiques, leur garantissant ainsi des recommandations de qualité. Un objectif important est de proposer une approche nouvelle, fort probablement radicalement différente des approches classiques. En effet, ces utilisateurs sont peu nombreux (les approches statistiques devront être exploitées avec précaution), avec des préférences non corrélées aux autres
utilisateurs, voire des préférences sur des ressources complètement différentes des autres utilisateurs. Méthode Dans un premier temps, une étude sur la façon dont l atypisme est considéré et modélisé, dans différents domaines, sera effectuée, notamment en psychologie, philosophie, sociologie, etc. Cette étude permettra d identifier ce qui caractérise les personnes dites atypiques, et d en déduire une typologie de façon à déterminer ultérieurement dans quelles mesures ces caractéristiques se retrouvent et peuvent être exploitées dans le cadre de la modélisation utilisateur et les systèmes de recommandation. Notons que le terme atypique n est peutêtre pas celui qui est utilisé dans d autres domaines. Par exemple, en psychologie on utilise plutôt le terme «déviant». Nous nous intéresserons ensuite à la proposition de mesures d identification automatique des utilisateurs atypiques. Ces mesures exploiteront bien évidemment la typologie définie précédemment. Il est à noter que ces utilisateurs sont en relativement faible nombre, et dans ce cas une approche statistique est à utiliser avec précaution. Il faudra également faire attention à ne pas considérer comme atypiques, des utilisateurs qui sont nouveaux dans le système (problème du démarrage à froid). Dans un second temps, il faudra s intéresser à la proposition de nouvelles méthodes de recommandation, toujours dans le cadre des approches sociales, mais adaptées au cas des utilisateurs atypiques. Les méthodes dans ce cas devront tenir compte du faible nombre d utilisateurs atypiques (faible quantité de données), de leur similarité faible avec les autres utilisateurs voire entre eux, voire incalculable (ils peuvent ne renseigner leurs préférences que sur des ressources sur lesquels les autres utilisateurs n expriment pas leurs préférences), ou encore de l impossibilité de les modéliser (comportement/préférences incohérents). Il est probable que les informations devront être exploitées différemment des approches habituelles. Notamment, la question se pose de savoir s il ne faudrait pas utiliser ce qui diffère entre les utilisateurs, plutôt que d utiliser ce qui les rassemble. Les mesures et modèles proposés s inspireront de travaux menés en modélisation utilisateur, en apprentissage automatique, en fouille de données, systèmes de recommandation, il faudra également s inspirer des travaux menés sur l identification de données aberrantes, etc. Présentation détaillée en français Ces dernières années le nombre de ressources mises à disposition des utilisateurs ne cesse de croître, avec pour conséquence que ceuxcis sont submergés par la quantité de ressources auxquelles ils peuvent accéder. Par conséquent, ils n arrivent pas à accéder aux ressources qui correspondent à leurs attentes. Les systèmes de recommandation, par le biais de recommandations qu ils fournissent aux utilisateurs, visent à résoudre ce problème. Ils modélisent les utilisateurs, les ressources ou encore les relations entre utilisateurs et ressources (consultation, notations, commentaires, etc.). par le biais des similarités ou corrélations entre les profils utilisateurs ou entre les ressources.
Les approches sociales de la recommandation, et notamment le filtrage collaboratif, font l hypothèse que les préférences des utilisateurs sont corrélées et qu un utilisateur aimera une ressource que des utilisateurs avec des gouts similaires ont aimé. Ces approches exploitent donc les similarités de préférences (ou de comportement) entre utilisateurs pour inférer des préférences manquantes. Cette hypothèse a montré sa validité au travers de la qualité des recommandations proposées aux utilisateurs, mais également par la popularité acquise par les approches sociales. Bien que la qualité globale des recommandations soit élevée, il est avéré que certains utilisateurs reçoivent des recommandations de qualité moyenne ou de mauvaise qualité. Nous pensons que cette mauvaise qualité est due au fait que l hypothèse cidessus ne s applique pas à ces utilisateurs, et que donc, soit ils ont peu ou pas d utilisateurs similaires, soit il est impossible d évaluer cette similarité. L état de l art s est relativement peu penché sur les utilisateurs dont le comportement ou les préférences sont différents de celui des autres. [3] propose une mesure de déviance qui s applique à chaque utilisateur et qui permet d identifier les utilisateurs atypiques. Cette mesure quantifie la différence de notes d un utilisateur par rapport aux notes moyennes, pour chaque ressource. Cet article a l originalité de séparer les utilisateurs atypiques des non atypiques et chaque ensemble est traité indépendamment l un de l autre, les déviants sont uniquement comparés aux déviants, et de la même façon pour les nondéviants. [4] définit quant à lui une mesure de singularité, propre à une note donnée par un utilisateur sur une ressource, et qui reflète la cohérence de cette note par rapport à la note donnée à cette ressource par la population entière. Elle est utilisée dans le calcul de la similarité entre deux utilisateurs pour pondérer l importance d une ressource. [5] s intéresse à la prise en compte du bruit dans les notes données par les utilisateurs. Une note est qualifiée de bruit si elle ne suit pas la tendance des notes sur cet item. L article s intéresse à la correction des notes bruitées pour améliorer la qualité de la recommandation. L objectif général de cette thèse est donc d identifier et de modéliser les utilisateurs que l on qualifie d utilisateurs atypiques, mais également de fournir des recommandations de qualité à l ensemble des utilisateurs et donc d améliorer celle des utilisateurs atypiques qui reçoivent habituellement de mauvaises recommandations. Nous faisons l hypothèse que les utilisateurs sont des utilisateurs mal modélisés et qui donc, dans les approches sociales à base de voisinage, sont des utilisateurs avec peu de voisins fortement corrélés. L objectif est de proposer des méthodes de modélisation et de recommandation originales, avec une approche probablement à l opposé des approches classiques. Il faudra notamment se pencher sur la modélisation de la différence et non plus sur la modélisation de ce qui est en commun entre les utilisateurs (ce qui les rassemble). Par ailleurs, les travaux sur les données aberrantes ou le bruit dans les données [5] constituent une base aux travaux qui seront menés. L atypicité n est, à l heure actuelle, que très peu étudiée et qui semble émerger. En effet, les approches classiques, qui visent à fournir des recommandations à la grande majorité semblent avoir atteint leurs limites et une des pistes d amélioration concerne ces utilisateurs atypiques. Les grandes entreprises se contentent, pour le moment, de satisfaire la grande majorité des utilisateurs, en oubliant totalement le sousensemble d utilisateurs insatisfaits.
Avancée scientifique et originalité. L originalité de cette thèse vient du fait qu on se focalise sur un sousensemble précis d utilisateurs. Une autre originalité est la définition d une typologie des utilisateurs atypiques, qui n a jamais été faite dans le domaine, et qui s inspire de domaines connexes. Un troisième point fort et challenge partir de la spécification des utilisateurs atypiques pour anticiper la mauvaise qualité des recommandations, à l inverse de certaines approches qui identifient dans un premier temps les utilisateurs avec une mauvaise qualité de recommandation. En synthèse, les étapes qui constitueront ce travail sont : Proposition d une typologie de l atypicité, selon plusieurs points de vue/domaines, et notamment de celui de la modélisation utilisateurs ; Définition de méthodes d identification d utilisateurs atypiques, en fonction de la typologie proposée cidessus ; Proposition de modèles de recommandation adaptés au cas des utilisateurs atypiques : données en faible quantité, modélisation de la différence, etc. ; Validation des modèles sur des corpus de données utilisés par la communauté internationale du domaine et sur des données réelles. Les données réelles incluront les données d utilisateurs en situation de handicap, qui ont des comportements différents de la population en générale. Nous appuierons cette étude sur des collaborations naissantes avec l INSHEA. Présentation détaillée en anglais These last years, the number of resources that users scan access has highly increased, with the consequence that they are overwhelmed by these resources and have difficulties to access those that correspond to their preferences or expectations. Recommender systems, through recommendations they present to users, aim at solving this problem. They model users, resources or relations between users and resources (consultations, ratings, comments, etc.) by exploiting the similarities or correlations between users of resources. Social approaches, especially collaborative filtering, assume that users preferences are correlated and that a user will like a resource that other users, with similar preferences, have liked. These approaches use users similarity of preferences (or behavior) to infer missing preferences. This assumption has been validated, by studying the quality of the recommendations presented to users and with the popularity acquired by the social approaches. Although the average quality of recommendations is high, some users have low quality recommendations. We think that this low quality is due to the fact that the previous assumption is not true for these users: they have few or no similar users, or it is impossible to compute the similarity. Few works in the state of the art have focused on the study of users with a behavior or preferences different from others. [3] proposes a deviance measure, that is computed on each user, and that allows to identify atypical users. This measure quantifies the difference of the ratings of a user, compared to the average rating for each resource. This work splits atypical users and other users, and considers both sets separately. [4] defines a singularity measure, for each rating (a user and a resource), which represents the coherence of this rating compared to the rating the entire
population assigns to this resource. This measure is used to weight the importance of a resource when computing the similarity between two users. [5] is interested in the noise in the ratings of the users. A rating is considered as a noise if it is not in adequacy with the rating of the entire population on the corresponding resource. This work focuses on the automatic correction of the noisy ratings to increase the quality of the recommendations. The general objective of thesis is to identify and model the users, named atypical users, and to provide them with high quality recommendations. We make the hypothesis that these users are not correctly modeled and in neighbor based approaches, these users have few or no highly correlated neighbors. The objective is to design original modeling methods, as well as recommendation approaches, which will probably be at the complete opposite of traditional approaches. The student will particularly focus on modeling the difference between users (traditional approaches focus on common elements. In addition, works on outliers and noise in data [5] will have to be studied as a basis of this work. The steps that will constitute this work are the following : Design a topology of atypicity, according to various domains, especially in user modeling, Design methods to automatically identify atypical users, according to the previously defined typology Proposition of a recommendation model, dedicated to atypical users :sparse data, modeling difference, etc. Validation of the models on corpus of the international community and on real data. Résultat attendu : Le résultat de cette thèse se présente sous la forme d un modèle de recommandation générique, permettant de fournir des recommandations de qualité, quel que soit le profil de l utilisateur, avec une approche différente en fonction de si l utilisateur est considéré comme atypique ou non. Ce modèle pourra être un modèle hybride. Il sera validée sur des données benchmark de la communauté et des données réelles. Profil du candidat : Il est demandé au candidat un fort attrait pour l'intelligence Artificielle, la modélisation statistique, et d avoir un certain degré d'autonomie. Le candidat devra avoir des un cursus en Sciences Cognitives ou en Informatique. En outre, il devra témoigner d'une première expérience réussie dans le domaine des systèmes de recommandation (idéalement pendant un stage recherche de fin de master). Compétences théoriques requises : Modélisation statistique, Systèmes de recommandation, analyse de données et fouille de données Compétences techniques requises : Java, Mathlab. Références bibliographiques :
[1] G. Adomavicius and A. Tuzhilin, Toward the next generation of recommender systems: A survey of the stateoftheart, IEEE transactions on knowledge and data engineering, vol. 17, no. 6, pp. 734 749, 2005. [2] Breese, J., Heckerman, D., Kadie, C.: Empirical analysis of predictive algorithms for collaborative filtering. In: Proc. of UAI98 (1998) [3] Del Prete, L., Capra, L. : DiffeRS : a Mobile Recommender Service, In : Proc of Eleventh International Conference on Mobile Data Management (MDM), 2010. [4] A collaborative filtering similarity measure based on singularities. Bobadilla, J., Ortega, F., Hernando, A. Journal of Information Processing and Management. Volume 48 Issue 2, March, 2012 Pages 204217 [5] Toledo, R. Y., Lopez, L.M., Mota, Y.C. : Managing Natural Noise in Collaborative Recommender Systems, In : joint IFSA World Congress and NAFIPS Annual Meeting (IFSA/NAFIPS), 2013