Un modèle stochastique pour les systèmes de recommandation

Documents pareils
GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Mesure avec une règle

Remboursement d un emprunt par annuités constantes

Stéganographie Adaptative par Oracle (ASO)

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

TD 1. Statistiques à une variable.

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Calcul de tableaux d amortissement

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

STATISTIQUE AVEC EXCEL

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

COMPARAISON DE MÉTHODES POUR LA CORRECTION

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Système solaire combiné Estimation des besoins énergétiques

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Les jeunes économistes

Paquets. Paquets nationaux 1. Paquets internationaux 11

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Exercices d Électrocinétique

Dirigeant de SAS : Laisser le choix du statut social

1. Les enjeux de la prévision du risque de défaut de paiement

Editions ENI. Project Collection Référence Bureautique. Extrait

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

hal , version 1-14 Aug 2009

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

INTERNET. Initiation à

Montage émetteur commun

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Analyse des Performances et Modélisation d un Serveur Web

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Séparation de Sources par lissage cepstral des masques binaires

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Projet de fin d études

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Professionnel de santé équipé de Médiclick!

Terminal numérique TM 13 raccordé aux installations Integral 33

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Principe de symétrisation pour la construction d un test adaptatif

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Prêt de groupe et sanction sociale Group lending and social fine

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Analyse de sensibilité des modèles de simulation. Samuel Buis UMR 1114 EMMAH Avignon

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

THESE. Khalid LEKOUCH

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Version provisoire Ne pas citer sans l accord des auteurs

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Corrigé du problème de Mathématiques générales Partie I

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

Prise en compte des politiques de transport dans le choix des fournisseurs

statique J. Bertrand To cite this version: HAL Id: jpa

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

AGROBASE : un système de gestion de données expérimentales

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Interface OneNote 2013

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

RAPID Prenez le contrôle sur vos données

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

MINISTERE DE L ECONOMIE ET DES FINANCES

Dynamique du point matériel

Pratique de la statistique avec SPSS

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Page 5 TABLE DES MATIÈRES

Evaluation de performances d'ethernet commuté pour des applications temps réel

TABLEAU DE BORD DE L ÉVOLUTION DES EFFECTIFS D ÉLÈVES DE L ENSEIGNEMENT PRIMAIRE PUBLIC À UN NIVEAU LOCAL. Choisir une commune

Calculs des convertisseurs en l'electronique de Puissance

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Étranglement du crédit, prêts bancaires et politique monétaire : un modèle d intermédiation financière à projets hétérogènes

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Transcription:

Un modèle stochastque pour les systèmes de recommandaton Gérard Bau, Benoît Cadre, Laurent Rouvère To cte ths verson: Gérard Bau, Benoît Cadre, Laurent Rouvère. Un modèle stochastque pour les systèmes de recommandaton. 41èmes Journées de Statstque, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. <nra-00386731> HAL Id: nra-00386731 https://hal.nra.fr/nra-00386731 Submtted on 22 May 2009 HAL s a mult-dscplnary open access archve for the depost and dssemnaton of scentfc research documents, whether they are publshed or not. The documents may come from teachng and research nsttutons n France or abroad, or from publc or prvate research centers. L archve ouverte plurdscplnare HAL, est destnée au dépôt et à la dffuson de documents scentfques de nveau recherche, publés ou non, émanant des établssements d ensegnement et de recherche franças ou étrangers, des laboratores publcs ou prvés.

Un modèle stochastque pour les systèmes de recommandaton Gérard BIAU a, Benoît CADRE b c,1 et Laurent ROUVIÈRE a LSTA & LPMA, Unversté Perre et Mare Cure Pars VI Boîte 158, 175 rue du Chevaleret, 75013 Pars, France gerard.bau@upmc.fr b IRMAR, ENS Cachan Bretagne, CNRS, UEB Avenue Robert Schuman, 35170 Bruz, France Benot.Cadre@bretagne.ens-cachan.fr c IRMAR, Unversté Rennes 2, CNRS, UEB Place du Recteur Henr Le Moal, 35043 Rennes Cedex, France laurent.rouvere@unv-rennes2.fr Résumé Les systèmes de recommandaton établssent des suggestons personnalsées à des ndvdus concernant des objets (lvres, flms, musque) susceptbles de les ntéresser. Les recommandatons sont généralement basées sur l estmaton de notes relatves à des objets que l utlsateur n a pas consommés. En dépt d une lttérature abondante, les proprétés statstques des systèmes de recommandaton ne sont pas encore clarement étables. Dans ce traval, nous proposons un modèle stochastque pour les systèmes de recommandaton et nous analysons ses proprétés asymptotques lorsque le nombre d utlsateurs augmente. Nous établssons la convergence de la procédure sous de fables hypothèses concernant le modèle. Les vtesses de convergence sont également présentées. Mots clés : Systèmes de recommandaton, convergence, smlarté de type cosnus. Abstract Collaboratve recommendaton s an nformaton-flterng technque that attempts to present nformaton tems (moves, musc, books) that are lkely of nterest to a user. In ts most common form, the problem s framed as tryng to estmate ratngs for tems that have not yet been consumed by a user. Despte wde-rangng lterature, very lttle s known about the statstcal propertes of recommendaton systems. To provde an ntal contrbuton to ths, we propose n the present work to set out a general stochastc model for collaboratve recommendaton and analyze ts asymptotc performance as the number of users grows. We establsh consstency of the procedure under mld assumptons on the model. Rates of consstency are also provded. Index Terms: Recommender systems, consstency, cosne-type smlarty. 1 auteur correspondant : laurent.rouvere@unv-rennes2.fr 1

1 Introducton Les systèmes de recommandaton émettent des suggestons à des utlsateurs concernant des objets susceptbles de les ntéresser. Parm les nombreux exemples d applcatons, on peut cter la recommandaton de lvres, restaurants, flms et remarquer que les stes Web amazon.com, match.com, movelens.com ou encore allmusc.com possèdent leur propre système de recommandaton. Le processus de recommandaton débute par une sére de questons posées à des utlsateurs concernant leurs préférences vs-à-vs d un certan type d objet. Par exemple, pour un système de recommandaton concernant des flms, les utlsateurs commencent par noter les flms qu ls ont déjà vus. Les notes sont alors collectées dans une matrce où chaque lgne représente un utlsateur et chaque colonne un objet (flm). Un exemple est présenté dans le tableau 1 où les notes se stuent entre 1 et 10, le symbole NA sgnfe que l utlsateur n a pas noté le flm correspondant. Armageddon Platoon Rambo Ro Bravo Star wars Ttanc Jm NA 6 7 8 9 NA James 3 NA 10 NA 5 7 Steve 7 NA 1 NA 6 NA Mary NA 7 1 NA 5 6 John NA 7 NA NA 3 1 Lucy 3 10 2 7 NA 4 Stan NA 7 NA NA 1 NA Johanna 4 5 NA 8 3 9 Bob NA 3 3 4 5? Tab. 1 Un exemple de notes de 9 utlsateurs concernant 6 flms. Les flms sont notés entre 1 et 10 et le symbole NA sgnfe que l utlsateur n a pas noté le flm correspondant. Une fos les données recuelles, le système de recommandaton dot dans un premer temps prédre les notes des objets non évalués, pus dans un second temps fournr une recommandaton à l utlsateur basée sur ces prévsons. De nombreuses méthodes ssues de dverses communautés ont été proposées. On pourra par exemple se référer aux artcles de Abernethy et al. [1], Sarwar et al. [5] ans qu aux surveys de Adomavcus et Tuzhln [3] et Adomavcus et al. [2]. Quelle que sot la méthode utlsée, le pont crucal consste à dentfer des utlsateurs proches de l utlsateur à qu on souhate fournr la recommandaton. La noton de proxmté entre utlsateurs peut varer selon l applcaton, elle est néanmons le plus souvent basée sur des notons de corrélaton ou de cosnus mesurés entre les utlsateurs. Dans ce traval nous proposons un modèle stochastque permettant d étuder les systèmes de recommandaton. Ce modèle prend notamment en 2

compte la structure partculère des données (possbltés de non réponse ou de mse à jour des réponses de la part des utlsateurs). Les proprétés asymptotques du modèle (convergence, vtesse de convergence) sont ensute présentées. 2 Une modélsaton séquentelle des systèmes de recommandaton 2.1 Le modèle On désgne par d+1 (d 1), le nombre d objets (flms) et par n le nombre d utlsateurs. On suppose que les notes données par les utlsateurs aux dfférents objets sont à valeurs dans ({0} [1,s]) d+1 où s est un réel strctement plus grand que 1 représentant la note maxmale. Par conventon, la note 0 sgnfe que l utlsateur n a pas répondu à l objet correspondant. Dans l exemple du tableau 1, on a n = 8, d = 5 et s = 10. Une fos les notes des n utlsateurs collectées, un nouvel utlsateur (Bob) révèle à son tour ses préférences pour les d premers objets mas pas pour le (d + 1)ème (le flm Ttanc dans notre exemple). Le problème consste à trouver une stratége permettant de prédre la note de Bob pour le flm Ttanc en utlsant : les notes de Bob concernant les d premers flms ; les notes des autres utlsateurs. La premère étape consste à modélser les préférences du nouvel utlsateur par un vecteur aléatore (X,Y ) de dmenson d + 1 à valeurs dans [1,s] d [1,s]. Le vecteur aléatore X = (X 1,...,X d ) représente les notes du nouvel utlsateur concernant les d premers objets tands que Y représente sa note pour l objet à prédre (note du flm Ttanc). Le nouvel utlsateur ne révélant pas forcément ses préférences pour tous les d premers objets, nous n observons pas X mas une verson masquée que nous noterons X = (X1,...,X d ) : X j = { Xj s j M 0 snon (1) où M désgne un sous-ensemble non vde de {1,...,d} correspondant aux objets évalués par le nouvel utlsateur. Dans l exemple du tableau 1 on a M = {2, 3, 4, 5} et X = (0, 3, 3, 4, 5). Nous modélsons ensute les préférences des autres utlsateurs (Jm, James, Steve, Mary, etc. dans le tableau 1) en utlsant une approche dynamque. Pour ce fare, on suppose que les utlsateurs entrent dans la base de données les uns après les autres et mettent à jour leurs notes de manère séquentelle. Plus précsément, à chaque temps = 1, 2,..., un nouvel utlsateur entre dans le processus et révèle ses préférences pour la premère fos tands que les 1 premers utlsateurs peuvent mettre à jour leurs préférences. Ans, au temps 1, l y a un seul utlsateur dans la base de données (Jm dans le tableau 3

1) et on modélse le sous-ensemble (non vde) d objets évalués par Jm par une varable aléatore M 1 1 à valeurs dans P ({1,...,d}), l ensemble des partes non vdes de {1,...,d}. Au temps 2, un nouvel utlsateur (James) entre ses préférences pour certans objets modélsés par une varable aléatore M 1 2 à valeurs dans P ({1,...,d}) et de même lo que M 1 1. Au même temps, l utlsateur 1 (Jm) peut mettre à jour ses préférences et on désgne par M 2 1 les objets évalués par Jm au temps 2. On supposera que M 1 1 M 2 1, c està-dre que les utlsateurs ne peuvent pas enlever les notes qu ls ont mses au préalable. En répétant ce mécansme, on dspose au temps n d une matrce trangulare supéreure (M j ) 1 n,1 j n+1 de varables aléatores (vor tableau 2). Temps 1 Temps 2... Temps... Temps n Utlsateur 1 M1 1 M1 2... M1... M1 n Utlsateur 2 M2 1... M2 1... M2 n 1....... Utlsateur M 1... M n+1..... Utlsateur n Tab. 2 Modélsaton séquentelle des préférences. M 1 n Les notes de l utlsateur relatves aux d premers objets sont représentées par une varable aléatore X = (X 1,...,X d ). En se basant sur la modélsaton des notes du nouvel utlsateur (1), on défnt la verson masquée X (n) = (X (n) 1,...,X(n) d ) des notes de l utlsateur au temps n par : { X (n) Xj s j M n+1 M j = 0 snon. Enfn, on désgne par Y 1,...,Y n les varables aléatores à valeurs dans [1,s] représentant les évaluatons des utlsateurs au temps n concernant la varable d ntérêt (le flm Ttanc dans notre exemple). Afn de prendre en compte les possbltés de non réponse concernant cette varable, on ntrodut une sute (R n ) n 1 de varables aléatores à valeurs dans P ({1,...,n}). R n représente le sous-ensemble (non vde) des utlsateurs qu ont évalué la varable d ntérêt (Ttanc) au temps n. Nous dsposons ans au temps n d un échantllon (X (n) 1,Y 1 ),...,(X (n) n,y n ) et notre msson consste à évaluer la note Y du nouvel utlsateur représenté par X. Le problème statstque est donc d estmer la foncton de régresson η(x ) = E[Y X = x ]. 4

2.2 L estmateur Etant donné x ({0} [1,s]) d 0 (0 représente le vecteur nul de R d ) et l échantllon (X (n) 1,Y 1 ),...,(X n (n),y n ), nous proposons d estmer la foncton de régresson η(x ) par un estmateur de type k n plus proches vosns utlsant une mesure de smlarté basée sur le cosnus. Plus précsément, la smlarté entre le nouvel utlsateur x et le -ème utlsateur au temps n X (n) est mesurée par S(x,X (n) ) = p (n) où J = {j : x j 0 et X (n) j j J x jx (n) j, j J x j 2 2 p(n) j J X(n) j M, M = Mn+1 0} et A désgne le cardnal d un ensemble A. On alors p (n) = 1 et S(x,X (n) ) = cos(x,x (n) ). Le terme remarquera que s M M n+1 peut être vu comme une pénalté utlsée pour ne pas trop favorser les derners p (n) ndvdus entrés dans la base de données. Ans, au temps n, on dra que l ndvdu est plus smlare au nouvel ndvdu que l ndvdu j s S(x,X (n) ) > S(x,X (n) j ). Etant donné k n un enter vérfant 1 k n n, la foncton η(x ) est alors estmée par η n (x ) = x où. désgne la norme eucldenne et R n W n (x ) Y X (n) W n (x ) = { 1/kn s X (n) 0 snon. est parm les k n -MS de x parm {X (n), R n } L acronyme k n -MS (k n most smlar ) sgnfe que l on ne prend en compte que les k n ndvdus les plus smlares de x parm {X (n), R n }. Afn que l estmateur sot ben défn, nous ajoutons les remarques suvantes : s S(x,X (n) ) = S(x,X (n) j ), on dra que l ndvdu X (n) est plus smlare à x que X (n) j s < j ; s R n < k n, on pose η n (x ) = 0 ; s X (n) = 0, on pose W n (x ) = 0 avec la conventon 0 = 0. 2.3 Proprétés asymptotques Sous certanes hypothèses concernant la forme de la foncton de régresson η, nous obtenons les résultats suvants. Théorème 2.1 On suppose que k n, R n p.s. et E[k n / R n ] 0 lorsque n. Alors E η n (X ) η(x ) 0 quand n. 5

Théorème 2.2 Sot α n = P(M n+1 M M). On suppose que M 4. Il exste alors une constante C > 0 telle que, pour tout n 1, E η n (X ) η(x ) { [ 1 C k n E R n R n Eα n ] + E où P n = 2/( M 1) s k n < R n, et P n = 1 snon. [ ( ) ] [ ]} Pn kn + 1 + E α n, R n k n R n On pourra notamment remarquer que dans le cas détermnste M = {1,...,d} et R n = {1,...,n} les hypothèses du Théorème 2.1 sont k n et k n /n 0 lorsque n, c est-à-dre les hypothèses nécessares à la convergence de l estmateur classque des k n plus proches vosns. De même, toujours pour ce cas partculer, la borne du Théorème 2.2 devent { (kn ) } 2/(d 1) C + 1. n Cette borne coïncde avec la vtesse de convergence de l estmateur des k n plus proches vosns en dmenson d 1 (vor [4]). Références [1] J. Abernethy, F.R. Bach, T. Evgenou et J.-P. Vert : A new approach to collaboratve flterng : Operator estmaton wth spectral regularzaton. J. Mach. Learn. Res., 2009. n press. [2] G. Adomavcus, R. Sankaranarayanan, S. Sen et A. Tuzhln : Incorporatng contextual nformaton n recommender systems usng a multdmensonal approach. ACM Trans. Info. Syst., 2005. [3] G. Adomavcus et A. Tuzhln : Toward the next generaton of recommender systems : A survey of the state-of-the-art and possble extensons. IEEE Trans. Knowl. Data Eng., 17:734 749, 2005. [4] L. Györf, M. Kohler, A. Krzyzȧk et H. Walk : A Dstrbuton Free Theory of Nonparametrc Regresson. Sprnger-Verlag, 2002. [5] B. Sarwar, G. Karyps, J. Konstan et J. Redl : Item-based collaboratve flterng recommendaton algorthms. In Proceedngs of the 10th Internatonal WWW Conference, pages 285 295, 2001. k n 6