Apprentissage pour la Recherche d Information

Documents pareils
Introduction au Data-Mining

PROBABILITES ET STATISTIQUE I&II

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction au Data-Mining

Algorithmes d'apprentissage

Introduction au datamining

Programmation linéaire

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ORDONNANCEMENT DES RÉSULTATS SUR LES MOTEURS DE RECHERCHE : PRINCIPES, LIMITES ET APPLICATIONS AU GÉORÉFÉRENCEMENT

Bases de données documentaires et distribuées Cours NFE04

Apprentissage statistique dans les graphes et les réseaux sociaux

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Pourquoi l apprentissage?

Modélisation aléatoire en fiabilité des logiciels

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Soutenance de stage Laboratoire des Signaux et Systèmes

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Laboratoire 4 Développement d un système intelligent

Simulation de variables aléatoires

Quantification Scalaire et Prédictive

Cours de méthodes de scoring

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Coup de Projecteur sur les Réseaux de Neurones

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Apprentissage Automatique

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

4.2 Unités d enseignement du M1

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

INF6304 Interfaces Intelligentes

La classification automatique de données quantitatives

Théorie de l estimation et de la décision statistique

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Spécificités, Applications et Outils

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Intérêt du découpage en sous-bandes pour l analyse spectrale

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

4 Exemples de problèmes MapReduce incrémentaux

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Probabilités sur un univers fini

Identification de nouveaux membres dans des familles d'interleukines

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Travaux dirigés d introduction aux Probabilités

Méthodes d apprentissage statistique «Machine Learning»

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

NON-LINEARITE ET RESEAUX NEURONAUX

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Arbres binaires de décision

Méthodes de Simulation

Apprentissage symbolique et statistique à l ère du mariage pour tous

Programmation Linéaire - Cours 1

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

1 Recherche en table par balayage

Résolution d équations non linéaires

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Correction du baccalauréat ES/L Métropole 20 juin 2014

Sélection de Caractéristiques pour le Filtrage de Spams

Classification non supervisée

Licence Sciences et Technologies Examen janvier 2010

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Probabilités sur un univers fini

Mesure agnostique de la qualité des images.

Programmation linéaire

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Annexe 6. Notions d ordonnancement.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

MCMC et approximations en champ moyen pour les modèles de Markov

Encryptions, compression et partitionnement des données

Feuille TD n 1 Exercices d algorithmique éléments de correction

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

CAPTEURS - CHAINES DE MESURES

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

MAP 553 Apprentissage statistique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

5. Apprentissage pour le filtrage collaboratif

: seul le dossier dossier sera cherché, tous les sousdomaines

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Raisonnement probabiliste

Recherche dans un tableau

L exclusion mutuelle distribuée

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Définitions. Numéro à préciser. (Durée : )

Projet de Traitement du Signal Segmentation d images SAR

Estimation du coût de l incessibilité des BSA

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

FIMA, 7 juillet 2005

Transcription:

Apprentissage pour la Recherche d Information Massih-Reza Amini Université Joseph Fourier Laboratoire d Informatique de Grenoble

2/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Apprentissage Automatique

3/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Qu est-ce que l apprentissage? On considère un espace d entrée X R d et un espace de sortie Y. Hypothèse : Les paires d exemples (x, y) X Y sont identiquement et indépendamment distribuées (i.i.d) suivant une distribution de probabilité inconnue D. Échantillons : On observe une séquence de m paires (x i, y i ) générées i.i.d suivant D. But : Construire une fonction f : X Y qui prédit la sortie y d une nouvelle observation x avec une probabilité d erreur minimale. Théorie de l apprentissage [Vapnik88] : Borner cette probabilité d erreur, R(f ) R(f ) Erreur empirique de f + Complexité de la classe de fonctions + Terme résiduel

4/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Remarques 1. Dans le cas de la catégorisation binaire, on considère généralement Y = { 1, 1}. 2. En catégorisation de documents, un document est représenté par un vecteur dans l espace vectoriel des termes (représentation sac de mots). Document d Représentation vectorielle de d Vocabulaire w 1,d t 1 t 12 t 240 t 120 t 13 t 5 t 8 t 16 t 11 t 156 t V t 17 t 26 t 64 t 78 t 980 t 411 t 664 t 584 t 167 t 96 t 145 t 38 t 799 t 415 t 311 t 877 t 954 t 157 t 65 t 946 t 445 t 978 t 155 t 71 t 894 t 945 t 1204 t 441 t 144 t 544 t 613 t 714 t 844 t 94 t 411 t 544 t 746 t 56 t 12740 t 360 t 454 t 119 t 487 t 1 t 114 t 1102 t 787 t 564 t 441 t 1123 t 411 t 11 t 41 t 441 t 120 t 5451 t 448 t 315 w 2,d w 3,d w 4,d w 5,d w 6,d w 7,d... t 2 t 3 t 4 t 5 t 6 t 7 w V,d t V

5/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Algorithme d apprentissage Catégorisation de documents Etiquette de de Etiquette de d d Modèle vectoriel d Collection étiquetée Documents avec leurs étiquettes Documents vectorisés d' Modèle vectoriel d' Etiquette de d Base de test Document test Document vectorisé Classifieur

6/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèles génératifs Les modèles génératifs sont les premiers modèles d apprentissage développés pour la catégorisation de documents. L hypothèse fondamentale est que chaque vecteur représentatif d un document, d, est la réalisation d une variable aléatoire multidimensionnele, généré par le mélange de K densités de probabilités avec des proportions (π k ) K k=1 : π k = 1 et π k 0 (k = 1,..., K ). k=1 Chaque fonction de densité est une fonction paramétrique modélisant la distribution de probabilité conditionnelle : k Y; P(d y = k) = f k (d, θ k ) La densité de mélange modélise ainsi la génération de d par ces K densités de probabilité : P(d, Θ) = K π k f k (d, θ k ) k=1

7/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèles génératifs (2) Où Θ est l ensemble des proportions π k ainsi que tous les paramètres définissant les fonctions de densité f k : Θ = {θ k, π k : k {1,..., K }} Le but de l apprentissage est alors d estimer l ensemble des paramètres Θ pour qu au sens du maximum de vraisemblance le modèle de mélange explique au mieux les exemples de la base d entraînement. Une fois l estimation de ces paramètres terminée, un nouveau document d est affecté à une classe de l ensemble Y d après la règle de la décision bayésienne : d appartient à la classe k ssi k = argmax h Y P(y = h d )

8/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèle Naïve Bayes (multivarié de Bernoulli) Le modèle Naïve Bayes est un des modèles les plus populaires en catégorisation de documents Avec ce modèle on suppose que les termes apparaissant dans un document sont indépendants les uns des autres. Dans le cas où, chaque document d a une représentation vectorielle binaire d = (w id ) i {1,...,V } où une caractéristique w id est soit égal à 1 ou 0, indiquant si le terme d indice i du vocabulaire est présent ou pas dans le document d, les densités conditionnelles pour un document d donné s écrivent : k Y; f k (d, θ k ) = P(d = (w 1d,..., w Vd ) y = k) = V P(w id y = k) i=1

9/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèle Naïve Bayes (multivarié de Bernoulli) En posant θ ti k = P(w id = 1 C k = 1), la probabilité de présence du terme d indice i du vocabulaire dans la classe k, ces densités conditionnelles s écrivent : d; k Y; f k (d, θ k ) = V i=1 θ w id t i k (1 θ t i k) 1 w id Les estimés au sens du maximum de vraisemblance des paramètres du modèle de Bernoulli sur une base d entraînement, S, de taille m : i {1,..., V }, k Y, k Y, ˆθ ti k = df t i (k) N k (S) ˆπ k = N k (S) m Où N k (S) est le cardinale de la classe k et df t (k) est le nombre de documents de la classe k contenant le terme t.

10/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèles discriminants Les modèles discriminants trouvent directement une fonction de classification f : R V Y qui résout le problème de catégorisation, sans faire d hypothèses sur la génération des exemples. Le classifieur recherché est cependant supposé appartenir à une classe de fonction donnée F et sa forme analytique est trouvée en minimisant une certaine fonction d erreur (appelée aussi risque ou fonction de perte) L : Y Y R + La fonction de risque usuelle généralement considérée en catégorisation est l erreur de classification : (d, y); L(f (d), y) = [[f (d) y]] Où [[π]] vaut 1 si le prédicat π est vrai et 0 sinon.

11/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèles discriminants (2) Rappel : le classifieur qu on apprend doit être capable de faire de bonnes prédictions sur de nouveaux exemples, où avoir une faible erreur de généralisation, qui avec l hypothèse de génération i.i.d des exemples s écrit : R(f ) = E (d,y) D L(d, y) = L(f (d), y)dd(d, y) X Y Principe de la minimisation du risque empirique : Trouver f en minimisant l estimateur non-biaisé de R sur une base d entraînement S = (d i, y i ) m i=1 : ˆR m (f, S) = 1 m m L(f (d i ), c i ) i=1

12/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèles discriminants (3) Les fonctions loss considérées : Coût logistique L l (f (d), y) = ln(1 + exp( yf (d))) Coût exponentiel L e (f (d), y) = yf (d) e Fonction hinge L h (f (d), c) = [[(1 yf (d)) > 0]]

13/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Descente de gradient La descente de gradient est un algorithme d optimisation de première ordre largement utilisé pour trouver le minimum d une fonction de coût convexe ou dérivable. Algorithm 1 Descente de gradient 1: Initialiser les poids w (0) 2: t 0 3: Pas d apprentissage λ > 0 4: Précision ɛ > 0 5: repeat 6: w (t+1) w (t) λ w (t) L(w (t) ) 7: t t + 1 8: until L(w (t) ) L(w (t 1) ) < ɛ

14/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Quelques algorithmes standards Perceptron Les séparateurs à vaste marge (SVM) Mais aussi... Boosting Les k plus proches voisins (k-ppv / k-nn) La régression logistique

15/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Le Perceptron Un des premières algorithms d apprentissage proposé par Rosenblatt dans les années cinquante La fonction de prédiction est de la forme f w : R V R d w, d Algorithm 2 L algorithme de perceptron 1: Base d apprentissages = {(d i, y i ) i {1,..., m}} 2: Initialiser les poids w (0) 3: t 0 4: Le pas d apprentissage λ > 0 5: Nombre toléré d exemples mal-classés K 6: repeat 7: Choisir un exemple (d, y) S 8: if y w (t), d < 0 then 9: w (t+1) w (t) + λ y d 10: end if 11: t t + 1 12: until Le nombre d exemples mal-classés est moins que K

16/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Les SVMs (1) On cherche une fonction de décision de la forme : f (d) = sgn( w, d ) L équation w, d = 0 définit un hyperplan dont la marge vaut 2 w

17/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Les SVMs (2) Trouver l hyperplan séparateur de marge maximale revient donc à résoudre le problème d optimisation quadratique suivant : { Minimize 1 2 w T w sous les contraites y i w, d i 1, i = 1,, m Cas non séparable { Minimiser 1 2 w T w + C i ξ i sous les contraintes ξ i 0, y i w, d i 1 ξ i, i = 1,, m

18/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Evaluation des méthodes de catégorisation Classe k Prédiction du classifieur Jugement de l expert Dans la classe Pas dans la classe Dans la classe VP k FP k Pas dans la classe FN k VN k Taux de bonne classification TBC k = VP k + VN k VP k + VN k + FP k + FN k Précision P k = VP k VP k + FP k Rappel R k = VP k VP k + FN k Mesure F 1 P macro = 1 Y k Y F k = 2P kr k P k + R k P k, P micro = k Y VP k k Y VP k + FP k

19/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Catégorisation de documents : collection Reuters-RCV2 (français) Variables Symboles Valeurs # de documents de la collection 85 167 # de classes initiales 3 586 # de documents considérés N 70 703 # de termes du vocabulaire V 141 146 # moyen de termes par document 136.7 # de classes considérées K 29 # Taille de la base d entraînement m 35 000 # Taille de la base de test 35 703

20/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Catégorisation de documents : collection Reuters-RCV2 (français) F 1 Modèle Type Micro Macro Multivarié de Bernoulli Génératif 0.531 0.502 3-PP 0.561 0.519 Multinomial Génératif 0.694 0.669 Perceptron Discriminant 0.715 0.679 Logistique Discriminant 0.734 0.704 SVM Discriminant 0.759 0.723 AdaBoost Discriminant 0.766 0.728 TABLE: Comparaison entre les micro et macro moyennes des mesures F 1 entre les différents modèles génératifs et discriminants sur la base Reuters RCV-2 français. Représentation binaire pour la méthode multivarié de Bernoulli et fréquentiste (pour le reste). Chaque expérience est répétée 10 fois en séléctionnant aléatoirement les bases d entraînement et de test de la collection initiale avec les proportions mentionnées dans le tableau d au-dessus. Chaque performance reportée dans ce tableau est la moyenne des performances obtenues sur les bases tests ainsi échantillonnés.

21/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Evaluation en RI

22/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Les jugements/annotations les plus fréquents Jugements binaires : ce doument est pertinent (1) ou non (0) pour cette requête Jugements multi-valués : Parfait > Excellent > Bon > Correct > Mauvais Paires de préférence : document d A plus pertinent que document d B pour cette requête

23/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Les mesures d évaluation les plus courantes (jugements binaires) Rappel = Précision = Documents pertinents: Documents retournés: Précision moyenne à un rang k donné : P@k(q) = 1 k k rg=1 R d rg,q Average Precision : AveP(q) = 1 N n q k=1 1 Per(q)(k) P@k(q) + Mean Average Precision : MAP = 1 Q Q j=1 AveP(q j ) = 1 Q Q j=1 1 N n q j k=1 1 Per(q j )(k) P@k(q j ) +

24/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Pour les jugements multi-variés : NDCG NDCG à la position k : N(k) = normalisation {}}{ Z k k j=1 }{{} cumul gain { }} { (2 p(j) 1) / log 2 (j + 1) } {{ } position discount Score moyenné sur toutes les requêtes

25/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement G : Gain Pertinence Valeur (gain) Parfait (5) 31 = 2 5 1 Excellent (4) 15 = 2 4 1 Bon (3) 7 = 2 3 1 Correct (2) 3 = 2 2 1 Mauvais (0) 0 = 2 1 1

26/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement DCG : Discounted CG Discounting factor : ln(2) ln(j+1) Doc. (rang) Pert. Gain CG DCG 1 Parf. (5) 31 31 31 2 Corr. (2) 3 34 = 31 + 3 32, 9 = 31 + 3 0, 63 3 Exc. (4) 15 49 40, 4 4 Exc. (4) 15 64 46, 9

27/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Ordre idéal : max DCG Document (rang) Pertinence Gain max DCG 1 Parfait (5) 31 31 3 Excellent (4) 15 40, 5 4 Excellent (4) 15 48

28/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Normalized DCG Document (rang) Pertinence Gain DCG max DCG NDCG 1 Parfait (5) 31 31 31 1 2 Correct (2) 3 32, 9 40, 5 0, 81 3 Excellent (4) 15 40, 4 48 0.84 4 Excellent (4) 15 46, 9 54, 5 0.86

29/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Mesures d évaluation : remarques Mesures pour une position donnée (liste de 10 documents retournés par exemple) Mesures au niveau requêtes NDCG est une mesure plus générale que la MAP (pertinence multi-valuée vs pertinence binaire) Mesures non continues (et non dérivables)

30/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement RI et catégorisation

31/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Problématique Requêtes pour lesquelles on dispose des jugements de pertinence dans C q 1 q 2 q 3.. f.. A q 1 A q 2 A q 3.. C

32/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modéliser la RI comme un problème de catégorisation Quelle est l intuition? 1. Choisir une représentation des exemples 2. Choisir le nombre de classes 3. Choisir le principe d apprentissage et l algorithme associé

33/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Représentation des exemples Problème crucial : quels types d exemples considérer? Docs?... Représentation standard, x = (q, d) R m. Les coordonnées (f i (q, d), i = 1,, p) sont très générales. On essaye de se reposer sur un maximum d information : f 1 (q, d) = t q d log(td ), f 2 (q, d) = t q f 3 (q, d) = t q d log(idf(t)), f 4(q, d) = t q d f 5 (q, d) = td t q log(1 + C idf(t)), f 6 (q, d) = td C t q log(1 + C ) t C f 7 (q, d) = RSV vect (q, d),... log(1 + td C ) log( C t C )

34/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Choix du nombre de classes Le choix du nombre de classes dépend a priori : Des valeurs de pertinence à disposition (binaires ou multi-valuées) Des préférences des concepteurs et développeurs du système Dans le cas le plus simple, on se contente d un ensemble de deux classes, correspondant aux documents pertinents et non pertinents Catégorisation binaire

35/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Modèle SVM Une fois les données représentées comme ci-dessus, toutes les techniques de catégorisation peuvent a priori être utilisées. L application de la méthode vue précédemment est directe ici. Chaque x(= (q, d)) contenant un document pertinent pour q est associé à la classe +1, les exemples avec des documents non pertinents à la classe 1 On obtient alors un hyper-plan séparateur, associé à la fonction de décision : g(r d, q) = w, x Remarque : On utilise ici directement la valeur de sortie et non le signe de façon à obtenir un ordre sur les documents

36/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement D autres remarques sur cette approche 1. Cas d une pertinence multi-valuée : catégorisation multi-classes 2. Méthode qui permet d attribuer un score, pour une requête donnée, à un document, indépendamment des autres (méthode dite pointwise) 3. Résultats comparables à ceux des modèles probabilistes dans le cas de collections classiques, meilleurs dans le cas du Web (espace d attributs plus riches) 4. Méthode qui repose sur une notion absolue de pertinence 5. La fonction objectif est éloignée de la fonction d évaluation 6. Disponibilité des annotations?

37/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement RI et ordonnancement

38/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Les paires de préférence La notion de pertinence n est pas une notion absolue. Il est souvent plus facile de juger de la pertinence relative de deux documents Les jugements par paires constituent en fait les jugements les plus généraux

39/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Représentation des données Comme précédemment, pour une requête donnée, l élément fondamental est un couple x i = (d i, q) (1 i n). A partir de ces éléments et des jugements de pertinence, on peut former l ensemble des exemples d apprentissage sous la forme de paires étiquetées : avec : {(x (1) 1 x (1) 2, z(1) ),, (x (p) 1 x (p) 2, z(p) )} z (i) = { +1 si d (j) 1 pert d (j) 2 1 sinon

40/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Ranking SVM et RI On peut alors directement utiliser la méthode Ranking SVM vue précédemment pour trouver un hyper-plan séparateur des données. Pour rappel, le problème d optimisation associé est : { Minimize 1 2 w T w + C i ξ i subject to ξ i 0, y (i) (w.(x (i) 1 x (i) 2 )) 1 ξ i, i = 1,, p et fournit une solution optimale w

41/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Remarques sur Ranking SVM Propriété : d pert q d ssi sgn(w, (d, q) (d, q)) positif Cette utilisation est toutefois coûteuse. On utilise en fait en pratique directement le score svm : RSV (q, d) = (w. (q, d)) Pas de différence entre des erreurs faites en tête et en milieu de liste Les requêtes avec plus de documents pertinents ont un plus grand impact sur w

42/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement RSVM-IR (1) Idée : modifier le problème d optimisation à la base de Ranking SVM (RSVM) pour tenir compte des rangs des documents considérés (τ k(i) ) et du type de la requête (µ q(i) ) { Minimize 1 2 w T w + C i τ k(i)µ q(i) ξ i subject to ξ i 0, y (i) (w.(x (i) 1 x (i) 2 )) 1 ξ i, i = 1,, p où q(i) est la requête associée au iième exemple, et k(i) est le type de rangs associés aux documents du iième exemple

43/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement RSVM-IR (2) En pratique : µ q(i) = max j #{instance pairs associated with q(j)} #{instance pairs associated with q(i)} Pour chaque requête, on établit son ordre optimal (ensemble d apprentissage) ; on sélectionne ensuite aléatoirement un document pour chaque rang, et on inverse leur position ; ce nouveau ordonnancement induit une baisse de NDCG (ou d une autre mesure), que l on moyenne sur toutes les requêtes pour obtenir τ k(i)

44/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement RSVM-IR (3) En pratique, on utilise directement le w appris (tout comme dans RSVM) Les résultats obtenus par RSVM-IR sur des collections standard sont très prometteurs (entraînement à partir des données campagne d évaluation ), pour l instant meilleurs que ceux des modèles probabilistes standard (ce qui n est pas forcément le cas de RSVM ou des approches par catégorisation binaire) Approche pairwise vs pointwise : retour sur la notion de valeur absolue de pertinence

45/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Extensions des approches précédentes Approche listwise Traiter directement les listes triées comme des exemples d apprentissage Deux grands types d approche Fonction objectif liée aux mesures d évaluation Fonction objectif définie sur des listes de documents Mais les mesures d évaluation sont en général non continues

46/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Constituer des données d apprentissage On dispose de données annotées pour plusieurs collections TREC (TREC-vidéo) CLEF NTCIR Letor Challenge Yahoo! Pour les entreprises (intranets), de telles données n exitent pas en général modèles standard, parfois faiblement supervisés Qu en est-il du web?

47/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Données d apprentissages sur le web Une source importante d information : les clics des utilisateurs Utiliser les clics pour inférer des préférences entre documents (paires de préférence) Compléter éventuellement par le temps passé sur le résumé d un document (eye-tracking) Que peut-on déduire des clics?

48/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Exploiter les clics (1) Les clics ne fournissent pas des jugements de pertinence absolus, mais relatifs. Soit un ordre (d 1, d 2, d 3, ) et C l ensemble des documents cliqués. Les stratégies suivantes peuvent être utilisées pour construre un ordre de pertinence entre documents : 1. Si d i C et d j / C, d i pert q d j 2. Si d i est le dernier doc cliqué, j < i, d j / C, d i pert q d j 3. i 2, d i C, d i 1 / C, d i pert q d i 1 4. i, d i C, d i+1 / C, d i pert q d i+1

49/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Exploiter les clics (2) Ces différentes stratégies permettent d inférer un ordre partiel entre documents La collecte de ces données fournit un ensemble d apprentissage très large, sur lequel on peut déployer les techniques vues précédemment La RI sur le web est en partie caractérisée par une course aux données : Indexer le maximum de pages Récupérer le maximum de données de clics

50/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Conclusion - Apprentissage et RI Des approches qui tentent d exploiter toutes les informations à disposition (700 attributs pour le challenge Yahoo! par exemple, y compris les scores des modèles ad hoc) Des approches qui s intéressent directement à ordonner les documents (pairwise, listwise) Beaucoup de propositions (réseaux neuronaux (Bing), boosting, méthodes à ensemble) Recherche actuelle se concentre sur listwise (et l optimisation de fonctions proches des mesures d évaluation - NDCG Boost)

51/51 Apprentissage Evaluation en RI RI et catégorisation RI et ordonnancement Quelques Références M. Amini et E. Gaussier Modèles et Algorithmes en Recherche d Information et ses Applications À paraître chez Eyrolles, 2013 Manning et al. Introduction to Information Retrieval Cambridge University Press 2008 www-csli.stanford.edu/ hinrich/information-retrieval-book. html Yue et al. A Support Vector Method for Optimizing Average Precision, SIGIR 2007 V. Vapnik. The nature of statistical learning theory. Springer, Verlag, 1998.