Chaptre 4 : Modèles booléen, vectorel 1
Qu est ce qu un modèle de RI? Un modèle est une abstracton d un processus (c recherche d nfo) Les modèles mathématques sont souvent utlsés pour formalser les proprétés d un processus, élaborer des conclusons, fare des prévsons, etc. Les conclusons dérvées d un modèle dépendent de la qualté du modèle Queston : est ce que le modèle est une bonne approxmaton du processus?
Qu est ce qu un modèle de RI? Les modèles de RI peuvent décrre Le processus de mesure de pertnence : comment les documents sont sélectonnés et trés L utlsateur : beson en nformaton, nteracton L nformaton Les modèles de RI manpulent pluseurs varables : les besons, les documents, les termes, les jugements de pertnence, les utlsateurs, Les modèles de RI se dstnguent par le prncpe d apparement (matchng) : apparement exact /approché (Exact /Best matchng) 3
Apparement exact /Apparement approché Apparement exact Requête spécfe de manère précse les crtères recherchés L ensemble des documents respectant exactement la requête sont sélectonnés, mas pas ordonné Apparement approché Requête décrt les crtères recherchés dans un document Les documents sont sélectonnés selon un degré de pertnence (smlarté/ probablté ) vs-à-vs de la requête et sont ordonnés 4
Modèles de RI Panople de modèles Modèle booléen (±1950) Modèle vectorel (±1970) Modèle LSI (± 1994) Modèle probablste (±1976) Modèle nférentel (±199) Modèle connexonnste (±1989) Modèle de langage (±1998) 5
IR models 6 Théore des ensembles : Boolean model (±1950) Algèbre Vector space model (±1970) Spreadng actvaton model (±1989) LSI (Latent semantc Indexng)(± 1994) Probablté Probablstc model (±1976) Inference network model (±199) Language model (±1998) DFR (Dvergence from Randomness model) (±00) Learnng to rank
Le Modèle booléen Boolean Model 7
Le Modèle Booléen Le premer modèle de RI Basé sur la théore des ensembles Un document est représenté un ensemble de termes Ex : d1(t1,t,t5); d(t1,t3,t5,t6); d3(t1,t,t3,t4,t5) Une requête est un ensemble de mots avec des opérateurs booléens : AND ( ), OR( ), NOT ( ) Ex: q = t1 (t t3) Apparement Exact basé sur la présence ou l absence des termes de la requête dans les documents Apparement (q,d) = RSV(q,d)=1 ou 0 8
Le Modèle Booléen q = t1 (t t3) d1(t1,t,t5); d(t1,t3,t5,t6); d3(t1,t,t3,t4,t5) Rsv(q,d1)= Rsv(q,d)= Rsv(q,d3)= 9
Inconvénent du Modèle Booléen La sélecton d un document est basée sur une décson bnare Pas d ordre pour les documents sélectonnés Formulaton de la requête dffcle pas toujours évdente pour beaucoup d utlsateurs Problème de collectons volumneuses : le nombre de documents retournés peut être consdérable 10
Modèle Vectorel Vector Space Model (VSM) 11
Modèle Vectorel (Vector Space Model) (VSM) Proposé par Salton dans le système SMART (Salton, G. 1970) Idée de base : Représenter les documents et les requêtes sous forme de vecteurs dans l espace vectorel engendré par tous les termes de la collecton de documents : T<t 1,t,, t M > (un terme = une dmenson) Document : dj= (w 1j, w j,, w Mj ) Requête : q= (w 1q, w q,, w Mq ) w j: pods du terme t dans le document d j à tf*df 1
Modèle sac de mots La représentaton vectorelle ne tent pas compte de l ordre des mots «Un garçon manque une pomme» est représenté par le même vecteur que «une pomme mange un garçon» à c est ce que l on appelle «Sac de mots» (Bag of words) 13
Modèle Vectorel Une collecton de n documents et M termes dstncts peut être représentée sous forme de matrce T 1 T. D 1 w 11 w 1 T M w M1 D w 1 w w M : : : : : : : : D n w 1n w n w Mn La requête est également représentée par un vecteur. 14
Mesure de la pertnence Pertnence est tradute comme une smlarté de vecteurs t 1 d 1 θ q d Smlarté ß Cos(θ) t 3 t d 3 La pertnence est tradute en une smlarté vectorelle : un document est d1 est d autant plus pertnent à une requête que le vecteur assocé est smlare à celu de la requête. 15
Smlarté requête, document à Cosne(q,d) = = = = = = V V V d q q d d d q q d q d q d q 1 1 1 ), cos(!!!!!!!!!! Dot product q est le pods du terme t dans la requête d est le pods du terme t dans le document Sec. 6.3
17 Le Modèle Vectorel mesure de smlarté Y X y x* Y X Y X + * + * * j y x y x Y X Y X Y X + + j y x y x y x * * * * j y x y x Y X Y X * Inner product Coef. de Dce Mesure du cosnus Mesure du Jaccard
Retour sur la pondéra/on à 0*df a pluseurs varantes Sec. 6.4 Une varante est dentfée par un nom d attrbut pour chaque colonne (un tf, un df, une normalsaton) Une pondératon de type lnc à logarthme pour tf, pas d df, normalsaton cosne Une pondératon de type ltcà logartme pour tf, df et cosne Dans le modèle vectorel on aura ce type de notaton ddd.qqq (ddd pour le document, qqq pour la requête)
Exemple lnc.ltc : Sec. 6.4 Document: car nsurance auto nsurance Query: best car nsurance Terme Req (ltc) Document(lnc) Prod freq tf nd df w(t,q) Nor.l saton auto 0 0 5000 1 1 best 1 1 50000 0 0 car 1 1 10000 1 1 nsurance 1 1 1000 1.3 freq tf- w(t,d) n lsa ton N=10^6 documents Score (q,d)= 0.8
Le Modèle Vectorel Avantages: La pondératon amélore les résultats de recherche La mesure de smlarté permet d ordonner les documents selon leur pertnence vs à vs de la requête Inconvénents: La représentaton vectorelle suppose l ndépendance entre termes (?) 0
Extenson du modèle Booléen 1
Introducton Prendre en compte l mportante des termes dans les documents et/ou dans la requête Possblté d ordonner les documents séléctonnés Comment étendre le modèle booléen? Interpréter les conjonctons et les dsjoncton Deux modèles : Modèle flou- fuzzy based model (basé sur la logque floue) Modèle booléen étendu- extended boolean model
Modèle booléen étendu (extended Boolean Model) 3
Modèle booléen étendu Combnason des modèles booléen et vectorel Document : lste de termes pondérés Requête booléenne Utlsaton des dstances algébrques pour mesurer la pertnence d un document vs-à-vs à d une requête 4
Modèle booléen étendu apparement Consdérons d j (w 1j,w j, w tj ) q : requête à deux termes q and = t 1 et t q or = t 1 ou t 3 5
Intuton t qand = t1 t; w1j = x and wj = y (1,1) dj+1 AND/ET y = wj dj (0,0) x = w1j On veut se rapprocher du pont (1,1) RSV( d j, t 1 t ) = 1 t1 ( (1 w ) + (1 w ) ) 1 j j
Intuton t qor = t1 t; wt1 = x and wt = y (1,1) dj+1 OR/OU y = wj dj (0,0) x = w1j t1 ( w ) On veut être le plus lon de (0,0) 1 j + w j RSV ( d j, t 1 t ) =
8 Modèle booléen étendu apparement Consdérons d j (w 1j,w j, w tj ) q : requête à deux termes ( ) ) (1 ) (1 1 ), ( 1 1 j j j w w t t d RSV + = ( ) ), ( 1 1 j j j w w t t d RSV + =
Modèle booléen (pnorm)étendu apparement Généralsaton Dstance eucldenne à pluseurs dmensons Utlsaton de la p-norm Consdérons : un document dj (w 1j,w j, w tj ) et q (t 1, t,..t m ) : une requête composée de m termes RSV ( d j RSV( dj, qor) =, qand) = 1 ((1 w p 1 j p j p mj RSV( dj, qnot) = 1 RSV( dj, q) 1 p w + w +... + w ( ) m p p p 1/ p 1 j ) + (1 w j ) +... + (1 wmj ) ) 1/ p m 9
Modèle booléen(pnorm) étendu apparement S p = 1 alors (on retrouve le modèle vectorel) RSV(dj,qor) = RSV(dj,qand) S p = alors (modèle booléen) RSV(d j,qor) = max (wxj) RSV(d j,qand) = mn (wxj) p= correpond à la dstance eucldenne, semble être le melleur chox 30
Modèle booléen (pnorm) étendu apparement Généralsaton : S la requête et les documents sont pondérés q(q 1, q,.., q m ) d j (w 1j,w j, w tj ) q p RSV( dj, qor) = ( * w q p p j ) 1 p RSV ( dj, qand) = 1 ( p q *(1 w j p q ) p 1 ) p 31
Modèle booléen étendu Modèle pussant Calcul complexe Problème de dstrbutvté q 1 =(t 1 OU t ) ET t 3 q=(t 1 ET t 3 ) OU (t ET t 3 ) RSV(q 1,d) <> RSV(q,d) 3
Exercce Exemple : T(document, web, nformaton, recherche,mage,contenu) : ensemble des termes d ndexaton d1(document 0.3,web 0,5,mage 0. ) q1 (document OU web); q(web ET document) q3((web OU document) ET mage) 33
Ensembles flous (1.) Théore des ensembles flous Un cadre pour représenter les ensembles dont les bornes ne sont pas ben défns L objectf prncpal est l ntroducton de la noton de degré d appartenance d un élément à un ensemble Contrarement à la théore des ensembles ou un élément est dans l ensemble ou ne l est pas, dans les ensembles flous, l appartenance est mesurée par un degré varant entre 0 et 1 0 non appartenance 1 appartenance complète 34
Ensembles flous (.) Défnton Un sous ensemble A d un unvers de dscours U est caractérsé par une foncton d appartenance µ A : U [0,1] qu assoce à chaque élément u de U un nombre µ A (u) dans [0,1] Soent A et B deux sous-ensembles flous de U Complément µ A (u) µ ( u) = 1 ( u) µ A A Unon Intersecton µ ( u) = max( µ ( u), ( u)) A B A µ B µ ( u) = mn( µ ( u), ( u)) A B A µ B 35
Modèle flou de RI Un document est un ensemble de termes chaque terme à un pods qu mesure à quel pont le terme caractérse le document Ces pods sont dans [0, 1]. (dans le booléen standard un terme est sot présent 1 ou absent 0 dans un document) On pourrat écrre : µ ( t ) = d w dt 36
Modèle flou de base, requête non pondérée Soent : Termes: t 1, t,..., t n Document: d(w 1, w,..., w n ) Requête dsjonctve : q or = (t 1 t... t n ) RSV(q or,d): = max(w 1, w,.., w n ) Requête conjonctve : q and = (t 1 t... t n ) RSV(q and, d)= mn(w 1,.., w n ) Généralsaton RSV(d,q1 q) = mn(rsv(d,q1), RSV(d,q)), RSV(d,q1 q) = max(rsv(d,q1), RSV(d,q)), 37
Modèle flou requête pondérée Requête à avec un terme unque Autres opérateurs L'mplcaton de Denes : a b = max(1 a, b). L'mplcaton de Gödel : a b = 1 s a b a b = b s a > b. L'mplcaton de Lukasewcz : a b = mn (1, 1 a + b). Requête à pluseurs termes : 1-Agréger les termes 1 à 1 selon un des opérateurs c dessus - Agréger toute la requête mn ou max 38
Exemple 39
fn 40
Modèle Vectorel The Vector Model. (VSM) Exemple : T(document, web, nformaton, recherche,mage,contenu) : ensemble des termes d ndexaton d1(document,web 1) d(nformaton 1, document 3, contenu ) q1 (mage web); q(recherche, documentare) Représentaton vectorelle d1 (,1,0,0,0,0) d ( ) q1 ( ) q( ) 41
Modèles de RI Set Theoretc Classc Models Fuzzy Extended Boolean U s e r T a s k Retreval: Adhoc Flterng Browsng boolean vector probablstc Structured Models Non-Overlappng Lsts Proxmal Nodes Algebrac Generalzed Vector Lat. Semantc Index Neural Networks Probablstc Inference Network Belef Network Browsng Flat Structure Guded Hypertext 4
Modèles de RI Théore des ensen. Modèles classques. Ensemble flou booléen étendu U s e r T a s k Recherche: Adhoc Fltrage Navgatonnel booléen Vectorel Probablste Modèles structurés Non-Overlappng Lsts Proxmal Nodes Algébrque Vectorel généralsé LSI Réseau de neurones Probablste Réseau nférentel Réseau bayesen Navgatonnel Plat Gudé par la structure Hypertexte 43