Chapitre 4 : Modèles booléen, vectoriel

Documents pareils
GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Remboursement d un emprunt par annuités constantes

Dynamique du point matériel

Pour plus d'informations, veuillez nous contacter au ou à

Big$data,$le$Web$et$tout$ça $ De$quel$volume$parleDton$?$ Surcharge$d informa>on$ Introduction à la fouille de texte Master Informatique 1 ère année

Montage émetteur commun

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Prise en compte des politiques de transport dans le choix des fournisseurs

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Les jeunes économistes

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Mémoire DEA Système d'information Management and Technology of Information Systems

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Dirigeant de SAS : Laisser le choix du statut social

Exercices d Électrocinétique

Généralités sur les fonctions 1ES

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Calculs des convertisseurs en l'electronique de Puissance

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Méthode : On raisonnera tjs graphiquement avec 2 biens.

Corrigé du problème de Mathématiques générales Partie I

LES TYPES DE DONNÉES DU LANGAGE PASCAL

STATISTIQUE AVEC EXCEL

Introduction à la Recherche d information

Planche n o 22. Fonctions de plusieurs variables. Corrigé

INTERNET. Initiation à

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Terminal numérique TM 13 raccordé aux installations Integral 33

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Les bases de données

P R I S E E N M A I N R A P I D E O L I V E 4 H D

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

Mesure avec une règle

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

PHY2723 Hiver Champs magnétiques statiques. Notes partielles accompagnant le cours.

Module d Electricité. 2 ème partie : Electrostatique. Fabrice Sincère (version 3.0.1)

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Grandeur physique, chiffres significatifs

Chapitre 7 : Intégration sur un intervalle quelconque

Aerodrome chart ALT AD : 309 (11 hpa)

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Clemenceau. Régime sinusoïdal forcé. Impédances Lois fondamentales - Puissance. Lycée. PCSI 1 - Physique. Lycée Clemenceau. PCSI 1 (O.

Electricité : caractéristiques et point de fonctionnement d un circuit

Stéganographie Adaptative par Oracle (ASO)

Algorithmes pour la planification de mouvements en robotique non-holonome

Plus courts chemins, programmation dynamique

Problème 1 : applications du plan affine

Editions ENI. Project Collection Référence Bureautique. Extrait

Apprentissage Automatique

Liste de Prix septembre 2011

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

MODE OPERATOIRE OPENOFFICE BASE

Guide du divertissement de voiture

Certifications numériques

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Débuter avec EXPRESS. Alain Plantec. 1 Schema 2

Système solaire combiné Estimation des besoins énergétiques

!" #" $ %& '# $ %& !!""!!#" $ % &

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Cours 02 : Problème général de la programmation linéaire

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

André Crosnier LIRMM ERII4, Robotique industrielle 1

Mécanique des Milieux Continus

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Circuits RL et RC. Chapitre Inductance

l u N D I 15 M D I D I 3 17 J u D I N D D I I M N C h COuPE Du PrEsIDENT OPEN 104 FEuChErOllEs EAuBONNE s1 20h15 COuPE Du OPEN 104 EAuBONNE s2 20h15

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

La Quantification du Risque Opérationnel des Institutions Bancaires

MATHS FINANCIERES. Projet OMEGA

santé Les arrêts de travail des séniors en emploi

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

SYSTÈMES DE CONFÉRENCE. Système de conférence analogique CDS Système de conférence numérique DCS

Information utiles. webpage : Google+ : digiusto/

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Calendrier des collectes 2015

Mysql. Les requêtes préparées Prepared statements

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Transcription:

Chaptre 4 : Modèles booléen, vectorel 1

Qu est ce qu un modèle de RI? Un modèle est une abstracton d un processus (c recherche d nfo) Les modèles mathématques sont souvent utlsés pour formalser les proprétés d un processus, élaborer des conclusons, fare des prévsons, etc. Les conclusons dérvées d un modèle dépendent de la qualté du modèle Queston : est ce que le modèle est une bonne approxmaton du processus?

Qu est ce qu un modèle de RI? Les modèles de RI peuvent décrre Le processus de mesure de pertnence : comment les documents sont sélectonnés et trés L utlsateur : beson en nformaton, nteracton L nformaton Les modèles de RI manpulent pluseurs varables : les besons, les documents, les termes, les jugements de pertnence, les utlsateurs, Les modèles de RI se dstnguent par le prncpe d apparement (matchng) : apparement exact /approché (Exact /Best matchng) 3

Apparement exact /Apparement approché Apparement exact Requête spécfe de manère précse les crtères recherchés L ensemble des documents respectant exactement la requête sont sélectonnés, mas pas ordonné Apparement approché Requête décrt les crtères recherchés dans un document Les documents sont sélectonnés selon un degré de pertnence (smlarté/ probablté ) vs-à-vs de la requête et sont ordonnés 4

Modèles de RI Panople de modèles Modèle booléen (±1950) Modèle vectorel (±1970) Modèle LSI (± 1994) Modèle probablste (±1976) Modèle nférentel (±199) Modèle connexonnste (±1989) Modèle de langage (±1998) 5

IR models 6 Théore des ensembles : Boolean model (±1950) Algèbre Vector space model (±1970) Spreadng actvaton model (±1989) LSI (Latent semantc Indexng)(± 1994) Probablté Probablstc model (±1976) Inference network model (±199) Language model (±1998) DFR (Dvergence from Randomness model) (±00) Learnng to rank

Le Modèle booléen Boolean Model 7

Le Modèle Booléen Le premer modèle de RI Basé sur la théore des ensembles Un document est représenté un ensemble de termes Ex : d1(t1,t,t5); d(t1,t3,t5,t6); d3(t1,t,t3,t4,t5) Une requête est un ensemble de mots avec des opérateurs booléens : AND ( ), OR( ), NOT ( ) Ex: q = t1 (t t3) Apparement Exact basé sur la présence ou l absence des termes de la requête dans les documents Apparement (q,d) = RSV(q,d)=1 ou 0 8

Le Modèle Booléen q = t1 (t t3) d1(t1,t,t5); d(t1,t3,t5,t6); d3(t1,t,t3,t4,t5) Rsv(q,d1)= Rsv(q,d)= Rsv(q,d3)= 9

Inconvénent du Modèle Booléen La sélecton d un document est basée sur une décson bnare Pas d ordre pour les documents sélectonnés Formulaton de la requête dffcle pas toujours évdente pour beaucoup d utlsateurs Problème de collectons volumneuses : le nombre de documents retournés peut être consdérable 10

Modèle Vectorel Vector Space Model (VSM) 11

Modèle Vectorel (Vector Space Model) (VSM) Proposé par Salton dans le système SMART (Salton, G. 1970) Idée de base : Représenter les documents et les requêtes sous forme de vecteurs dans l espace vectorel engendré par tous les termes de la collecton de documents : T<t 1,t,, t M > (un terme = une dmenson) Document : dj= (w 1j, w j,, w Mj ) Requête : q= (w 1q, w q,, w Mq ) w j: pods du terme t dans le document d j à tf*df 1

Modèle sac de mots La représentaton vectorelle ne tent pas compte de l ordre des mots «Un garçon manque une pomme» est représenté par le même vecteur que «une pomme mange un garçon» à c est ce que l on appelle «Sac de mots» (Bag of words) 13

Modèle Vectorel Une collecton de n documents et M termes dstncts peut être représentée sous forme de matrce T 1 T. D 1 w 11 w 1 T M w M1 D w 1 w w M : : : : : : : : D n w 1n w n w Mn La requête est également représentée par un vecteur. 14

Mesure de la pertnence Pertnence est tradute comme une smlarté de vecteurs t 1 d 1 θ q d Smlarté ß Cos(θ) t 3 t d 3 La pertnence est tradute en une smlarté vectorelle : un document est d1 est d autant plus pertnent à une requête que le vecteur assocé est smlare à celu de la requête. 15

Smlarté requête, document à Cosne(q,d) = = = = = = V V V d q q d d d q q d q d q d q 1 1 1 ), cos(!!!!!!!!!! Dot product q est le pods du terme t dans la requête d est le pods du terme t dans le document Sec. 6.3

17 Le Modèle Vectorel mesure de smlarté Y X y x* Y X Y X + * + * * j y x y x Y X Y X Y X + + j y x y x y x * * * * j y x y x Y X Y X * Inner product Coef. de Dce Mesure du cosnus Mesure du Jaccard

Retour sur la pondéra/on à 0*df a pluseurs varantes Sec. 6.4 Une varante est dentfée par un nom d attrbut pour chaque colonne (un tf, un df, une normalsaton) Une pondératon de type lnc à logarthme pour tf, pas d df, normalsaton cosne Une pondératon de type ltcà logartme pour tf, df et cosne Dans le modèle vectorel on aura ce type de notaton ddd.qqq (ddd pour le document, qqq pour la requête)

Exemple lnc.ltc : Sec. 6.4 Document: car nsurance auto nsurance Query: best car nsurance Terme Req (ltc) Document(lnc) Prod freq tf nd df w(t,q) Nor.l saton auto 0 0 5000 1 1 best 1 1 50000 0 0 car 1 1 10000 1 1 nsurance 1 1 1000 1.3 freq tf- w(t,d) n lsa ton N=10^6 documents Score (q,d)= 0.8

Le Modèle Vectorel Avantages: La pondératon amélore les résultats de recherche La mesure de smlarté permet d ordonner les documents selon leur pertnence vs à vs de la requête Inconvénents: La représentaton vectorelle suppose l ndépendance entre termes (?) 0

Extenson du modèle Booléen 1

Introducton Prendre en compte l mportante des termes dans les documents et/ou dans la requête Possblté d ordonner les documents séléctonnés Comment étendre le modèle booléen? Interpréter les conjonctons et les dsjoncton Deux modèles : Modèle flou- fuzzy based model (basé sur la logque floue) Modèle booléen étendu- extended boolean model

Modèle booléen étendu (extended Boolean Model) 3

Modèle booléen étendu Combnason des modèles booléen et vectorel Document : lste de termes pondérés Requête booléenne Utlsaton des dstances algébrques pour mesurer la pertnence d un document vs-à-vs à d une requête 4

Modèle booléen étendu apparement Consdérons d j (w 1j,w j, w tj ) q : requête à deux termes q and = t 1 et t q or = t 1 ou t 3 5

Intuton t qand = t1 t; w1j = x and wj = y (1,1) dj+1 AND/ET y = wj dj (0,0) x = w1j On veut se rapprocher du pont (1,1) RSV( d j, t 1 t ) = 1 t1 ( (1 w ) + (1 w ) ) 1 j j

Intuton t qor = t1 t; wt1 = x and wt = y (1,1) dj+1 OR/OU y = wj dj (0,0) x = w1j t1 ( w ) On veut être le plus lon de (0,0) 1 j + w j RSV ( d j, t 1 t ) =

8 Modèle booléen étendu apparement Consdérons d j (w 1j,w j, w tj ) q : requête à deux termes ( ) ) (1 ) (1 1 ), ( 1 1 j j j w w t t d RSV + = ( ) ), ( 1 1 j j j w w t t d RSV + =

Modèle booléen (pnorm)étendu apparement Généralsaton Dstance eucldenne à pluseurs dmensons Utlsaton de la p-norm Consdérons : un document dj (w 1j,w j, w tj ) et q (t 1, t,..t m ) : une requête composée de m termes RSV ( d j RSV( dj, qor) =, qand) = 1 ((1 w p 1 j p j p mj RSV( dj, qnot) = 1 RSV( dj, q) 1 p w + w +... + w ( ) m p p p 1/ p 1 j ) + (1 w j ) +... + (1 wmj ) ) 1/ p m 9

Modèle booléen(pnorm) étendu apparement S p = 1 alors (on retrouve le modèle vectorel) RSV(dj,qor) = RSV(dj,qand) S p = alors (modèle booléen) RSV(d j,qor) = max (wxj) RSV(d j,qand) = mn (wxj) p= correpond à la dstance eucldenne, semble être le melleur chox 30

Modèle booléen (pnorm) étendu apparement Généralsaton : S la requête et les documents sont pondérés q(q 1, q,.., q m ) d j (w 1j,w j, w tj ) q p RSV( dj, qor) = ( * w q p p j ) 1 p RSV ( dj, qand) = 1 ( p q *(1 w j p q ) p 1 ) p 31

Modèle booléen étendu Modèle pussant Calcul complexe Problème de dstrbutvté q 1 =(t 1 OU t ) ET t 3 q=(t 1 ET t 3 ) OU (t ET t 3 ) RSV(q 1,d) <> RSV(q,d) 3

Exercce Exemple : T(document, web, nformaton, recherche,mage,contenu) : ensemble des termes d ndexaton d1(document 0.3,web 0,5,mage 0. ) q1 (document OU web); q(web ET document) q3((web OU document) ET mage) 33

Ensembles flous (1.) Théore des ensembles flous Un cadre pour représenter les ensembles dont les bornes ne sont pas ben défns L objectf prncpal est l ntroducton de la noton de degré d appartenance d un élément à un ensemble Contrarement à la théore des ensembles ou un élément est dans l ensemble ou ne l est pas, dans les ensembles flous, l appartenance est mesurée par un degré varant entre 0 et 1 0 non appartenance 1 appartenance complète 34

Ensembles flous (.) Défnton Un sous ensemble A d un unvers de dscours U est caractérsé par une foncton d appartenance µ A : U [0,1] qu assoce à chaque élément u de U un nombre µ A (u) dans [0,1] Soent A et B deux sous-ensembles flous de U Complément µ A (u) µ ( u) = 1 ( u) µ A A Unon Intersecton µ ( u) = max( µ ( u), ( u)) A B A µ B µ ( u) = mn( µ ( u), ( u)) A B A µ B 35

Modèle flou de RI Un document est un ensemble de termes chaque terme à un pods qu mesure à quel pont le terme caractérse le document Ces pods sont dans [0, 1]. (dans le booléen standard un terme est sot présent 1 ou absent 0 dans un document) On pourrat écrre : µ ( t ) = d w dt 36

Modèle flou de base, requête non pondérée Soent : Termes: t 1, t,..., t n Document: d(w 1, w,..., w n ) Requête dsjonctve : q or = (t 1 t... t n ) RSV(q or,d): = max(w 1, w,.., w n ) Requête conjonctve : q and = (t 1 t... t n ) RSV(q and, d)= mn(w 1,.., w n ) Généralsaton RSV(d,q1 q) = mn(rsv(d,q1), RSV(d,q)), RSV(d,q1 q) = max(rsv(d,q1), RSV(d,q)), 37

Modèle flou requête pondérée Requête à avec un terme unque Autres opérateurs L'mplcaton de Denes : a b = max(1 a, b). L'mplcaton de Gödel : a b = 1 s a b a b = b s a > b. L'mplcaton de Lukasewcz : a b = mn (1, 1 a + b). Requête à pluseurs termes : 1-Agréger les termes 1 à 1 selon un des opérateurs c dessus - Agréger toute la requête mn ou max 38

Exemple 39

fn 40

Modèle Vectorel The Vector Model. (VSM) Exemple : T(document, web, nformaton, recherche,mage,contenu) : ensemble des termes d ndexaton d1(document,web 1) d(nformaton 1, document 3, contenu ) q1 (mage web); q(recherche, documentare) Représentaton vectorelle d1 (,1,0,0,0,0) d ( ) q1 ( ) q( ) 41

Modèles de RI Set Theoretc Classc Models Fuzzy Extended Boolean U s e r T a s k Retreval: Adhoc Flterng Browsng boolean vector probablstc Structured Models Non-Overlappng Lsts Proxmal Nodes Algebrac Generalzed Vector Lat. Semantc Index Neural Networks Probablstc Inference Network Belef Network Browsng Flat Structure Guded Hypertext 4

Modèles de RI Théore des ensen. Modèles classques. Ensemble flou booléen étendu U s e r T a s k Recherche: Adhoc Fltrage Navgatonnel booléen Vectorel Probablste Modèles structurés Non-Overlappng Lsts Proxmal Nodes Algébrque Vectorel généralsé LSI Réseau de neurones Probablste Réseau nférentel Réseau bayesen Navgatonnel Plat Gudé par la structure Hypertexte 43