Recherche d information textuelle



Documents pareils
Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Les jeunes économistes

Recherche d information textuelle

Remboursement d un emprunt par annuités constantes

INTERNET. Initiation à

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Mesure avec une règle

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Montage émetteur commun

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Editions ENI. Project Collection Référence Bureautique. Extrait

COMPARAISON DE MÉTHODES POUR LA CORRECTION

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Interface OneNote 2013

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Stéganographie Adaptative par Oracle (ASO)

hal , version 1-14 Aug 2009

Terminal numérique TM 13 raccordé aux installations Integral 33

STATISTIQUE AVEC EXCEL

Système solaire combiné Estimation des besoins énergétiques

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Des solutions globales fi ables et innovantes.

Analyse des Performances et Modélisation d un Serveur Web

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

P R I S E E N M A I N R A P I D E O L I V E 4 H D

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Page 5 TABLE DES MATIÈRES

1. Les enjeux de la prévision du risque de défaut de paiement

Dirigeant de SAS : Laisser le choix du statut social

Calcul de tableaux d amortissement

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Exercices d Électrocinétique

Généralités sur les fonctions 1ES

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Paquets. Paquets nationaux 1. Paquets internationaux 11

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Prise en compte des politiques de transport dans le choix des fournisseurs

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Le Prêt Efficience Fioul

La Quantification du Risque Opérationnel des Institutions Bancaires

Pro2030 GUIDE D UTILISATION. Français

Evaluation de performances d'ethernet commuté pour des applications temps réel

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Prêt de groupe et sanction sociale Group lending and social fine

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

TD 1. Statistiques à une variable.

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Séparation de Sources par lissage cepstral des masques binaires

Professionnel de santé équipé de Médiclick!

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Grandeur physique, chiffres significatifs

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

ACTE DE PRÊT HYPOTHÉCAIRE

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Pour plus d'informations, veuillez nous contacter au ou à

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Pratique de la statistique avec SPSS

The new Art of Smart. Loewe Art. La nouvelle intelligence télévisuelle.

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Corrigé du problème de Mathématiques générales Partie I

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

Comparative performance for isolated points detection operators: application on surface defects extraction

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Guide du divertissement de voiture

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Transcription:

Recherche d nformaton textuelle LIP6 Unversté Pars 6 Patrck.Gallnar@lp6.fr www-connex.lp6.fr/~gallnar/ Master Informatque M2 : Apprentssage pour la recherche d'nformaton textuelle et multméda Recherche d'nformaton textuelle 1

Plan Introducton Recherche d nformaton textuelle Notons de base, modèles de recherche Corpus et documents structurés Recherche d'nformaton textuelle 2

Introducton Recherche d'nformaton textuelle 3

Problèmes de l accès à l nformaton Représentaton - ndexaton, cf W3C, MPEG7 non structuré (texte, mage), sem structuré (BD, balses, métadescrpton) Technques d accès - modèle de recherche présenter un ensemble de documents selon un ordre de pertnence, présenter un unque document,.. Interacton utlsateur feedback, recherche nteractve Adaptaton à l utlsateur modélser le comportement, mémore des demandes, Stockage quantté de données (tera), stockage dstrbué Recherche d'nformaton textuelle 4

Dversté des sources d nformaton Texte artcles (pdf, ps, ) lvres pages HTML, XML Images, Vdeo, Son, Musque Web (pages, stes, blogs etc), Messageres - fls de dscusson, etc Recherche d'nformaton textuelle 5

Dversté des demandes d accès à l nformaton Consultaton (browsng) Requêtes booléennes Recherche par le contenu Recherche nteractve Recherche automatque (e.g. robots) Recherche BD Recherche d'nformaton textuelle 6

Informaton textuelle Bases de données textes Bblothèques électronques Journaux (Le Monde, Wall Street Journal,...) Bases d'artcles Web Moyen d'accès, e.g. BD textes Source d'nformaton dynamque : stes, pages,... 95 % de l'nformaton présente sur le Web est sous forme textuelle Informaton majortarement non structurée, mas structures explotables (HTML, SGML, XML), hérarches,... Recherche d'nformaton textuelle 7

Los de pussance Lo de Zpf Caractérse la fréquence d occurrence en foncton du rang Emprquement : fréquence.rang = cte Le 1 er mot est envron 2 fos plus fréquent que le 2 nd qu est 2 fos plus fréquent que le 3 e etc Brown Corpus ( > 1 M mots) Mot Rang Fréquence % the 1 69971 7% of 2 36411 3.5 % and 3 28852 2.6% Implcatons Quelques mots communs représentent la plus grande parte des textes (stopwords) Recherche d'nformaton textuelle 8

Expresson formelle : f ( r, s, N) = log( f r : rang 1/ r n= 1 log N : talle du corpus N ) = log r s n= 1 s : paramètre qu dépend du corpus En anglas s 1,.e. f.r 1 s 1/ n s N 1/ n s N = 10, log fréquence vs log rang (Wkpeda) Recherche d'nformaton textuelle 9

Autres phénomènes suvant une lo de pussance à la Zpf (Fréquence vs rang) Fréquence d accès des pages web Populaton des vlles Trafc nternet par ste Noms dans une populaton etc Recherche d'nformaton textuelle 10

Lo de Heaps Caractérse le nombre de mots dstncts dans un document β V = Kn V : talle du vocabulare n : talle du texte K,B paramètres dépendant du texte Anglas K entre 10 et 100 et B entre 0.4 et 0.6 Crossance sous lnéare du vocabulare en foncton de la talle du texte ou du corpus V en foncton de n (Wkpeda) Recherche d'nformaton textuelle 11

Exemples de tâches Trouver parm un ensemble d'artcles ceux qu concernent un sujet spécfque : pertnence d'un document? Fare un résumé du contenu d'un document ou d un ensemble de documents (éventuellement sur un sujet) Structuraton (classfcaton) automatque d'un ensemble de documents (groupes) Trouver dans un document les passages pertnents, les nformatons pertnentes concernant un sujet (mots - phrases) Suvre dans une collecton d'artcles l'évoluton d'un sujet, Changements de sujets Velle scentfque - technque, Surveller la concurrence Guetter l'arrvée d'nformatons (appels d'offre, CFP, nouveaux produts,...) Daloguer avec les clents (e.g. Hot Lne, réclamatons,...)... Recherche d'nformaton textuelle 12

Recherche d nformaton textuelle Recherche d'nformaton textuelle 13

Recherche d nformaton Requêtes ouvertes Requête/ Classe Documents d Processus 3 étapes prncpales Modèles hypothèses : Sac de mots, Indépendance des termes Logque Vectorel Probablste Langage Réseaux bayesens Croyances etc INDEXATION Normalsaton Représentaton des Termes Sélecton de Varables / Projecton Représentaton du Document / Requête q=(q 1,...q n ) d =(d 1,...d n ) MATCHING + RETRIEVAL score RSV(d, q) lste des documents (feedback) USER Recherche d'nformaton textuelle 14

Text Retreval Conferences-TREC TREC 2006 Blog Track: 2006. explore nformaton seekng behavor n the blogosphere. Enterprse Track: 2005. study enterprse search: satsfyng a user who s searchng the data of an organzaton to complete some task. Genomcs Track: 2003. study retreval tasks n a specfc doman(nclude not just gene sequences but also supportng documentaton such as research papers, lab reports, etc.) Legal Track: 2006. develop search technology that meets the needs of lawyers to engage n effectve dscovery n dgtal document collectons. Queston Answerng Track: take a step closer to nformaton retreval rather than document retreval. SPAM Track: 2005. standard evaluaton of current and proposed spam flterng approaches, layng the foundaton for the evaluaton of more general emal flterng and retreval tasks. Terabyte Track: 2004. nvestgate whether/how the IR communty can scale tradtonal IR test-collecton-based evaluaton to sgnfcantly larger document collectons than those currently used n TREC. Recherche d'nformaton textuelle 15

Past tracks Cross-Language Track nvestgates the ablty of retreval systems to fnd documents that pertan to a topc regardless of the language n whch the document s wrtten. Flterng Track the user's nformaton need s stable (and some relevant documents are known) but there s a stream of new documents. For each document, the system must make a bnary decson as to whether the document should be retreved Interactve Track studyng user nteracton wth text retreval systems. studes wth real users usng a common collecton and set of user queres. Novelty Track nvestgate systems' abltes to locate new (.e., nonredundant) nformaton. Robust Retreval Track ncludes a tradtonal ad hoc retreval task task, but wth the focus on ndvdual topc effectveness rather than average effectveness. Vdeo Track research n automatc segmentaton, ndexng, and content-based retreval of dgtal vdeo. The track became an ndependent evaluaton (TRECVID). Web Track search tasks on a document set that s a snapshot of the World Wde Web. Last ran n TREC 2004. Recherche d'nformaton textuelle 16

RD : notons de base Requête : expresson en texte "lbre" formulée par l'utlsateur e.g. "text mnng", "je voudras trouver des documents qu parlent de...", paragraphes enters,. Document : texte, abstract, passage de texte, texte + structure (e.g. balses HTML : ttres, paragraphes,...)... Corpus : ensemble de documents textuels (statque ou dynamque), éventuellement lens entre documents. Talle : 10 3, 10 6, 10 9 Catégore : lste de mots clé Recherche d'nformaton textuelle 17

RD : Prétratement et représentaton des textes : le processus d ndexaton Analyse lexcale Converson du texte en un ensemble de termes Unté lexcale ou radcal Espaces, chffres, ponctuatons, etc Quelles untés conserver pour l'ndexaton? Stop words - ant-dctonnare Les mots les plus fréquents de la langue "stop words" n'apportent pas d'nformaton utle e.g. prépostons, pronoms, mots «athématques»,.. (peut représenter jusqu'à 30 ou 50% d'un texte) Ces "stop words" peuvent être dépendant d'un domane ou pas L'ensemble des mots élmnés est conservé dans un ant-dctonnare (e.g. 500 mots). Les mots les plus fréquents ou les plus rares dans un corpus (frequency cut-off ) Les connassances sémantques permettent également d'élmner des mots Technques de sélecton de caractérstques Recherche d'nformaton textuelle 18

Stoplst - exemple a about above accordngly after agan aganst ah all also although always am an and and/or any anymore anyone are as at away b be been begn begnnng begnnngs begns begone begun beng below between but by was we were what whatever when where whch whle who whom whomeve r whose why wth wthn wthout would yes your yours yourself yourselve s Recherche d'nformaton textuelle 19

Prétratement et représentaton des textes (2) Normalsaton (lemmatsaton) Utlsaton d'une forme canonque pour représenter les varantes morphologques d'un mot e.g. dynamc, dynamcs, dynamcally,...seront représentés par un même mot, navguer, navguant, navre...dem Augmente le rappel, peut dmnuer la précson Technques (exemples) : systèmes tératfs à base de règles smples (e.g. pour l anglas Porter stemmng -largement employé) : on établ une lste de suffxes et de préfxes qu sont élmnés tératvement. méthodes à base de dctonnares mot - forme canonque. Intérêt : langue présentant une forte dversté lexcale (e.g. franças) Regroupement de mots smlares au sens d'un crtère numérque Recherche d'nformaton textuelle 20

Prétratement et représentaton des textes (3) La pondératon des termes Mesure l mportance d un terme dans un document Comment représenter au meux le contenu d un document? Consdératons statstques, parfos lngustques Lo de Zpf : élmnaton des termes trop fréquents ou trop rares Facteurs de pondératon E.g. tf (pondératon locale), df (pondératon globale) Normalsaton : prse en compte de la longueur des documents, etc Recherche d'nformaton textuelle 21

Prétratement et représentaton des textes (4) :Implémentaton des ndex Technque la plus fréquente : ndex nversé chaque terme de l'ndex est décrt par le numéro de référence de tous les documents qu contennent ce terme et la poston dans ce document du terme. Permet une accélératon consdérable de la recherche pour une requête. Cet ndex peut être ordonné en foncton décrossante de le fréquence des termes. Implémentaton : dfférentes structures de données tres (stockage des chaînes de caractère dans des arbres) retrouve une chaîne de caractère en temps proportonnel à sa longueur Table de hashage, etc Recherche d'nformaton textuelle 22

Prétratement et représentaton des textes (5) Représentatons : booléenne : exstence des termes (fréquent en catégorsaton) réelle : fréquence des termes, locale (pr à un texte), globale (pr à un ens de textes), relatve à la longueur du texte. Sélecton de caractérstques Projectons : réducton supplémentare (SVD, ACP,...) Recherche d'nformaton textuelle 23

Modèles de recherche hypothèse de base Plus la requête et le document ont de mots en commun, plus grande sera la pertnence du document Plus la requête et le document ont une dstrbuton de termes smlare, plus grande sera la pertnence du document Recherche d'nformaton textuelle 24

Les classques modèle booléen Modèle ponner recherche de documents s'apparant de façon exacte avec la requête. Requête = expresson logque ET..OU..NON. Transparent pour l utlsateur, rapde (web) Rgde, non robuste, pas de pondératon de l'mportance des termes,.. modèle vectorel recherche de documents possédant un fort degré de smlarté avec la requête Permet d ordonner les documents Expresson du beson : requête en langage naturel Rq : sur le web, la requête moyenne est de 2,5 mots clé! modèle probablste probablté qu'un document sot pertnent pour la requête Qualtés : dem modèle vectorel Recherche d'nformaton textuelle 25

Modèle vectorel Recherche d'nformaton textuelle 26

Modèle vectorel Espace de caractérstques ϕ, = 1...n.e. termes sélectonnés pré-tratés Représentaton des documents - requêtes : vecteur de pods dans l'espace des caractérstques document: d=(x 0,..., x n-1 ) requête: q =(y 0,,..., y n-1 ) x k pods de la caractérstque k dans le document d, e.g. présence-absence, fréquence du terme dans le document, dans la collecton (cf. df) mportance du terme pour la recherche facteurs de normalsaton (longueur du document) Les mots sont supposés ndépendants Recherche d'nformaton textuelle 27

Modèle vectorel (2) Avantages les documents sont évalués sur une échelle contnue l'mportance des termes est pondérée permet de trater du texte lbre Inconvénents hypothèse d'ndépendance des termes ntalement conçu pour des documents courts, pour des documents longs, facteurs de normalsaton, approches hérarchques par paragraphes (sélecton de paragraphes pertnents + combnason des scores des paragraphes) Recherche d'nformaton textuelle 28

Une méthode de référence tf-df Term frequency - nverse document frequency (tf-df) x = tf ( ϕ, d ) df ( ϕ ) tf(ϕ,d): # occurrences de ϕ dans le document d df(ϕ ) : # documents contenant ϕ df(ϕ ) : fréquence nverse df décrot vers 0 s ϕ apparaît dans tous les documents Mesure de smlarté entre q et d (e.g. Salton) Nombreuses autres pondératons et smlartés. RSV 1+ N df ( ϕ = ) log 1+ df ( ϕ) cos ( d, q) = n 1 = 0 n 1 = 0 x y n 1 2 x y = 0 2 Recherche d'nformaton textuelle 29

Recherche nteractve Méthode classque : relevance feedback r réponses ordonnées relevance : v. a. dans {0, 1} dée : utlsateur examne une parte des melleurs documents et les étquette 1/0 la requête est reformulée (enrchssement) + utlsateur nouvelle requète nouvelle recherche Recherche d'nformaton textuelle 30

Recherche nteractve Lste ordonnée des r melleurs documents { d, d } D,..., r ( q) = 1 2 d r Partton de ces r documents (ou d'une parte) par l'utlsateur rel r nonrel D ( q) = D ( q) D ( q) r r Prncpe du relevance feedback q ' = f rel ( q, D r, D nonrel r ) Recherche d'nformaton textuelle 31

Recherche nteractve-exemple Query expanson : reestmaton des pods de la requête - Roccho 1971 (heurstque) réestmaton de la requête : q q' = α q améloratons allant de 20% a 80 % par rapport à sans RF. Dfférentes varantes : + consdérer D β rel r optmser α et β d j D nonrel D r rel r d d = j j optmser le nombre de documents du feedback... D γ nonrel r d j D nonrel r d d j j Recherche d'nformaton textuelle 32

Automatc query expanson pas de feedback utlsateur, les k premers documents sont consdérés comme pertnents Marche meux quand la dstrbuton de rel D r est unmodale, cas multmodal rsque de dsparton des modes non prncpaux Le système va fournr des documents smlares à ceux déjà trouvés Recherche d'nformaton textuelle 33

Recherche nteractve Exemple 2 Reestmaton de Robertson et Sparck-Jones (1976) (codage bnare) RSV ( q, d ) = n 1 = 0 x y x y = = 1 s ϕ d j 0 snon p (1 log q (1 0 snon q p ) ) s ϕ q avec : p = # documents d dans # documents D d j rel r contenant dans D rel r ϕ q = # documents d dans # documents D d j nonrel r dans contenant D nonrel r ϕ p : P(doc pertnent content le terme ϕ de la requête) q : P(doc non pertnent content le terme ϕ de la requête) Recherche d'nformaton textuelle 34

Recherche d'nformaton textuelle 35 Recherche nteractve Justfcaton Robertson et Sparck-Jones, x = 0 ou 1 (présence / absence du terme dans d) foncton de décson : ),..., ( 1 n x x d = ) / 1 ( ) / 1 ( R x P q R x P p = = = = x x x x q q R d p p p R d p = = 1 1 ) (1 ) / ( ) (1 ) / ( cte p q q p R d p R d p + = ) (1 ) (1 log ) / ( ) / ( log

Modèle probablste Recherche d'nformaton textuelle 36

Recherche d'nformaton textuelle 37 Modèle probablste Probablty Rankng Prncple (Robertson 77) présenter les documents à l utlsateur selon l ordre décrossant de leur probablté de pertnence P(R/q,d) est optmal (pour le coût, la précson, le rappel..) 2 événements R : d est pertnent pour q R : d n est pas pertnent pour q Calcul de P(R/d) Indépendance des caractérstques ) ( ) ( ) / ( ) / ( d P R P R d P d R P = ) ( ) ( log ) / ( ) / ( log ) / ( ) / ( log R P R P R d P R d P d R P d R P + = = R p R d P ) / ( ) / ( ϕ = R p R p q d RSV ) / ( ) / ( log ), ( ϕ ϕ ) / ( ) / ( log ), ( R d P R d P q d RSV =

Recherche d'nformaton textuelle 38 Modèle probablste Ne pas tenr compte des attrbuts absents : Nombreuses varantes / extensons Problèmes longueur des documents (hypothèse mplcte d égale longueur) expanson des requêtes # doc pertnents consdérés (e.g. cas recherche on lne <> off lne cooccurrence de termes, prse en compte de «phrases»... = = = R p R p R p R p q d RSV ) 0/ ( ) 0/ ( log ) / ( ) / ( log ), ( ϕ ϕ ϕ ϕ = d q p q q p q d RSV ϕ ) (1 ) (1 log ), ( ) / ( ) / ( R P q R P p = = ϕ ϕ

Okap - Un système «probablste» (Robertson et al.) w (tf) pour k1 = 1.2 et b = 0 Term Frequency tf ( k + 1) w ( tf t t ) = 1 K + tf t K = k1 *((1 b) + b( DL / AVDL)) 2,5 2 1,5 1 0,5 0 0 5 10 15 20 25 t f Prse en compte de la longueur des documents DL : longueur du document AVDL : longueur moyenne des docs. k1 et b constantes e.g. k1 = 1.2, b = 0.75 Recherche d'nformaton textuelle 39

Okap (2) Inverse Document Frequency Pas d nformaton de pertnence sur les documents Informaton de pertnence sur les documents " df " = log N n t ( r + 0.5)( + + 0.5) " " = log t N nt R r df t ( R r + 0.5)( n r + 0.5) t t t Relevant Non Relevant total Content le terme t r n - r n Ne content pas le terme t R - r N n R + r N - n total R N - R N Recherche d'nformaton textuelle 40

Okap (3) Score du document d pour la requête q Score Okap = t q tf t, d K ( k + 1 tf + t, d 1) *" df ( t )" Automatc RF Sélectonner comme pertnents les B premer documents renvoyés, tous les autres sont non pertnents Calculer des pods pour les termes de ces documents Ajouter les pods à la requête pour les x (e.g x = 20) melleur termes " df " = log ( rt + 0.5)( N nt B + rt + 0.5) ( B r + 0.5)( n r + 0.5) t t t Recherche d'nformaton textuelle 41

Modèles de langage Recherche d'nformaton textuelle 42

Modèles de langage (Ponte, Croft, Hemstra,.. 98-99) Varables d : document que l utlsateur a en tête t : eme terme de la requête I {0,1} mportance du e terme de la requête 1 : mportant, 0 : pas mportant Consdérons une requête de n termes t 1,, t n Les documents seront ordonnés selon la pertnence du document pour la requête : Score d un document : P( d t1,.., tn) P ( t 1,.., t d On a alors un modèle statstque par document n ) Recherche d'nformaton textuelle 43

Hypothèse : ndépendence des termes de la requête condtonnellement à leur mportance La foncton de score devent P( t n 1,.., tn d) = p( I = k) p( t / I = k, d) = 1 k = 0, 1 P( t1,..., tn d) = (1 λ ) p( t ) + λ p( t / d) = 1 Avec p(t/d) = p(t/i = 1,d) et p(t) = p(t/i=0) n Recherche d'nformaton textuelle 44

Modèles de langage Apprentssage Dfférents estmateurs possbles, le plus courant : maxmum de vrasemblance exemple : p( d) = p( t λ = p(i = 1) / I 1 # documents = 1, d) = tf ( t, d) tf ( t, d) t = 0) = Les λ sont estmés par EM en maxmsant la vrasemblance des documents pertnents et des requêtes assocées. p( t / I d ' d ', t tf ( t, d') tf ( t, d') Recherche d'nformaton textuelle 45

HMMs (BBN Mller et al. 99) score : p(q /R, d) q et d sont des varables aléatores q est l observaton, 1 modèle HMM par document TREC 6, 7, ~500 k docs, 50 requêtes Le modèle ncorpore naturellement les statstques sur les termes, la longueur des documents Modèle de base : P(q t /GE ) Général Englsh Start q a 0 a 1 P(q t /d) End q Document p q / d relevant) = ( a p( q / GE) + a p( q / d)) ( 0 t 1 t Recherche d'nformaton textuelle 46 t

Réseaux Bayesens Recherche d'nformaton textuelle 47

Bayesan Inference Network (Turtle, Croft 91 Inquery) varables bnares, Relevance : p(q = 1, d = 1) d d t 1 t 2 t 3 t n d = 1 evenement on observe d q = 1 la requête est satsfate q I and/or p( q q p( t / d) = = 1, d = 1) = p( t Recherche d'nformaton textuelle 48 all / d) / = 1 / t = 0 t Pour dfférents prors et P(node/parents) on retrouve les modèles booleens ou probablstes p( q / t). p( t / d). p( d) t p( t / d)

Réducton de dmenson Latent Semantc Indexng (LSI/LSA) Décomposton en valeur sngulère d'une matrce A m*n de rang r Σ: dagonale, racnes carrées des valeurs propres de AA T U : vecteurs propres de AA T V : vecteurs propres de A T A Proprétés Im (A) : span(u1,..., ur), Ker (A) : span(vr+1,..., vn) Sot k < r A = U Σ V T Mn B / rk( B)= k A B = A Ak A k = k = 1 u σ v T = U k Σ k V T k U et V sont orthogonales Recherche d'nformaton textuelle 49

LSI Matrce terme documents : terme * docs documents A = [a j ] termes a j = tf-df, ou 0/1 projecton de la matrce terme - documents: A k Interprétaton U : base des termes dans le nouvel espace Vecteurs propres de la matrce de cooccurrence des termes V : base des documents dans le nouvel espace Vecteurs propres de la matrce de cooccurrence des documents Recherche d'nformaton textuelle 50

Représentaton d'une requête ou d'un document dans l'espace des termes : 1 = q T U kσk Les termes qu cooccurent fréquemment sont projetés au même «endrot» q' dem pour la projecton dans l'espace des documents avec V Calcul de la smlarté : RSV ( q', d' ) cos Recherche d'nformaton textuelle 51

Probablstc Latent Semantc Analyss - PLSA (Hofmann 99) Modélsaton stochastque de LSA - Modèle à varable latente Une varable latente est assocée à chaque occurrence d un mot dans un document Processus génératf Chosr un document d,p(d) Chosr une classe latente z, P(z d) Chosr un mot w suvant P(w z) Recherche d'nformaton textuelle 52

Modèle PLSA Hypothèses P(d) P(z d) P(w z) d z w P( d, w) = P( w d ) = P( d )* P( w d ) z P( w z) P( z d ) # valeurs de z est fxé Indépendence des observatons (d, w),.e. sac de mots Connassant z, w ne dépend pas de d Apprentssage MV et EM Recherche d'nformaton textuelle 53

Applcatons Extracton de concepts Z k : concept P(w z k ) représentaton du concept z k P(z k d ) mportance du concept dans le document Un concept sera commun à pluseurs mots Un même mot peut être assocé à dfférents concepts Recherche d'nformaton textuelle 54

Applcatons (autres) Segmentaton thématque Constructon de hérarches de documents (# modèles plsa hérarchques) Recherche d nformaton Annotaton d mages Pour une mage nconnue : P(w mage) Recherche d'nformaton textuelle 55

Evaluaton en RD Problème dffcle, pas de mesure absolue Crtères de qualté d un système de RD effcacté de la recherche possbltés de formuler des requêtes rches outls de navgaton dans la collecton mse à jour et rchesse du corpus Nombreuses mesures qu donnent des rensegnements partels sur le comportement du système Effcacté de la recherche : hyp : on possède un corpus, un ens. De requêtes, des jugements sur les doc. R et R pour une requête. Recherche d'nformaton textuelle 56

Evaluaton en IR : mesures de rappel - précson précson r ( q) = Rappel à r: # documents pertnents découverts # documents pertnents dans la collecton p r ( q) = Précson à r: # documents pertnents découverts # documents decouverts r : nombre de documents nspectés par l utlsateur parm les doc. fourns par le système,.e. les r premers de la lste Valeurs typques, 5, 10, 20, 25, 100, 1000 rappel Recherche d'nformaton textuelle 57

Précson - exemple Précson moyenne non nterpolée Moyenne de la precson pour l ensemble des docs pertnents de la lste Précson moyenne nterpolée La précson est calculée à dfférents nveaux de rappel (0%; 10%, 20%, 100%) S la précson remonte après le pont de rappel, on prend la veleur de précson la plus forte rencontrée après le pont (nterpolaton) + : pertnent - Non pertnent d6 (-) d3 (+) d3 (+) p 3 1 0 2/3 p 6 0.5 0.5 0.5 Precson moyenne non nterpolée Precson moyenne nterpôléee 11 ponts Lste 1 d1 (+) d2 (+) d3 (+) d4 (-) d5 (-) 1 1 Lste 2 d4 (-) d5 (-) d6 (-) d1 (+) d2 (+) 0.38 Recherche d'nformaton textuelle 58 0.5 Lste 3 d4 (-) d1 (+) d2 (+) d5 (-) d6 (-) 0.55

Evaluaton en RI Autres mesures d évaluaton Précson moyenne = 1/3*(précson(0.25) + précson(0.5) + précson(0.75) ) F mesure F = 2 * P P + * R R etc Recherche d'nformaton textuelle 59

Recherche Web Recherche d'nformaton textuelle 60

RI Web vs RI classque Corpus Talle, Nature, Dynamcté Contexte Réseau, localsaton, hstorque Indvdus Grande varablté Prse en compte progressve des profls pour la recherche web Recherche d'nformaton textuelle 61

Indvdus Beson Transactonnel Achats en lgne Acceder à une ressource Musque, lvre, Informatonnel Consultaton Se rensegner sur un sujet Navgaton Jondre une page donnée Interacton Recall souvent peu mportant, precson mse en avant Recherche d'nformaton textuelle 62

Indvdus - exemple http://www.prospect.com/premumpdfs/whtepaper_2006 _SearchEngneUserBehavor.pdf Recherche d'nformaton textuelle 63

Indvdus Requêtes Lo de pussance Beaucoup de requêtes populares Talle moyenne requêtes < 3 mots Besons d nformaton dynamques Recherche d'nformaton textuelle 64

Corpus Crossance désordonnée Pas de coordnaton Nature des nformatons Content des nformatons obsoletes, mensongères, etc Texte, html, mages, structuré (XML), BD, Statque vs dynamque Le web dynamque n est pas ndexé Quelques travaux Web caché Multlngue Dffculté des analyses lexcales Forte crossance Double tous les mos La talle du web réel n est pas connue Etudes sur l estmaton du nombre de pages Pluseurs méthodes : marches aléatores, etc Nombre de stes (cf Netcraft) Nombre de pages ndexées Yahoo! Annonce 20 M en 2005? Recherche d'nformaton textuelle 65

Crossance du web http://news.netcraft.com/archves/web_server_survey.html Total Stes Across All Domans August 1995 - January Recherche d'nformaton textuelle 66

Structure globale du Web Connexons Lo de pussance Le nombre de pages web de n-degree est proportonnel à 1/ k avec k = 2.1 Recherche d'nformaton textuelle 67

Bow-Te shape of the web Tros grandes catégores de pages web In, Out, SCC qu se dstnguent par les possbltés de navgaton From Mannng et al. 2007 Recherche d'nformaton textuelle 68

Spam sur le Web Référencement Search Engne Optmzaton Mettre en avant ses pages / son ste dans les résultats des moteurs de recherche Motvatons Dverses : commercales, poltques, etc Devenu une ndustre Les moteurs essaent de fare respecter des règles aux SEO Très lé au SPAM Recherche d'nformaton textuelle 69

Bestare du Spam Modfcaton du contenu Keyword stuffng Répétton de termes pour augmenter le tf-df Varantes : meta-tags, texte caché (couleur du fond..), adresses url fréquement demandées, etc Vsat les 1ers moteurs de recherche (tf-df), faclement detecté actuellement Cloakng E.g. déréférencement de BMW par Google en 2006 Délvrer des nformatons dfférentes suvant l utlsateur (robot vs personne) Permet d ndexer des pages avec des mots (robot) dfférents du contenu vu par l utlsateur human Recherche d'nformaton textuelle 70

Basés sur les lens Lnk farms Référencement mutuel de stes Développer un grand nombre de stes nterconnectés qu pontent également sur des cbles dont on fat remonter le pagerank Honey pot Réplcaton de stes ou annuares très référencés le ste sera ensute référencé par d autres utlsateurs et augmentera son rang Blog ou wk spam Fare ponter sur son ste à partr de stes où l on peut écrre Clc spam Épuser le crédt de concurrents en fasant clquer que les lens sponsorés (pay per clc model) Camouflage Doorway Fare référencer une page avec un bon score (chox de mots clé, des lens etc) L utlsateur qu demande la page est renvoyé sur d autres pages (commercales etc) Recherche d'nformaton textuelle 71

[Ntoulas et al. 2006], la fgure 2 représente le taux de Web spam dans les 8 domanes les plus populares sur le Web, la fgure 3 le taux de spam dans les 5 langues les plus populares. Ces statstques sont calculées sur 100 mllons de pages, globalement représentatves du Web. Recherche d'nformaton textuelle 72

La lutte contre le Spam Edtoral Blacklsts, dénoncaton (Google), http://www.google.com/contact/spamreport.html Usage Préférer les pages très utlsées, ben référencées Analyse de lens Gult by assocaton Algos robustes de référencement Machne learnng Cf Adversal retreval ntatve : Arweb http://arweb.cse.lehgh.edu/ Recherche d'nformaton textuelle 73

Evoluton des moteurs de recherche 1994 97 Excte, Lycos, etc Contenu 1998 Google, Yahoo Lens Clck through Anchor text 2002 Money Multplcaton des servces Prse en compte contexte et utlsateur Autres sources d nformaton Web 2.0 etc Recherche d'nformaton textuelle 74

Analyse de len Popularsée par Google avec PageRank Actuellement une composante parm beaucoup d autres des moteurs de recherche Entre 10 et 100 caractérstques prses en compte Cours : 2 algorthmes hstorques PageRank (Brn & Page 1998) HITS (Klenberg 1998) Très nombreuses varantes E.g. trustrank Recherche d'nformaton textuelle 75

Les lens Le web est vu comme un graphe orenté Les lens sont porteurs d nformaton Un len entre pages ndque une relaton de pertnence Un len est un ndcateur de qualté Le texte d un len résume la page cble L ndexaton d une page dot prendre en compte les lens vers cette page (contexte) Recherche d'nformaton textuelle 76

PageRank Idée Marche aléatore dans le graphe du web Au bout d un certan temps, on attent un état statonnare qu donne la probablté d attendre chaque page vstée Modélsaton : chane de Markov Les pages les plus vstées lors de la marche aléatore sont celles qu ont de nombreux n-lnks provenant de stes externes Recherche d'nformaton textuelle 77

PageRank On démarre d une page du web On effectue une marche aléatore On sut un len sur cette page avec une certane probablté Dans le modèle de base tous les lens sont équprobables On saute à une page quelconque avec une probablté q (0.15) : téléportaton Permet d évter de rester bloquer sur une page sans len Permet de vster l ensemble des pages On attent un état statonnare Le taux de vste des pages dans cet état sert de score PageRank (valeur entre 0 et 1) Rq : pas la pene de calculer la soluton exacte, seul l ordre entre les pages est mportant Recherche d'nformaton textuelle 78

Pagerank - modèle On modélse la M.A. par une chaîne de Markov N états Un état = une page Une matrce de transton A j A j = P(j ) : probablté d aller en j quand on est en Défnton Une chaîne de Markov est ergodque s l exste un enter k > 0 / pour toute pare d états, j, s le processus démarre à 0 en, alors pour t > k, on a P(j) > 0 Proprété Toute chaîne de Markov a une dstrbuton d états statonnare unque Sur une pérode de temps suffsement longue, chaque état est vsté en proporton de ce taux de vste Recherche d'nformaton textuelle 79

État de la chane X = (x 1,, x n ) vecteur lgne x = P(on se trouve dans l etat ) État suvant X = X.A Etat statonnare Résoudre X.A = X X est le vecteur propre de A assocé à sa plus grande valeur propre Une matrce stochastque (0 < A j < 1 et Σ j A j = 1) a une valeur propre ppale égale à 1. Un algorthme smple Algorthme de la pussance térée Partr d un état aléatore X Itérer X.A, X.A 2 X.A k jusqu à stablté Recherche d'nformaton textuelle 80

Pagerank résumé Requête Q : on consdère les pages qu sont pertnentes pour Q On les ordonne en foncton de leur score Pagerank Cet ordre est ndépendant de la requête Remarques Varantes Marches aléatores plus sophstquées (bouton back, bookmarks, selecton des lens non unforme, prse en compte des ntérets de l utlsateur, PageRank topc specfc, etc) Prse en compte du spam sur les lens Recherche d'nformaton textuelle 81

Hts 2 notons à la base de la méthode Hubs Pages qu pontent vers des pages pertnentes pour un sujet (lens sortants) Authortes Pages qu sont de bonne références sur un sujet qu sont donc pontées par les hubs Adapté à des recherches assez large E.g. voture Idée Chaque page va avor 2 scores H et A On aura 2 lstes ordonnées par H et A Algorthme Itératf Partr d un pett ensemble ntal de pages qu peuvent être de bons hubs ou authortes (obtenu par un moteur contenu) Calculer les scores h et a pour toutes les pages de cet ensemble et pour celles qu pontent sur cet ensemble et hors de cet ensemble (c est l ensemble de base) Recherche d'nformaton textuelle 82

Hts l algorthme But Calculer pour chaque page x dans le base set h(x), a(x) Intalser h(x) = 1, a(x) = 1 Repéter h( x) = a( x) = x y y x a( y) h( y) Après convergence Sortr les 2 lstes Melleurs h() Melleurs a() Recherche d'nformaton textuelle 83

L algorthme - sute Pour un ensemble de pages web h : vecteur des hubs de ces pages a : vecteur des authortes de ces pages L algorthme revent à répeter : h = A a = A T a = h = AA On retrouve un pb de valeur / vecteur propre A T A La méthode précédente est smplement l algorthme de la pussance térée pour les matrces AA T et A T A T h a Recherche d'nformaton textuelle 84

Remarques L algorthme converge En pratque quelques tératons suffsent (5) Indépendant du contenu effectf des pages Prse en compte ndrecte va les lens Dérve possble vers des pages qu ne sont pas pertnentes pour la requête Les stes afflés se renforcent ce qu n est pas l effet voulu Pluseurs solutons proposées pour ces problèmes Recherche d'nformaton textuelle 85

Corpus et documents structurés Modèles de RI pour le Web et les corpus XML Recherche d'nformaton textuelle 86

Les modèles standards de la RI consdèrent des documents plats L nformaton aujourd hu est largement structurée Web, corpus XML, blogs, fls de dscusson, etc Vdeo, multméda, web sémantque, ontologes Evoluton des modèles de RI pour prendre en compte les nouveaux méda et les nouveaux besons Remse à «plat» des prncpes de base de la RI En pratque : passe souvent par une adaptaton des concepts et modèles exstant Recherche d'nformaton textuelle 87

Modèles de RI et Web Recherche d'nformaton textuelle 88

La Webtrack de TREC (2004) Tâches Topc dstllaton Q décrt une requête générale, le système retourne des pages pertnentes Homepage fndng Q est le nom d un ste e.g. togo embassy, le systeme retourne l url du ste dans les top r Name page fndng Q correspond à une page e.g. servces socaux de la mare de Pars, le système renvoe l url de cette page dans les top r HP et NP : on ne cherche pas tous les docs pertnents mas un ste ou une page Recherche d'nformaton textuelle 89

Documents Web Structure Présente au nveau du web, des stes, des pages HTML, XHTML Nombreux algorthmes pour prendre en compte la structure du web Pagerank, Hts etc on n en parle pas dans l exposé Modèles de RI 2 grandes famlles Fuson de scores des dfférentes composantes du document ou sources d nformaton (heurstques ou par apprentssage) Fuson des nformaton au nveau de la représentaton même des documents Recherche d'nformaton textuelle 90

Okap pour des documents structurés BM25F (Robertson et al 2004) Document structuré avec dfférents champs (page ou ste web) Queston comment combner ces dfférentes nformatons? Constat La combnason de scores apporte peu lorsqu l faut combner de nombreux champs Proposton Prendre en compte les dfférents champs drectement dans la représentaton des documents La méthode obtent les melleurs résultats à TrecWeb 2004 Utlsée également pour pluseurs autres tâches Recherche d'nformaton textuelle 91

Rappel Okap Rappel : Okap BM25 classque tf t ( k + 1) w ( tf t ) = 1 K + tf t K = k1 *((1 b) + b( DL / AVDL)) Score Okap = t q tft, d ( k1 + 1) *" df K + tf t, d ( t)" Crtque de la combnason de scores Dffcle de combner les scores de champs de nature très dfférente Robustesse des statstques dans les dfférents champs, confance dans les scores pour les dfférents champs etc La non lnéarté (saturaton) de la foncton perd son sens dans cette combnason E.g. un document contenant un terme de la requête dans dfférents champs peut avor un melleur score qu un document contenant pluseurs termes de la requête dans un seul champs etc Recherche d'nformaton textuelle 92

BM25F Un document comprends dfférents champs A un terme t, on assoce le vecteur de ses fréquences dans les dfférents champs La représentaton fréquentelle d un document est défne par l ensemble des vecteurs de fréquence de ses termes. La fréquence d un terme t est alors défne comme une combnason des fréquences de t dans les dfférents champs Le score est calculé de manère analogue à OKAPI classque Recherche d'nformaton textuelle 93

BM25F F = (F 1,,F n ) un ensemble de champs A chaque champ F est assocé un pods v tf F,t fréquence de t dans le champs F de d DL F et AVDL F sont la longueur du champs F dans d et la longueur moyenne du champs F dans le corpus t f w K t = v F, t t 1 F ( tf t ) = K F + F DL F = k = AVDL 1 F = t tf f ( k + 1) tf *((1 b) + b( DL v. DL( F ) t F v. AVDL( F ) / AVDL Score BM 25F = w ( tf )*" df ( t)" t q F t F )) Recherche d'nformaton textuelle 94

Les dfférents paramètres sont choss séquentellement et séparément de façon à optmser une mesure e.g. precson@10 Les formules utlsées effectvement (TREC) dffèrent un peu de celle donnée c Applcaton au Web Combnason des champs des documents Ttre, corps, ancre lens hypertexte Combnason avec d autres sources d nformaton (e.g. score page rank pour le web) par de smples combnasons lnéares L dée est utlsable avec d autres méthodes Recherche d'nformaton textuelle 95

Combnason dans des modèles de langage (Oglve, Callan 2003) Les modèles de langage permettent naturellement de combner dfférentes sources d nformaton Dans le cas du web par exemple λ = 1 P( d q) = P( d) λ1p( t Corpus) + λ2p( t d, ancre) + λ3p( t d, body) + λ4p( t t q d, ttre) Les λ sont estmés sur les données Rq : par rapport à des combnason classques, c, la combnason des scores est fate séparément pour chaque terme et non pour chaque composante équvalent à combner les composantes dans la représentaton des documents Recherche d'nformaton textuelle 96

La recherche dans les documents structurés XML Recherche d'nformaton textuelle 97

Documents XML <artcle> <hdr> <bdy> <fg> <fgc> texte <sec> <st> texte <p> texte Recherche d'nformaton textuelle 98

Recherche d nformaton structurée But RI dans les corpus de documents structurés e.g. XML Consderer smultanément la structure logque et le contenu Change la perspectve sur la RI Requêtes Eléménts à rechercher Evaluaton Interacton Recherche d'nformaton textuelle 99

«INEX» E. U. Corpus: 2002-2005 - 500 Mo de documents XML + requêtes + jugements de pertnence, 16 000 documents (IEEE journals), 10 mllons de doxels 2006 Wkpeda XML : textes anglas de Wkpeda, 659,388 artcles couvrant une herarche de 113,483 categores, > 60 Ggabytes, 5000 tags dfferents. En moyenne an artcle contans 161.35 nœuds XML par artcle, profondeur moyenne d un élément 6.72. Recherche d'nformaton textuelle 100

Inex - requêtes Requêtes Content Only CO Content and Structure CAS VCAS Consttuton d une requête Ttle Expresson du beson d nformaton CO : mots clés, CAS : //artcle[about(.,nterconnected networks]//p[about(.,crossbar networks)] Topc descrpton 1 ou 2 phrases en langage naturel Narratve Descrptf plus complet Exemple en 2004 30 CO, 30 CAS 37 000 doxels judged for CO (1500 per queston) 34 000 doxels judged for CAS (1137 per queston) Coût de l assessment : 20 h / requête! Recherche d'nformaton textuelle 101

Inex tâches (2005) Tâche de base : Focused Retrouver les éléments pertnents au bon nveau de granularté Pour analyser le comportement des systèmes, 2 autres tâches Thorough Retrouver tous les éléments pertnents sans prse en compte de la dépendance entre éléments (.e une secton et ses paragraphes) Fetch and browse Fetch : dentfer les artcles pertnents Browse : dentfer les éléments dans ces artcles Recherche d'nformaton textuelle 102

INEX 2002 assessments Deux dmensons Exhaustvté Un doxel «exhaustf» content l nformaton Echelle 4 valeurs Specfcté Il ne content pas d autre nformaton 4 valeurs 2004, contnu [0,1] 200510 valeurs ndépendantes sur 16 Too large (G) Exact (E) Too small (P) Non exhaustve (I) Recherche d'nformaton textuelle 103

Evaluaton Dffcultés Prse en compte des relatons entre éléments Near msses : on retourne un élément «vosn» d un élément recherché Overlap : la même nformaton est retournée pluseurs fos (paragraphes, secton, etc) Prse en compte de l echelle graduelle à 2 dmensons (E,S) Problème dffcle Dfférents métrques Recherche d'nformaton textuelle 104

Precson - rappel Pas adapté e.g. système retournant systèmatquement un doxel plus pett rappel = 0 precson = 0 Recherche d'nformaton textuelle 105

Mesure utlsée à nex 2005 : Gan cumulé (Kaza et al 2005) Base de rappel Base de doxels pertnents dans le corpus Lste de documents retournés par le système Gan d un doxel de rang dans la lste A un doxel x on assoce un score xg[] qu mesure le «gan» d nformaton apporté par ce doxel (dépend des jugements et de la lste elle-même) Gan déal xi[] La lste déale est composée de l ensemble des doxels pertnents de la base ordonnés par leur degré de pertnence calculé en foncton des «assessments» Gan cumulé au rang : Métrque : gan normalsé : xcg[ ] = xg[ ] CI[ ] = j= 1 j= 1 nxcg [ ] = xi[ ] xcg[ ] xci[ ] Recherche d'nformaton textuelle 106

Precson-Recall wth User Modelng (Pwowarsk et al. 2005) Mesure de précson-rappel probablste qu prend en compte overlap near msses navgaton utlsateur PRUM() = P(Lur Retr,L = l,q = q) = nveau de rappel dans [0,1] Lur = évènement : l élément condut à un doxel pertnent Retr = évènement : l élément est dans la lste consultée l = pourcentage d éléments pertnents que l utlsateur veut vor q = requête Recherche d'nformaton textuelle 107

Modèles Dfférentes adaptatons des modèles classques de RI Modèle vectorel Modèle de langage Réseaux Bayesens Remarques Nombreux essas sur l ndexaton, les pondératons, etc : pas de consensus général sur ce qu est le meux Importance du lssage des estmatons, Requêtes CAS : dfférentes méthodes pour la prse en compte des contrantes (ndex de la structure) Overlap souvent traté en post-processng Recherche d'nformaton textuelle 108

Modèle vectorel (Mas et al. 05) Adaptaton drecte du modèle vectorel 1 ndex par type d élément «sgnfcatf» (artcles, secton, sous secton, paragraphe) Modèle vectorel applqué séparément à chaque type Algorthme Applquer le modèle vectorel sur le type RF sur les sortes de type Normalser les scores dans [0,1] en dvsant le score par RSV(q,q) Interpolaton avec le score de l artcle Ordonner la lste globale comprenant tous les types avec les scores normalsés Leçon : mportance de l nterpolaton (+30 %) et du RF Recherche d'nformaton textuelle 109

Modèle de langage (Kamps et al. 2005) Index pour les artcles, et les types de doxels (redondance : l ndex de la secton content les termes du paragraphe) Un modèle de langage par type de doxel Lssage Prors sur la talle des éléments : ncorporaton d nformaton de contexte RF par type de doxel Comparason drecte des scores des dfférents éléments P ( e P ( t P ( e ) q ) e ) = = P ( e ) P ( q λ elt e e ' P e ' ml ( t e ) = e ) + λ P ( e ) doc P ml n = 1 ( t P ( t doc e ) ) + λ corpus P ml ( t corpus ) Recherche d'nformaton textuelle 110

Réseaux Bayesens (Pwowarsk et al. 2003) Les documents structurés sont consdérés comme des arbres Modèle : RB arborescent Les scores sont calculés par nférence dans le RB Probabltés condtonnelles du RB estmées sur le corpus Recherche d'nformaton textuelle 111

Corpus modelng Modèle de document Modèle du corpus : un RB construt à partr des RB des documents La structure du réseau reflète celle du corpus Recherche d'nformaton textuelle 112

Doxel La pertnence des doxel depend de Celle du parent La requête Word 1 Word 2 Word 3 frequency frequency frequency Document Query R Exact I Non relevant G Too large S Too small Secton R I G S exact non relevant too large too small Recherche d'nformaton textuelle 113

Modèle de Document Q=q D S1 S2 P1 P2 P3 P4 La pertnence du doxel est calculée par nférence dans le réseau P(D = R / Q = q), P(S 1 = R / Q = q), P(S 2 = R / Q = q), Pour cela l faut connatre P( doxel relevance = x / parent relevance = y, query = q) = F(doxel,x,y,q,Θ) Cette foncton est calculée pour chaque requête Apprentssage : parmètres du modèle Θ par gradent. Recherche d'nformaton textuelle 114

Requêtes «CAS» «I want a secton on XML n an artcle about RI publshed n 2000» Q1 Q2 Q3 //artcle[about(., RI ) and yr>=2000]//sec[about(., XML )] Q1 Q2 Q3 an an an artcle artcle artcle artcle artcle artcle yr sec sec yr sec yr sec sec yr sec yr sec sec yr sec P(an/artcle[1] Q1) P(an//yr[1] Q2) et et et P(an/artcle[1] Q1-2) Recherche d'nformaton textuelle 115 P(an/artcle[1]/sec[1] Q) P(an/artcle[1]/sec[2] Q)

Precson recall on INEX 2003 Recherche d'nformaton textuelle 116

Apprentssage de fonctons d ordonnancement pour la recherche structurée (Vttaut 2005) Recherche d'nformaton textuelle 117

Apprentssage de fonctons d ordonnancement Apprendre automatquement une foncton d ordonnancement Utlsé pour combner des caractérstques, des scores ou des relatons de préférence dans dfférentes tâches : meta search, Résumé automatque, RI, Poolng, etc Les algorthmes d ordonnancement combnent des caractérstques des éléments à ordonner. Possblté d ncorporer des nformatons de nature dfférente En SIR, les caractérstques vont dépendre : Du doxel lu même (contenu) De son contexte structurel (etquette, parent, etc) Peut être utlsé avec toute méthode qu fournt des scores pour les doxels et pour combner ces méthodes entre elles Recherche d'nformaton textuelle 118

Prncpe Apprendre un ordre total sur un ensemble X, qu permette de comparer tout couple d élément de cet ensemble. Etant donné cet ordre total, on peut ordonner tout sous ensemble de X Exemple En IR, X peut être un ensemble de couples (document, requête), et l ordre total est l ordre naturel sur les scores. Recherche d'nformaton textuelle 119

Comment apprendre? L ensemble d apprentssage consstera en pares d exemples ordonnés. Il n est pas nécessare d ordonner l ensemble des pares Cela va fournr un ordre partel sur les élements de X. L algorthme d ordonnancement va utlser cette nformaton pour apprendre un ordre total sur les éleéments de X : la foncton d ordonnancement. Celle c va permettre d étendre l ordre partel à tous les éléments du corpus (ordre total). Recherche d'nformaton textuelle 120

Exemple Pour SIR, X sera l ensemble de tous les couples (doxel, requête) dans la collecton de documents. Cet ensemble est partellement ordonné selon la pertnence des jugements pour chaque requête Recherche d'nformaton textuelle 121

Notatons Un élément de X sera représenté par un vecteur de caractérstques réelles x = (x 1, x 2,..., x n ) Dans notre cas, les caractérstques seront les scores locaux calculés sur dfférents éléments contextuels d un doxel. La foncton d ordonnancement sera une combnason lnéare des caractérstques de x f w ( x) = 1 w = (w 1,,w n ) sont les paramètres à apprendre = n w x Recherche d'nformaton textuelle 122

Recherche d'nformaton textuelle 123 Coût d ordonnancement le coût d ordonnancement mesure à quel pont f w respecte l ordre R est non dfférentable Les algorthmes d ordonnancement optmsent un coût exponentel : p snon et 0 ) ' ( ) ( s 1 '), ( avec ) ', ( ), ( ' '), ( 2 x f x f x x X x x X w X R w w x x X x x > = = p = ' '), ( ') ( ) ( 2 ), ( x x X x x x f x f e w w e w X R p

Rankng vs Classfcaton Classfcaton Prédt quel doxel est pertnent ou non pertnent Ne s ntéresse pas à l ordre des doxels Mnmse l erreur de classfcaton P( C x) Ordonnancement Consdère unquement l ordre des doxels Mnmse le nombre de couples mal ordonnés L échelle des scores n est pas mportante P( xp x' x, x') Recherche d'nformaton textuelle 124

Combnason Nous avons utlsé la combnason suvante f l l l l ( x) = w1 + w2okap( x) + w3okap( pa( x)) w4okap( doc( x)) w + Okap est un modèle Okap adapté à SIR Le paramètre l w dépend De la caractérstque Du type du noeud l Recherche d'nformaton textuelle 125

Combnason Recherche d'nformaton textuelle 126

Reducton de la complexté Comparer des éléments pour dfférentes requêtes n a pas de sens Pour chaque sous ensemble, les préférences entre les doxels sont exprmées suvant pluseurs dmensons Il n y a pas de préférence entre éléments partageant la même valeur d exhaustvté - spécfcté Recherche d'nformaton textuelle 127

Reducton de complexté La foncton de coût ntale est quadratque pr aux assessments R e ( X, w) = e ( x, x') assessments xpx' f w ( x) f 2 w ( x') Elle se réécrt sous une forme qu est lnéare pr aux nombre d assessments R ( X, w) = e ( e f w ( x) f ( ES, E' S ') x assessments( ES ) x' assessments( E' S ') E' S 'pes )( e w ( x') ) Recherche d'nformaton textuelle 128

Assessments Recherche d'nformaton textuelle 129

CO Focused Topcs et assessments de Inex 03, 04 pour l apprentssage Inex 05 pour le test Recherche d'nformaton textuelle 130

CO-Focused Recherche d'nformaton textuelle 131

CO-Thorough Recherche d'nformaton textuelle 132

CO-Thorough Recherche d'nformaton textuelle 133

Extracton d Informaton Recherche d'nformaton textuelle 134

Extracton examples Q/A What was W. Shakespeare occupaton before he began to wrte plays Who s Tom Cruse marred to marred actors T. Cruse and Ncole Kdman play dr. Wllam and Alce Hartford, a N.Y. couple who thnk ther eght year marrage s very good On lne adds Captal Hll 1 br twnhme. Fplc D/W/W/D Undrgrnd pkg ncl $675 3 B, upper flr of turn of ctry HOME. Incl. gard, grt N. Hll, loc $995. Recherche d'nformaton textuelle 135

Informaton Extracton Unstructured text Newspapers, scentfc artcles, etc Closed extracton - MUC: Message Understandng Conferences Open extracton - Queston/Answerng n TREC Structured text HTML pages Regular structures Specfc approaches for each task Recherche d'nformaton textuelle 136

Message Understandng Conferences (MUC) Message Understandng Conferences : évaluatons sur des tâches "pratques" d'analyse et de compréhenson de texte. MUC 1 (1987) à MUC7 (1998) 3 tâches : développer des composants IE mmédatement utlsables, ndépendants du domane, automatques e.g. dentfer tous les noms d'organsaton et d'ndvdus dans des textes. portablté des systèmes d'extracton e.g. retrouver dans un texte les nformatons concernant les mouvements d'ndvdus dans les compagnes. évaluaton sémantque Coréférences, Désambgüaton, Structure : consttuants d'une phrase Recherche d'nformaton textuelle 137

Extracton d nformaton (MUC) Une tâche TLN spécfque du domane Données : texte lbre Sorte : «résumé» du texte concernant des sujets d'ntérêt spécfque : codé sous une forme structurée Comment : analyse superfcelle du texte complet détecton des sectons pertnentes au sujet analyse de ces sectons pour extrare l'nformaton Recherche d'nformaton textuelle 138

Vson MUC de l IE... J o h n S m o n, C h e f F n a n c a l O ffc e r o f P rm e C o rp. s n c e 1 9 8 6, s a w h s p a y ju m p 2 0 %, to $ 1.3 m llo n, a s th e 3 7 - y e a r -o ld a ls o b e c a m e th e fn a n c a l- s e rv c e s c o m p a n y 's p re s d e n t... J o h n _ S m o n /n o u n /N A M E,/, C h e f/n a m e F n a n c a l_ O ffc e r/n a m e /P O S IT I O N o f/p r e p P r m e _ C o rp./n o u n /C O M P A N Y s n c e /a d v 1 9 8 6 /n u m b e r /D A T E,/, s a w /v e r b... T o k e n s a to n + T a g g n g S e n te n c e A n a ly s s E x t r a c to n G e n e r a t o n d e P a t r o n M e r g n g E v e n t: S U C C E S S IO N _ E V E N T P O S T : " p re s d e n t" V A C A N C Y _ R E A S O N : O T H _ U N K P E R _ N A M E : " J h o n S m o n " N E W _ S T A T U S : I N O N _ T H E _ J O B : Y E S O T H E R _ O R G : S A M E _ O R G O R G _ N A M E : " P rm e C o rp." O R G _ D E S C R I P T O R : " th e fn a n c a l-s e r v c e s c o m p a n y " O R G _ T Y P E : C O M P A N Y P E R _ N A M E : " J h o n S m o n "... J o h n S m o n, C h e f F n a n c a l O ffc e r o f P r m e C o r p. s n c e 1 9 8 6, s a w h s p a y ju m p 2 0 %, to $ 1.3 m llo n, a s th e 3 7 -y e a r -o ld a ls o b e c a m e th e fn a n c a l-s e r v c e s c o m p a n y 's p re s d e n t... J o h n _ S m o n : P E R S O N _ N A M E C h e f F n a n c a l O ffc e r : P O S IT IO N o f P r m e C o rp. : C O M P A N Y a ls o b e c a m e th e : P O S IT IO N _ N E W b e c a m e th e p re s d e n t : P O S I T IO N fn a n c a l-se rv c e s c o m p a n y : O R G _ D E S C R IP T O R Recherche d'nformaton textuelle 139