Recherche d information par croisement de média texte et image

Transcription

1 République Algérienne Démocratique et Populaire Ministère e l Enseignement Supérieur et e la Recherche Scientifique Université M hame BOUGARA e BOUMERDES Faculté es Sciences Département Informatique MEMOIRE DE MAGISTER Spécialité : Système informatique et génie es logiciels Option : Spécification e logiciel et traitement e l information Ecole Doctorale Présenté par : MAMMERI Karima Thème Recherche information par croisement e méia texte et image Devant le ury e soutenance composé e: Mr MEZGHICHE Mohame Professeur à l université e Boumeres. Présient. Mr BOUGHANEM Mohen Professeur à l université Paul Sabatier e Toulouse. Rapporteur. Mme AMIROUCHE Fatiha Maître e conférence à l université e Tizi Ouzou. Examinateur. Mme AMROUCHE Karima Maître e conférence à l INI, Alger. Examinateur. Année Universitaire : 2008/2009

2 À la mémoire e mon très cher père e éie ce moeste travail Déicace

3 Remerciements Je tiens à exprimer mes vifs remerciements et ma très grane reconnaissance à mon encareur Monsieur Mohan BOUGHANEM Professeur à l université Paul Sabatier e Toulouse pour m avoir proposé ce suet, pour ses orientations et ses remarques qui m'ont été précieuses tout au long e ce travail. Je remercie sincèrement Monsieur le Professeur Mohame MEZGHICHE, responsable e l école octorale en informatique e Boumeres pour sa isponibilité et pour les efforts qu'il a bien voulu consacrer pour notre formation initiation à la recherche, ainsi que pour l honneur qu il me fait e présier le ury e ce mémoire. Je remercie également les membres e ury pour avoir accepter e uger ce travail. Je remercie affectueusement ma mère, mes sœurs et frères. Enfin, e remercie beaucoup ma famille, mes amis et tous ceux qui m ont encouragé pour que ce travail puisse être achevé..

4 Résumé Notre travail se situe ans le contexte e la recherche information (RI), plus particulièrement la recherche information ans es ocuments e type texte et image. Les systèmes e recherche images eviennent e plus en plus nécessaires. Parmi les techniques e recherche e ce type informations, il existe principalement eux granes approches : la recherche par mots clés et la recherche par le contenu visuel. Les mots clés retenus par l inexation peuvent être ambigus. Les escripteurs peuvent en fait se rapporter à es termes ayant plusieurs sens et onc ne pas iniquer clairement la thématique aborée ans le ocument. D autre part, une es ifficultés maeures que se pose ans le omaine e la recherche e ocuments multiméia (les images) par le contenu visuel est le fossé sémantique existant entre une image et son sens. Afin e pallier les faiblesses es eux types e systèmes e recherche, les systèmes permettant la combinaison u texte et e l image font l obet e plusieurs travaux récents. Dans ce travail nous nous somme intéressé a la catégorie es systèmes permettant la combinaison u texte et e l image ont l obectif effectuer une recherche information croisée. Plus précisément, l'information textuelle entourant les obets multiméia (les images) et les caractéristiques visuelles (couleur ou texture pour les images par exemple) peuvent être utilisées pour réponre à es requêtes textuelles ou es requêtes visuelles (images exemples). Nous avons proposé une approche pour la recherche information par croisement u méia texte et image. Cette approche s appuie sur les réseaux e neurones, elle est composée e trois étapes principales: La première étape concerne la représentation es ocuments. Dans la euxième étape nous avons construit le réseau connexionniste pour formaliser la représentation e la collection e ocuments. La troisième étape présente le processus e recherche information basé sur le mécanisme activation e la théorie connexionniste, la recherche peut être effectuée par une requête textuelle ou par une requête visuelle. Mots clés : Recherche information, recherche images fixes, la combinaison texte image, ontologie, réseaux e neurones.

5 Abstract Our work is in the context of the information retrieval, more particularly the information retrieval in ocuments of type text an image. The systems of image retrieval become increasingly necessary. Among the techniques of retrieval for this type of information, there are two main approaches: the keywor retrieval an retrieval by the visual contents. The key wors use by the inexing can be ambiguous. The escriptors can actually relate to terms with several meanings an therefore oes not inicate clearly the theme aresse in the ocument. In aition, one of the maor ifficulties that is pose in the fiel of the multi-meia ocument retrieval (images) by the visual contents is the existing semantic gap between an image an its sense. To overcome the weaknesses of both types of systems retrieval, systems allowing the combining of text an image are the subect of several recent works. In this work we are particularly intereste by the category of the systems which combine textual an visual information. The aim is to carry out cross information retrieval. More precisely, textual information surrouning the obects multi-meia (images) an the visual characteristics (color or texture for the images for example) can be use to answer textual query or visual query (images examples). We propose a new approach for information retrieval by crossing of the meia text an image. This approach is neural network base. It s mae up of three principal stages: The first stage relates to the representation of the ocuments. In the secon stage we built the connexionniste network to formalize the representation of the ocuments collections. The thir stage presents the process of information retrieval base by activation mechanism of the connexionniste theory. Information retrieval can be carrie out by a textual query or a visual query. Keywors: Information retrieval, image retrieval, ontology, combining text image, neural network.

6 ملخص ىذا العمل ينتمي إلى نطاق المعمومات عن البحث وخاصة البحث عن المعمومات الواردة في الوثائق من نوع النص والصورة. نظم البحث عن الصور ال ت ازل تصبح أكثر فأكثر ضرورة. من بين تقنيات البحث عن ىذا النوع من المعمومات أن ىناك محورين أساسيين ىما : البحث بالكممة الرئيسية و البحث بمحتوى الصور المرئية. الكممات الرئيسية التي تستخدميا الفيرسة يمكن غامضة ويمكن أن تتصل بالعديد من المعاني وبالتالي ال تقدم دليال واضحا عن موضوع الوثيقة. ومن الجانب اآلخر من أىم المشاكل التي تنشأ في مجال البحث عن الوثائق متعددة الوسائط )الصور( عن طريق المحتوى المرئي ىو الفجوة بين الصورة ومعناىا. تسمح نظم التركيب بين النص والصورة التغمب عمى نقاط ضعف ىذين النوعين من البحوث الذي ىو موضوع عدد من األعمال األخيرة. في ىذه المذكرة نيتم بنظم التركيب بين النص و الصورة بيدف البحث عن المعمومات عبر وسائط النص والصورة عمى وجو التحديد المعمومات الخطية المحيطة بالصور والخصائص المرئية )المون أو المممس لمصور عمى سبيل المثال( يمكن أن تستخدم لمرد عمى طمبات خطية أو مرئية )صور أمثمة(. اقترحنا نيجا جديدا لمبحث عن المعمومات. ويقوم ىذا النيج عمى الشبكات العصبية االصطناعية. في ىذا النيج وضعنا ثالث م ارحل رئيسية: المرحمة األولى تشمل تمثيل الوثائق في المرحمة الثانية نقوم بإنجاز الشبكة العصبية االصطناعية المرحمة الثالثة تمثل عممية العثور عمى المعمومات و التي ترتكز عمى آلية تفعيل نظرية الشبكات العصبية االصطناعية. البحث يمكن أن يتم بطمبات خطية أو بطمبات مرئية. كلمات المفتاح : البحث عن المعمومات البحث عن الصور التركيب بين النص و الصورة األنتولوجيا الشبكات العصبية االصطناعية.

7 Table es matières Introuction générale... 1 Problématique... 2 Contribution... 3 Organisation u mémoire... 4 Chapitre 1: Recherche 'information 1.1 Introuction Les principaux acteurs e RI Le processus e recherche information L'inexation Extraction automatique es mots Elimination es mots vies Lemmatisation Ponération es Termes L appariement ocument-requête Reformulation e Requêtes Les moèles e recherche information Moèle booléen Moèles basé sur les ensembles flous Moèle vectoriel (vector space moel) Moèle probabiliste Moèle e langage Le moèle LSI ( Latent semantic inexing) Evaluation es systèmes e recherche information Rappel et précision Courbe e Rappel /Précision Mesures combinées Mesure harmonique Mesure évaluation «E» Conclusion Chapitre 2: La recherche 'images fixes 2.1 Introuction Recherche images basées sur les annotations La recherche image par le contenu L extraction es informations visuelles Segmentation et étection e points intérêt Les escripteurs visuels La couleur La texture La forme Mesures e similarité i -

8 Table es matières Distances géométriques Définition es espaces métriques Intersection histogrammes Distances entre istributions Distances entre istributions cumulées Distance quaratique généralisée Bouclage e pertinence Principe Annotation Typologie es méthoes e bouclage e pertinence Méthoes a hoc issues e la recherche e ocuments Méthoes basées optimisation Méthoes probabilistes Méthoes par classification Quelques systèmes e recherche images Chabot QBIC VisualSeek MARS IMAGEROVER SurfImage IKONA PicSOM Conclusion Chapitre 3 : La combinaison texte images 3.1 Introuction Les moèles combinant l information textuelle et visuelle LSA : un moèle par analyse e la sémantique latente PLSA : un moèle probabiliste Moèles «Multi-Moals Hierarchical Aspect Moels» (MOM-HAM) Moèles I-0, I-1 et I Moèles D-0, D-1 et D Les moèles fonés sur la istribution e Dirichlet Moèle «Latent Dirichlet Allocation» (LDA) Moèle «Gaussian Multinomial Mixture» (GM-Mixture) Moèle «Gaussian-Multinomial LDA» (GM-LDA) Moèle «mixture of Multi-Moal LDA» (MOM-LDA) Moèle «Corresponance LDA» (Corr-LDA) D Autres moèles Moèle «Translation Moel» (TM) Moèle «Continuous Relevance Moel» (CRM) Moèle «Cross Meia Relevance Moel» (CMRM) Mesures e performances Perplexilé Normalise Score Normalise Score moyen Discussion sur les moèles e l état e l art ii -

9 Table es matières Chapitre 4 : Contribution 4.1 Introuction La vue globale e l approche Représentation es ocuments La représentation conceptuelle es ocuments Proection es ocuments sur l ontologie Extraction es concepts caniats Ponération es termes Calcul e similarité entre concepts Représentation u ocument et e la requête Représentation visuelle es obets images La couleur La texture La ponération es attributs visuels Spécification u réseau e neurones La ponération es liens inter couches Le pois u lien entre la couche C-V Le pois u lien entre la couche Q-C Le pois u lien entre la couche Q-V Le pois u lien entre la couche V-D Le pois u lien entre la couche C-D Le processus e recherche information Recherche par une requête textuelle Exemple e réseau et e recherche information par une requête textuelle Recherche par une image exemple Conclusion Conclusion générale Synthèse Perspectives Annexe A : Les ontologies Annexe B : L algorithme k-means Annexe C : Principes e base es réseaux e neurones Bibliographie iii -

10 Liste es figures et tableaux Figure 1.1 : Le processus e recherche information... 8 Figure1.2 : Importance un terme en fonction e sa frequence apparition ans un ocument Figure 1.3 : La courbe e rappel-precision Figure 1.4 : Representation es points e rappel-precision Figure1.5 : Elimination es creux ans la courbe e rappel-precision Figure 2.1 : Schema un systeme classique e recherche images par le contenu visuel Figure 2.2 : Architecture u bouclage e pertinence Figure 3.1 : Le moele graphique e PLSA Figure 3.2 : Exemple e structure hierarchique Figure 3.3 : Le moele graphique e LDA Figure 3.4 :Le moele graphique e GM_Mixture Figure 3.5 : Le moele graphique e GM-LDA Figure 3.6 : Le moele graphique e MOM_ LDA Figure 3.7 : Le moele graphique e CORR-LDA Figure 3.8 : Le moele generatif annotation images Figure 4.1 : L approche proposee pour la recherche information Figure 4.2 : Schema generale e la representation conceptuelle e l image Figure 4.3 : Extrait e la taxonomie e WorNet Figure 4.4 : La représentation u réseau connexionniste proposé 85 Figure 4.5 : Processus e recherche par une requête textuelle..88 Figure 4.6 : Processus e recherche par une requête visuelle...92 Figure A.1 : Principales relations semantiques ans WorNet Figure A.2 : Exemple e sous hiérarchie ans WorNet corresponent au concept «car» 99 Figure C.1 : Neurone formel avec fonction 'activation Figure C.2 : Exemple e perceptron multicouches Tableau 1.1 : Exemple e valeur rappel-precision Tableau 3.1 : Comparaison es NS moyens es moeles LSA, PLSA-Mixe et PLSA-Wors Tableau 3.2 : La comparaison e la performance es trois moeles TM, CMRM et CRM Tableau 4.1 :Exemple e onnees ponerees ans le reseau Tableau 4.2 : Activation e la couche c par une requete initiale Tableau 4.3 :Valeurs activation e la couche V Tableau 4.4 :Propagation vers la couche ocuments iv -

11 Introuction générale La recherche 'information (RI) est un vaste omaine 'étue apparu ans les années 60. L'avènement 'Internet et plus particulièrement u Web a conuit à révéler la RI au gran our, notamment par le biais es moteurs e recherche. La profusion e onnées numériques isponibles a renu inispensables es moyens e recherche performants et automatiques, permettant à tout un chacun e trouver une information précise, la RI a alors évolué vers es tâches e plus en plus nombreuses et iversifiées. Les systèmes e recherche 'information (SRI) oivent auour'hui savoir traiter es volumes gigantesques e onnées, s'aapter aux nouveaux moes e communication et gérer la nature multiméia e l'information (l'image, le son, la viéo, le texte...). Les systèmes e RI, quels que soient leurs obectifs, la nature ou la provenance e l'information manipulée, tenent en fait vers le même but : établir une corresponance entre l'information isponible et celle recherchée par l'utilisateur. Toute la ifficulté e cette tâche e RI résie essentiellement autour e la pertinence u lien qui sera établi. Avec la émocratisation es appareils multiméia, e plus en plus les images numériques sont générées chaque our. Entre les orinateurs, les scanneurs, les Webcams, les téléphones portables avec appareil photo, e plus en plus e personnes sont en mesure e iffuser sur les réseaux privés et publics es images numériques. La iminution u coût e stockage et la isponibilité e techniques e numérisation e haute qualité permettent aussi auour'hui e constituer e très granes bases 'images ans es omaines variés : - Bases méicales ; - Bases 'archives (patrimoine culturel, musées,...) ; - Bases 'agences photographiques, bases personnelles ; - Bases 'images satellites et aériennes Dans le care e ce mémoire, nous nous intéressons plus particulièrement aux informations e type textes et images. Les systèmes e recherche e ocuments contenant es informations e type textes et images eviennent e plus en plus nécessaires. Parmi les techniques e recherche e ce type informations, on peut trouver eux granes approches : - 1 -

12 Introuction générale la recherche par mots clés (caractéristiques e haut niveau), et la recherche par le contenu visuel (caractéristiques e bas niveau). La première repose sur un ensemble e mots clés qui ont été associés à chaque ocument e la collection, et qui sont ensuite utilisés par une stratégie e recherche textuelle classique. La euxième utilise es moyens autres que les mots-clés, comme la escription u contenu visuel, par exemple les couleurs, les textures ou les formes rencontrées ans une image, permettant aux utilisateurs e formuler es critères e recherche qui sont parfois ifficile à exprimer en utilisant les mots-clés. Ces caractéristiques visuelles, calculées e manière automatique, sont ensuite exploitées par le système pour comparer et retrouver es images. Problématique Comme les mots clés retenus par l inexation peuvent être ambigus. Les escripteurs peuvent en fait se rapporter à es termes ayant plusieurs sens et onc ne pas iniquer clairement la thématique aborée ans le ocument. D autre part, la recherche peut échouer si les termes e la requête n y apparaissent pas. Surmonter ces limites est l'obet e plusieurs proets e recherche récents, c est le cas notamment e l'approche e RI ite «basée concepts». Une es ifficultés maeures que se pose ans le omaine e la recherche e ocuments multiméia (les obets images) par le contenu visuel est le fossé sémantique existant entre une image et son sens. C'est à ire, à partir 'une image, retrouver ce qu'elle cherche à exprimer. Nous voyons que l information fournie par les caractéristiques textuelles et celle fournies par les caractéristiques visuelles apportent toutes les eux une information ifférente et complémentaire. L information visuelle inique le contenu e l image, l information textuelle inique le sens possible pour le contenu. Plusieurs solutions ont été proposées permettant la combinaison e l information textuelle et visuelle ont l obectif annotation automatique image, et aussi pour la recherche image. Notre travail s inscrit ans la catégorie es systèmes qui combinent les informations textuelles et visuelles. L obectif est e proposer une solution permettant la combinaison es informations e type texte et image pour effectuer une recherche information croisée. Plus précisément, l'information contextuelle entourant les obets multiméia (les images) et les caractéristiques e bas niveau - 2 -

13 Introuction générale (couleur ou texture pour les images par exemple) peuvent être utilisées pour réponre à es requêtes textuelles ou es requêtes visuelles (images exemples). Contribution Pour la recherche informations par croisement u méia texte et image nous proposons une nouvelle approche qui combine le texte entourant les ocuments et les caractéristiques visuelles. Pour cela nous proposons l utilisation es réseaux e neurones. Cette approche est composée e trois étapes principales : - La première étape concerne la représentation es ocuments et e la requête ; - La euxième étape concerne la spécification u réseau e neurones. - La troisième étape présente le processus e recherche information basé sur les activations e la théorie connexionniste. Dans la première étape, nous partons u principe que chaque ocument est écrit par un ensemble e mots clés (caractéristiques e haut niveau), ainsi que un ensemble e segments visuels (caractéristiques e bas niveau), chaque segment appelé aussi région une image est représenté par un vecteur v i. Pour la représentation e haut niveau es ocuments, nous proposons l utilisation e l ontologie WorNet ainsi nous aaptons une inexation conceptuelle es mots clés basée sur une ontologie externe pour résoure le problème e la synonymie entre mots. Pour la ponération es termes conceptuels nous utilisons une méthoe e ponération qui tient compte e la longueur u terme (en nombre e mots) et u critère TF.IDF. Cette méthoe e ponération s appelle CF.IDF écrite par [Baziz, 2005], elle s'appuie sur l'hypothèse que les termes composés e plusieurs mots, sont plus riches sémantiquement que les mots qui les composent. Pour la représentation e bas niveau es obets multiméia nous choisissons la couleur et la texture pour les images exemple et nous utilisons tf _ if une ponération inspirée e écrite par [J.Z. Wangy &Y.Du, 2001]. Des pois sont attribués aux régions en fonction e leurs fréquences ans le ocument et ans la collection e ocuments, cette ponération est appelée RF IPF

14 Introuction générale Dans la euxième étape nous proposons une approche connexionniste qui est un réseau e neurones pour formaliser la représentation e la collection e ocuments, le réseau e neurone constitué e quatre couches, une couche e requêtes : représente l entrée u réseau, une couche e concepts, une couche e vecteurs visuels, et une couche e ocuments, elle représente la sortie e réseau. La troisième étape est celle e recherche information basée sur le mécanisme activation e la théorie connexionniste, la recherche peut être effectuée par une requête textuelle ou par une requête image exemple. Organisation u mémoire Ce mémoire se concentre sur la recherche information par croisement u méia texte et image, il comporte quatre chapitres écrits comme suit : Le premier chapitre présente un état e l art sur la recherche information, ans lequel, nous présentons les notions et concepts e base e la recherche 'information, et nous écrivons le processus e la RI. Par la suite, les principaux moèles qui sont à la base e la maorité es systèmes actuels sont écrits. Dans le euxième chapitre nous présentons un état e l art sur la recherche images fixes, en istinguant les approches ABIR et CBIR. Puis nous exposons le principe et les typologies es méthoes e bouclage e pertinence, enfin, nous écrivons quelques systèmes e recherche images. Le troisième chapitre présente un état e l art sur la combinaison texte image où nous écrivons les principaux moèles e recherche informations combinant l information textuelle et visuelle. Le quatrième chapitre traite nos propositions croisement u méia texte et image. pour la recherche informations par Enfin, nous terminons par une conclusion générale qui est une synthèse es travaux effectués ans ce mémoire, Nous présentons ensuite les perspectives 'évolution envisageables pour ces travaux

15 Introuction générale En complément, trois annexes sont aoutées à ce mémoire, La première concerne les ontologies, ans le care e notre travail nous utilisons l ontologie WorNet. Dans la secone annexe nous écrivons l algorithme es k-moyennes que nous utilisons pour la ponération es attributs visuels. Dans La troisième annexe nous présentons les principes e base es réseaux e neurones que nous utilisons ans nos travaux

16 1.1 Introuction Ces ernières années ont vu une explosion u volume es onnées accessibles par les utilisateurs orinateurs surtout à cause e l énorme croissance u Web. De granes quantités e onnées sont accessibles au public, mais la étection efficace es informations pertinentes reste touours une tâche très ifficile. La complexité es onnées a augmenté et les systèmes qui les traitent oivent s aapter aux changements. La recherche information (Information Retrieval) est le champ u omaine informatique qui s occupe e la représentation, u stockage, e l organisation et e l accès aux informations [Salton & al, 1983]. Ce chapitre traite es concepts, techniques et moèles étuiés ans le omaine e la recherche information. Il est organisé comme suit : Dans la première section nous éfinissons les principaux acteurs e RI, la euxième section est consacrée à la escription u processus e la RI, ans laquelle nous éfinissons les notions e : inexation, appariement ocument_requête et reformulation e requêtes. Puis Nous passons en revue les principaux moèles e RI. 1.2 Les principaux acteurs e RI L obectif principal un système e recherche information (SRI) est e sélectionner ans une collection e ocuments ceux qui sont susceptible e réponre au besoin en information e l utilisateur exprimé à travers une requête

17 Chapitre 1. Recherche information Dans cette éfinition on istingue trois notions clés : ocument, requête et pertinence qui sont les principaux acteurs e RI. Document : Un ocument peut être un texte, un morceau e texte, une page Web, une image, une bane viéo, etc. On appelle ocument toute unité ou granule ocumentaire qui peut constituer une réponse à une requête 'utilisateur. Requête : Une requête exprime le besoin information un utilisateur écrite sous plusieurs formes Pertinence : La notion e pertinence est très complexe. De façon générale, ans le ocument pertinent, l'utilisateur oit pouvoir trouver les informations ont il a besoin. C'est sur cette notion e pertinence que le système oit uger si un ocument oit être onné à l'utilisateur comme réponse. 1.3 Le processus e recherche information Le processus e recherche information a pour but la mise en corresponance es informations isponibles une part, et les besoins e l utilisateur autre part. Cette mise en relation es besoins utilisateurs et es informations est effectuée grâce à un Système e Recherche Information (SRI), ont le but est e retourner à l utilisateur le maximum e ocuments pertinents par rapport à son besoin. Le processus e recherche, couramment appelé Processus en U e Recherche Information [Belkin et al, 1992] est schématiquement représenté sur la figure

18 Chapitre 1. Recherche information Requête utilisateur Inexation Inexation Représentation es ocuments Moèle e RI Appariement Représentation es requêtes Jugements utilisateur Moifications Figure 1.1 : Le processus e recherche information Ce processus est composé e trois fonctions principales l inexation es ocuments et es requêtes ; l appariement requête-ocument, qui permet e comparer la requête et le ocument ; et la fonction e moification, qui intervient en réponse aux résultats obtenus L'inexation L inexation est une étape primoriale qui oit s'effectuer avant l'étape e recherche effective e l'information. Cette étape consiste à analyser le ocument afin extraire un ensemble e mots clés appelés aussi escripteurs pouvant caractériser le contenu e ce ocument. Cet ensemble e mots clés peut être regroupé ans un thésaurus [Carolyn& al, 1992] [William & al, 1992] mais en pratique, un thesaurus représente une notion plus large - 8 -

19 Chapitre 1. Recherche information qu'une liste e mots clés. Il regroupe es mots clés ainsi que es relations linguistiques (équivalence, association, hiérarchie). Le résultat e l'inexation est un ensemble e termes éfinissant ce qui est appelé le langage 'inexation. L'inexation peut se faire selon trois moes ifférents : Manuelle : Chaque ocument est analysé par un spécialiste u omaine ou par un ocumentaliste. Elle est ifficilement réalisable ans le cas e collections volumineuses. Elle présente également un aspect subectif, es termes ifférents peuvent être utilisés par eux ocumentalistes ifférents pour représenter un même ocument, et un inexeur, à eux moments ifférents, peut utiliser eux termes istincts pour représenter le même concept. Semi-automatique : Ici un premier processus automatique permet 'extraire les termes u ocument. Cepenant le choix final reste au spécialiste u omaine ou au ocumentaliste pour établir les relations entre les mots clés et choisir les termes significatifs. Automatique : À l'aie 'un processus entièrement informatisé, l inexation automatique, que nous écrivons en étail ans ce qui suit, regroupe un ensemble e traitements automatisés sur un ocument. On istingue : l extraction automatique es mots es ocuments, l élimination es mots vies, la lemmatisation (raicalisation ou normalisation), la ponération es mots avant e créer l inex Extraction automatique es mots Cette opération consiste à extraire u ocument un ensemble e termes ou e mots simples par une analyse lexicale permettant ientifier les termes en reconnaissant les espaces e séparation es mots, es caractères spéciaux, es chiffres, les ponctuations, etc Elimination es mots vies Un es problèmes maeurs e l inexation consiste à extraire les termes significatifs et à éviter les mots vies (pronoms personnels, prépositions,...). Les mots vies peuvent aussi être es mots athématiques (les mots qui peuvent se retrouver ans n importe quel ocument parce qu ils exposent le suet mais ne le traitent pas, comme - 9 -

20 Chapitre 1. Recherche information par exemple contenir, appartenir, ). On istingue eux techniques pour éliminer les mots vies : L utilisation une liste e mots vies (aussi appelée anti-ictionnaire), L élimination es mots épassant un certain nombre occurrences ans la collection Lemmatisation La lemmatisation est un processus morphologique permettant e regrouper les variantes un mot. En effet, on remarque que beaucoup e mots ont es formes ifférentes, mais leur sens reste le même ou très similaire et notamment ans le cas es mots conugués. Ces mots ont la même racine (lemme). Ainsi, on arrive à éliminer les terminaisons es mots, et garer seulement la racine, on a onc une forme ientique pour eux. Plusieurs méthoes sont utilisées : «algorithme e porter» [Porter, 1980]. La troncature, variétés e successeurs, méthoe e n-gramme [Aamson et Boreham, 1974] Ponération es Termes La ponération est l'une es fonctions fonamentales en RI. Le pois 'un terme ans un ocument trauit l'importance e ce terme ans le ocument. Si certaines méthoes proposent 'introuire es éléments linguistiques ans l'inexation es ocuments, la grane maorité es approches et systèmes opérationnels, se base sur les aspects statistiques. Parmi ces approches on istingue : Loi e Zipf La loi e Zipf est une loi empirique énoncée en 1949 par G.K Zipf. Elle est écrite comme suit : Si on resse une liste e l ensemble es mots ifférents un texte quelconque classés par orre e fréquences écroissantes, on constate que la fréquence un mot est inversement proportionnelle à son rang e classement ans la liste. Formellement, cette loi s'exprime e la manière suivante : Rang u terme fréquence u terme= constante

21 Chapitre 1. Recherche information La relation entre la fréquence et le rang es termes permet e sélectionner les termes représentatifs un ocument : on élimine respectivement les termes e fréquences très élevées car ils ne sont pas représentatifs u ocument (on peut par exemple citer les mots outils et les mots vies), et les termes e fréquences trés faibles (ce qui permet éliminer les fautes e frappes et les néologismes). Ce processus est illustré sur la figure 1.2. En utilisant cette approche, le nombre e termes faisant partie e l inex une collection peut être réuit consiérablement. Figure. 1.2 : Importance un terme en fonction e sa fréquence apparition ans un ocument A partir e ces constatations, es techniques e ponération ont vu le our, la plupart e ces techniques sont basées sur les facteurs tf et if. Ponération selon TF*IDF La plupart es méthoes e ponération sont fonées sur la combinaison e eux facteurs. Un facteur tf e ponération locale, quantifiant la représentativité locale 'un terme ans le ocument, et un secon facteur if, e ponération globale, mesurant la représentativité globale u terme vis-à-vis e la collection es ocuments. - TF (Term Frequency) : Cette mesure a été introuite pour tenir compte e la fréquence un terme ans un ocument. L iée sous-acente est que plus un terme est fréquent ans un ocument plus il est important ans sa escription. Elle représente une "ponération locale" un terme ans un ocument

22 Chapitre 1. Recherche information - IDF (Inverse Document Frequency) : ce facteur mesure la fréquence un terme ans toute la collection, c est la "ponération globale". En effet, un terme fréquent ans la collection, a moins importance qu un terme moins fréquent. Il est exprimé comme : log (N /n i ), avec N est la taille (nombre e ocuments) e la collection et n i le nombre e ocuments contenant le terme t i. La combinaison es eux mesures (tf et if) onne une bonne approximation e l importance u terme ans le ocument, particulièrement ans les corpus e ocuments e tailles homogènes. Les fonctions e ponération sont souvent référencées sous le nom e TFIDF. En effet autres mesures e ponération ont été proposées et intègrent la taille es ocuments, [Singhal et al., 1995] et [Robertson et al., 1997] proposent intégrer la taille es ocuments à la formule e ponération e la façon suivante : w i k 1 tf i k 1 1 b b tf i 1 l l Où w i est le pois u terme t i ans le ocument D ; k l contrôle l'influence e la fréquence u terme t i ans le ocument D, sa valeur optimale épen e la longueur et e l'hétérogénéité es ocuments ans la collection; b est une constante appartenant à l'intervalle [0, 1] et contrôle l'effet e la longueur u ocument ; l est la longueur u ocument D, et l est la longueur moyenne es ocuments ans la collection entière L appariement ocument-requête La comparaison entre le ocument et la requête revient à calculer un score, supposé représenter la pertinence u ocument vis-à-vis e la requête. Cette valeur est calculée à partir une fonction ou une probabilité e similarité notée RSV (Q,) (Retrieval Status Value), où Q est une requête et un ocument. Cette mesure tient compte u pois es termes ans les ocuments, éterminé en fonction analyses statistiques et probabilistes. La fonction appariement est trés étroitement liée aux opérations inexation et e ponération es termes e la requête et es ocuments u corpus. D une façon générale,

23 Chapitre 1. Recherche information l appariement ocument-requête et le moèle inexation permettent e caractériser et ientifier un moèle e recherche information. La fonction e similarité permet ensuite oronner les ocuments renvoyés à l utilisateur Reformulation e Requêtes L utilisateur exprime son besoin en information sous forme une requête afin e trouver es résultats qui l intéressent. Cepenant, le SRI renvoi parfois es résultats qui ne lui conviennent pas. Pour cela, une étape e reformulation e la requête est souvent utilisée ans l espoir e retrouver plus e ocuments pertinents. Ce processus permet e générer une requête plus aéquate que celle initialement formulée par l utilisateur. La reformulation e la requête consiste à moifier la requête e l'utilisateur par aout e termes significatifs et/ou réestimation e leur pois. Si les termes raoutés proviennent es ocuments e la collection, on parle e réinection e pertinence (relevance feeback). La moification e la requête peut aussi être basée sur le vocabulaire issu e ressources externes telles que les ontologies ou les Thesaurus. 1.4 Les moèles e recherche information Si c'est l'inexation qui choisit les termes pour représenter le contenu 'un ocument ou 'une requête, c'est au moèle e leur onner une interprétation. Étant onné un ensemble e termes ponérés issus e l'inexation, le moèle remplit les eux rôles suivants : Créer une représentation interne pour un ocument ou pour une requête basée sur ces termes; Définir une méthoe e comparaison entre une représentation e ocument et une représentation e requête afin e éterminer leur egré e corresponance (ou similarité). Le moèle oue un rôle central ans la RI. C'est le moèle qui étermine le comportement clé 'un système e RI. Différents moèles e RI ont été proposés, ans ce qui suit nous écrivons les plus réponus

24 Chapitre 1. Recherche information Moèle booléen Ce moèle e recherche est basé sur l algèbre e boole, un ocument est représenté par un ensemble e termes, la requête est exprimée par une expression booléenne e mots assemblés par les opérateurs logique : ET, OU, NON. Pour qu'un ocument soit une réponse à une requête booléenne, un processus 'évaluation est employé pour éterminer la corresponance RSV(,q) entre un ocument et une requête q. Une es méthoes 'évaluation est éterminé comme suit : RSV, t i 1 Si t i ; 0 sinon RSV, q1 q2 1 Si RSV, q1 1 et, q2 1 RSV, q1 q2 1 Si RSV, q1 1 ou, q2 1 RSV, q 1 Si RSV, q 0 ; 0 sinon. Ce moèle possèe plusieurs inconvénients : RSV ; 0 sinon. RSV ; 0 sinon. La sélection es ocuments est basée sur une écision binaire. Difficulté e formulation e la requête par un utilisateur Pas e ponération es termes (escripteurs es ocuments). Pas orre pour les ocuments sélectionnés Moèles basé sur les ensembles flous Une extension u moèle booléen est basée sur la théorie es ensembles flous proposée par Zaeh en Dans la théorie es ensembles flous, quan un élément a un egré 'appartenance à un ensemble, cet ensemble est it ensemble flou. Cette théorie a influencé les chercheurs en RI pour moéliser les notions incertitues et 'imprécisions qui existent à ifférents niveaux u processus e RI [Borogna et al., 2000][Koczy et al., 1998]. Dans ce moèle, un ocument est représenté comme un ensemble e termes ponérés comme suit : D t a,..., t, a 1, 1 i i où : a est le egré appartenance u terme t au ocument D. i i La corresponance RSV entre une requête Q et un ocument D est éterminée comme suit : k RSV,... D, q q min RSV D, q, RSV D q 1 2 1,

25 RSV D, q q max RSV D, q, RSV D q 1 2 1, D, q 1 RSV D q RSV, i Chapitre 1. Recherche information i 2 Les obectifs pour lesquels les moèles e recherche information intègrent les ensembles flous sont (1) e réuire l imperfection et e traiter l imprécision qui caractérise le processus inexation, (2) e contrôler l imprécision e l utilisateur ans sa requête et enfin (3) e traiter les réponses reflétant la pertinence partielle es ocuments par rapport aux requêtes. L'inconvénient maeur e ces moèles est qu'ils ne sont pas aaptés au classement (ranking) es ocuments pertinents, étant onné que les scores e pertinence qu'ils attribuent aux ocuments sont calculés par es fonctions min ou max qui ne prennent pas nécessairement en compte toutes les valeurs e pertinences es termes e la requête Moèle vectoriel (vector space moel) Le moèle vectoriel a été Proposé par Salton ans le système SMART [Salton, 1970], ce moèle représente les ocuments et les requêtes sous forme e vecteurs ans l espace vectoriel engenré par tous les termes e la collection. Chaque ocument est représenté par un vecteur w, w w, où w i, représente le 1, 2,,..., n, pois es termes ans le ocument, n étant le nombre total e termes e l inex, et la requête aussi est vue comme un vecteur w, w w similarité est celle u prouit scalaire : q 1, q 2, q,..., n, q n, q wi, wi q RSV, i1. Une es plus simples mesures e Plusieurs fonctions e similarité ont été proposées. Nous citons les fonctions les plus répanues : les mesures e Cosinus, Jaccar et Dice. Mesure e cosinus : simd, Q k N i1 w i wq N N 2 w i i1 i1 ik wq 2 ik

26 Chapitre 1. Recherche information Mesure e Jaccar : simd, Q Mesure e Dice : simd, Q k k N N i1 w wq N N 2 2 w i wqik w i wqik i1 i1 i1 2 N i1 N 2 2 w i wqik i1 w i i wq ik ik Les avantages u moèle vectoriel sont nombreux : il permet la ponération es termes, ce qui augmente les performances u système; il permet e renvoyer es ocuments qui réponent approximativement à la requête et effectivement e trier les ocuments réponant à une requête. Les ocuments sont en effet restitués ans un orre écroissant e leur egré e similarité avec la requête. Plus le egré e similarité un ocument est élevé, plus le ocument ressemble à la requête et plus il est susceptible 'être pertinent pour l utilisateur Moèle probabiliste Un es premiers moèles e RI qui remonte aux années 1960 avec [Maron et al, 1960]. Ce moèle tente estimer la probabilité qu un ocument soit pertinent pour une requête q, notée : P(pert /,q). Cette approche est ustifiée ans le Probability Ranking Principle (PRP) formulé par Robertson [Robertson, 1977]. On istingue eux classes e ocuments pour une requête : les pertinents (Pert) et les non pertinents (Npert), ainsi eux mesures e probabilité seront calculées : - P(Pert q / ) : probabilité que soit ans la classe es Pert. - P(Npert q / ) : probabilité que soit ans la classe es Npert. Un ocument sera sélectionné si P(pert /) > P(Npert /), ce qui est équivalent à oronner les ocuments par rapport à un egré e vraisemblance : RSV(q, ) = P(Pert /) / P(Npert /). (1) En appliquant la règle e Bayes sur la formule (1), cela onnera : RSV(q, ) = P( /Pert) / P( /Npert). (2)

27 Chapitre 1. Recherche information Pour estimer les probabilités P( /Pert) et P( /Npert) un ocument sera écomposé en un ensemble événements. Chaque événement énotera la présence ou l absence un terme ans un ocument, c est le moèle e recherche inépenant "Binary Inepenence Retrievel" (BIR) qui suppose l inépenance es termes es ocuments. La formule (2) evient : RSV ( q, ) P( ti / Pert ) log 1 P( t / Npert) t i i Avec : - P (t i /Pert)= r i /R - P (t i /NPert) = n i - r i /N - R Où r i : est le nombre e ocuments pertinents ans lesquels le terme t i apparaît. R : est le nombre e ocuments pertinents pour la requête. ni r i : est le nombre e ocuments non pertinents ans lesquels le terme t i apparaît. N : est le nombre total e ocuments ans la collection Moèle e langage Les moèles e langues (ou e langages) tentent e moéliser l agencement e mots ans une langue en estimant la probabilité e istribution une séquence e mots. Ponte et Croft [Ponte et al, 1998] ont été les premiers à proposer leur utilisation en RI. Pour cela, un ocument sera vu comme une suite e mots, généré par son propre moèle e langue. L iée est alors, e mesurer la probabilité qu une requête Q ait été générée par le moèle e langage M un ocument, qui sera consiérée comme le score e pertinence u ocument vis-à-vis e la requête, soit : RSV(Q, ) = P(Q/M ) Suivant la complexité u moèle, l estimation e cette probabilité sera plus ou moins complexe. En règle générale, l inépenance es termes e la requête est supposée (moèle unigramme), le moèle e langage u ocument est estimé par la technique e l estimateur u maximum e vraisemblance (MLE) :

28 P( Q / M ) tq tq P( t / M tf ( t, ) l Où : - tf (t, ) est la fréquence u terme t ans le ocument ; - l est le nombre total e termes ans le ocument ; Chapitre 1. Recherche information ) Cette formule présente cepenant un problème : lorsque un ocument ne contient pas un ou plusieurs termes e la requête onnant une probabilité nulle : p (t /M ) = 0, il y lieu alors assigner es probabilités ifférentes e zéro à e tels mots. Le moèle mixte [Song et al, 1999] apporte la solution en combinant le moèle e langage u ocument et le moèle e langage e la collection. Ce ernier sera utilisé comme un moèle e référence pour les mots non observés ans le ocument : P(Q /) =П ((1-λ)P(t /M c )+ λp(t /M )). t Q Où la valeur optimale u paramètre λ est éterminée empiriquement Avec : total _ tf t P( t / M c ) total _ tf_ col Où : - total_tf t est la fréquence u terme t ans la collection ; - total_tf_col est le nombre total e termes ans la collection Le moèle LSI ( Latent semantic inexing) Le moèle LSI est une approche vectorielle, il regroupe les termes co-occurrents en concepts, où la réuction e l espace initial e termes inexation. Les ocuments et les requêtes sont alors représentés ans le nouvel espace composé e concepts e haut niveau ceci permet e sélectionner es ocuments pertinents même s ils ne contiennent aucun terme e la requête [Deerwester & al, 1990]. Ce moèle se base sur la écomposition en valeur singulière, ésignée par SVD (Singular Value Decomposition) e la matrice terme-ocument, représentant en colonnes les ocuments

29 Chapitre 1. Recherche information et en lignes les termes. Un élément e cette matrice corresponant au pois un terme pour un ocument onné. Si W est la matrice terme-ocument e imension t ; où t est le nombre e termes istincts e la collection, et le nombre e ocuments ans la collection, alors SVD la écompose en : W T S D Où T est une matrice terme e taille t r, représente les termes es ocuments. S est une matrice e valeur singulière e taille r r iagonale (seulement les éléments en iagonal sont non-nuls) D est une matrice ocument e taille r. chaque colonne représente les ocuments ans le nouvel espace vectoriel. Une fois la SVD e la matrice W est calculée, il s agit e : - Sélectionner les K première valeurs singulières e la matrice S. - Garer les colonnes corresponantes ans les matrices T et D. La fonction qui permet le passage e l espace es termes à l espace es concepts est : Avec T une matrice réuite e imension M T S t k 1 S est la matrice inverse e S, e imension k k 1 Pour évaluer une requête Q : - la requête oit être représenter ans l espace M comme suit : Q n Q M Puis une mesure e similarité est calculée entre la requête Q et chaque ocument, tous représentés ans le nouvel espace vectoriel M. 1.5 Evaluation es systèmes e recherche information Le but e la RI est e trouver es ocuments pertinents à une requête, et onc utiles pour l'utilisateur. La qualité 'un système oit être mesurée en comparant les réponses u système

30 Chapitre 1. Recherche information avec les réponses iéales que l'utilisateur espère recevoir. Plus les réponses u système corresponent à celles que l'utilisateur espère, mieux est le système. L évaluation es SRI repose généralement sur trois éléments principaux : - une collection e ocuments e test; - es requêtes e test; - une liste es ocuments pertinents pour chaque requête. Nous écrivons ci-essous les mesures évaluation e SRI les plus courantes Rappel et précision Les mesures e rappel et précision permettent évaluer la capacité un SRI à réponre aux eux obectifs principaux qui sont : retrouver tous les ocuments pertinents et reeter tous les ocuments non pertinents. Rappel: Le rappel mesure la proportion e ocuments pertinents sélectionnés parmi tous les ocuments pertinents ans la collection. Précision: La précision mesure la proportion e ocuments pertinents retrouvés parmi tous les ocuments sélectionnés par le système. Rappel = Nombre e ocuments pertinents sélectionnés Nombre total es ocuments pertinents Précision = Nombre e ocuments pertinents sélectionnés Nombre total e ocuments sélectionnés Courbe e Rappel /Précision Iéalement, on vourait qu'un système onne e bons taux e précision et e rappel en même temps. Un système qui aurait 100% pour la précision et pour le rappel signifie qu'il trouve tous les ocuments pertinents, et rien que les ocuments pertinents. Cela veut ire que les réponses u système à chaque requête sont constituées e tous et seulement les ocuments

31 Chapitre 1. Recherche information iéaux que l'utilisateur a ientifiés. En pratique, cette situation n'arrive pas. Plus souvent, on peut obtenir un taux e précision et e rappel aux alentours e 30%. Les eux métriques ne sont pas inépenantes. Il y a une relation entre elles: quan l'une augmente, l'autre iminue. Il ne signifie rien e parler e la qualité 'un système en utilisant seulement une es métrique. En effet, il est facile 'avoir 100% e rappel: il suffirait e onner toute la base comme la réponse à chaque requête. Cepenant, la précision ans ce casci serait très basse. De même, on peut augmenter la précision en onnant très peu e ocuments en réponse, mais le rappel souffrira. Il faut onc utiliser les eux métriques ensemble. Les mesures e rappel-précision ne sont pas statiques non plus (c'est-à-ire qu'un système n'a pas qu'une mesure e précision et e rappel). Le comportement 'un système peut varier en faveur e précision ou en faveur e rappel (en étriment e l'autre métrique). Ainsi, pour un système, on a une courbe e rappel- précision qui a en général la forme suivante: Figure 1.3 La courbe e rappel-précision Afin illustrer les calculs e rappel et e précision, nous onnons l exemple suivant (tableau 1.1) : Consiérons une requête pour laquelle cinq (5) ocuments sont pertinents ans la collection. Soit la liste es réponses u système {1,.., 15}. Les ocuments pertinents sont marqués par la lettre "p". ocument précision rappel pertinence ,00 0,50 0,67 0,75 0,60 0,67 0,20 0,20 0,40 0,60 0,60 0,80 p p p p

32 Chapitre 1. Recherche information ,57 0,63 0,56 0,50 0,45 0,42 0,38 0,36 0,33 0,80 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 p Tableau 1.1 : Exemple e valeur rappel-précision. On consière 'abor le premier ocument 1 restitué par le système. A ce point, on a retrouvé un ocument pertinent parmi les 5 existants. Donc on a un taux e rappel e 0.2. La précision est 1/1. Le point e la courbe est onc (0.2, 1.0). On consière ensuite les eux (2) premiers ocuments restitués. Le taux e rappel est touours e 0.2 et la précision est cette fois e 0.5 (un ocument sur eux). Le point est onc (0.2, 0.5). Ce processus est répété usqu'à épuisement e la liste es réponses (qui peut être très longue en incluant tous les ocuments e la base). Les premiers points e la courbe sont alors représentés comme ans la Figure 1-4 Figure 1-4. Représentation es points e rappel-précision. Il arrive souvent qu'on applique l'interpolation sur la courbe e chaque requête. L'interpolation vise à créer une courbe escenante ayant l'allure e la forme générale e la Figure 1.3. Le principe est le suivant :

33 Chapitre 1. Recherche information Soient i, eux points e rappel avec i< : Si la précision au point i < précision au point, Alors on augmente la précision u point i à celle u point. Concrètement, cela signifie qu'on remplit un creux e la courbe par une ligne horizontale, comme l'illustre la Figure 1-5. On obtient alors une courbe en escalier. L'iée errière l'interpolation est que les eux creux e la courbe ne représentent pas vraiment la performance u système. S'il existe un point à un rappel et une précision plus élevés, on peut touours onner plus e ocuments ans la réponse pour augmenter la performance. Le creux est onc surmontable. Figure Elimination es creux ans la courbe e rappel-précision Mesures combinées En se basant sur le principe es mesures e rappel et e précision, les chercheurs ont été amenés à investir ans autres mesures qui pourront être plus représentatives. Ces nouvelles mesures essayent e combiner les mesures e rappel et e précision afin e sortir avec une seule valeur. Parmi les mesures proposées nous pouvons citer : la mesure harmonique et la mesure évaluation appelée E

Montrer encore