UNIVERSITÉ PARIS-SORBONNE

Transcription

1 UNIVERSITÉ PARIS-SORBONNE É V «C L» Laboratoire de re er e «Langues, Logiques, Informatique, Cognition» (LaLIC) T H È S E pour obtenir le grade de D U P S Discipline : Informatique Spécialité : Informatique - Linguistique Présentée et soutenue par Iana ATANASSOVA le 14 janvier 2012 Exploitation informatique des annotations sémantiques automatiques d Excom pour la re er e d informations et la navigation S : M. Jean-Pierre D Professeur, Université Paris-Sorbonne, Directeur du laboratoire LaLIC J : M. Jean-Pierre D Professeur, Université Paris-Sorbonne, LaLIC (directeur de thèse) M. Brahim D Maître de conférences, Université Paris-Sorbonne, LaLIC (examinateur) M. Christian H Professeur, Directeur de l École de Guerre Économique (examinateur) M. Mohamed H Professeur, École Nationale Supérieure des Sciences de l Information et des Bibliothèques (rapporteur, président du jury) M. ierry P Directeur de recherche au CNRS, LaTTiCe (rapporteur)

2 Iana A, 2012 Exploitation informatique des annotations sémantiques automatiques d Excom pour la re er e d informations et la navigation viii+335 p. Ce document a été préparé avec XƎLATEX. Les détails sur la mise en œuvre de la classe du document, réalisée par mes soins, sont publiés sur le site h p ://monbloginformatique.blogspot.com/. Les références bibliographiques ont été compilées par B TEX avec le style apalike-fr. Tous les jeux de caractères utilisés sont disponibles sous les licences GPL et OFL dans le cadre du projet Linux Libertine, h p ://

3 Remerciements Je remercie mon directeur de thèse Monsieur le Professeur Jean-Pierre Desclés de m avoir accueillie dans son équipe, et surtout pour sa disponibilité et sa patience tout au long de ces années. Je le remercie pour les nombreuses discussions, conseils et critiques, qui m ont permis d approfondir ma réflexion et de mener ce travail à son terme. Je remercie très sincèrement les membres du jury M. Christian Harbulot et M. Brahim Djioua et tout particulièrement M. ierry Poibeau et M. Mohamed Hassoun qui ont accepté d être rapporteurs de ce e thèse. L aboutissement de ce travail ne serait pas possible sans une collaboration avec les membres de l équipe LaLIC. Je remercie particulièrement ceux qui ont mis à ma disposition des corpora annotés afin de pouvoir développer et évaluer mon moteur de recherche, notamment Marc Bertin, Antoine Blais, Julien Desclés et Motasem Alrahabi. Je remercie également Malika Ould Slimane, Dory Diebakhate et Aymen Elkhlifi, qui ont consciencieusement participé à l évaluation du système. Je remercie aussi tous mes collègues pour leur présence au quotidien et pour les nombreuses discussions amicales. Mes remerciement vont également à Valentina Christova et Jacqueline Bertin qui ont participé à la relecture de ce manuscrit. Ce e thèse n aurait pas été possible sans le soutien moral et l encouragement infaillible des membres de ma famille et de mes proches qui ont cru en moi et qui m ont soutenue dans ce e entreprise. iii

4

5 Sommaire Introduction générale 1 Partie I. Traitement de l information textuelle : de l annotation à la re er e d informations 7 Chapitre 1 Re er e d informations est-ce que la recherche d informations? Historique Définitions et objectifs Systèmes de recherche d informations Architecture générale Modèles classiques : booléen, vectoriel, probabiliste Méthodes d évaluation Recherche d informations sur le Web Discussion : quelques limitations des modèles classiques Le processus de recherche d informations Modèles d accès à l information : prise en compte de l utilisateur La notion de pertinence Problématique de l indexation Discussion : comment accéder à la sémantique textuelle? Chapitre 2 Annotation sémantique des textes est-ce que l annotation textuelle? Annotation manuelle et annotation automatique v

6 2.3 Annotation sémantique automatique Définition et objectifs Évaluation Plateformes d annotation sémantique Discussion : quelles informations annoter? Chapitre 3 Méthode d Exploration Contextuelle Principe de fonctionnement Description formelle Définition Reconnaissance du langage a n b n c n Complexité Description linguistique Marqueurs linguistiques Construction des ressources linguistiques Espaces de recherche Cartes sémantiques et points de vue Applications Adaptation pour le traitement de domaines différents Adaptation à plusieurs langues Travaux utilisant la méthode d Exploration Contextuelle au laboratoire LaLIC Partie II. Exploitation automatique des annotations sémantiques 111 Chapitre 4 Proposition d une stratégie de re er e d informations Un système de recherche d informations exploitant les annotations sémantiques Principe Extraction des connaissances à travers des annotations sémantiques 116 vi

7 4.1.3 Expertise humaine pour la recherche d informations Stratégies de recherche d informations et de navigation Orientation de la recherche par rapport aux points de vue sémantiques Documents secondaires : une réponse au besoin de l utilisateur Chapitre 5 Ordonnancement des réponses Problèmatique Méthodes d ordonnancement existantes Fonctions d ordonnancement Scores indépendants de la requête Apprentissage automatique des ordonnancements Critères d ordonnancement proposés Critères génériques Score d annotation Propriétés Critères spécifiques aux cartes sémantiques Discussion Chapitre 6 Gestion de la redondance Problèmatique Méthodes existantes Proposition d une méthode à partir des annotations Expérimentation et évaluation Expérimentation sur un corpus en français Èvaluation sur le corpus MSRPC Discussion Chapitre 7 Proposition d un système pour l exploitation des annotations Travaux antérieurs Traitement de l information textuelle vii

8 7.2.1 La structure des documents Annotation par le moteur Excom Gestion des documents annotés Recherche d informations Corpora d étude Chapitre 8 Interfaces de re er e d informations sémantique Interface de recherche d informations Langage des requêtes Interrogation du moteur de recherche Présentation des résultats Interfaces dédiées aux différentes tâches de fouille et collaborations Discussion et exemples d utilisation Partie III. Évaluations et discussion 215 Chapitre 9 Expérimentation et comparaison avec une re er e par mots clés Protocole Ensemble de requêtes Comparaison de notre approche avec une recherche par mots clés Segments pertinents vs occurrences des mots clés Un langage de requêtes plus riche La qualité des annotations : un facteur décisif pour la qualité de la recherche d informations Discussion Chapitre 10 Évaluation de l ordonnancement Protocole d évaluation Pertinences de référence viii

9 10.3 Mesures d évaluation Résultats Précisions moyennes pour les résultats ordonnés Valeurs de ndcg Discussion Conclusion générale 243 Annexes 249 Annexe A : Langages réguliers et hierar ie de Chomsky 251 Annexe B : Corpus de phrases similaires 259 Annexe C : Cartes sémantiques 263 Annexe D : Structure de la base de données 269 Annexe E : estionnaire d évaluation 275 Annexe F : Analyse bibliosémantique de la thèse 295 Liste des figures 299 Liste des tables 303 Références bibliographiques 305 Index 332 ix

10 x

11 Introduction générale La masse grandissante de documents numériques à traiter constitue un défi pour les systèmes d extraction d informations et les moteurs de recherche. Comment fouiller les textes afin d en extraire des connaissances, accéder au contenu sémantique, identifier des informations précises et pertinentes? Les systèmes de recherche d informations actuels reposent sur des mécanismes qui sont essentiellement statistiques et qui ne font appel à aucune sémantique. Or, les fréquences des mots clés dans un document et les entités nommées ne sont pas suffisantes pour identifier les relations exprimées et localiser les renseignements utiles pour une recherche ciblée en revenant aux documents initiaux (retour au contexte de l information extraite). Comment alors introduire «plus de sémantique» dans la recherche d informations et la fouille textuelle? elle sémantique? Dans la présente thèse, nous apporterons des éléments de réponse à ces questions. Dans le domaine de la recherche d informations, les systèmes existants cherchent à améliorer l accès aux contenus textuels en employant des schémas (pa erns) linguistiques, des analyseurs morpho-syntaxiques, l enrichissement des requêtes, l utilisation de thesauri, des profils utilisateurs et des approches sémantiques par ontologies de domaines. D autres méthodes cherchent à introduire des méthodes d ordonnancement des réponses s appuyant sur la structure du corpus et la personnalisation de la recherche. L approche que nous proposons, quant à elle, fait appel à des points de vue sémantiques, organisés dans des réseaux, que nous appellerons cartes sémantiques. 1

12 Introduction générale Nous considérons que les textes, quels qu ils soient, donnent des indications aux lecteurs perme ant d identifier certaines catégories, comme «définition», «hypothése», «rencontre»,. Ces catégories sont identifiables sur la surface des textes grâce aux marqueurs linguistiques signalant explicitement ces points de vue. Inversement, le lecteur, lorsqu il recherche une information précise dans un texte, oriente sa lecture par rapport aux points de vue spécifiques. Par exemple, imaginons qu un chercheur en sciences humaines veut extraire et comparer toutes les définitions d un terme donné à partir d un corpus d articles dans son domaine. Il procèderait alors à une lecture superficielle des textes afin de repérer et souligner tous les segments exprimant une définition, comme «Nous définissons comme», «Le se représente en tant que», etc. C est notamment ce e activité que nous cherchons à reproduire de façon automatique afin d offrir aux utilisateurs des outils pour accéder aux contenus textuels selon les points de vue de fouille. L automatisation des annotations sémantiques des textes, telle que nous l envisageons, est une condition qui améliorerait certainement le déploiement de systèmes de fouille textuelle à grande échelle. En fait, les annotations sémantiques viennent enrichir les textes ; elles peuvent donc être exploitées pour des traitements ultérieurs constituant pour le système un point d accès à la sémantique textuelle. Par conséquent, nous nous intéressons à l annotation automatique des points de vue sémantiques. Celle-ci résulte des travaux informatiques et linguistiques, menés pour construire le moteur Excom (mis en place par Brahim Djioua et Moatasem Alrahabi), qui repose sur une méthode développée spécifiquement dans le laboratoire LaLIC : l Exploration Contextuelle par un système de règles. La méthode d Exploration Contextuelle est une technique linguistique et cognitive qui permet d identifier les relations sémantiques dans les textes de façon opératoire. Il existe des expressions qui structurent sémantiquement le texte et qui sont porteuses de la sémantique de la relation recherchée. Ces expressions, que nous appelons indicateurs, sont repérables à la surface des textes. Cependant, ceux-ci sont en général ambigus : leur emploi dépend du contexte de leurs occurrences dans la proposition, dans la phrase ou dans le paragraphe. Il est donc nécessaire de repérer certains indices contextuels afin 2

13 Introduction générale de réduire le bruit, qui sans ces indices serait trop important pour l utilisateur. En effet, un locuteur français, s il est confronté à une phrase contenant l expression «X a rencontré Y», supposerait naturellement qu elle exprime une rencontre entre deux personnes. Néanmoins, la simple présence de ce e expression n est pas suffisante pour identifier sans ambiguïté la relation. Par exemple, la phrase «Il est difficile de croire que X a rencontré Y» n indique pas une rencontre réalisée, bien au contraire. L objectif de l Exploration Contextuelle est alors de désambiguïser les marqueurs linguistiques (les indicateurs d un point de vue) en tenant compte de leurs contextes par une approche automatisable. Ce e méthode est réalisée par des implémentations informatiques effectives. L Exploration Contextuelle, à la différence d autres approches d annotation sémantique, notamment par apprentissage automatique ou des méthodes statistiques, s appuie sur l identification des marqueurs discursifs de points de vue dans les textes. À chaque point de vue est associé un ensemble d indicateurs spécifiques et de règles d Exploration Contextuelle, appelées par l identification d une occurrence d un indicateur ; ces règles déclenchent ou bloquent une annotation potentielle après la vérification que les conditions contextuelles soient remplies. L Exploration Contextuelle a été mise en œuvre explicitement dans des projets menés au laboratoire LaLIC. La réalisation d un premier logiciel de Résumé automatique SERAPHIN ¹, a été suivie de la plate-forme ContextO. L analyse critique des performances et de l utilisation de ContextO a mené à la réalisation du nouveau moteur Excom² (versions 1 et 2). Les cartes sémantiques déjà traitées sont les suivantes : le Résumé automatique (Antoine Blais), la Bibliosémantique (Marc Bertin), la relation texte-images (Florence le Priol et al.), la citation (Moatasem Alrahabi), la définition (Charles Teissèdre, Brahim Djioua, Taouise Hacène), les flux RSS pour la rencontre (Brahim Djioua), les événements naturels (Ewa Gwiazdecka, Aymen Elkhlifi), les hypothèses en biologie (Julien Desclés, Olfa Makkaoui). Un texte étant annoté automatiquement selon des points de vue de fouille, nous nous ¹Système Expert de Repérage Automatique des Phrases Importantes d un texte et de leur Normalisation ²EXploration COntexutuelle Multilingue 3

14 Introduction générale posons la question de l exploitation efficace de ces annotations à grande échelle. Audelà de l extraction d informations, les textes enrichis par des annotations perme ent d accéder à une certaine sémantique véhiculée par le texte, offrant ainsi la possibilité de me re en place des outils «intelligents» de fouille textuelle. Ceci donne la possibilité d une navigation basée sur des contenus sémantiques et la construction de nouvelles présentations de connaissances extraites des documents, telles que les fiches de synthèse et les résumés automatiques selon différentes stratégies de synthèse. Dans ce cadre, nous proposons un système de recherche d informations à partir de l exploitation de points de vue annotés. L objet de la deuxième partie, qui est le cœur central de la thèse, sont les posttraitements liés aux annotations et aux interfaces orientées vers l utilisateur. Ces applications s adressent aux différents types d utilisateurs non informaticiens (veilleurs, chercheurs, étudiants, journalistes, documentalistes, ) et perme ent d aborder également des problématiques en veille stratégique ou en intelligence économique. Le système que nous proposons est adapté à de nombreux scénarii de recherche d informations ciblée, par exemple : trouver comment un auteur est cité dans des articles ; identifier les hypothèses plus ou moins plausibles et les résultats a estés dans les publications scientifiques (par exemple en biologie) ; rechercher des informations importantes et pertinentes, soulignées par l auteur, ou des prises de position ; extraire et catégoriser les citations afin d identifier un accord ou un désaccord éventuel entre auteurs. L utilisateur a la possibilité de poser des requêtes selon certains points de vue de fouille et ainsi de filtrer des résultats précis en spécifiant alors les entités nommées sur lesquelles il aimerait obtenir de l information. Le traitement de grands corpora, notamment dans le contexte de la recherche d informations, pose immédiatement le problème de la redondance. Si la même information est exprimée plusieurs fois dans différents documents, comment identifier ce e redondance et comment en tenir compte dans la présentation des résultats? La recherche d informations doit être orientée, pour être vraiment utile, vers la découverte de ce qui est inconnu, inaccessible, d une information «cachée» car rare dans les textes. Or, si une information est très fréquente et redondante, est-elle vraiment pertinente et 4

15 Introduction générale n est-elle pas déjà connue de l utilisateur? Un système de fouille textuelle performant devrait en effet perme re d identifier l information rare, émergente et innovante, d où sont intérêt pour la veille, l intelligence stratégique et également pour l évaluation. Le problème d ordonnancement des réponses reste primordial dans la problématique des moteurs de recherche. Un utilisateur humain ne peut consulter qu un nombre assez limité de réponses extraites, aussi le système doit-il s appuyer sur une évaluation précise de la pertinence. D un côté, il est nécessaire d afficher en tête de la liste les informations les plus importantes, utiles, intéressantes, et d un autre côté, le système doit éliminer le plus possible le bruit et éviter les réponses inutiles, car non ou peu pertinentes. Le but principal de notre approche est de proposer à l utilisateur, à moindre coût, des informations nouvelles et pertinentes, lui perme ant d appréhender le contenu des documents selon les points de vue qui l intéressent. Plan de la thèse. La thèse se divise en trois parties. Dans la première partie, nous posons le problème de la fouille textuelle par recherche d informations et sa relation avec des annotations sémantiques automatiques (et non pas uniquement manuelles). Dans les deux premiers chapitres, nous faisons un état de l art sélectif des techniques de recherche d informations ainsi que celles des annotations sémantiques automatiques. Dans le troisième chapitre, nous présentons la méthode d Exploration Contextuelle. Nous abordons l aspect formel, puis nous comparons ce e méthode à d autres approches, notamment celles qui reposent exclusivement sur des expressions régulières. Nous démontrons que l Exploration Contextuelle reconnaît la classe des langages contextuels de type 1 de la classification de Chomsky et, de ce fait, permet de reconnaître une classe plus étendue que celle des langages réguliers. Dans la partie centrale de la thèse, nous abordons le problème de l exploitation des annotations sémantiques issues du moteur Excom. Nous présentons un système de recherche d informations à partir de différents points de vue de fouille. Nous décrivons les algorithmes que nous avons développés pour la gestion de la redondance et l ordonnancement des réponses, en tenant compte des nouvelles informations apportées par l annotation. Nous décrivons ensuite l implémentation informatique du système 5

16 Introduction générale et les interfaces utilisateurs qui ont été mises en place. Nous proposons également de nombreux exemples de fonctionnement et de sorties de notre système implémenté. La troisième partie présente une discussion et une évaluation du système de recherche d informations ainsi que des algorithmes d ordonnancement. Une comparaison avec d autres systèmes de recherche d informations travaillant au niveau des mots clés nous permet de montrer, de façon empirique, l utilité et l adéquation des annotations sémantiques par points de vue pour une meilleure recherche d informations orientée vers les besoins réels des utilisateurs qui ne réclament pas toujours l exhaustivité accompagnée d un trop grand bruit. Tous les algorithmes proposés dans la thèse sont implémentés et utilisés dans des projets de fouille textuelle. Ce travail est réalisé en relation avec d autres travaux menés au laboratoire LaLIC autour de l Exploration Contextuelle, notamment la production de fiches de synthèse et résumés automatiques, l analyse des citations entre auteurs par la Bibliosémantique, la fouille de textes en biologie (BioExcom), et le projet IDEFICS (L Indexation, le Dévelopement, l Évaluation Francophone de l Information et de la Communication Scientifique) en partenariat avec l AUF. Ces projets me ent en place l exploitation des annotations sémantiques d Excom pour le traitement de collections importantes de documents numériques (plusieurs centaines d articles et de thèses traités en même temps). 6

17 P Traitement de l information textuelle : de l annotation à la recherche d informations 7

18

19 C 1 Re er e d informations Sommaire 1.1 est-ce que la recherche d informations? Historique Définitions et objectifs Systèmes de recherche d informations Architecture générale Modèles classiques : booléen, vectoriel, probabiliste Modèle booléen Modèle vectoriel Pondération des termes Modèle booléen étendu Analyse sémantique latente Modèle probabiliste Méthodes d évaluation Précision et rappel Évaluation des ordonnancements Campagnes d évaluation

20 C 1. R Recherche d informations sur le Web Discussion : quelques limitations des modèles classiques Le processus de recherche d informations Modèles d accès à l information : prise en compte de l utilisateur La notion de pertinence Problématique de l indexation Discussion : comment accéder à la sémantique textuelle?

21 Résumé du chapitre 1 Dans ce apitre, nous nous intéressons au processus de re er e d informations. Après avoir donné les définitions et les objectifs, perme ant de définir un cadre de réflexion, nous étudions l ar itecture générale des systèmes de re er e d informations ainsi que les trois principaux modèles : booléen, vectoriel et probabiliste. Les capacités d un tel système sont étroitement liées à la représentation des documents qui est utilisée, soulignant l importance des éléments pris en compte lors de l indexation. Nous prêtons une a ention particulière à la notion de pertinence, qui se trouve au centre du processus de re er e d informations. Un moteur de re er e, n est-il pas avant tout un système automatique a ribuant des jugements de pertinence. Or? il s agit là d une notion complexe, qui résulte de l interaction entre plusieurs facteurs, et qui reste difficile à prendre en compte par le traitement automatique. Enfin, nous abordons la question de la sémantique textuelle : quelle est sa place dans la re er e d informations et comment accéder au contenu textuel? 11

22 C 1. R 1.1 est-ce que la re er e d informations? Historique Le domaine de la recherche d informations tel que nous le concevons aujourd hui a émergé dans les années Avant de présenter les avancements dans ce domaine à l ère numérique, il faut se rappeler que les principes de la recherche d informations ont été présents dans les pratiques humaines bien avant l invention de l ordinateur : ils datent depuis l existence des documents écrits. Naturellement, toute exploitation d une archive, d une bibliothèque ou d une collection de documents en général nécessite si ce n est un système automatique, au moins une organisation sous-jacente perme ant d y rechercher telle ou telle information. Des artefacts historiques montrent que le principe d indexation était connu dans l antiquité gréco-romaine. Avant l invention du papier, les textes furent écrits sur des rouleaux de papyrus, dont le titre et parfois le nom de l auteur furent indiqués par une étique e a achée au document, appelée index. Ce système d étiquetage perme ait d identifier le contenu de chaque papyrus¹ sur le rayon d une bibliothèque, sans devoir sortir le document lui-même [Wellisch, 1991]. Outre qu assurer la meilleure préservation des documents, ce e pratique témoigne d une prise de conscience que l organisation et la méthode d accès aux documents sont primordiales pour l utilisation et l exploitation efficace de l information. L index au sens moderne, qui est une liste dans un ordre alphabétique² contenant les localisations exactes des termes d un livre, n est devenue possible qu après l invention de l imprimerie par Gutenberg, autour de 1450, qui a mis en œuvre deux conditions premières pour la compilation d un index : la numérotation des pages et la possibilité de reproduire de nombreux exemplaires identiques d un livre³. ¹Ces étique es avaient également une forme orale : au V e siècle avant J. C. en Grèce antique, au début des pièces théâtrales le cœur récitait une brève description de l action qui serait représentée. ²Les premiers indexes des livres étaient ordonnées uniquement par rapport à la première le re du mot, tous les mots commençant par la même le re apparaissant en désordre. L alphabétisation complète n est devenue systématique qu au XVIII e siècle. ³L utilité d un index dans un livre a été soulignée en 1868 par Lord John Cambell dans son livre «e 12

23 1.1. est-ce que la recherche d informations? Au XVI e siècle, lorsque les collections des bibliothèques publiques augmentaient et devenaient accessibles au grand public, la nécessité de rechercher dans le contenu des documents devient de plus en plus importante. Les premières tentatives à créer une organisation opératoire utilisaient des structures hiérarchiques afin de regrouper les documents traitant des sujets proches. Ce e première approche s est vite avérée insuffisante : en effet, un document traite souvent plusieurs sujets différents. De plus, les sujets eux-mêmes sont plus ou moins spécifiques et organisés d une façon arbitraire. En effet, construire une hiérarchie complète et exhaustive reviendrait à créer une ontologie universelle. Comme nous pouvons le voir en travaillant avec certains annuaires, la capacité d exploiter une telle structure hiérarchique dépend fortement de la connaissance de l organisation des sujets et des documents de la part de l utilisateur. Il n est donc pas étonnant qu à ce e époque, ce qui perme ait aux lecteurs de trouver une information spécifique, ce fût avant tout le conseil du bibliothécaire plutôt que l organisation établie. Avec le temps, la croissance des collections des documents a rendu impossible la gestion de l information par une seule personne. Il était nécessaire de trouver de nouveaux types d organisations perme ant d identifier rapidement les documents portant un certain contenu dans une grande collection. Pour répondre à ce besoin, les premières organisations hiérarchiques ont été remplacées par des systèmes de catalogues élaborés, dont le système décimal de Dewey (1872), le microfilm dans les années 1930 et le format MARC (MAchine-Readable Cataloging), utilisé pour la première fois dans la Bibliothèque du Congrès ⁴, en Peu après l invention de l ordinateur, qui a rendu possible la gestion de vastes quantités d information, le concept de l automatisation de la recherche d informations par les ordinateurs a été popularisée dans le fameux article As We May ink ⁵ de Vannevar lives of the chief justices of England». Dans la préface, il écrit : So essential did I consider an Index to be to every book, that I proposed to bring a bill into Parliament to deprive an author who publishes a book without an Index of the privilege of copyright ; and moreover to subject him for his offence to a pecuniary penalty. Yet, from difficulties started by my printers, my own books have hitherto been without an Index. ⁴Library of Congress MARC Standards : h p :// ⁵L article de V. Bush décrit un outil, appelé memex, qui serait capable de stocker des documents sous différents formats, tels que livres, photos, articles, et en extraire une information précise de façon rapide à la demande de l utilisateur. 13

24 C 1. R Bush [Bush, 1945]. Il a fallu une dizaine d années avant de rendre possible une partie des idées de cet article. En 1957, H. Luhn propose une première méthode d indexation automatique [Luhn, 1957], utilisant comme unités d indexation les mots dans le titre ou résumé d un document⁶. Dans son modèle, un document est considéré comme pertinent par rapport à une requête, s il contient l ensemble des termes de la requête. Plusieurs développements clés dans les années 1960 ont enrichi le panorama de la recherche d informations, dont le plus significatif est le système SMART ⁷ de Gerard Salton [Salton, 1971], qui était un des premiers systèmes de recherche d informations numériques. En effet, c est le premier système capable à manipuler un grand nombre de documents, grâce au modèle vectoriel qu il a mis au point. La création du système SMART a fortement influencé le domaine de recherche d informations et préparé le terrain pour les futurs développements : en effet, il est toujours utilisé pour des expérimentations en recherche d informations et se retrouve à la base de nombreux moteurs de recherche actuels. Dès les premiers systèmes opérationnels en recherche d informations, la réflexion sur l évaluation de tels systèmes s est avérée nécessaire. Le projet Cranfield, dirigé par C. Cleverdon de 1957 à 1967 [Cleverdon, 1967], avait pour but de mesurer l efficacité de différents méthodes d indexation et de recherche à travers un ensemble de tests contrôlés. La méthodologie pour l évaluation des systèmes de recherche d informations établie par ce projet est toujours utilisée. Chaque test est effectué sur une collection de documents fermée et un ensemble de requêtes. Pour chaque requête, la performance du système est mesurée en termes de précision et rappel (voir section 1.2.3) par rapport aux ensembles des réponses pertinentes, obtenues suite à une analyse manuelle par des experts. En 1992 la première conférence de la série TREC (Text Retrieval Conference) [Harman, 1993] a eu lieu aux États Unis⁸, donnant le début d une série de campagnes ⁶Le concept KWIC (d anglais Key Words In Context) ou index permuté, développé indépendamment par H. Luhn et par H. Ohlman, représente un index contenant des mots significatifs des titres et des résumés des documents dans leurs contextes. Aujourd hui, ce format est souvent utilisé pour les concordances. ⁷Le système SMART est accessible à l adresse : p :// p.cs.cornell.edu/pub/smart/ ⁸Les conférences TREC sont financées par la DARPA (Defense Advanced Research Projects Agency) et le NIST (National Institute for Science and Technology). 14

25 1.1. est-ce que la recherche d informations? annuelles d évaluation des systèmes de recherche d informations dans le but d encourager la recherche dans le domaine sur de grandes collections de documents. Ce e conférence a joué un rôle important dans le développement des technologies de recherche d informations, tout comme l invention du World Wide Web en 1989, a ribuée à [Berners-Lee, 1989]. La démocratisation d internet a posé de nouveaux défis, à la fois par la vaste quantité d informations à traiter et par la nouvelle nature des informations, qu est une structure hyper-texte dynamique et complètement décentralisée. Notons que le potentiel de l hyper-texte pour établir des liens entre les documents afin de créer une organisation de l information complexe a été analysé en 1945 par V. Bush, dans son fameux article «As We May ink» [Bush, 1945]. La recherche d informations sur le Web débutait ainsi dans les années 1990, les systèmes les plus évolués tenant compte des hyper-liens entre les documents d abord au niveau du processus d indexation et plus tard, vers 1996, pour l estimation de la pertinence des pages web Définitions et objectifs Le mathématicien et physicien Calvin Mooers a défini en premier le terme re er e d informations (en anglais information retrieval) en 1951 [Mooers, 1951]⁹. La recherche d informations est une branche de l informatique qui étudie la construction des systèmes ayant pour objectif principal de perme re de retrouver une information spécifique, correspondant au besoin de l utilisateur, dans un ensemble de documents. Ce besoin s exprime en termes d une requête, qui peut prendre différentes formes selon les systèmes : une question, une liste de mots clés, une combinaison de mots clés liés entre eux par des opérateurs ou des connecteurs, une image, etc. Dans ce travail, nous nous intéressons exclusivement à la recherche d informations textuelle¹⁰. ⁹[Mooers, 1951, p. 25] écrit : Information retrieval embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, thechnique, or machines that are employed to carry out the operation. ¹⁰Les documents traités par un système de recherche d informations peuvent être de différents types : textes, pages web, images, son, vidéo, etc. Dans le cas général, n importe quelle unité d information, qui constitue une réponse à une requête potentielle, peut être un objet de recherche d informations. Plusieurs types de documents textuels doivent être considérés : documents plein-texte et documents partiellement ou complètement structurés (par exemple en format XML ou HTML). 15

26 C 1. R Un traitement préalable des documents, appelé indexation ou création d index inversé, permet l extraction d un ensemble de documents pertinents par rapport à une requête, sans devoir parcourir la totalité des documents au moment de la recherche. Il s agit d un changement de représentation, qui réorganise l information afin de rendre possible la recherche à partir de mots clés. Au cœur d un système de recherche d informations (SRI) se trouve donc un index inversé, qui associe à une liste de termes les localisations où ces termes apparaissent dans les documents. Les indexes informatiques, à l image de la page d index d un livre, perme ent de localiser l endroit où se trouve l information pertinente, exprimée dans la requête, sans devoir aborder de façon séquentielle le contenu de l ensemble des documents. Le développement des systèmes de recherche d informations pendant les dernières décennies a été conditionné par plusieurs innovations technologiques. D abord l invention de l ordinateur, perme ant, d une part, de stocker de grandes quantités de documents numériques, et d autre part, d automatiser et d accélérer les traitements, puis l avènement d Internet et les bibliothèques numériques ont créé une nécessité de pouvoir accéder aux informations de façon rapide et fiable. La recherche d informations est dans ce sens une interface, ou un moyen d accès, entre l information, présente «en vrac» dans un ensemble de documents numériques, et le savoir ou le renseignement, qui est recherché par l utilisateur et qui se doit d être exploitable par celui-ci. L efficacité d un système de recherche d informations s exprime par la capacité à donner des réponses pertinentes, et également par la concision et la précision des résultats (pour une discussion sur l évaluation, voir section 1.2.5). Les moteurs de recherche sur le Web aujourd hui, face à l immensité des informations disponibles sur le réseau, renvoient souvent à des milliers de réponses, dont seulement une petite partie utilisables. Un grand nombre de réponses signifie invariablement que l ordonnancement prend un rôle primordial. Certaines études montrent que les utilisateurs accèdent rarement aux résultats au-delà de la première vingtaine de réponses (par ex. [Jansen et Spink, 2005]). En général, avant d être présentées à l utilisateur, les informations extraites sont ordonnées selon une évaluation de la probabilité de leur pertinence. En effet, une condition première pour pouvoir parler de recherche d informations, c est 16

27 1.1. est-ce que la recherche d informations? que l ensemble des réponses doit être exploitable par un être humain : un système adéquat devrait ainsi perme re non seulement à rechercher, mais aussi à retrouver une information dans un laps de temps raisonnable. Si les premiers systèmes avaient pour fonction de localiser les documents contenant une information donnée, les systèmes de recherche d informations actuels sont orientés non seulement vers la localisation de l information elle-même au cœur des documents, mais aussi vers la synthèse, l extraction et la réorganisation des informations provenant d un corpus de documents afin de présenter à l utilisateur une réponse adaptée à son besoin, s articulant, comme nous le verrons, par une compilation produisant des documents secondaires (voir aussi section 4.3). Dans ce e perspective, [Simonnot, 2002] souligne que l information retrouvée se valorise au moment où elle est mise en relation avec les connaissances propres à l utilisateur, ou bien d autres informations liées, obtenues par une analyse et une synthèse s inscrivant dans sa démarche intellectuelle¹¹. Nous pouvons ainsi constater, allant dans ce sens, les deux tendances affirmées dans le développement des moteurs de recherche et des services Web, qui sont au cœur des problématiques actuelles : d un côté, la volonté de me re les informations retrouvées en relation avec des sources et services complémentaires ; d un autre côté, les études de profils utilisateurs cherchant à cibler les besoins et les connaissances d un utilisateur par une analyse de son comportement sur le Web. Le domaine de la recherche d informations se trouve aux limites de plusieurs disciplines : l informatique et la mathématique, les sciences de l information et des bibliothèques, le traitement automatique de la langue, la linguistique et la psychologie cognitive. Nous considérons que la recherche d informations doit avant tout donner à l utilisateur un outil pour accéder aux contenus textuels de façon systématisée, où les informations extraites sont mises en relation, amenant l utilisateur à travers l expression de son besoin, à la connaissance. ¹¹[Simonnot, 2002], pp : «L utilité d un document renvoie moins aux connaissances du er eur d information qu à l usage qu il prévoit pour l information retrouvée. Or, la vraie valeur de l information, c est sa valeur d usage, constituée par les interprétations sans cesse renouvelées qui en sont faites. La capacité à bien lire les documents, analyser et synthétiser, relier les éléments informatifs à ses connaissances propres est déterminante dans ce domaine. Si le concept d utilité rejoint celui de pertinence, il souligne moins l importance de la démar e intelle uelle complexe liée au traitement maîtrisé de l information.» 17

28 C 1. R La recherche d informations comprend plusieurs domaines. Re er e d informations vs Re er e de données. Une première distinction peut être faite entre la re er e d informations et la re er e de données (data retrieval), la dernière impliquant l extraction de correspondances exactes à partir de données structurées, par exemple en utilisant un système de gestion de base de données (SGBD), alors que la recherche d informations se ré ère à l identification d informations pertinentes parmi une collection de documents partiellement structurés. L intérêt de combiner ces deux principes a été souligné par [Goldman et Widom, 2000, Bremer et Gertz, 2006, Gustafson et Ng, 2008]. Re er e documentaire vs Re er e textuelle. Il s agit de distinguer entre un document et son contenu qui peut être en grande partie textuel. Comme son nom l indique, la re er e documentaire considère le document comme unité de base. Le système renvoie comme réponse un corpus trié où l utilisateur devrait retrouver les informations qui lui sont utiles. La re er e textuelle, par contre, a pour but de fouiller les contenus textuels afin d en extraire des réponses précises. Notons également que le terme re er e d informations textuelles est parfois utilisé pour désigner la recherche d informations sur des documents textuels, par opposition à la recherche d images, des vidéos, etc. Information Retrieval vs Information Seeking. Il est intéressant de noter que la terminologie anglaise fait une distinction entre Information Retrieval (IR) et Information Seeking (IS), qui constituent deux domaines de recherche différents. Le premier domaine, IR, est en effet une branche de l informatique ayant pour objectif la conception de systèmes offrant la possibilité à trouver des informations correspondantes à un besoin utilisateur parmi une masse de données importante. De l autre côté, le terme Information Seeking est utilisé surtout dans des sciences sociales et désigne l activité d essayer d obtenir une information dans un contexte social. Ce dernier domaine est lié étroitement aux sciences de l information et des bibliothèques, en étudiant davantage les motivations des utilisateurs et les façons d accéder aux informations. 18

29 1.2. Systèmes de recherche d informations Le terme français re er e d informations est employé pour designer Information Retrieval et/ou Information Seeking sans maintenir une distinction ne e entre ces deux domaines. En effet, ce e «finesse» relative de la terminologie anglaise reflète avant tout l indépendance historique de ces deux domaines qui sont longtemps restés disjoints. Dans les années 1990, les recherches en informatique ne s inspirent pas des idées des sciences sociales et, comme l affirme [Ingwersen, 1996], aucune des deux communautés ne prend en compte les méthodes et les résultats de l autre. Cependant, déjà à ce e époque-là [Belkin, 1993] signale l importance du comportement de l utilisateur pour la conception des systèmes de recherche d informations. D après [Ingwersen et Järvelin, 2005], le lien entre ces deux domaines est une prise de conscience très récente. 1.2 Systèmes de re er e d informations Ar itecture générale Il existe plusieurs types de systèmes de recherche d informations selon : le type et le format des documents traités (documents textuels, images, son) ; la nature et la taille des corpus traités (collections fermées ou ouvertes) ; le type des réponses recherchées (documents pertinents, auteurs des documents pertinents, phrases, etc.) ; la façon d interroger le système et le langage de requête (une liste de mots clés, une expression booléenne, une question en langue naturelle pour les systèmes question-réponse, etc.). Dans ce travail, nous nous intéressons avant tout à la recherche d informations textuelles, utilisant le contenu des documents et éventuellement leur structure, ainsi que des métadonnées. Notre objet n étant pas la réalisation d un état de l art exhaustif 19

30 C 1. R des systèmes de recherche d informations, nous nous limiterons aux systèmes traitant des documents numériques textuels, qui peuvent éventuellement être structurés (documents XML) et hyper-textuels. Les systèmes de recherche d informations modernes utilisent de nombreux algorithmes et heuristiques, qui sont nécessaires pour le traitement des grandes collections de documents, voire les documents sur le Web, dans le but de réduire l effort nécessaire pour localiser les informations pertinentes. Les méthodes générales dans ce domaine sont présentées, entre autre, dans [Baeza-Yates et Ribeiro-Neto, 1999, van Rijsbergen, 1979, Langville et Meyer, 2006, Manning et al., 2008]. Ici nous présentons la structure générale et les caractéristiques de base des systèmes de recherche d informations. Nous prêtons une a ention particulière aux méthodes d ordonnancement des réponses qui constituent une partie intégrante de l architecture d un tel système. Afin de retrouver les informations pertinentes, le système doit pouvoir avant tout filtrer et extraire certains contenus à partir des documents de départ qui seront proposés à l utilisateur. Étant donné un ensemble de documents D = {d 1, d 2,..., d n }, et une requête q, le système doit proposer un sous-ensemble ordonné R q D contenant les documents pertinents par rapport à q. Le temps de traitement ici est une limitation non négligeable : l utilité du système dépend du fait que les résultats soient obtenus et utilisables dans un laps de temps très court, pas plus que quelques secondes après la formulation de la requête. Or, en réalité, l ensemble D constitue une masse conséquente de documents, rendant impossible le traitement séquentiel de ces derniers au moment de la requête. Pour contourner ce problème, une phase d indexation préalable est nécessaire, construisant une nouvelle représentation des documents. Il est souvent le cas que l index ainsi obtenu, afin de rendre les traitements plus performants, ne contient qu une partie des informations de départ ; il s agit donc d une image «compressée» du contenu des documents de l ensemble D qui servira comme base pour l algorithme de recherche. La requête reflète un besoin informationnel spécifique qui est exprimé dans un langage dédié. Ce langage définit la représentation interne de la requête qui, ensemble avec 20

31 1.2. Systèmes de recherche d informations F. 1.1 : Schéma simplifié du fonctionnement d un système de recherche d informations les indexes de D, constitue l entrée d un algorithme qui évalue la pertinence de chaque document. Pour cela, le système fait appel à des mesures de similarité Sim(D, q) perme ant de comparer chaque document avec la requête afin d obtenir une estimation numérique de la pertinence. Ce fonctionnement qui est présenté sur la figure 1.1, utilise une hypothèse forte : il suppose qu il existe une corrélation entre des mots et d autres chaînes de caractères se trouvant dans l index et les contenus des documents qui y sont représentés, ainsi que les requêtes pour lesquelles ces documents sont pertinents [Kekäläinen et Järvelin, 2002]. Un tel système est donc capable de retrouver des documents correspondant au besoin de l utilisateur dans la mesure où les mots ou chaînes de caractères de la requête existent en tant que clés dans l index et donc sont présents dans certains des documents que l on considérera comme pertinents. L évaluation de la pertinence des documents s appuie sur un calcul de similarité entre chaque document et la requête s inscrit dans un modèle de recherche d informations. La section suivante présente quelques modèles de base. 21

32 C 1. R Modèles classiques : booléen, vectoriel, probabiliste Un modèle de recherche d informations est un cadre de calcul qui, à partir d une représentation des documents et une représentation de la requête, détermine la relation ou le degré de similitude entre le document et la requête. Ici, nous présentons les trois grands modèles utilisés en recherche d informations : booléen, vectoriel et probabiliste. Il est important de noter que ces trois modèles partagent l hypothèse de départ suivante : l information contenue dans un document peut être représentée par un ensemble de termes d index se trouvant dans ce document. Ce e hypothèse est fondamentale, car la capacité d un système à évaluer la pertinence d un document pour une requête est conditionnée par la représentation des documents et ce e dernière est constituée d un ensemble non ordonné de termes, appelé également «sac de mots». Bien que ce e hypothèse soit défectueuse du point de vue linguistique, elle provient de la supposition intuitive qu un document est pertinent pour une requête lorsqu il contient les mêmes termes que la requête¹². Une conséquence évidente est l incapacité d un tel système de traiter les cas de polysémie, homonymie et synonymie pourtant très fréquents dans la langue naturelle, qui restent toujours un défi important pour les systèmes de recherche d informations. Un terme d index désigne une chaîne de caractères (le plus souvent un mot), qui est prise en compte pour la représentation interne du document, car considérée comme représentative du contenu du document. Le choix de termes d index est important pour les capacités de recherche du système : les termes d index peuvent être des mots, des expressions plus complexes, mais également des positions des termes dans le corps du texte ou des titres, certains traits de la mise en page, la ponctuation, ou tout autre élément d information présent dans le document. Intéressons-nous aux différents modèles de recherche d informations sur lesquels reposent les systèmes actuels. De nombreux ouvrages traitent de ces modèles plus en ¹²Ici nous considérons uniquement le cas où l index est constitué par une extraction de chaînes de caractères à partir des documents. 22

33 1.2. Systèmes de recherche d informations détail, par exemple [Baeza-Yates et Ribeiro-Neto, 1999, Dominich, 2008, Moens, 2006, Grossman et Frieder, 2004]. Modèle booléen Le modèle booléen, historiquement le premier modèle utilisé, est issue de l algèbre de Boole. Il utilise des représentations par expressions logiques. L implémentation de ce modèle demande peu de ressources informatiques et les résultats sont facilement interprétables : l estimation de la pertinence d un document est essentiellement basée sur la simple présence ou absence des termes de la requête. Dans le modèle booléen, un document est représenté par une conjonction des termes d index qu il contient : D = t 1 t 2 t 3... t n, où t 1, t 2,..., t n sont les termes dans le document D La requête Q est une expression quelconque de la logique des propositions, une proposition étant exprimée par un terme. C est alors une liste de termes, reliés en utilisant les connecteurs de conjonction (et), de disjonction (ou) et de négation (non)¹³. Le document D est considéré comme pertinent pour la requête Q si l implication D Q est valide ¹⁴. Une des insuffisances intrinsèques de ce modèle est le fait qu il exprime la pertinence d un document par une variable booléenne : il s appuie sur une correspondance exacte entre la requête et le document et il n y a pas d ordonnancement des réponses inhérent au modèle ; or, une des conditions d efficacité d un système de recherche d informations est la capacité d établir un ordre dans l ensemble des réponses proposées, en ¹³Les trois connecteurs (et), (ou) et (non) forment par définition un système complet : toute fonction logique peut s exprimer en n utilisant que ces trois connecteurs. ¹⁴Pour des raisons pratiques, le modèle booléen est souvent présenté par une autre formulation équivalente en utilisant la théorie des ensembles. En effet, si nous représentons un document D par l ensemble des termes qu il contient, l évaluation de la pertinence du document par rapport à une requête Q(t 1, t 2,..., t n ), où t 1,..., t n sont des termes et propositions simples dans l expression logique, peut être obtenue par une simple évaluation de l expression Q(t 1, t 2,..., t n ), où une proposition t i est vraie si et seulement si t i D. C est souvent ce e formulation qui est utilisée dans les implémentations informatiques, du fait qu elle permet le calcul de la pertinence sans la manipulation de grandes expressions logiques. 23

34 C 1. R commençant par les documents les plus pertinents. Pour répondre à ce besoin, les systèmes de recherche d informations booléens ordonnent les résultats souvent selon de divers critères, qui ne sont pas directement liés à la pertinence, et en utilisant certaines méta-données, par exemple la date du document. Des études montrent qu en pratique, les expressions logiques employées par des utilisateurs sont très simples, dans la plupart des cas contenant un simple terme ou une conjonction de deux termes [Greene et al., 1990]. Beaucoup d utilisateurs manipulent difficilement les expressions logiques complexes et, confrontés au modèle booléen, ne sont pas en mesure de produire les requêtes exactes pour exprimer leurs besoins. Par exemple, [Jansen et al., 1998] étudient requêtes du moteur Excite et montrent qu uniquement 5% des utilisateurs se servent des opérateurs booléens dans la formulation des requêtes. De plus, dans de nombreux cas la sémantique des connecteurs et di ère légèrement de celle des mots «et» et «ou» de la langue naturelle. Ainsi la requête «t 1» contenant un seul terme donne plus de résultats que la requête «t 1 et t 2» contenant deux termes, ce qui peut être contre-intuitif. D autres modèles existants évaluent l utilité de chaque document par rapport à la requête en cherchant une meilleure correspondance. Ils utilisent des mesures de similarité de valeurs numériques, perme ant ainsi l ordonnancement des réponses selon leurs scores de similarité. Parmi les modèles les plus répandues sont le modèle vectoriel et le modèle probabiliste. Modèle vectoriel La représentation vectorielle des documents a été mise en œuvre par Gerard Salton pour le système SMART [Salton, 1971]. Les documents sont représentés par des vecteurs dans un espace vectoriel multidimensionnel, dont les coordonnées sont déterminées par des termes d index apparaissant dans le document. L hypothèse de base de ce modèle est l indépendance des occurrences des termes d index : la présence d un terme dans un document ne dépend pas du reste des termes dans ce document. À chaque document D est associé un vecteur D = (d t1, d t2,..., d tn ), où 24

35 1.2. Systèmes de recherche d informations d t1, d t2,..., d tn sont les nombres d occurrences des termes t 1, t 2,..., t n dans D. La pertinence du document D par rapport à une requête Q, représentée également par un vecteur dans le même espace, peut être calculée en utilisant une distance vectorielle quelconque : Sim(D, Q) = D, Q. F. 1.2 : Représentation des documents dans le modèle vectoriel La plupart des travaux dans ce domaine utilisent la mesure cosinus [McGill et Salton, 1983], estimant le cosinus de l angle entre les deux vecteurs : Sim(D, Q) = d ti.q ti i d 2 t i. i i q 2 t i (1.1) Un exemple simple est présenté sur la figure 1.2, en supposant que le vocabulaire contient uniquement trois termes. Le document d 5 est plus pertinent que d 1 et d 2 par rapport à la requête q. Dans ce modèle la requête peut être considérée comme un document séparé. La pertinence est alors une estimation de la proximité entre deux documents, qui est liée à la ressemblance entre les vocabulaires et les nombres d occurrences relatives des termes. 25

36 C 1. R Pondération des termes La pondération des termes est une fonction perme ant d exprimer le pouvoir discriminatoire des différents termes dans un document. Ceci est nécessaire puisque l utilité d un terme donné pour déterminer le contenu informatif d un texte varie fortement selon le terme et le corpus. Dans ce e optique, [Salton et Buckley, 1988] proposent la mesure tf-idf perme ant de tenir compte des différents degrés de pouvoir discriminatoire des termes. Le constat que les termes les plus fréquents dans un texte ne sont pas nécessairement les plus représentatifs du contenu du document, a été donné pour la première fois par Luhn [Luhn, 1958], qui propose une méthode de résumé automatique. Luhn établit une courbe en cloche (voir la figure 1.3), donnant ainsi une relation entre l informativité ou le pouvoir discriminant d un terme dans un document et la fréquence de ces occurrences. Luhn s inspire de la loi de Zipf [Zipf, 1949], qui établit empiriquement que si les mots d un corpus de langue naturelle sont ordonnés selon leurs fréquences, la fréquence d un mot est inversement proportionnelle à son rang. Sur la courbe des fréquences (voir figure 1.3), l abscisse représente les termes individuels, rangés du plus fréquent au moins fréquent, et l ordonnée représente la fréquence. La courbe E donne le pouvoir discriminant des termes. Luhn énonce alors l hypothèse que les mots les plus fréquents d un texte, qui sont généralement des mots grammaticaux ou des mots d usage courant, apportent peu d informations sur la signification du texte. De même, il suppose que les termes de fréquence faible ne sont pas pertinents pour décrire le contenu du texte. Par ces deux observations, Luhn établit des seuils de fréquence (C et D) perme ant restreindre l ensemble de termes significatifs (en gris sur la figure 1.3). Dans le cadre du modèle vectoriel, les coordonnées d un document D j sont alors calculées avec une pondération, privilégiant les termes les plus fréquents d un document, et pénalisant ceux qui sont communs à tous les documents du corpus¹⁵. Le poids ¹⁵[Salton et Buckley, 1988], p. 516 : Term discrimination considerations suggest that the best terms for document content identification are those able to distinguish certain individual documents from the remainder of the collection. This implies that the best terms should have high term frequencies but low overall collection frequencies. 26

37 1.2. Systèmes de recherche d informations F. 1.3 : Diagramme des fréquences des mots : [Luhn, 1958]. d un terme selon la mesure tf-idf ¹⁶ est donné par la formule suivante : w ti,d j ( m = f(t i, D j ).log d ti ), (1.2) où la fonction f(t i, D j ) = tf ij donne le nombre d occurrences du terme t i dans le document D j, d ti est le nombre de documents contenant le terme t i, et m est le nombre total de documents. Une version normée de ce e mesure peut être utilisée. Pour un vocabulaire de n termes, elle a la forme suivante : w ti,d j = ( ) m f(t i, D j ).log d ti (1.3) n ( ( )) 2 m f(t k, D j ).log k=1 d tk ¹⁶Le nom de la mesure tf-idf vient de l abréviation en anglais «term frequency, inverse document frequency». 27

38 C 1. R Le poids d un terme t i dans un document D j est alors le nombre w ti,d j entre 0 et 1, calculé préalablement et indépendant de la requête. En tenant compte de ces coefficients, un document est représenté par un vecteur, dont les coordonnées sont les poids des termes dans le document. Bien que le modèle vectoriel fasse appel à des représentations dans un espace vectoriel d une dimension élevée (en théorie le nombre de dimensions est égal au nombre de différents termes d index dans le corpus), le calcul de similarité ne prend en compte que les termes communs entre le document et la requête, perme ant ainsi une implémentation légère, sans doute une des raisons du succès de ce modèle. Notons que le modèle booléen peut être considéré comme un cas particulier très simple du modèle vectoriel, où les coordonnées des vecteurs sont binaires. En outre, la différence significative entre le modèle booléen et le modèle vectoriel vient de la représentation de la requête : dans le modèle booléen, la requête est une expression logique obtenue par un certain nombre d opérations logiques, alors que dans le modèle vectoriel, la requête est représentée par un vecteur et devient donc assimilable à un document. Ce e dernière propriété permet l application du modèle vectoriel pour d autres tâches impliquant une estimation de similarité entre documents, par exemple des problèmes de classification automatique [Rasmussen, 1992]. Modèle booléen étendu En s inspirant du modèle vectoriel, Salton [Salton et al., 1983] propose d introduire des pondérations des termes dans le modèle booléen perme ant ainsi d obtenir un ordonnancement des réponses associé aux degrés de pertinence des documents retrouvés. À chaque terme d index il a ribue un poids exprimé par une valeur numérique, basé sur la mesure tf-idf (voir la formule (1.3) ) et obtenu à partir de l analyse du corpus afin d identifier les termes les plus «significatifs» ou «importants» dans un document, ainsi que le pouvoir discriminant d un terme dans la collection de documents. Dans ce cadre, la pertinence d un document D par rapport à une requête Q, où Q est une expression logique, est calculée en utilisant une interprétation des connecteurs 28

39 1.2. Systèmes de recherche d informations logiques : la mesure de similarité Sim(D, Q) est une fonction dans l intervalle [0, 1], qui est définie par exemple de la façon suivante : Sim(D, t i ) = w ti,d Sim(D, Q 1 Q 2 ) = min(sim(d, Q 1 ), Sim(D, Q 2 )) Sim(D, Q 1 Q 2 ) = max(sim(d, Q 1 ), Sim(D, Q 2 )) (1.4) Sim(D, Q) = 1 Sim(D, Q) Le modèle booléen simple devient alors un cas particulier du modèle booléen étendu, où les poids de tous les termes sont égaux à 1. Dans ce modèle, le score d un document étant un nombre réel entre 0 et 1, le résultat de recherche n est plus un ensemble, mais une liste de documents, ordonnée par rapport à leurs pertinences. Selon [Salton et al., 1983], le calcul de la pertinence prenant en compte la pondération des termes permet d améliorer la qualité de la recherche : les informations recherchées se trouvent souvent parmi les premières réponses, d où une réduction considérable dans le temps nécessaire à l être humain pour identifier les réponses utiles par rapport au modèle booléen simple. Notons que la mesure de similarité (1.4) ci-dessus, bien qu utile en pratique, n est pas valide de point de vue théorique, car Sim(D, Q Q) 0 et Sim(D, Q Q) 1. En effet, ce n est pas une fonction au sens mathématique. Un autre défaut évident de la fonction de similarité (1.4) est qu elle entraîne des pertes d information du fait que l interprétation des connecteurs logiques ne reflète pas la totalité de l information contenue dans la requête. En effet, les fonctions de minimum et de maximum ne distinguent pas entre les classes d ensembles ayant le même élément minimal et maximal. Par exemple, dans le calcul de la similarité par rapport à une conjonction Q = t 1 t 2 t 3, seul le poids du terme le plus «lourd» sera pris en compte, alors que les autres deux termes n influenceront pas le résultat final. Deux documents peuvent alors obtenir des scores identiques, même si un des documents contient un plus grand nombre des termes de la requête. Face à ce problème, la formu- 29

40 C 1. R lation (1.4) peut être généralisée en utilisant la p-norme¹⁷, perme ant une évaluation plus fine de la pertinence, où tous les termes de la requête sont pris en compte : Sim(D, t i ) = w ti,d ( (1 Sim(D, Q1 )) p + (1 Sim(D, Q 2 )) p Sim(D, Q 1 Q 2 ) = 1 2 ( ) (Sim(D, Q1 )) p + (Sim(D, Q 2 )) p 1 p Sim(D, Q 1 Q 2 ) = 2 Sim(D, Q) = 1 Sim(D, Q) ) 1 p (1.5) Pour p = 2, en observant les lignes de similarité équidistantes de points (1,1) et (0,0) pour les requêtes de type A B et A B, Salton constate que l ordonnancement des documents reste identique pour les deux requêtes (voir figure 1.4). F. 1.4 : Lignes de similarité équidistantes de (1,1) et (0,0) pour les requêtes A B et A B [Salton et al., 1983] De nombreuses autres formulations de ce e fonction de similarité ont été proposées, y compris des variantes introduisant une pondération des connecteurs logiques (par exemple [Larsen, 2004]). Malgré les différentes extensions possibles, une des insuffisances conceptuelles du modèle booléen, issues de la représentation des documents, est le fait que les termes ¹⁷La forme (1.4) devient alors un cas particulier de (1.5) pour p =. 30

41 1.2. Systèmes de recherche d informations d index qui représentent les documents ont le statut de propositions logiques simples, indépendantes les uns des autres. Ceci constitue une simplification importante par rapport aux observations linguistiques : il est évident qu en réalité il existe des corrélations fortes entre les occurrences des termes dans un même texte. Par exemple, un texte sur la théorie de la relativité sera plus susceptible de contenir le nom «Einstein» qu une rece e de cuisine. La pondération des termes ne suffit pas pour remédier à ce problème. Analyse sémantique latente L analyse sémantique latente (ASL)¹⁸ définie par [Deerwester et al., 1990, Dumais, 1991] est une extension du modèle vectoriel. Ce e méthode cherche à accéder à certaines relations sémantiques entre les termes d un document en analysant les probabilités de co-occurrence. Ce e approche tente d apporter une réponse aux problèmes de polysémie et synonymie en recherche d informations et modifie l hypothèse d indépendance entre les termes du modèle vectoriel. L analyse sémantique latente établit des liens entre termes qui se trouvent souvent dans les mêmes contextes, en supposant que ces liens correspondent à une proximité sémantique. Ainsi, selon [Deerwester et al., 1990], ce modèle prend en compte au moins partiellement trois phénomènes langagiers : la polysémie, la synonymie et la dépendance entre certains termes. L implémentation nécessite des ressources considérables en termes de stockage et de temps de calcul. Les évaluations montrent que si ce modèle peut apporter une certaine amélioration des résultats par rapport au modèle vectoriel, [Hull, 1994, Papadimitriou et al., 2000] remarquent que les différences entre les performances restent faibles et dépendent des corpora. Modèle probabiliste Le modèle probabiliste fait appel à des mesures statistiques [Harter, 1975, Robertson et Jones, 1976], qui cherchent à évaluer la probabilité qu un document D soit pertinent par rapport à une requête Q, en utilisant des probabilités conditionnelles basées sur les occurrences des termes. Les documents retrouvés sont ceux qui ont une ¹⁸En anglais Latent Semantic Indexing (LSI). 31

42 C 1. R forte probabilité d être pertinents pour la requête et qui ont en même temps une faible probabilité d être non pertinents. Une première estimation de la distribution des probabilités est améliorée de façon itérative jusqu à l obtention d un ordonnancement final (dans le cas de convergence) des probabilités de pertinence. Ce modèle est coûteux à implémenter et à utiliser à grande échelle. La complexité augmente rapidement avec la taille des collections de documents. Tout comme le modèle booléen ou vectoriel, le modèle probabiliste utilise l hypothèse d indépendance des termes dans un document. Le poids d un terme t i dans un document D j est donné par la formule : w ti,d j = log P (f(t i, D j ) P ert) P (f(t i, D j ) P ert), (1.6) où P (f(t i, D j ) P ert) est la probabilité qu un document pertinent a f(t i, D j ) occurrences du terme t i, et P (f(t i, D j ) P ert) est la probabilité qu un document non pertinent a f(t i, D j ) occurrences du terme t i. La pertinence d un document correspond à la probabilité qu il soit pertinent : P (D j P ert) = m P (f(t i, D j ) P ert). (1.7) i=1 L application du théorème de Bayes permet d obtenir l expression suivante : P (P ert D j ) P (P ert D k ) n i=1 w ti,d j n w ti,d k (1.8) i=1 Étant donné une requête Q = (q 1,..., q n ), q i {0, 1}, la similarité entre un document D j et Q peut être calculée selon la formule : Sim(D j, Q) = n (w ti,d j.q i ). (1.9) i=1 Au lieu de calculer la probabilité P (P ert D j ), [Ponte et Cro, 1998] puis [Amati et Van Rijsbergen, 2002] proposent un autre modèle, appelé modèle!du langage, 32

43 1.2. Systèmes de recherche d informations qui mesure la similarité par la probabilité conditionnelle : P (Q D j ) = où S est une fonction de lissage et N Dj dans D j. n i=1 S(f(t i, D j )) N Dj, (1.10) est le nombre total d occurrences des termes Méthodes d évaluation L évaluation des systèmes de recherche d informations cherche à résoudre les deux problèmes suivants : d un côté, définir des critères d efficacité d un système pour un ou plusieurs contextes de recherche, et d un autre côté, fournir des mesures afin de pouvoir comparer des systèmes et des méthodes différents. Les mesures d évaluation qui sont définies et utilisées jouent un double rôle : d un côté, elles servent à évaluer les systèmes, et d un autre côté, elles dirigent les efforts en recherche d informations vers l optimisation de tel ou tel paramètre. Précision et rappel Une première approche [Cleverdon, 1967] évalue le comportement du système dans des situations contrôlées (collections fermées et documents pertinents connus), en faisant appel à des mesures de précision et rappel. La mesure de rappel, telle qu elle a été définie par [Cleverdon, 1967], se rapproche à la mesure de sensitivité introduite en 1964 par [Goffman, 1964a]. Le rappel et la précision sont définies dans un contexte de classification de documents ou de recherche d informations de la façon suivante. Supposons que nous avons une collection de documents et une requête. Supposons ensuite que nous connaissons les réponses «correctes» ou le résultat souhaité du système¹⁹. Dans ce cas, nous pouvons définir l ensemble des documents pertinents D p ¹⁹En réalité, pour le traitement de grandes collections de documents, comme par exemple dans les sessions d évaluation TREC, trouver le résultat souhaité du système est souvent très coûteux. Cela exige 33

44 C 1. R et l ensemble des documents retrouvés²⁰ D r, ainsi que les trois nombres suivants : Vrais positifs (V P ) : le nombre des documents pertinents qui ont été retrouvés ; Faux positifs (F P ) : le nombre des documents non-pertinents qui ont été retrouvés ; Faux négatifs (F N) : le nombre des documents pertinents qui n ont pas été retrouvés. La précision représente le taux des documents pertinents qui ont été retrouvés parmi tous les documents qui ont été retrouvés. P = {D p} {D r } {D r } = V P V P + F P (1.11) Le rappel représente le taux des documents pertinents qui ont été retrouvés parmi tous les documents pertinents. R = {D p} {D r } {D p } = V P V P + F N (1.12) Ces deux mesures donnent une indication de la qualité des résultats du système et prennent des valeurs entre 0 et 1. Elles peuvent être interprétées également en termes de probabilités : la précision représente la probabilité qu un document quelconque parmi ceux retrouvés par le système soit pertinent ; le rappel représente la probabilité qu un document pertinent quelconque soit retrouvé [Swets, 1969]. Le système parfait retrouverait alors tous les documents pertinents pour une requête donnée (rappel égal à 1), en ne retournant aucun document non-pertinent (précision égale à 1). l identification de la liste des documents dans la collection qui sont pertinents par rapport à la requête et ceci peut être effectué manuellement ou bien en utilisant d autres méthodes (semi-)automatiques qu on se doit aussi d évaluer. ²⁰Les termes documents pertinents et documents retrouvés sont employés ici au sens large, désignant des résultats de recherche qui peuvent être des documents, ainsi que des éléments textuels plus petits tels que des phrases ou des extraits selon les systèmes. 34

45 1.2. Systèmes de recherche d informations Le rappel et la précision sont interdépendants et doivent être considérés ensemble : séparément, ils ne donnent pas d indication fiable de la performance du système²¹. Une évaluation correcte doit donc prendre en compte les deux mesures à la fois, d où l utilisation de la F-mesure suivante : F β = (1 + β2 ).P.R β 2.P + R (1.13) exprimant la moyenne harmonique des deux mesures pour β = 1. Dans des collections de documents ouvertes (par exemple le Web), il est pratiquement impossible de connaître l ensemble des documents pertinents D p et le problème se pose différemment. En effet, l objectif d un moteur sur le Web n est plus l identification de tous les documents pertinents, mais l identification et le classement uniquement des documents qui sont les plus pertinents. Le module d ordonnancement devient donc la partie la plus sensible d un tel système. La précision dans ce cas se calcule par rapport au n premiers documents retrouvés : = V P n n où V P n est le nombre de documents pertinents parmi les n premiers documents. (1.14) Ce e mesure, calculée pour des valeurs de n croissantes peut servir également à évaluer l ordonnancement proposé par le système. Cependant, en ce qui concerne l évaluation des listes ordonnées, d autres mesures sont définies, qui rendent la comparaison entre les systèmes plus facile, puisque le résultat s exprime par un simple nombre réel. Nous décrirons quelques-unes de ces mesures dans la section suivante. Évaluation des ordonnancements L évaluation d une liste ordonnée de résultats a pour but d introduire des mesures tenant compte de l observation suivante : plus un document se trouve loin dans la liste, ²¹Il est assez facile de concevoir un système avec une excellente précision sans tenir compte du rappel : le système qui ne retrouve aucun document répond à ce e condition. De même, le système qui retrouve toujours tous les documents aurait un rappel de 1, mais une faible précision. 35

46 C 1. R mois il contribue à l utilité²² de ce e liste pour un utilisateur potentiel, puisqu il est moins probable que l utilisateur consulte ce document. Une des mesures les plus utilisées dans ce contexte est la précision moyenne, notée AP ²³, qui représente la moyenne des précisions calculées après chaque document pertinent retrouvé [Buckley et Voorhees, 2000]. Étant donné une liste ordonnée de documents D = {d 1, d 2,..., d n }, la précision moyenne AP (D) est définie par la formule : AP (D) = n i=1 d i D p V P (1.15) où D p est l ensemble des documents pertinents, les valeurs sont calculées selon la formule (1.14) et V P représente le nombre de documents pertinents dans la liste qui est exactement le nombre d arguments de l addition dans le numérateur. Ce e mesure tient ainsi compte des rangs des documents pertinents dans la liste, pénalisant fortement les listes qui contiennent des documents non-pertinents parmi les premiers résultats. Exemple : Soit les deux listes D 1 = {P, P, N, N, N, N,...} et D 2 = {N, P, P, P, N, N,...} où les le res P désignent des documents pertinents et les le res N des documents nonpertinents. Supposons que tous les documents au-delà du sixième rang dans les deux listes soient non-pertinents²⁴. Nous pouvons alors calculer : AP (D 1 ) = 1 et AP (D 2 ) = 0.64 Le résultat montre que AP (D 2 ) < AP (D 1 ), même si la liste D 2 contient un plus grand ²²Le terme utilité est employé ici de façon intuitive. Il désigne la qualité de la liste ou son efficacité dans la mesure où elle répond au besoin informationnel de l utilisateur. ²³En anglais, Average Precision. ²⁴Ce e condition nous permet ici de simplifier le calcul, mais il n est pas difficile de montrer qu elle n est pas significative pour le résultat de l évaluation. Si nous supposons que la liste D 2 contient un nombre fini de documents, dont tous pertinents au-delà du sixième rang, la valeur AP (D 2 ) reste toujours strictement inférieure à 1 et donc inférieure à AP (D 1 ). 36

47 1.2. Systèmes de recherche d informations nombre de documents pertinents. En effet, il peut être démontré que dans le cas où les deux listes ont le même nombre d éléments, le résultat de la comparaison par la mesure AP est identique à la comparaison entre des nombres binaires où P = 1 et N = 0. Les propriétés de ce e mesure ont été analysées en détail par [Kishida, 2005] qui calcule la sensibilité de la précision moyenne par rapport à une modification de la pertinence du document à une position donnée dans la liste. Kishida démontre ainsi que la contribution d un document pertinent au score AP augmente avec la proximité du début de la liste. Ceci est cohérent avec la perception intuitive de la qualité d une liste ordonnée : un document pertinent se trouvant à une position supérieure (plus proche du début de la liste) contribue au score AP avec une valeur plus importante qu un document pertinent se trouvant vers la fin. L évaluation d un ordonnancement à partir d un ensemble de requêtes Q s appuie sur la mesure MAP (Mean Average Precision) qui représente la moyenne des scores AP sur l ensemble des requêtes : MAP (Q) = q Q AP (D q). (1.16) Q La mesure DCG (Discounted Cumulative Gain) [Järvelin et Kekäläinen, 2002] évalue l utilité d un document en considérant sa position dans la liste des résultats. L idée principale consiste à pénaliser les documents très pertinents qui apparaissent vers la fin de la liste ordonnée, en supposant que la pertinence diminue de façon logarithmique. Ainsi, pour une position k, nous avons : DCG(k) = p 1 + où p i est la pertinence du résultat se trouvant à la position i. k i=2 p i log 2 i, (1.17) Comme les valeurs de DCG dépendent de la longueur de la liste ordonnée, la moyenne sur un ensemble de requêtes Q prend en compte les valeurs normalisées ndcg. Le coefficient de normalisation est la valeur DCG(k) de l ordre «idéal», c est-à-dire la plus grande valeur possible que peut prendre DCG(k). Ainsi, les valeurs 37

48 C 1. R ndcg varient entre 0 et 1 : ndcg(k) = DCG(k) IDCG(k). (1.18) De nombreuses autres mesures pour l évaluation des listes ordonnées ont été proposées, notamment en 1969 par Swets [Swets, 1969] qui considère deux distributions de probabilités : la probabilité que la réponse au rang n soit pertinente et la probabilité que la réponse au rang n soit non-pertinente. Il définit ainsi la mesure E représentant la différence normalisée entre les deux espérances. Parmi les mesures les plus utilisées, nous retrouvons également la mesure ASL (Average Sear Length), proposée par [Losee, 1998], qui représente la position moyenne de documents pertinents dans une liste. De même, il existe la mesure ESL (Expected Sear Length), proposée par [Cooper, 1968], qui donne le nombre moyen de documents que l utilisateur doit consulter afin de retrouver un nombre donné de documents pertinents. La mesure M RR (Mean Reciprocal Rank) [Voorhees et Tice, 2000] prend en compte l inverse du rang du premier résultat pertinent pour un ensemble de requêtes Q : MRR = 1 Q Q i=1 1 r i (1.19) où Q est la taille de l ensemble des requêtes et r i est le rang du premier résultat pertinent pour la requête i. Si aucun des résultats n est pertinent, M RR = 0. Les valeurs de MRR sont liées étroitement aux valeurs de la précision moyenne [Voorhees et Tice, 2000]. Ce e mesure permet une interprétation simple et peut être utilisée pour l évaluation de systèmes dans lesquels un seul résultat devrait satisfaire le besoin de l utilisateur. Elle est surtout utilisée pour l évaluation des systèmes de question-réponse. 38

49 1.2. Systèmes de recherche d informations Campagnes d évaluation Les efforts dans le développement de systèmes de recherche d informations performants ont donné naissance à de nombreuses campagnes d évaluation visant la comparaison de plusieurs systèmes sur un même corpus et sur les mêmes requêtes. Les premières évaluations ont été organisées à Cranfield, Royaume-Uni, sous la direction de C. Cleverdon dans les années 1960 [Cleverdon, 1991]. D autres campagnes à plus grande échelle ont été menées aux États Unis dans le cadre des conférences TREC [Harman, 1993, Voorhees et al., 2005] et en Europe (par exemple le projet Amaryllis sur les corpora français [Chaudiron et Schmi, 1999, Landi et al., 1998]). Afin de s assurer que tous les systèmes participants soient testés dans les mêmes conditions, les organisateurs me ent à disposition des ressources d évaluation, consistant d une part de larges corpora d évaluation et des ensembles de requêtes et d autre part des valeurs de pertinence des documents par rapport à chaque requête. Pour une synthèse, voir [Chaudiron, 2004]. Les campagnes TREC répondent aux besoins d évaluation du programme TIPSTER [Harman, 1992], initié par la DARPA en 1989, ayant pour but le développement des systèmes de recherche documentaire et d extraction d informations. Les évaluations sont organisées selon une ou plusieurs tâches : si TREC-1992 évalue la recherche documentaire classique sur des collections statiques en anglais, les sessions plus récentes incluent également des tâches sur le traitement d autres langues (depuis 1994), d autres formats (audio depuis 1997 et vidéo depuis 2001), la recherche sur le Web (depuis 1997) et des systèmes questions-réponses (depuis 1999) [Voorhees et al., 2005]. De nombreuses autres campagnes existent me ant à disposition des ressources d évaluation, par exemple : Amaryllis [Chaudiron et Schmi, 1999] : un projet francophone, qui met en place deux corpora (de 100 Mo et 230 Mo) provenant du journal Le Monde, ainsi que des publications scientifiques. CLEF (Cross-Language Evaluation Forum) [Braschler, 2001] : dédié surtout à la re- 39

50 C 1. R cherche multilingue. Les corpora contiennent des documents en sept langues européennes issus des journaux et des articles scientifiques. Ce projet reprend également les corpora du projet Amaryllis. INEX (INitiative for the Evaluation of XML Retrieval) [Gövert et Kazai, 2002] : dédié à la recherche des documents structurés. Les corpora contiennent des articles scientifiques en format XML selon 192 structures DTD différentes. Les requêtes sont de deux types : requêtes sur le contenu et la structure, et requêtes sur le contenu. NTCIR [Kando et al., 1999] : pour la recherche sur des documents en anglais, japonais, chinois et coréen. ROMIP (Russian Information Retrieval Evaluation Seminar) [Dobrov et al., 2004] : recherche d informations en russe sur un corpus de pages web. De ces campagnes d évaluation, nous nous intéresserons ici aux principes généraux d évaluation des systèmes qui ont été mis en place. L organisation d une campagne d évaluation à grande échelle suppose la construction d un ensemble de requêtes et une évaluation préalable de la pertinence de tous les documents par rapport aux requêtes choisies afin d établir les réponses «correctes» a endues en tant que sortie de chaque recherche. La pertinence est déterminée par des agents humains. Cependant l examen manuel de tous les documents et leur classement pour chaque requête est trop coûteux, voire impossible, du fait de la taille importante des collections²⁵. Afin de limiter les ressources humaines nécessaires à l estimation de la pertinence des documents, une première simplification consiste à a ribuer une pertinence binaire : 0 pour les documents non-pertinents et 1 pour les documents pertinents. Le problème d ordonnancement n est donc pas directement pris en compte, puisque les systèmes sont évalués par rapport à un ensemble de documents pertinents et non par rapport à ²⁵Par exemple, la première collection de TREC-1992 inclut environ documents (deux gigabytes en format texte), dont la plupart articles de journaux (Wall Street Journal, AP Newswire, Federal Register) et d autres articles d informatique publiés par Ziff-Davis [Harman, 1993]. 40

51 1.2. Systèmes de recherche d informations une liste ordonnée. La deuxième simplification réduit considérablement le nombre de documents examinés en utilisant la méthode pooling [Jones et van Rijsbergen, 1975], qui consiste à ne prendre en considération que les n²⁶ premiers résultats fournis par un ensemble de systèmes participants à la campagne. Les documents qui ne sont pas parmi les premiers résultats retournés par les systèmes ne sont donc pas pris en compte. La méthode pooling rend alors possible la construction de ressources d évaluation à grande échelle, en diminuant de manière décisive le traitement manuel nécessaire pour l a ribution des valeurs de pertinence. Cependant, elle introduit plusieurs biais. Premièrement, seulement une partie des documents pertinents dans le corpus est examinée. Certains documents qui sont pertinents, mais qui ne contiennent que peu de termes de la requête pourraient ne pas être retrouvés par aucun des systèmes. Ces documents resteront donc «cachés» et ne seront pas pris en compte pour les calculs des rappels. Par exemple, [Zobel, 1998, Voorhees et Buckley, 2002], puis [Sanderson et Zobel, 2005] essayent d estimer la quantité de ces erreurs en interpolant les nombres de documents retrouvés à partir de n = 10. Ils considèrent le seuil de 5% pour les documents pertinents qui ne sont pas retrouvés comme acceptable dans le contexte de ces évaluations. Cependant [Zobel, 1998] montre qu il est probable qu uniquement 70% des documents pertinents soient découverts, dû au fait que certaines requêtes donnent un très grand nombre de résultats. L analyse des mesures de précision par [Kishida, 2005] montre que les valeurs des précisions moyennes restent relativement stables par rapport à la découverte de nouveaux documents pertinents dans la collection. Deuxièmement, ce e méthode pourrait s avérer pénalisante pour des systèmes innovants. En effet, si un système est capable de retrouver un document pertinent qui n a pas été retourné par aucun des systèmes participants dans le pooling, ceci influencerait négativement l évaluation de ce système. La «norme» établie pendant la première campagne sert à «améliorer» l ensemble des systèmes qui participeront dans les prochaines campagnes. Un tel modèle favoriserait les systèmes dont le fonctionnement est semblable aux systèmes existants et aurait tendance à écarter des résultats innovants laissant peu de place pour le développement de nouvelles techniques²⁷. ²⁶n = 100 pour TREC ; n = 50 pour TREC ²⁷Dans ce sens, [Lamprier, 2008], p. 155, montre que la méthode pooling pourait favoriser par exem- 41

52 C 1. R En général, les évaluations dans le cadre des campagnes d évaluation à grande échelle prennent en compte plusieurs mesures de rappel et précision [Buckley et Voorhees, 2000]. Parmi les plus utilisées sont : Le nombre de documents pertinents retrouvés ; La précision moyenne AP (voir la formule (1.15)) ; La précision moyenne M AP (Mean Average Precision), calculée sur un ensemble de requêtes ; La précision pour les n premiers résultats, pour n = 1, 2, 5, 10, 15, 20, 30,..., ainsi que pour n égal au nombre total de documents pertinents, notée RP rec. Dans les collections obtenues par la méthode pooling, [Buckley et Voorhees, 2004] remarquent que les mesures MAP et ne distinguent pas entre les documents qui ont été évalués en tant que non-pertinents et les documents qui n ont pas été examinés. Afin de pallier cet effet, ils introduisent la mesure bpref en utilisant une relation de préférence basée sur les jugements de pertinence. Le calcul de la précision pour des valeurs de rappel fixes, permet d obtenir des courbes rappel/précision par interpolation²⁸ à partir des données expérimentales. La représentation graphique permet ainsi de comparer des systèmes de façon plus fine. Par exemple, si nous considérons le graphe sur la figure 1.5, il est clair que le système décrit par la courbe 1 a des meilleures performances par rapport au système 2. Par contre, la courbe 3 correspond à un système qui a une précision plus importante pour des faibles nivaux de rappel Re er e d informations sur le Web L avènement du Web et la nécessité de traiter des collections de documents de plus en plus grandes a montré dans les années 1990 les limites des modèles classiques. En ple les systèmes ayant une tendance de retourner les documents plus longs indépendamment de leur pertinence. ²⁸La précision pour une valeur R 0 est donnée par la valeur maximale de précision dans tous les cas où R R 0. 42

53 1.2. Systèmes de recherche d informations F. 1.5 : Évaluation par des courbes rappel/précision effet, les méthodes traditionnelles de recherche d informations sont difficilement transposables aux très grands corpora, comme le Web, où se pose la question de la fiabilité des sources et la qualité très variable des contenus. De plus, les évaluations de tels systèmes nécessitent de nouvelles méthodes : si la courbe de précision est satisfaisante dans la plupart des cas, le rappel est très difficile à estimer et ne reflète pas la satisfaction des utilisateurs. Le premier problème qui se pose pour la construction d un système de recherche d informations sur le Web est lié à l indexation : comment sélectionner les pages à indexer? Dans quelle ordre? elles parties de l index me re à jour et quand? Ces choix sont importants puisqu ils déterminent la taille et la couverture du corpus indexé. Il est clair qu il serait impossible d indexer la totalité des pages Web ou de tenir à jour un index d une telle taille. Les algorithmes qui effectuent l indexation, appelés robots d indexation ou crawlers, utilisent avant tout les hyperliens présents dans les pages afin de découvrir de nouvelles pages et déterminer les pages prioritaires pour l indexation. La quantité des informations constitue un défi important. Une requête renvoie souvent plusieurs milliers de documents contenant les mots clés recherchés, une masse de données inexploitable qui reste à être filtrée et classée afin d afficher l information la plus pertinente, fiable et utile parmi les premières réponses destinées à l utilisateur. 43

54 C 1. R Un autre problème est l évaluation de la qualité et la fiabilité des sources dans un contexte de grande hétérogénéité des contenus sur le Web. Dans cet espace d expression libre et totalement décentralisé, la pertinence d un document dépend fortement de la fiabilité de la source. Dans ce contexte de recherche d informations sur le Web, l ordonnancement des réponses prend une importance particulière. Les résultats des requêtes, souvent au nombre de plusieurs milliers, constituent de masses d information importantes, inexploitables dans leur totalité par un être humain. L utilisateur ne consulte qu une partie infime de tous les résultats retrouvés. Un système performant doit donc être capable de faire le tri, et de proposer les réponses les plus pertinentes et utiles en tête de la liste²⁹. Ce e limitation se confirme par de nombreuses études du comportement des utilisateurs. Par exemple, en étudiant les requêtes du moteur AltaVista [Silverstein et al., 1998] estiment que 85% des utilisateurs ne visionnent que les dix premiers résultats. Dans une étude similaire, en analysant requêtes du moteur Excite, [Jansen et al., 1998] montrent que seulement 20% des utilisateurs consultent les résultats au-delà de la deuxième page affichée. Ce e tendance est confirmée par l étude comparative de [Wolfram et al., 2001]. D autres travaux me ent en évidence des effets de saturation de l utilisateur [Robertson et Jones, 1976] lorsqu il est confronté à plusieurs résultats contenant la même information, qu elle soit pertinente ou non. Les principaux travaux sur l ordonnancement des réponses pour le Web utilisent la structure du graphe hyper-textuel, afin de définir des scores indépendants de la requête pour classer les documents par rapport à leurs popularités, fiabilités, etc. Parmi les premières méthodes exploitant ce e idée, nous avons le score PageRank [Page et al., 1998] et le modèle HITS (Hypertext Induced Topic Sear ) [Kleinberg, 1999]. Ils ont été développés indépendamment, mais reposent sur les idées similaires : en s appuient sur la structure de graphe du Web, ils examinent les liens entrants et sortants de chaque page afin de lui a ribuer un score qui est ensuite utilisé en combinaison avec le score de ²⁹Ce classement détermine indirectement la visibilité des pages web. Il est clair que les résultats qui sont classés vers la fin de la liste, restent pratiquement introuvables pour un utilisateur final. Une grande partie du Web peut ainsi rester «cachée», notamment les pages ayant un score faible et qui ne se trouvent jamais au début du classement, quelle que soit la requête. 44

55 1.2. Systèmes de recherche d informations contenu³⁰. D autres méthodes, comme par exemple SALSA (Sto astic Approa to Link Structure Analysis) [Lempel et Moran, 2000], se basent sur ce e même hypothèse en s appuyant sur le graphe induit par la méthode HITS mais restent dépendants de la requête. L exploitation de la structure du graphe hyper-textuel du Web a plusieurs conséquences importantes. Le score de pertinence a ribué à une page donnée n est plus défini en relation avec son contenu, mais dépend des liens et du contenu des autres pages indexées. La visibilité d une page étant fortement conditionnée par son positionnement sur les principaux moteurs de recherche, nous avons vu l apparition d un nouveau métier, l optimisation pour les moteurs de recherche (Sear Engine Optimisation), cherchant à augmenter le score des pages par des diverses techniques, par exemple la publication de nouvelles pages et l ajout de liens, afin d influencer l évaluation par les moteurs de recherche. Ces techniques introduisent un certain biais par rapport aux résultats de recherche et la visibilité des pages [Samier et al., 2007] : ce n est plus le contenu d une page qui est le principal facteur de son positionnement, mais l expertise technique du créateur du site et l argent investi dans la maintenance [Weideman, 2004] Discussion : quelques limitations des modèles classiques Les modèles décrits ci-dessus se basent sur le principe que les occurrences des mots dans un document, considérées indépendamment les unes des autres, peuvent être discriminatoires (voir [Ingwersen et Wille, 1995]) par rapport aux informations contenues dans le document. Ce e hypothèse qui signifie également que le contenu sémantique d un document et le besoin informationnel de l utilisateur sont exprimables par des ensembles de termes d index, n est pas justifiée. Les représentations des documents qui sont utilisées, bien qu elles cherchent à exprimer la sémantique de textes, ne prennent pas en compte de nombreux facteurs, comme l ordre des termes et les possibles modifications du sens selon les contextes. En effet, il s agit d une application du principe de compositionnalité, selon lequel la valeur sémantique d une expression complexe est une fonction des valeurs sémantiques de ses constituants. Ce e vision est in- ³⁰La section traite plus en détail les ordonnancements indépendants de la requête. 45

56 C 1. R compatible avec la plupart des modèles sémantiques. Par exemple, selon R. Langacker [Langacker, 1999], la valeur sémantique d une expression complexe est soit plus spécifique que celle de l ensemble des composantes, soit elle entre en conflit avec ce e dernière³¹. Ainsi, selon [Signorini et Imielinski, 2009], le succès des moteurs de recherche sur le Web utilisant les modèles «sac de mots» est lié avant tout à la redondance des informations et la multitude des reformulations générées par l activité des internautes³². Ce phénomène a été formulé par [Halevy et al., 2009] comme the unreasonable effectiveness of data : si une information particulière présente un intérêt, la multiplication de ses versions contenant différents mots clés la rendrait accessible par un moteur de recherche, même si celui-ci utilise un modèle imparfait de recherche d informations. La perte d informations induite par la réduction d un document à un ensemble de termes, ou dans le cas du modèle booléen, à une conjonction de termes, entraîne l impossibilité intrinsèque de représenter finement le contenu sémantique du document. Ainsi la similarité entre des phrases comme «Ce livre est précieux» et «Cet ouvrage a de la valeur» est zéro, alors que les expressions «Sa ligne de conduite fait une bonne impression» et «Service d impression en ligne» seront estimées comme proches, à cause des occurrences de «ligne» et «impression». En effet, ces modèles de base ne prennent pas en compte de nombreux phénomènes linguistiques, tels que la synonymie, la polysémie et notamment les variations de signification dépendantes du contexte de l emploi. De plus, l estimation de la pertinence en travaillant avec des représentations par «sacs de mots» ne peut tenir compte des relations existantes entre les termes dans un document, par exemple les distances ou les subordinations syntaxiques. ³¹[Langacker, 1999] Although a composite structure typically incorporates the content of its components, it is rather misleading to think of it as being constructed from them. The meaning of a complex expression is typically (if not invariably) either more specific than any value regularly derivable from its components, or else it conflicts in some way with such values - i.e. it constitutes either an elaboration or an extension vis-a-vis its expected, ''compositional'' value. [ ] Since non-compositional specifications figure in our actual understanding of expressions at every stage, they must be recognized as falling within the legitimate scope of linguistic meaning and linguistic semantics. ³²[Signorini et Imielinski, 2009] : Today's search engines are still very sensitive to the way queries are constructed. In some occasions, equivalent but slightly different forms of a query lead to completely different results. However, popular queries with only one right answer seem to be generally well served by search engines, which generally return the correct answer among their top 10 search results. Internet's redundancy of information and the recent proliferation of user generated content helps search engines to remain almost entirely keyword oriented and still robustly handle equivalent versions of queries. 46

57 1.2. Systèmes de recherche d informations Étant donné que les informations recherchées sont codées en langue naturelle, il est clair qu une recherche efficace doit prendre en compte la nature linguistique des objets traités, qui sont des documents textuels. Face à ces problèmes, afin d améliorer la performance de ces modèles à partir des représentations par «sac de mots», de nombreuses tentatives existent cherchant à définir des termes d index plus complexes, faisant appel à une linguistique de base, par exemple par la prise en compte des conjugaisons, des synonymes, ainsi que par l élimination de certains mots, etc. La sémantique utilisée par ces approches reste basique : il s agit d une simple distinction entre mots «grammaticaux» et «lexicaux» ou mots pleins, ou des groupes synonymiques considérés hors contexte. En effet, elles ne font pas appel aux analyses linguistiques systématiques. Par exemple, si les linguistes s accordent à dire que les synonymes exacts existent rarement et que l acceptabilité et les sens varient selon les contextes, ces considérations ne sont pas prises en compte par les modèles de recherche d informations. Les efforts pour la construction de systèmes performants sont en général guidés par les campagnes d évaluation. Or, celles-ci cherchent traditionnellement à donner une estimation de la capacité d un système à retrouver des ensembles de documents prédéfinis. Des travaux récents soulignent le manque de réalisme de ce modèle. En effet, un nombre de critères significatifs liés aux dimensions cognitives du processus de recherche ne sont pas pris en compte par une telle évaluation. [Kekäläinen et Järvelin, 2002] et [Chaudiron, 2004] formulent plusieurs objections contre le modèle utilisé par les campagnes d évaluation : la méthode pooling ne permet pas une véritable évaluation des spécificités des systèmes. l utilisateur, la tâche et le contexte de la recherche ne sont pas pris en compte, alors qu ils font partie intégrante du processus de recherche d informations [Vakkari, 2001]³³ et doivent être considérés pour l estimation de la performance du système (voir aussi la section 1.3.2). ³³Cité par [Kekäläinen et Järvelin, 2002]. 47

58 C 1. R l absence d interaction entre l utilisateur et le système : les requêtes sont considérées comme statiques et l évaluation reste intrinsèque au système. Or, l utilisation réelle implique l apprentissage par l utilisateur, l évolution du besoin informationnel et donc la notion d une pertinence dynamique. l assomption que le besoin informationnel est totalement exprimé par la requête. l assomption d indépendance des documents n est pas réaliste : certains documents pourraient devenir pertinents uniquement s il sont considérés ensemble. la saturation de l utilisateur s il est confronté à un trop grand nombre de résultats redondants, même s ils sont pertinents [Robertson, 1993]. les mesures de rappel et précision ne perme ent pas de considérer une pertinence qui ne soit pas binaire. En 2000, [Harman, 2000] montre que les performances des systèmes participant dans les sessions TREC en recherche documentaire classique sont arrivées à un niveau de stagnation où peu d améliorations sont observées dans TREC-6 et TREC-7. Il a ribue cela aux désaccords entre les différents jugements de pertinence, le désaccord entre deux juges étant de 60% en moyenne. [Harman, 2000] souligne aussi l importance de l interaction entre l utilisateur et le système pour les évaluations, ce qui soulève la difficulté de me re en place des protocoles d évaluation adaptés. Ainsi l extension de ce modèle vers des tâches de recherche plus réalistes et des concepts de pertinence multidimensionnels présente un défi pour le développement des nouveaux algorithmes, perme ant de tenir compte de la tâche de recherche, les interactions et l évolution du besoin de l utilisateur. Les modèles présentés ci-dessus ont rencontré de nombreuses critiques et ont été qualifiés comme «modèles de laboratoire» [Ingwersen et Järvelin, 2005]. Nous ne retiendrons ici que les deux principaux arguments. Premièrement, ces modèles considèrent la pertinence comme une notion statique et ne prennent pas en compte son caractère dynamique et complexe montré par d autres travaux dans ce domaine (voir la section 1.3.2). Deuxièmement, les critères d évaluations de ces systèmes qui ont été pris 48

59 1.3. Le processus de recherche d informations en compte dès le début des années 1980, basés sur les mesures de précision et rappel, se sont montrés insuffisants pour estimer le phénomène complexe, qui est la recherche d informations dans des conditions réelles. Une grande quantité d énergie était donc destinée à l amélioration des précisions et rappels des systèmes, sans que cela mène à une meilleure qualité de la recherche et satisfaction utilisateur. 1.3 Le processus de re er e d informations Nous aborderons ici quelques récentes recherches visant à améliorer l adaptation des systèmes aux situations réelles. L utilisateur fait une partie intégrante du processus de recherche et son comportement doit être pris en compte dans les modèles [Ellis, 1992, Ingwersen, 1996, Dinet, 2009] Modèles d accès à l information : prise en compte de l utilisateur Le processus de recherche d informations implique souvent plusieurs reformulations de la requête en fonction des résultats affichés par le système témoignant, soit d une précision de la formulation du besoin, soit d une réorientation de la recherche. Ainsi les différents modèles d accès à l information existants conçoivent ce processus comme étant itératif : les réponses du système sont évaluées par l utilisateur de manière répétitive afin de préciser et raffiner la formulation de la requête. Par exemple, [Shneiderman et al., 1998] propose un modèle de recherche en quatre étapes : formulation, début de la recherche, consultation des résultats et affinement³⁴. [Hearst, 1999] propose un modèle standard du processus d accès à l information, présenté sur la figure 1.6. Dans ce modèle, il nous semble important de diviser les étapes, gérées par le système, des actions de l utilisateur. Sur la figure 1.7, nous pouvons voir que les actions de l utilisateur consistent principalement à la (re)formulation de la requête et à l éva- ³⁴[Shneiderman et al., 1998], p. 96 : The four-phase framework gives great freedom to designers of specific systems to offer a variety of features in an orderly and consistent way. The phases are : formulation (what happens before the user starts a search) ; action (starting the search) ; review of results (what the user sees resulting from the search) ; and refinement (what happens a er review of results and before the user goes back to formulation with the same information need). 49

60 C 1. R luation des résultats et que la seule interaction avec le système se trouve au niveau de la requête. F. 1.6 : Modèle simplifié d accès à l information : [Hearst, 1999] Cependant [Hearst, 1999] souligne que ce type de modèles ne prend pas en compte le fait que les utilisateurs ne souhaitent pas se retrouver face à une longue liste de résultats, qui ne répondent pas directement au besoin. De plus, l hypothèse que le besoin informationnel reste statique pendant tout le processus de recherche n est pas justifiée : en effet, le besoin initial peut être modifié ou renouvelé par l acquisition de nouvelles informations³⁵ à travers la recherche. Les résultats fournis par le système à chaque étape de la recherche, même s ils ne répondent pas entièrement au besoin, peuvent constituer une partie d une réponse pertinente ou utile, perme ant à l utilisateur de mieux cibler ³⁵[Hearst, 1999], p. 264 : In actuality, users learn during the search process. The scan information, read the titles in result sets, read the retrieved documents themselves, viewing lists of topics related the their query terms, and navigating within hyperlinked Web sites. 50

61 1.3. Le processus de recherche d informations F. 1.7 : Modèle d accès à l information avec distinction entre les actions de l utilisateur et du système sa recherche ou de considérer d autres voies. En effet, concernant le comportement de l utilisateur et sa façon d accéder à l information, deux situations différentes sont distinguées dans la li érature : recherche d informations (ou sear ing en anglais) et recherche d informations par navigation (ou browsing en anglais). Dans le premier cas, l utilisateur a une idée précise de l information qu il recherche, alors que le deuxième cas se caractérise par le fait que le besoin informationnel n est pas entièrement défini au début de la recherche, mais il évolue par l interaction avec le système [Baeza-Yates et Ribeiro-Neto, 1999]. De plus, la navigation implique une succession de consultations des informations présentes à l écran, dans le but de préciser un besoin ou de recommencer la recherche à partir de nouveaux éléments³⁶. Les approches actuelles s accordent sur le fait que ces deux situations, la ³⁶[Bates, 2002], p. 141 : The first generic search technique is browsing, which involves successive acts of glimpsing, fixing on a target to examine visually or manually more closely, examining, then moving 51

62 C 1. R recherche d informations et la navigation, sont interdépendantes³⁷ et nous pouvons considérer qu il existe un continuum de comportements utilisateur entre la recherche pure et la navigation, soulevant une nécessité de créer des interfaces interactives intégrant à la fois la recherche et la navigation (par exemple [Wi enburg et Sigman, 1997, Olston et Chi, 2003, Shen et al., 2006]). Depuis 1989, le modèle classique de recherche d informations, basé sur l appariement entre la représentation du document et la requête, a été souvent critiqué³⁸. L inadéquation de ce modèle a amené les chercheurs à repenser la problématique sous de nouveaux angles, notamment celui de l utilisateur et de ses besoins. Dans [Bates, 1989], le modèle berrypi ing est introduit, et son analyse nous montre que chaque requête conduisant à un résultat entraîne de la part de l utilisateur une réflexion et une réorientation de la recherche. Selon ce modèle, le processus de recherche entraîne une lecture des résultats et un apprentissage de la part de l utilisateur, impliquant une modification du besoin informationnel ainsi que de la requête. Ceci contraste avec l assomption du modèle classique, où le besoin de l utilisateur reste statique tout au long de la recherche. La deuxième idée originale du modèle berrypi ing consiste dans l hypothèse qu un ensemble unique de résultats ne pourrait répondre entièrement aux a eintes de l utilisateur. L information recherchée se révélerait progressivement, à travers des résultats issus d une série de requêtes. L interaction continue avec le système, à travers des résultats proposés aux différentes étapes, permet à l utilisateur d élargir son horizon de recherche ou de spécifier son besoin. Ce point de vue, inspiré par le modèle berrypi ing, est développé dans [O Day et Jeffries, 1993], qui souligne que l utilisateur doit être guidé³⁹ par la structure on to start the cycle over again. [ ] Browsing, in its nature, ignores the file structure or other formal organisation of information. ³⁷[Cove et Walsh, 1988] distinguent déjà plusieurs types de navigation : notamment «general purpose browsing», où l utilisateur a un objectif ou un domaine de recherche plus ou moins vague, et «serendipitous browsing», où la recherche est purement aléatoire. ³⁸[Bates, 1989], p. 409 : As a consequence, as long as this model dominates information science thinking, it will limit our creativity in developing IR systems that really meet user needs and preferences. De plus, dans [Kolmayer, 1998], Kolmayer revisite le modèle de Bates en proposant un feed-back que ce dernier n avait pas représenté. ³⁹[O Day et Jeffries, 1993], p. 13 : As designers of search systems, we must consider how a user's interaction with the system can be guided by this structure, without losing the flexibility to perform 52

63 1.3. Le processus de recherche d informations du système sans perdre en flexibilité et tout en gardant la possibilité de suivre de nouvelles directions⁴⁰. En fait, l utilisateur ne connaît pas l objet qu il recherche, mais il est apte à le reconnaître s il le trouve (voir [O Day et Jeffries, 1993], [Kolmayer, 1998]). Ainsi, selon le point de vue de [Tricot, 1993], l utilisateur doit pouvoir se situer par rapport au système ou par rapport à la stratégie de recherche⁴¹. F. 1.8 : Le processus de recherche d informations [Marchionini, 1992] En 1992, [Marchionini, 1992] introduit une représentation en pivot dont l élément central est la définition du problème (voir la figure 1.8). Il insiste sur la place centrale qu occupent la récognition et la définition du problème, surtout dans le cas où la recherche s inscrit dans une activité complexe demandant un effort cognitif, tel que l élaboration d une argumentation, la production scientifique ou la prise de décisions complexes. Il en résulte que l utilisateur est en constante interaction d une part avec le système, et d autre part avec la représentation mentale des documents primaires qu il se construit en fonction du retour du système. L évolution des modèles de recherche d - expert analyses of search results and to follow interesting new search directions. ⁴⁰Selon [Kolmayer, 1997], deux types d aide à la navigation doivent être présentes : celles qui visent au relâchement de contraintes et d autres visant à l élaboration de plans déclaratifs. ⁴¹[Tricot, 1993], p. 116 : «Il n est pas rare qu un utilisateur se perde [ ] par rapport à ses buts et à la façon de les a eindre. [ ] on doit à aque étape prendre des décisions, ce qui, normalement, doit être supporté par un bon contrôle de l a ivité et de la compréhension. Autrement dit, le problème concerne la mise en place de traitements et de localisations en fon ion d un but à a eindre, les deux types d a ivité étant contrôlés localement (sous-buts non définis à l avance) et globalement (but).» 53

64 C 1. R informations dans le temps, montre un déplacement du système vers l utilisateur. En effet, dans un premier temps, les modèles étaient centrés sur la correspondance entre les métadonnées et les requêtes. Dans un deuxième temps, c est la prise en compte du besoin de l utilisateur à travers le retour des informations fournies par le système, qui se trouve au centre des débats : beaucoup de réflexions ont été orientées vers la conception et l exploitation des profils utilisateurs et la personnalisation de la recherche. En partant de l hypothèse que les réponses souhaitées varient selon les utilisateurs, différents modèles ont été proposés, visant à prendre en compte des profils utilisateurs [Bouzeghoub et Kostadinov, 2005, Haveliwala et al., 2003, Budzik et Hammond, 2000]. La génération d un profil utilisateur pose de nouveaux problèmes : il est nécessaire de déterminer les types des informations personnelles à modéliser et à recenser, ainsi que les sources possibles pour ces informations. Une hypothèse courante est que les connaissances d un utilisateur et ses centres d intérêt influencent ses jugements de pertinence. Cependant, les informations sur ces derniers ne sont pas toujours disponibles pour le système. Dans un grand nombre de cas, la personnalisation prend en compte l historique de navigation [Tamine et Bahsoun, 2006, Dumais et al., 2003]. D autres méthodes se basent sur l analyse de textes produits par l utilisateur afin de modéliser son vocabulaire habituel [Aime et al., 2009]. Enfin, la satisfaction de l utilisateur commence à apparaître dans les modèles, et ce point doit être au cœur des systèmes de demain. Ce e tendance se traduit par l émergence aussi bien de techniques de développement centrées utilisateur⁴², que des avancements en ergonomie cognitive. En 1900, Bates [Bates, 1990] constate la nécessite de développer des systèmes de recherche d informations prenant en compte des stratégies de recherche⁴³. Elle définit une stratégie de recherche comme un plan de recherche contenant une suite d activités de recherche plus ou moins complexes visant un but précis⁴⁴. Ainsi, [Bates, 1990] sou- ⁴²La norme ISO traite les techniques de développement centrées utilisateur. ⁴³[Bates, 1990], p. 577 : It should also be possible to design search interfaces that harmonize with and make easy the prosecution of good search strategy, systems that make it easy for novices to move quickly into good searching because the system promotes it. ⁴⁴[Bates, 1990], p. 581 : A strategy is a plan for an entire search, and may contain all of the previously mentioned types of search activity [moves, tactics, stratagems]. A strategy for an entire search is difficult to state in any but the simplest searches, because most real-life searches are influenced by the information gathered along the way in the search. 54

65 1.3. Le processus de recherche d informations ligne que les stratégies de recherche doivent être prises en compte pendant la phase de conception du système, et pose également la question des degrés d automatisation de la recherche : quelles parties du processus doivent être automatisées, et quelles doivent être exécutées par l utilisateur? La notion de pertinence La pertinence est une notion fondamentale dans la documentation, la science de l information et la recherche d informations⁴⁵. Dans les systèmes de recherche d informations classiques, la pertinence est modélisée par une fonction réelle, exprimant une similarité entre la représentation interne des documents dans le système et la requête formulée par l utilisateur. Dans ces cas, il s agit d une pertinence thématique, qui est définie comme correspondance entre un document et la requête, ou bien comme une mesure de l utilité d un document pour l utilisateur. La modélisation de ce e correspondance se traduit alors par les différentes mesures de similarité dans le cadre des modèles de recherche d informations. Selon [Saracevic, 2007], la notion de pertinence est d une part intuitive, et d autre part représentée par une relation multidimensionnelle. Elle est intuitive puisque la notion de pertinence est comprise par les utilisateurs, même si l identification d objets pertinents est parfois difficile. Sur le plan théorique, la pertinence s exprime par une relation entre deux ou plusieurs objets, ou en tant que propriété selon laquelle les objets sont liés. La pertinence a été l objet de nombreux travaux⁴⁶ montrant que les jugements de pertinence par un utilisateur dans des situations réelles impliquent plusieurs critères, ne se limitant pas au contenu du document et à l expression du besoin informationnel. Par ⁴⁵[Froehlich, 1994], p. 124 : Early on, information scientists recognized that the concept of relevance was integral to information system design, development, and evaluation. However, there was li le agreement as to the exact nature of relevance and even less that it could be operationalized [ ] this lack of agreement continues to an extent at the present. ⁴⁶Par exemple [Saracevic, 1970, Bookstein, 1979, Harter, 1992, Park, 1993, Froehlich, 1994, Saracevic, 1996, Denos, 1997, Simonnot, 2002]. Un bref rappel historique est donné par [Mizzaro, 1997] et [Saracevic, 2007]. 55

66 C 1. R exemple, [Barry, 1994, Su on, 1994, Park, 1993] montrent que la pertinence thématique qui est prise en compte dans des moteurs de recherche, appelée également pertinence du système, n est pas toujours adéquate du fait qu elle ne prend pas en compte la situation de recherche, les connaissances de l utilisateur et la complexité de la tâche de recherche⁴⁷. En effet, la pertinence d une même information peut être jugée différemment par un utilisateur expert du domaine, par un étudiant cherchant à perfectionner ses connaissances, ou par une personne demandant une réponse rapide sans rentrer dans les détails et la terminologie. De même, un étudiant aura des exigences différentes s il effectue des recherches sur son projet d études ou pour élargir sa culture générale. La situation de recherche et le point de vue jouent alors un rôle important dans le jugement de la pertinence. Malgré le grand nombre de publications, les recherches sur la pertinence n ont pas abouti à une définition unanime. Les premières définitions sont introduites afin de mesurer la qualité des systèmes de recherche d informations dans les années 1960, en considérant la pertinence comme un concept théorique dans la science de l information. En 1964, Goffman [Goffman, 1964b] donne la définition suivante : «une mesure de l information contenue dans un document relative à une requête». En même temps, les recherches sur la pertinence dans d autres domaines s appuient sur des définitions dans des perspectives différentes : en 1965 dans le domaine de l interaction homme-machine, Taube [Taube, 1965] considère la pertinence comme un «prédicat psy ologique» décrivant l acceptation ou le rejet d une relation entre le contenu d un document et le contenu d une requête⁴⁸. La divergence entre ces approches implique la difficulté d établir une méthodologie unifiée et d identifier des critères de pertinence appropriés. Park [Park, 1993] et puis Froehlich [Froehlich, 1994]⁴⁹ soulignent le manque de définitions strictes et de consen- ⁴⁷[Park, 1993], p. 323 : The concept of relevance as topical relevance, assumed in most IR tests, may not be either adequate or sufficient if we consider users as a main focus of an information system ; puis p. 344 : Relevance is not a simple relationship between a document retrieved and a user's question but, rather, is psychological and contextual, involving an individual's cognitive states, perceptions, experiences, and knowledge about the problem at hand. It goes much deeper than simple topical relevance. ⁴⁸[Taube, 1965], p. 70 : Relevance is a psychological predicate that describes his acceptance or rejection of a relation between the meaning or content of a document and meaning or content of a question. ⁴⁹[Froehlich, 1994], p. 124 : At this point of time, no definition [of relevance] has been forthcoming, 56

67 1.3. Le processus de recherche d informations sus par rapport à ce e notion. Une des premières définitions formelles qui considère plusieurs dimensions, notamment l utilisateur comme faisant partie intégrante de la pertinence, est donnée en 1975 par Saracevic [Saracevic, 1975] : «La pertinence est un A d un B existant entre un C et un D jugé par un E, où A peut être mesure, degré, estimation, B peut être correspondance, utilité, C peut être document, information donnée, fait, D peut être requête, besoin d information et E peut être utilisateur, juge, expert»⁵⁰. L importance du contexte de recherche pour les jugements de pertinence a été soulignée par [Schamber et al., 1990], qui introduisent la notion de pertinence situationnelle⁵¹. Selon ce point de vue, la pertinence est dynamique, tout comme le besoin informationnel qui évolue pendant le processus de recherche. En étudiant les travaux précédents, [Schamber et al., 1990] concluent que la pertinence est un concept cognitif multidimensionnel, dépendant fortement de la perception de l information par l utilisateur et la situation de recherche. Ils affirment également que la pertinence est un phénomène systématique et mesurable qui doit être abordé de façon opérationnelle du point de vue de l utilisateur⁵². En 1994, [Barry, 1994] met en place un protocole expérimental afin de proposer une classification des critères de jugement de la pertinence dans des situations réelles. L expérience a été menée dans un contexte académique ; les utilisateurs interrogés étaient des étudiants effectuant des recherches sur leurs projets d études ou des thèses. Ils ont été demandés à fournir des jugements de pertinence sur un certain nombre de documents issus d un système de recherche d informations sur les sujets qui les intéressent. even though information scientists have be er understood the diversity of criteria by which users make relevance judgements. ⁵⁰Trad. de l auteur. Texte original : [Saracevic, 1975], p. 328 : Relevance is the A of a B existing between a C and a D as determined by an E, where A may be ``measure, degree, estimate '' ; B may be ``correspondence, utility, fit '' ; C may be ``document, information provided, fact '' ; D may be ``query, request, information requirement '' ; and E may be ``user, judge, information specialist. ⁵¹La notion de pertinence situationnelle a été d abord suggérée par [Wilson, 1973]. ⁵²[Schamber et al., 1990], p. 755 : The dynamic, situational approach we suggest views the user - regardless of system - as the central and active determinant of the dimensions of relevance. We believe that relevance is a multidimensional concept ; that it is dependent on both internal (cognitive) and external (situational) factors ; that it is based on a dynamic human judgment process ; and that it is a complex but systematic and measurable phenomenon. 57

68 C 1. R Après une étude des motivations pour retenir ou ne pas retenir un document comme pertinent, Barry identifie 23 critères différents, qu elle regroupe en sept catégories : Le contenu informationnel des documents (par exemple la validité perçue du document) ; L expérience et les connaissances de l utilisateur (par exemple sa capacité de comprendre le contenu) ; Les préférences et croyances de l utilisateur (par exemple son accord ou désaccord avec le contenu) ; Autres sources dans l environnement informationnel (par exemple si l information est vérifiée par une autre personne) ; Les sources des documents (par exemple la réputation ou la visibilité de la source) ; La nature physique des documents (par exemple le coût ou la disponibilité du document) ; La situation de l utilisateur (par exemple le temps nécessaire pour consulter le document). Ces critères ont été comparés par [Barry et Schamber, 1998] à des travaux antérieurs de [Schamber et Syracuse, 1991] pour des tâches de recherche différentes⁵³. Les résultats montrent que les critères identifiés par ces deux études sont pour la plupart identiques. Les travaux expérimentaux perme ent de supposer l existence d un nombre fini de critères valables dans différents contextes de recherche [Borlund, 2003]. Les travaux plus récents s accordent sur l idée que la pertinence est une mesure dynamique dépendante du jugement personnel d un utilisateur sur la qualité de la relation entre un document et son besoin informationnel à un instant donné. Nous pouvons par exemple nous référer à la définition de [Ingwersen et Järvelin, 2005] : ⁵³L étude de [Schamber et Syracuse, 1991] a été effectuée pour les recherches sur des informations météorologiques, dans un environnement multimédia avec des sources d information diversifiées. 58

69 1.3. Le processus de recherche d informations «La pertinence est l évaluation de la topicalité, de l utilisabilité et de l utilité perçues des sources d information [ ] en référence d une situation informationnelle dans un moment précis. Elle peut évoluer dynamiquement avec le temps pour le même a eur⁵⁴» Problématique de l indexation Le processus d indexation a pour but de créer une représentation des documents bruts. Il consiste en une analyse du document, afin d en effectuer la segmentation, l identification et l extraction d un certain nombre d unités significatives, appelées termes d index. Il est clair que quel que soit le modèle utilisé, le choix des termes d index conditionne le fonctionnement du système : tous les éléments se trouvant dans l index constituent une base pour les calculs de similarité perme ant d identifier les documents pertinents. Les termes d index peuvent comprendre, par exemple, une partie des mots du document ou des unités linguistiques plus grandes, ainsi que d autres informations liées au document, comme des méta-données, des étique es descriptives et des annotations, etc. L indexation produit ainsi une image réduite⁵⁵ des documents sources, perme ant la localisation des documents à partir des termes d index. Ce processus entraîne alors un changement de représentation, et les questions qui se posent naturellement concernent les propriétés de ce e nouvelle représentation. Les textes sont des objets complexes, où la construction de la sémantique se fait par des interactions complexes entre différentes unités linguistiques. Représenter un texte est une tâche difficile. Il s agit de choisir un ensemble d éléments représentatifs (ou descripteurs) du document. La grande majorité de systèmes actuels utilisent comme termes d index les différents mots présents dans un document, identifiés après une segmentation et une élimination de la ponctuation. Plusieurs pré-traitements sont possibles afin d améliorer ces représentations, notamment la lemmatisation et l élimination des «mots vides» que nous décrirons brièvement ici. ⁵⁴Trad. de l auteur. Texte original : [Ingwersen et Järvelin, 2005], p. 21 : Relevance : The assessment of the perceived topicality, pertinence, usefulness or utility, etc., of information sources [ ] with reference to an information situation at a given point of time. It can change dynamically over time for the same actor. Relevance can be of a low order objectuve nature or of higher order, i.e. of subjective multidimensional nature. ⁵⁵Même s il est théoriquement possible d indexer un document sans aucune perte d information, c est rarement le cas dans les implémentations réelles. 59

70 C 1. R La lemmatisation a pour but de rendre possible la reconnaissance de différentes formes d un même lexème. Plus précisément, la lemmatisation regroupe toutes les formes reconnues (les formes flexionnelles) d un lexème. Pour les langues indo-européennes, ce processus passe par une analyse de suffixes et l application d un ensemble de règles qui éliminent ou remplacent ces derniers, en prenant en compte un certain nombre d exceptions. Notons que ces algorithmes n équivalent pas une analyse morpho-syntaxique : de nombreux systèmes utilisent des lemmatiseurs rudimentaires avec une certaine tolérance aux erreurs éventuelles⁵⁶. En 1958, Luhn [Luhn, 1958] a proposé de modéliser l informativité des mots dans un texte par une gaussienne en fonction du rang de nombre d occurrences (voir la figure 1.3). En recherche d informations, la notion d informativité n a pas de définition précise ; elle est utilisée de façon intuitive. L observation de Luhn justifie l idée qu au-delà d une certaine fréquence les termes sont trop courants et ont une faible contribution sémantique. Ce sont souvent des mots grammaticaux ou des conjonctions⁵⁷ qui sont donc jugés peu utiles quant à la description du contenu sémantique du document et sont alors appelés «mots vides» ⁵⁸. En effet, l inclusion de ces mots alourdirait considérablement l index sans pour autant améliorer la pertinence des résultats. Pour cela, la création de l index est souvent précédée de l élimination des mots vides, en se basant sur des listes établies préalablement. Afin d offrir des fonctionnalités de recherche plus riches, la structure d index peut inclure, en plus des informations sur la présence des termes dans des documents, d autres indications comme la proximité entre les termes et leurs positions dans le document, ainsi que les formes exactes retrouvées dans le texte avant la lemmatisation. L indexation des termes contenus dans un document se justifie par l hypothèse que le contenu sémantique d un texte est exprimable par l ensemble des termes qu il contient. Ces approches ne perme ent pas de traiter ni la polysémie ni la synonymie. ⁵⁶Un des lemmatiseurs les plus utilisés pour l anglais est celui proposé par [Porter, 1993], qui donne une simple procédure d élimination des suffixes en deux étapes. ⁵⁷Par exemple, parmi les mots les plus fréquents du français on trouve : «de», «le», «la», «et». Une requête ne contenant que ces mots donnerait probablement comme résultat la totalité du corpus. ⁵⁸Les «mots vides» ne sont pas en fait dénoués de sémantique : par exemple de nombreux travaux en linguistique étudient la sémantique des articles et des conjonctions. 60

71 1.3. Le processus de recherche d informations En effet, la richesse d une langue naturelle consiste en une multitude de façons d exprimer un même contenu avec des nuances différentes. Par conséquent, comme le remarquent [Lewis et Jones, 1996], les méthodes simples d indexation par des mots clés sont appropriées pour un nombre limité de tâches. Afin d effectuer des recherches plus précises et d extraire des informations fines par une recherche plein texte, il est nécessaire de faire appel à des analyses linguistiques sophistiquées perme ant d accéder au niveau sémantique du texte⁵⁹. Dans ce sens, de nombreux travaux proposent des analyses linguistiques et des annotations automatiques préalables, afin de fournir de nouveaux types de descripteurs pour l indexation. Par exemple, en 1957 [Harris, 1957] propose des transformations linguistiques perme ant d extraire des éléments textuels, appelés kernels, porteurs de certaines relations sémantiques pour l indexation des articles scientifiques⁶⁰. L indexation des termes dans un document est souvent couplée avec une indexation de segments textuels plus ou moins longs afin de tenir compte des occurrences des groupes de mots fréquents. La détection de ces groupes peut se faire par des méthodes statistiques en s appuyant sur des fréquences de co-occurrence, ou par des analyses linguistiques. Par exemple, des travaux récents [Fluhr, 1994, Faraj et al., 1996, Sidhom, 2002] utilisent des analyseurs morpho-syntaxiques afin d identifier des termes composés dans le carde du modèle vectoriel. Afin de réduire la polysémie des termes d index, certaines approches, par exemple [Kiryakov et al., 2004], proposent l étiquetage d entités nommées dans les textes pour des applications au Web sémantique. Différentes solutions pour la désambiguïsation ⁵⁹[Moens, 2006], p. 157 : We believe that both recall and precision in retrieval can be improved by the incorporation of semantic information in the indexing representations. First, because information extraction allows assigning more general conceptual terms to words, phrases, sentences or passages, we are able to improve the recall of the retrieval. [ ] The problem of a low precision is partly a problem of ambiguity. Words get a meaning in their semantic relation with other terms. If we match query and document based on low-level features such as the words of a text, the additional match on a semantic level can only improve the precision of the search. ⁶⁰[Harris, 1957], p. 942 : Transformations make it possible to store a text as a sequence of kernels. [ ] If a searcher asks for anything which interrelates two words a, b, [ ] kernels and their connectors specify the relation among words. Hence it is possible to extract, from a storage containing many articles, precisely those kernels or kernel sequences in which a, b are related (or related in a particular way). It thus seems possible both to store a whole article (transformed), to be called out as such, and also to draw upon it, if desired, for individual kernels separately. 61

72 C 1. R des termes dans des représentations des textes ont été étudiées par [De Loupy, 2000] et aussi par [Besançon et al., 2001], qui proposent l utilisation de champs de Markov afin de tenir compte de différents sens d un terme en utilisant des dictionnaires de synonymes. Une méthode similaire est proposée par [Yarowsky, 1992], qui se base sur les catégories de Roget s thésaurus. Toutes ces techniques visent à égrainer l index afin de réduire le bruit. Les tentatives d incorporer des informations sémantiques dans l index sont souvent associées à la reformulation ou l enrichissement des requêtes [Mihalcea et Moldovan, 2000]. Il s agit de rendre compte des différentes façons d exprimer le même besoin informationnel et donc d augmenter le nombre de documents pertinents retrouvés. Par exemple, [De Loupy, 2000, pp et p. 171], expérimente une méthode de désambiguïsation pour l enrichissement des requêtes via des synonymes issus de WordNet et constate une amélioration insignifiante de la précision moyenne (autour de +0,3%). Cependant, il remarque également que l intégration de connaissances d un expert augmente considérablement les performances du système (+5% pour la précision moyenne) sur un corpus restreint de 10 requêtes. 1.4 Discussion : comment accéder à la sémantique textuelle? Nous sommes en accord avec la position de [Woods et al., 2000], qui montre que les connaissances linguistiques peuvent augmenter la pertinence de la recherche d informations. Cependant les outils proposés, notamment l analyse morpho-syntaxique prenant en compte des relations entre concepts, ne semblent pas donner des résultats satisfaisants : bien que ces outils améliorent la pertinence des résultats, le taux de réussite maximal est de 60.7% avec un rappel de 38.6% dans les 10 premiers résultats. Le mot sémantique est présent dans les noms de plusieurs approches autour de la recherche d informations : le Web sémantique, l analyse sémantique latente, l indexation sémantique, etc. el est leur apport et perme ent-ils vraiment de traiter la sémantique 62

73 1.4. Discussion : comment accéder à la sémantique textuelle? textuelle pour extraire les connaissances des textes? Le Web sémantique a été défini par [Berners-Lee et al., 2001] comme une extension du Web, dans laquelle les données sont décrites dans un méta-langage compréhensible à la fois par les machines et les humains, dans le but de pouvoir établir des relations et extraire des informations à partir de plusieurs documents. Le développement du Web sémantique a abouti à l introduction des formats standardisés pour la description des données, tels que XML, RDF, OWL [Decker et al., 2000]. L analyse sémantique latente (voir aussi section 1.2.2) considère des relations entre des termes en s appuyant sur leurs contextes d emploi. C est une méthode d enrichissement des requêtes par des termes jugés proches ou des synonymes, perme ant ainsi d obtenir des résultats étendus. Ce e méthode est en fait une approche entièrement statistique qui a pour but d éviter de traiter la sémantique [Hempelmann et Raskin, 2008]. Le terme indexation sémantique est utilisé pour désigner différentes techniques d indexation qui prennent en compte une certaine catégorisation sémantique des termes d index. En effet, il s agit de tenter d indexer les lexèmes plutôt que les termes, afin d aborder le problème de la polysémie par une désambiguïsation des occurrences des termes et un regroupement des entrées d index correspondantes à des synonymes. Par exemple, [Mihalcea et Moldovan, 2000] proposent une solution par une méthode de désambiguïsation basée sur les significations (appelées synsets) issues de WordNet [Fellbaum, 1998]. Dans une approche légèrement différente [Biemann, 2005] propose l indexation des termes typés, issus d une annotation manuelle. Cependant, il ne prend par en compte le contexte des occurrences de ces termes cherchant ainsi à accélérer l annotation, alors que c est précisément le contexte qui perme rait de lever l ambiguïté d un emploi donné. L indexation sémantique et le développement d ontologies de domaine à permis la mise en place de moteurs de recherche dits sémantiques, tels que Hakia [Hempelmann, 2007], Cuil et Exalead⁶¹. Les évaluations qui ont été menées sur ces moteurs ne montrent pas d amélioration significatives de la performance. Par exem- ⁶¹Pour une comparaison des caractéristiques des moteurs sémantiques, voir [Dietze, 2010, pp. 5 14]. 63

74 C 1. R ple, l évaluation de [Signorini et Imielinski, 2009] montre que les moteurs sémantiques répondent rarement aux besoins réels de l utilisateur. De même, [Tumer et al., 2009] concluent que la performance de Hakia n apporte pas d amélioration majeure comparée aux moteurs de recherche utilisant des mots clés, notamment Google, Yahoo et MSN⁶². Comme l affirment [Desclés et Djioua, 2009a], «si un tel moteur [Exalead] tend à présenter certains avantages, il n y a pas cependant une véritable rupture te nologique et théorique dans la re er e d informations puisque celle-ci s effe ue toujours avec des termes linguistiques, qui identifient des objets ou des classes d objets, et non pas avec des relations sémantiques plus générales, exprimées par les langues». Comment modéliser le contenu d un texte pour pouvoir y accéder de façon automatique et recherche des informations? els outils proposer afin d accéder au contenu sémantique des documents pour la recherche d informations? Nous pensons que l annotation sémantique peut apporter une solution, si elle considère une conceptualisation des relations exprimées dans des textes, perme ant ainsi de répondre aux besoins de recherches spécifiques. S il est évident que l annotation soit effectuée de façon automatique, il est aussi important que les catégories d annotation soient bien définies et doivent correspondre, au-delà d une simple catégorisation des termes, à des points de vue de fouille perme ant d aborder un texte selon différents besoins. Pour cela, nous aborderons la problématique des annotations automatiques dans le chapitre suivant. ⁶²[Tumer et al., 2009] : Overall, Yahoo showed the best performance in terms of precision ratio, whereas Google turned-out to be the best search engine in terms of normalized recall ratio. However, it was found that semantic search performance of search engines was low for both keyword-based search engines and the semantic search engine. 64

75 C 2 Annotation sémantique des textes Sommaire 2.1 est-ce que l annotation textuelle? Annotation manuelle et annotation automatique Annotation sémantique automatique Définition et objectifs Évaluation Plateformes d annotation sémantique Discussion : quelles informations annoter?

76 Résumé du chapitre 2 Ce apitre aborde l annotation textuelle, d abord au sens général, puis nous préterons une a ention particulière à l annotation sémantique automatique. Nous discutons de ces objectifs, de l évaluation des systèmes et nous donnons des exemples de plateformes d annotation sémantique automatique. Enfin, nous discuterons autour de la nature des informations à annoter afin d enri ir les systèmes de re er e d informations et proposer de nouveaux outils pour l accès aux contenus textuels. 66

77 2.1. est-ce que l annotation textuelle? L intérêt de l annotation sémantique pour la recherche d informations s exprime par la nécessité d obtenir des représentations de documents prenant en compte certaines relations sémantiques, donnant accès au système à une compréhension partielle du contenu textuel. Une annotation sémantique a pour but d identifier des entités linguistiques plus ou moins complexes dans les textes, tels que le sens d emploi d un terme, les relations exprimées, la prise en charge, les modalités, etc. Avant d aborder la question de l annotation sémantique et les techniques automatiques, nous nous intéresserons à l annotation textuelle en général. 2.1 est-ce que l annotation textuelle? Le dictionnaire Le Robert¹ donne les définitions suivantes : annotation : note critique ou explicative qui accompagne un texte annoter : accompagner un texte de notes critiques ; me re sur un livre des notes personnelles En informatique, selon le W3C², une annotation est un commentaire, une note, une explication ou toute autre remarque externe qui peut être a aché à un document web ou à une partie de celui-ci. L annotation textuelle consiste à enrichir un texte avec des informations, ra achées aux parties du texte. Ces informations, que nous appelons également «annotations», ne font pas partie du texte et ne modifient pas le contenu textuel initial. En général, nous pouvons distinguer deux types d annotations selon la nature des informations ajoutées : Annotation manuelle produite par l auteur ou le lecteur, qui enrichit le texte avec des remarques, appréciations, reformulations, etc. Ce e annotation est destinée à une utilisation humaine et n est pas automatisable. ¹Source : Le petit Robert, éd. juin 2000 ²h p :// (juillet 2009) 67

78 C 2. A Annotation manuelle ou automatique dans laquelle certaines parties ou certains éléments du texte sont étiquetés par un ensemble de catégories d annotation suite à une analyse des propriétés de l élément annoté selon une méthode donnée. C est ce deuxième type d annotations qui nous intéresse. Il s agit en effet d annotations qui associent aux éléments textuels des descriptions de certaines propriétés de ces éléments, par exemple des catégories grammaticales, le contenu sémantique, etc. Dans ce cas, l ensemble d étique es ou de catégories d annotation doit être bien défini au préalable. En informatique linguistique, nous pouvons considérer les annotations textuelles comme un type de métadonnées. Ces dernières représentent des données informatives accompagnant un document ou une partie d un document, par exemple auteur, date de modification, nom du fichier. Cependant, les annotations, à la différence de métadonnées en général, constituent des informations qui peuvent être potentiellement obtenues à partir d une analyse du contenu textuel. En d autres termes, en partant d un élément textuel, l information ajoutée par l annotation est entièrement dépendante de cet élément et elle ne peut que représenter d une autre façon une partie de la signification de l élément, éventuellement dépendante du contexte. Par exemple, pour une annotation morphologique un mot dans le texte peut être annoté avec sa catégorie grammaticale ; pour une annotation sémantique, une phrase peut être annotée avec une valeur sémantique qui est exprimée par la phrase. Dans ces cas, l annotation est une information qui existe à côté de l expression linguistique (le mot ou la phrase) porteuse de la même information. Ce type d informations est également appelé métadonnées sémantiques [Baeza-Yates et Ribeiro-Neto, 1999]. Ainsi, le but de l annotation textuelle n est pas de fournir de nouvelles informations qui n ont pas été présentes initialement dans le texte, mais plutôt d expliciter ou décrire certaines des informations déjà présentes dans le texte, à travers une analyse, souvent dans la perspective d un traitement ultérieur. L utilité principale de l annotation textuelle est de «convertir» des informations exprimées par des moyens linguistiques en informations potentiellement traitables aussi bien par un ordinateur que par un utilisateur. Selon les types des éléments annotés et les informations ajoutées, 68

79 2.2. Annotation manuelle et annotation automatique nous pouvons distinguer des annotations morphologiques, syntaxiques, sémantiques, discursives, pragmatiques, etc. De point de vue technique, les annotations peuvent être stockées de différentes manières. Le plus souvent, elles sont incluses dans le fichier contenant le texte, sous forme de balises et a ributs en format SGML (Standard Generalized Markup Language) ou XML (extensible Markup Language), recommandé par W3C. Ces formats perme ent de produire des documents contenant à la fois la structure du texte, son contenu et les annotations, qui sont exploitables automatiquement tout en restant lisibles pour des utilisateurs humains. Une autre façon de stocker les annotations serait dans un fichier accompagnant le fichier textuel ou bien en utilisant des structures de données plus complexes telles que les bases de données. 2.2 Annotation manuelle et annotation automatique Nous pouvons distinguer deux principaux types d annotations : annotation manuelle, qui est effectuée par des acteurs humains, et annotation automatique, qui est effectuée par une machine me ant au point un algorithme automatisé. Nous notons également l existence d approches semi-automatiques, qui se basent sur une interaction entre le traitement automatique et l annotation manuelle. Lors de l annotation manuelle, un utilisateur humain ajoute des informations supplémentaires au texte en utilisant son expertise et sa connaissance du langage. Très coûteux, ce processus demande un temps considérable et une expertise humaine. En effet, le traitement manuel est difficilement envisageable lors qu il s agit de grands volumes de données textuelles. En contrepartie, l avantage de l annotation manuelle est sa fiabilité sur des petits corpora. Pour ce e raison, l annotation manuelle est souvent utilisée pendant le développement des méthodes d annotation automatique, par exemple pour la production des échantillons pour l évaluation des annotations automatiques ou des corpora d apprentissage dans le cadre des systèmes d apprentissage automatique. L annotation manuelle ne peut tout de même pas être considérée comme entièrement fiable. Plusieurs sources d annotations manuelles incorrectes existent, par exemple la 69

80 C 2. A subjectivité de l annotation ou des variations intra- et inter-utilisateurs. Un algorithme d annotation automatique doit dans un premier temps repérer et délimiter les éléments textuels, et dans un deuxième temps, rajouter à certains de ces éléments des informations supplémentaires. Ceci nécessite l existence de règles d annotation ou d un algorithme qui puisse déterminer l annotation d un élément textuel après un examen de celui-ci ou de son contexte. Si l annotation automatique est facilement implémentable lors qu il s agit d annoter des éléments linguistiques et des propriétés qui ont été complètement formalisées, la difficulté de formaliser les algorithmes d annotation et les critères susceptibles de déclencher l annotation d un élément textuel interviennent dans beaucoup de cas. En effet, pour une annotation des informations de nature sémantique, la distinction des éléments pertinents relève des capacités humaines, comme la compréhension de la langue ou des analyses linguistiques, pas encore totalement formalisées. L annotation automatique est liée au domaine de l extraction d informations, qui consiste à extraire certains types d informations prédéfinis à partir de documents textuels, pour remplir une base de données ou produire une synthèse. La différence principale entre l annotation et l extraction d informations réside dans le fait que l extraction implique un stockage séparé des unités ou segments extraits, alors que l annotation enrichit le texte initial avec des étique es et délimiteurs des unités annotées. Dans les deux cas, la difficulté principale consiste à identifier les occurrences dans les textes des unités recherchées et les organiser selon des catégories. 2.3 Annotation sémantique automatique Définition et objectifs L annotation sémantique enrichit le texte en explicitant une partie du contenu suivant un besoin précis de description. C est une compréhension automatique partielle du contenu textuel qui crée des méta-données exploitables par des traitements ultérieurs. Si l être humain utilise la langue naturelle pour transme re des connaissances en pro- 70

81 2.3. Annotation sémantique automatique duisant des textes, l annotation sémantique automatique a pour vocation d accéder au moins à une partie de ces connaissances selon le prisme d une catégorisation prédéfinie à défaut de pouvoir comprendre le texte entièrement. Selon la définition de [Kiryakov et al., 2004]³, l annotation sémantique consiste en la génération de méta-données ayant pour objectif de rendre possible de nouvelles méthodes d accéder aux informations, telles que l indexation et la recherche d informations, la catégorisation, ou la génération de méta-données avancées. La problématique de l annotation sémantique est intimement liée à celle de l extraction d informations. Par ailleurs, l annotation sémantique peut être utilisée comme un prétraitement dans un contexte de recherche d informations, afin de perme re une indexation des contenus sémantiques et non pas uniquement des termes. En effet, l annotation sémantique cherche à identifier des éléments textuels pertinents par rapport à des critères spécifiques qui sont liés à des catégories recherchées, ou aux points de vue. Aussi, d un point de vue théorique, pouvons-nous considérer que l annotation sémantique est un cas très particulier de la recherche d informations, où la requête correspond à la catégorie qui est à annoter, et les résultats sont marqués et étiquetés dans le texte au lieu d être extraits. Les résultats d une annotation, ne sont pas destinés à une utilisation directe : l annotation est souvent une étape de pré-traitement dans une tâche plus complexe, telle que le résumé automatique, la synthèse, voire la recherche d informations. Les résultats de l annotation n étant pas utilisés en temps réel, celle-ci peut s effectuer pour un temps de traitement plus important. Cependant, la qualité des annotations conditionne tous les traitements ultérieurs, d où l importance des évaluations. L annotation sémantique, qu elle soit manuelle ou automatique, se base sur un ensemble de catégories prédéfinies ou des ontologies. Selon [Uren et al., 2006], l annotation sémantique s inscrit dans un processus de gestion de connaissances qui doit gérer ³[Kiryakov et al., 2004] : Semantic annotation is a specific metadata generation and usage schema, aiming to enable new information access methods and to extend the existing ones. [ ] What is more important is that the automatic semantic annotations enable many new types of applications : highlighting, indexing and retrieval, categorization, generation of more advanced metadata, smooth traversal between unstructured text and available relevant knowledge. 71

82 C 2. A trois types de données : ontologies, documents et annotations⁴. À défaut de l existence d une formalisation pertinente, l annotation sémantique peut être obtenue par des méthodes d apprentissage automatique, consistant à inférer la probabilité qu un élément textuel soit pertinent à partir d un corpus d apprentissage déjà annoté. Ce e méthode déplace le problème d annotation vers la construction de grands corpora annotés. Pour obtenir un système performant, ces corpora de taille importante doivent avoir des annotations uniformes et cohérentes. Étant donné que l information contenue dans le corpus d apprentissage reste le seul moyen du système à évaluer la pertinence d un élément pour en effectuer l éventuelle annotation, la qualité des corpora d apprentissage est décisive. Or, ces derniers sont dans le cas général construits et contrôlés à la main⁵ : en effet, s il existait un système capable de produire ces corpora, l apprentissage ne serait plus nécessaire Évaluation La difficulté de l évaluation des systèmes en TAL vient du fait que si la forme du résultat souhaité est connue, la qualité de celui-ci ne peut être définie de façon opérationnelle. Aussi, l évaluation de l annotation sémantique fait nécessairement appel à une expertise humaine : la qualité du résultat du système ne peut être déterminée de façon automatique. En effet, l identification d un résultat correct mobilise des capacités proprement humaines telles que les compétences linguistiques et la compréhension du texte [Popescu-Belis, 1999]. Une fois que la qualité (correct / incorrect) des résultats est établie, la performance des systèmes est évaluée traditionnellement par rapport aux mesures de précision et rappel, issues du domaine de la recherche d informations. Les conférences MUC (Message Understanding Conference ) en extraction d informations [Grishman et Sundheim, 1996] aux États-Unis ont défini des protocoles ⁴[Uren et al., 2006] : An intelligent, document centric KM process of the type we propose must handle three classes of data : ontologies, documents and annotations. These need to be supported by new kinds of KM tools. Semantic search tools are needed to connect and exploit the information in annotations and documents. ⁵[Uren et al., 2006] : Annotation is, potentially, an additional burden in this model of KM. Human annotators are prone to error and non-trivial annotations usually require domain expertise, diverting technical staff from other tasks. 72

83 2.3. Annotation sémantique automatique d évaluation objectifs par la mise en place de corpora communs perme ant la comparaison entre différents systèmes afin d encourager les recherches dans ce domaine. Un nombre de tâches ont été proposées dans lesquelles le système doit remplir un formulaire structuré par extraction à partir des textes. Une grande partie des efforts ont été concentrés sur la reconnaissance et la désambiguïsation d entités nommées. Par exemple, [Grishman et Sundheim, 1996] rapporte que pour l extraction d entités nommées les rappels et précisions obtenus varient entre 90% et 97%. Une synthèse sur les conférences MUC a été proposée par [Poibeau, 2003] Plateformes d annotation sémantique Nous présentons ici quelques systèmes d annotation sémantique. Un comparatif et une classification des systèmes sont donnés par [Uren et al., 2006, Reeve et Han, 2005]. La plateforme GATE⁶ (General Ar itecture for Text Engineering) [Gaizauskas et al., 1996, Cunningham, 2000] propose un cadre pour le développement de modules des traitements linguistiques. Le composant ANNIE fournit un système d extraction d informations, donnant la possibilité d annoter les textes en utilisant des grammaires de type JAPE (Java Annotations Pa erns Engine) [Cunningham, 1999], qui implémentent des transducteurs à états finis sur des annotations. Ce processus d annotation est équivalent à l application de transducteurs à états finis en cascade. Les annotations sont organisées sous forme de graphes où les arcs sont porteurs des étique es d annotation et les nœuds sont des pointeurs vers des parties du document source. Le module ANNIC (Annotations In Context) [Aswani et al., 2005] est un système d indexation et recherche d informations sur les annotations, qui est construit en utilisant le moteur d indexation Apache Lucene⁷. Il propose une interface graphique avancée pour la visualisation des annotations et la construction des requêtes, qui peut être utilisée pendant le développement de règles d annotation. ⁶h p ://gate.ac.uk ⁷h p ://lucene.apache.org 73

84 C 2. A La plateforme KIM [Popov et al., 2004] utilise des techniques d extraction d informations afin de collecter une base de connaissances à partir des annotations. L ontologie KIMO, qui est utilisée pour l annotation, contient des entités nommées extraites automatiquement. Le système INTEX [Silberstein, 1993], met en place des transducteurs à nombre fini d états. Ce système fournit un cadre pour le développement de ressources linguistiques pour un grand nombre de langues naturelles, sous forme de dictionnaires électroniques, de grammaires représentées dans des graphes et de lexiques-grammaires. Tous les objets traités sont représentés par des transducteurs à nombre fini d états. [Poibeau, 2003] propose une analyse du système. En utilisant le système INTEX, couplé avec le système d apprentissage automatique ASIUM, [Faure et Poibeau, 2000] développent une extraction d informations à partir des connaissances sémantiques et rapportent des précisions de 86% et 89%. 2.4 Discussion : quelles informations annoter? L annotation sémantique n est pas une fin en soi, elle est une étape intermédiaire qui génère des métadonnées descriptives destinées à une utilisation par des traitements ultérieurs. Si la qualité de l annotation conditionne la performance des systèmes finaux, les types d informations annotées orientent les applications. En effet, l annotation sémantique catégorise certains éléments du contenu textuel et constitue ainsi une modélisation simplifiée de la sémantique. Une annotation sémantique se définit à travers les deux questions suivantes : els sont les éléments à annoter? el est l ensemble de catégories d annotation (ou l ontologie linguistique)? Les évaluations dans les conférences MUC perme ent de quantifier la performance des systèmes selon des ensembles de catégories spécifiés préalablement. Or, si ces catégories construisent une certaine représentation des contenus, leur adéquation pour fournir un cadre de compréhension textuelle n est pas remise en question. 74

85 2.4. Discussion : quelles informations annoter? Les langues naturelles construisent des représentations complexes par des opérations discursives qui structurent les contenus textuels. Nous pensons que l annotation de relations sémantiques dans les textes, qui sont de nature verbale, ouvre de nouvelles voies pour des applications dans le TAL. Il s agit de se demander, pour une phrase donnée, qu est-ce qu exprime ce e phrase. Est-ce une définition? Est-ce une hypothèse, une perspective, une conclusion? Un système qui repère et annote automatiquement ces relations offre de nouvelles possibilités pour la recherche d informations et la fouille textuelle. Pour cela, dans le chapitre suivant, nous décrivons la méthode d Exploration Contextuelle pour l annotation sémantique de relations discursives. Il s agit de proposer une approche complémentaire à l identification des entités nommées qui exploite davantage les traces des relations discursives dans des textes afin de proposer des outils de fouille textuelle performants. 75

86

87 C 3 Méthode d Exploration Contextuelle Sommaire 3.1 Principe de fonctionnement Description formelle Définition Reconnaissance du langage a n b n c n Complexité Description linguistique Marqueurs linguistiques Construction des ressources linguistiques Espaces de recherche Cartes sémantiques et points de vue Applications Adaptation pour le traitement de domaines différents Adaptation à plusieurs langues Travaux utilisant la méthode d Exploration Contextuelle au laboratoire LaLIC

88 C 3. M E C Moteur d annotation sémantique Excom Résumé automatique et fi es de synthèse Interface de navigation pour la Bibliosémantique Fouille sémantique de thèses en ligne Projet IDEFICS en partenariat avec l AUF

89 Résumé du chapitre 3 Dans ce apitre, nous présentons la méthode d Exploration Contextuelle qui est une te nique linguistique opératoire pour l annotation sémantique des textes. Ce e méthode, développée au laboratoire LaLIC, s appuie sur des connaissances linguistiques, encodées sous forme de cartes sémantiques et des ensembles de marqueurs. Nous décrivons ce e méthode d un point de vue formel, puis nous proposons une comparaison avec des automates à états finis. Nous montrons alors que la complexité reste linéaire pour un ensemble de règles non récursif. Nous présentons par la suite les fondements linguistiques de ce e méthode. Enfin, nous décrivons quelques applications qui exploitent les annotations automatiques reposant sur la méthode d Exploration Contextuelle et qui ont abouti aux réalisations de systèmes de fouille textuelle. 79

90 C 3. M E C L exploration contextuelle (EC), élaborée par [Desclés et al., 1997, Desclés, 2006a], est une méthode linguistique pour l annotation automatique et sémantique de textes selon des points de vue de fouille. Il s agit d une technique computationnelle qui attribue des annotations aux unités linguistiques telles que mots, phrases, paragraphes, etc., en s appuyant sur la recherche de marqueurs linguistiques de surface. La méthode d EC représente une procédure décisionnelle, destinée à une exécution automatique. Étant donné un ensemble structuré de catégories d annotation, que nous définirons plus loin comme carte sémantique, l EC associe à chaque catégorie d annotation un certain nombre de conditions. Ces conditions sont vérifiées afin de confirmer ou d infirmer l hypothèse qu une unité linguistique donnée est porteur d une information correspondante à la catégorie d annotation. Le cœur de ce e approche repose sur l identification de marqueurs linguistiques de surface présents dans les textes, ainsi que sur l évaluation des contextes textuels¹. Ce e méthode permet d entreprendre des fouilles sémantiques de textes, sans faire appel à des ontologies de domaines. Les points de vue de fouille, qui constituent l ensemble des catégories annotées, introduisent des cartes sémantiques sous forme de graphes, composés de concepts et de flèches étiquetées entre les concepts, que l on peut considérer comme des ontologies discursives : à chaque sommet (concept) du graphe est associé une classe d indicateurs linguistiques qui sont des marqueurs linguistiques du concept, chaque indicateur étant accompagné par de règles d exploration contextuelle chargées d identifier des indices linguistiques dans le contexte de l indicateur, afin de confirmer ou d infirmer la pertinence de l indicateur et, éventuellement, d affiner la catégorisation et l annotation qui en résulte. ¹Le mot «contexte», du latin «contextus» «assemblage, réunion», a plusieurs significations : 1) ensemble ininterrompu des parties d un texte ; 2) ensemble du texte qui entoure un extrait et qui éclaire son sens, «Encyclop. t. 4 : Il faut quelquefois consulter le contexte, pour entendre parfaitement le sens du texte» ; 3) ensemble des circonstances dans lesquelles s insère un fait (source : CNRTL). Dans le cadre de l Exploration Contextuelle, nous employons ce terme dans le sens du texte qui entoure un élément textuel, un mot, une expression, et qui éclaire son sens. Dans d autres domaines nous emploierons le mot «contexte» dans des sens différents : nous parlerons de «contexte de re er e d informations» pour désigner l ensemble de circonstances autour de la recherche, ainsi que de «retour au contexte», signifiant le fait de re-situer un segment extrait dans son contexte initial, c est-à-dire dans le texte à partir duquel il a été extrait. 80

91 3.1. Principe de fonctionnement 3.1 Principe de fonctionnement L Exploration Contextuelle repose sur l hypothèse que lors de la recherche d informations, la lecture d un texte fait appel à certains points de vue de fouille qui focalisent l a ention du lecteur sur des segments textuels et des organisations textuelles [Desclés et al., 1997]. Ces points de vue sont organisés dans des cartes sémantiques, qui correspondent à des tâches de recherche ou d analyse sémantique de texte. Les points de vue peuvent correspondre aux différents niveaux d analyse linguistique : des catégories discursives (conclusion, résultat, hypothèse, rencontre, définition, ), ou certaines catégories grammaticales (par exemple les valeurs aspecto-temporelles). Dans ce travail, nous utiliserons avant tous les annotations issues des points de vue discursifs. Le fonctionnement de la méthode est décrit dans [Desclés et al., 1997]. Il se base sur l hypothèse suivante : «Les textes contiennent des unités linguistiques spécifiques qui sont des indicateurs pertinents pour résoudre une tâ e précise. Cependant, l identification de ces indicateurs n est pas suffisante. L analyse d une unité linguistique identifiée dans un contexte fait nécessairement appel à d autres indices linguistiques complémentaires qui doivent être co-présents dans le contexte, ces indices participent directement à la résolution de la tâche.» Ainsi, pour un point de vue de fouille donné, il existe des unités linguistiques, appelées indicateurs, qui satisfont les conditions suivantes : tous les segments textuels pertinents par rapport au point de vue contiennent une occurrence d un indicateur de ce point de vue ; les indicateurs sont porteurs de la valeur sémantique ou grammaticale du point de vue ; une occurrence d un indicateur dans un segment textuel peut être ou ne pas être suffisante pour effectuer l annotation du segment avec ce point de vue. 81

92 C 3. M E C Pour donner un exemple, considérons le point de vue d annotation «hypothèse» et la phrase suivante : Exemple 1. Tout au long de ce travail, nous supposons que le processus X est réel, strictement homogène. Nous considérons ce e phrase comme pertinente par rapport au point de vue hypothèse. En effet, ce qui nous permet d identifier l hypothèse est l emploi de l expression «nous supposons que». Ce e expression est une occurrence d un indicateur du point de vue, parce qu elle a les propriétés suivantes : Nous constatons que la substitution de l expression «nous supposons que» avec d autres expressions possibles dans le même contexte produit des phrases qui n expriment pas d hypothèse. Par exemple, les phrases comme «, nous démontrons que le processus X», «, nous vérifions que le processus X», «, j insiste que le processus X», «il est possible que le processus X», sont des énoncés possibles, mais n expriment pas d hypothèse. Ces observations montrent que l idée d hypothèse dans la phrase est exprimée, au moins en partie, par l expression «nous supposons que». L expression «nous supposons que» peut être utilisée dans d autres contextes pour signaler une hypothèse. Par exemple, «Dans cet article, nous supposons qu il existe une corrélation entre les deux variables.» Considérée hors contexte, l expression «nous supposons que» est associée à l idée d hypothèse : un locuteur français supposerait, à partir de la simple occurrence de ce e expression et sans forcement connaître le reste de la phrase, qu elle exprime une hypothèse. Un indicateur est représenté par un ensemble de formes linguistiques pouvant avoir des occurrences dans des textes et tenant compte des variations (morphologiques, syntaxiques et lexicales) dans l expression de la signification du point de vue. éoriquement, toute phrase pertinente par rapport à un point de vue contient au moins une 82

93 3.1. Principe de fonctionnement occurrence d un indicateur de ce point de vue. Les indicateurs peuvent être continus ou discontinus. Les unités linguistiques étant généralement polysémiques, l identification d un indicateur dans un segment ne suffit pas pour en effectuer l annotation. En effet, afin de garantir la qualité des annotations et d éliminer le bruit, l algorithme doit être capable de tenir compte de différents phénomènes linguistiques, tels que la polysémie et l homonymie, les usages figés, les usages métaphoriques, etc. Or, c est le contexte d une expression linguistique qui permet de lever l ambiguïté et préciser le sens d un emploi concret. Pour ce e raison, une simple occurrence d une forme linguistique, aussi complexe soit-elle, ne suffit pas, dans le cas général, pour prendre la décision d annoter le segment textuel. L Exploration Contextuelle est une méthode opératoire pour le traitement du contexte. Les occurrences d indices contextuelles proches d un marqueur linguistique ont pour fonction de désambiguïser ou préciser la relation sémantique exprimée par ce marqueur. Prenons quelques exemples : Exemple 2. (a) Mercredi dernier, le président des Ètats-Unis s était entretenu publiquement avec Mark Zu erberg.² (b) Il y eut alors une longue pause, comme s il s était entretenu avec quelqu un d autre ou s il avait lu une note.³ Dans cet exemple, la phrase (a) exprime une rencontre événementielle entre deux personnes. L indicateur de la rencontre est l expression «s était entretenu avec». Mais la présence d une telle expression dans une phrase ne garantit pas qu elle annonce une rencontre, comme nous pouvons le voir dans la phrase (b). La distinction entre ces deux emplois de l indicateur est due aux contextes et elle peut être identifiée de façon opératoire. D un côté, dans la phrase (a), nous pouvons repérer certains indices contextuels, comme «mercredi dernier» et «publiquement», qui n expriment pas de ²Europe1.fr, 21 avril ³Peter C. Newman, «Les mesures de guerre de 1970», traduction Èdouard Cloutier. 83

94 C 3. M E C rencontre à eux-mêmes, mais perme ent de confirmer le sens de l indicateur. De l autre côté, dans la phrase (b), nous avons l expression «comme si», qui précède l indicateur, indiquant une rencontre imaginaire ou une rencontre qui n a pas eu lieu. Exemple 3. (a) La thèse er e à confirmer l hypothèse de quatre étapes de la rédaction du quatrième Èvangile.⁴ (b) Le bébé semble en effet posséder à un stade très précoce une image (une représentation) de l autre, qu il er e à confirmer par des actions en direction de l environnement.⁵ La phrase (a) exprime une annonce thématique, qui est un objectif avec pour indicateur l expression «er e à confirmer». Cet indicateur est présent également dans la phrase (b). Cependant, ce e deuxième phrase n exprime pas d annonce thématique. En effet, à part l indicateur la phrase (a) contient d autres indices perme ant d affirmer qu il s agit bien d un objectif : «la thèse», «confirmer l hypothèse de». Dans le cadre de la méthode d EC, l occurrence d un indicateur dans un segment textuel établit l hypothèse que ce segment est pertinent par rapport au point de vue. Ce e hypothèse reste à être confirmée ou infirmée par la vérification de conditions contextuelles. Ces conditions s expriment par la présence ou l absence d autres éléments linguistiques, appelés indices, dans le contexte gauche ou droit de l occurrence de l indicateur. Les indices sont des marqueurs complémentaires, qui perme ent de déterminer le sens de l indicateur, s il est ambigu, et de préciser sa valeur sémantique, s il renvoie à plusieurs points de vue spécifiques. Ainsi, l identification d une occurrence d un indicateur déclenche l application d un ensemble de règles d EC, associées à l indicateur, qui vérifient les conditions contextuelles, relatives aux indices, afin de déclencher ou bloquer l éventuelle annotation du segment. Le schéma du fonctionnement de cet algorithme avec une règle est présenté sur la figure 3.1. Les règles d EC ont pour fonction principale de lever la polysémie de l occurrence de l indicateur. Si un segment contient un indicateur, il est éligible pour annotation. ⁴Umstri ener Zeuge, «Le témoin controversé. Ètudes sur la fon ion de la Loi dans l histoire de la théologie johannique», ⁵N. Georgieff, «Neuropsy opathologie cognitive sociale de l a ion : apport à l étude des symptômes positifs de la s izophrénie», Intellectica,

95 3.1. Principe de fonctionnement F. 3.1 : Schéma de fonctionnement de la méthode d EC Or, l indicateur peut avoir plusieurs significations possibles. Nous savons que les problèmes de polysémie et d homonymie sont souvent la raison pour de nombreuses erreurs dans le traitement automatique de la langue. La méthode d EC permet alors de prendre en compte la polysémie par les règles d EC, en tenant compte du contexte des occurrences de l indicateur et ceci de façon opératoire. L annotation s effectue après une évaluation de la valeur sémantique de l occurrence de l indicateur réalisée dans le segment textuel. Les conditions, vérifiées par les règles d EC, perme ent de distinguer entre les différentes significations de l indicateur et d identifier, grâce au contexte, la signification concrète dans le segment. Le contexte qui est examiné, que nous appelons également espace de re er e, comprend le plus souvent le segment en question (proposition, phrase, paragraphe), mais il peut également être étendu aux autres éléments identifiables dans le texte, par exemple la phrase précédente ou suivante, le dernier paragraphe de la section, le titre de la section, la bibliographie du document, la dernière phrase de l introduction, etc. 85

96 C 3. M E C 3.2 Description formelle Du point de vue formel, l Exploration Contextuelle est une procédure décisionnelle, qui prend en entrée un segment textuel ainsi que des indicateurs et règles d EC. Elle produit en sortie le même segment textuel, auquel sont éventuellement ajoutées des annotations Définition Les ressources linguistiques associées à un point de vue pour l Exploration Contextuelle sont de deux types : indicateurs qui peuvent appeler d autres indicateurs ou des règles d EC ; et règles d EC qui peuvent déclencher une annotation ou faire appel à des indicateurs. Ils s expriment de la façon suivante⁶ : Indicateur I : SI le marqueur i a une occurrence dans le segment textuel, ALORS délimiter les possibles espaces de recherche et faire appel à R I1, R I2,..., R In et J 1, J 2,..., J m. (3.1) ⁶Ce e représentation de l EC est inspirée par le formalisme des systèmes experts. Dans le domaine de l Intelligence Artificielle, les systèmes experts sont des applications informatiques ayant pour but d imiter la performance d un expert dans un domaine spécifique nécessitant des capacités intellectuelles. Un système expert est capable de répondre à des questions, en effectuant un raisonnement à partir de faits et de règles connus. Il se compose de trois parties : une base de règles, appelée également base de connaissances, qui sont des données permanentes ; une mémoire temporaire, ou une base de faits ; et un moteur d inférence, qui effectue un algorithme de raisonnements déductifs. Ce dernier est capable de modifier les données dans la mémoire temporaire en utilisant la base de règles et les données de la mémoire, jusqu à parvenir à un résultat. Une règle d inférence contient deux parties : une condition, qui est vérifiée par rapport aux données dans la mémoire, par exemple la présence de certains symboles, et une action, qui est déclenchée par le moteur d inférences si la condition est satisfaite. L action peut être la modification des données (insertion ou suppressions de symboles) ou une autre action, par exemple la fin de l algorithme, l appel à une autre règle, etc. 86

97 3.2. Description formelle Règle R I : SI les marqueurs j 1, j 2,..., j p, appelés indices positifs, ont des occurrences dans C 1, C 2,..., C p ET les marqueurs k 1, k 2,..., k q, appelés indices ALORS négatifs, n ont pas d occurrences dans D 1, D 2,..., D q, annoter le segment textuel ET/OU annoter l occurrence du marqueur i ET/OU annoter les occurrences de j 1, j 2,..., j p ET/OU faire appel à aux indicateurs L 1, L 2,..., L r. (3.2) où R I1, R I2,..., R In sont des règles d EC qui ont la forme de R I ; J 1, J 2,..., J m et L 1, L 2,..., L r sont des indicateurs de la forme de I ; C 1, C 2,..., C p et D 1, D 2,..., D q sont des espaces de recherche définis à partir de l occurrence du marqueur i. Les marqueurs pour l EC sont des formes linguistiques de surface : ensembles de chaînes de caractères, qui peuvent être représentés par des langages réguliers⁷, et implémentés par des expressions régulières. Ainsi, nous considérons qu un marqueur a une occurrence dans un segment textuel, si l expression régulière qui lui correspond reconnaît une partie du segment. Nous dirons qu un indicateur I a une occurrence dans un segment textuel si le marqueur i qui lui est associé a une occurrence dans le segment. Nous pouvons distinguer trois types de marqueurs pour l EC : le marqueur i de l indicateur I, les indices positifs j 1, j 2,..., j p et les indices négatifs k 1, k 2,..., k q. Les indicateurs et les deux types d indices entrent dans une relation hiérarchique : L occurrence d un indicateur dans un segment déclenche la recherche des indices qui s effectue dans les espaces de recherche délimités par ce e occurrence ; La présence ou l absence d indices dans un segment ne déclenche pas d action en soi : les indices ne sont pas considérés en dehors des règles déclenchées par ⁷Pour l instant ; nous considérons qu il s agit de marqueurs continus. En effet, nous pouvons démontrer par la suite que la puissance de reconnaissance l algorithme de l EC reste la même si l on étend la notion de marqueur en incluant des expressions discontinues. 87

98 C 3. M E C l indicateur ; Les indices sont des marqueurs complémentaires, ils ne sont pris en compte qu après l identification d une occurrence d un indicateur. Les espaces de re er e C 1,..., C p, D 1,..., D q sont des sous-chaînes du texte de départ, délimitées d une part, par les éléments textuels définis par la segmentation, et d autre part, par l occurrence de l indicateur ayant appelé la règle⁸. Lorsque l élément à partir duquel ces espaces sont définis est le segment textuel lui-même, ce qui est le cas le plus fréquent, nous parlerons d espace de re er e à gau e ou à droite de l occurrence de l indicateur⁹, ou d espace de re er e global qui comprend tout le segment textuel. La recherche des indices s effectue en commençant par l occurrence de l indicateur, c est-à-dire de gauche à droite dans l espace de recherche droit et de droite à gauche dans l espace de recherche gauche. Ceci peut optimiser l algorithme dans certains cas, lorsqu il s agit de reconnaître des segments contenant plusieurs occurrences du même indice. Dans ces cas, en premier sera traitée l occurrence de l indice qui est la plus proche de l occurrence de l indicateur. Les actions déclenchées par une règle d EC peuvent être de quatre types : l annotation du segment textuel avec le point de vue ; l annotation de l occurrence de l indicateur ; l annotation des occurrences des indices ; et l appel d un indicateur sur un espace de recherche donné. L action d annotation consiste à ajouter une information (un symbole ou une étique e) à l élément en question, c est-à-dire une réécriture en ajoutant une certaine méta-information. Pour garder la structure linéaire du segment textuel, nous pouvons considérer que l annotation consiste à remplacer une sous-chaîne s par αsβ, où les symboles α et β (α, β / Σ) ont pour fonction à la fois de marquer l annotation et de délimiter l élément annoté. L annotation (les symboles α et β) peut ainsi faire partie ⁸En pratique, les implémentations informatiques de l EC perme ent de définir les espaces de recherche en considérant n importe quel élément ou ensemble d éléments textuels, identifiés à partir de la structure XML du document et par rapport à la position de l occurrence de l indicateur. Cela permet la recherche des indices dans un contexte éloigné, par exemple le titre de la section en cours, le paragraphe précédent ou suivant, etc. ⁹Dans le cas d indicateur discontinu, nous pouvons définir également l espace de recherche au milieu. 88

99 3.2. Description formelle des indicateurs et indices pour de nouvelles règles d EC. Dans un cadre plus général nous pouvons considérer que l annotation consiste à remplacer une sous-chaîne s par une autre chaîne s définie en fonction de s et la règle d annotation qui a été appelée. Nous montrerons dans la section suivante, que l Exploration Contextuelle, telle que définie ci-dessus, est un dispositif reconnaissant une classe de langages formels plus grande que les langages réguliers Reconnaissance du langage a n b n c n Considérons le langage L = {a n b n c n n 1} : un certain nombre de a s suivi du même nombre de b s, suivi du même nombre de c s. C est un langage contextuel, de type 1 dans la hiérarchie de Chomsky (voir aussi l annexe, page 251). En effet, une grammaire contextuelle qui engendre ce langage est constituée de l ensemble de règles suivant : S asbc abc bb bb CB BC bc bc ab ab cc cc (3.3) Un ensemble de règles d Exploration Contextuelle reconnaissant le langage L a été proposé par [Desclés, 2006a]. Cet ensemble de règles est équivalent aux règles ci-dessous. Soit t {a, b, c} une chaîne de caractères sur l alphabet Σ = {a, b, c, a, b, c }. Indicateur I 0 : SI l indicateur I 0 = {a b c } a une occurrence dans t, ALORS appeler I 1 sur ce e occurrence. (3.4) 89

100 C 3. M E C Indicateur I 1 : SI l indicateur I 1 = {b} a une occurrence dans la chaîne d entrée, ALORS appeler R 1 sur la chaîne d entrée. (3.5) Règle R 1 : SI l indice i 1 = {a} existe dans l espace de recherche à gauche ET l indice i 2 = {c} existe dans l espace de recherche à droit, ALORS remplacer les occurrences des deux indices par a et c et l occurrence de l indicateur par b ET appeler I 1 et I 2 sur la chaîne d entrée modifiée. (3.6) Indicateur I 2 : SI l indicateur I 2 = {b } a une occurrence dans la chaîne d entrée, ALORS appeler R 2 sur la chaîne d entrée. (3.7) Règle R 2 : SI l indice i = {a b c} n existe pas dans l espace de recherche globale, ALORS remplacer a, b, c par a, b, c respectivement ET annoter la chaîne d entrée modifiée. (3.8) Nous notons que la premier indicateur 3.4, ne faisant pas appel à des règles d EC, est assimilable à une simple utilisation d une expression régulière pour la reconnaissance d un motif. Effectivement, il sert à identifier une sous-chaîne appartenant au langage {a n b m c p n, m, p N}, qui sera la chaîne d entrée pour l indicateur I 1. Par contre, l action des indicateurs I 1, I 2 et des règles R 1, R 2 ne peut pas être représentée par une application d expressions régulières, ce que nous allons montrer par la suite. Proposition 1. Les règles d Exploration Contextuelle reconnaissent le langage L = {a n b n c n n 1}. 90

101 3.2. Description formelle F. 3.2 : Ordre d application des règles Démonstration. Nous devons démontrer que toutes les chaînes du langage L sont reconnues par les règles , et inversement, que toute chaîne reconnue par ces règles appartient au langage L. 1) Soit la chaîne s {a n b n c n n 1}. Nous démontrerons que s est reconnue par les règles Nous allons procéder par induction. Soit la chaîne s = abc. s est reconnue par l appel de I 1, R 1, I 2, R 2. Supposons que la chaîne s = a k b k c k, pour une constante k N, est annotée (ou reconnue) par l ensemble des règles. Nous allons montrer que la chaîne t = a k+1 b k+1 c k+1 = a k abb k cc k. Nous pouvons observer que n importe quelle chaîne du type a k s 1 b k s 2 c k, où s 1 et s 2 sont des sous-chaînes sur l alphabet Σ = {a, b, c }, sur laquelle on applique l indicateur I 1, sera annotée. Considérons le résultat des applications des règles sur la chaîne t = a k abb k cc k. Après I 1 et R 1 : t 1 = a k a b b k c c k. La règle R 1 fait appel aux deux indicateurs I 1 et I 2. L indicateur I 1 est donc appliqué à la chaîne t 1, à partir de laquelle l algorithme termine par l annotation de la chaîne s. 2) Soit t une chaîne annotée (reconnue) par les règles Nous démontrerons que t {a n b n c n n 1}. 91

102 C 3. M E C Montrons d abord que t {a, b, c}. Si nous supposons que t / {a, b, c}, alors l algorithme se serait arrêté à l application de l indicateur I 0, ce qui est une contradiction avec l hypothèse que la chaîne est annotée. Donc t = a k b l c m. Nous démontrerons que k = l = m. Supposons que ce n est pas le cas, c est-à-dire que k l ou l m. Soit k 1 et k < l m (les autres cas possibles peuvent être traités de manière analogique). Alors t = a k b k b l k c k c m k. Notons que les le res a, b, c sont renommées en a, b, c dans une seule règle de l algorithme : la règle R 1, qui renomme une occurrence de chaque le re à la fois. Cela implique que dans un moment donné de l exécution de l algorithme, dans la chaîne qui est traitée, le nombre de a, b et c est toujours égal. La règle R 1 sera appelée au moins k fois, car d une part, chaque occurrence de b dans la chaîne, pour laquelle il existe un a à gauche et un c à droite, entraîne l application de R 1, et d autre part, à l issue de R 1 l algorithme fait appel à l indicateur I 1 qui, tant qu il reste d occurrences de b, appelle à nouveau la règle R 1. Nous pouvons alors conclure qu après k applications de la règle R 1, la chaîne résultante sera : t 1 = (a ) k (b ) k b l k (c ) k c m k, et la règle R 1 fera appel aux deux indicateurs I 1 et I L indicateur I 1 avec la chaîne d entrée t 1 fait appel à R 1, qui ne déclenche aucune action, car l indice a n a pas d occurrences à gauche de l indicateur et les conditions de la règle R 1 ne sont donc pas satisfaites. 2. L indicateur I 2 fait appel à R 2, qui ne déclenche aucune action, car il existe des occurrences de l indice négatif i = {a b c} et les conditions de la règle R 2 ne sont donc pas satisfaites. La chaîne t = a k b k b l k c k c m k n est pas annotée. Donc la supposition k < l m est fausse. Alors k = l = m. 92

103 3.2. Description formelle Ces règles peuvent être facilement généralisées, afin de reconnaître le langage {s 0 a n s 1 b n s 2 c n s 3 n 1, s 0, s 1, s 2, s 3 (Σ \ {a, b, c}) } pour n importe quel alphabet Σ fini. Nous venons de démontrer qu il existe un ensemble de règles d EC, qui reconnaît le langage {a n b n c n n 1}, qui est un langage contextuel. Une implémentation de ces règles en Perl est présentée dans l annexe (page 256) Complexité La complexité de l ensemble de règles (3.4) (3.8) est linéaire par rapport à la longueur de la chaîne : une expression a m b m c m, m 1 est identifiée par 3m + 3 applications de ces règles. Considérons un cas plus général. Soit s Σ un segment textuel. Soit l indicateur et la règle d EC suivants, qui reconnaissent une chaîne contenant les caractères b, a et c dans cet ordre : Indicateur I : SI l indicateur i = a a une occurrence dans s, ALORS appeler R I1. (3.9) Règle R I1 : SI l indice j 1 = b existe dans l espace de recherche à gauche ET l indice j 2 = c existe dans l espace de recherche à droite, ALORS annoter s. (3.10) La complexité des règles (3.9) (3.10) est linéaire par rapport à la longueur de s : si s Σ n, l indicateur I s applique pour un temps O(n), ainsi que la règle R I. La complexité totale est alors O(2n) = O(n). Dans le cas où a, b et c sont des chaînes de caractères (et non pas des caractères simples), la complexité totale est, dans le pire des cas, O((n m + 1).m), où 93

104 C 3. M E C m = a + b + c. Nous pouvons construire l expression régulière équivalente suivante, qui reconnaît le même langage : Σ b (Σ \ {b}) a (Σ \ {c}) c Σ (3.11) La reconnaissance de ce e expression régulière ne peut s effectuer pour un temps linéaire. Les algorithmes de reconnaissance d expressions régulières procèdent à une première phase de compilation du motif, avant d effectuer la reconnaissance. La compilation du motif a une complexité de O(l 3 Σ ), où l est la longueur de l expression recherchée et Σ est la taille de l alphabet [Cormem et al., 2009]. La reconnaissance est linéaire O(n), et la complexité totale est donc O(l 3 Σ + n). L algorithme Knuth- Morris-Pra [Knuth et al., 1977] est une optimisation de la reconnaissance des chaînes de caractères, qui peut être également adaptée pour les expressions régulières avec un temps de calcul O(l Σ ). La valeur de Σ peut être très grande. Dans ce e section, nous avons démontré quelques propriétés importantes de l algorithme d EC : L Exploration Contextuelle reconnaît une classe de langages plus grande que celle des langages réguliers. L Exploration Contextuelle a une complexité linéaire par rapport à la longueur du segment annoté pour un ensemble de règles non-récursif¹⁰. La complexité de l Exploration Contextuelle, contrairement à celle des expressions régulières, ne dépend pas de la taille de l alphabet. En effet, pour des traitements en UTF-8 ce e taille est non-négligeable. ¹⁰La complexité de l Exploration Contextuelle reste linéaire lorsque tous les marqueurs sont des ensembles de chaînes de caractères. Si les marqueurs sont modélisés par des expressions régulières, la complexité augmente et dépend alors de l algorithme de reconnaissance des expressions régulières. Cependant, l application d une règle d EC avec un indice à gauche et un indice à droit prend moins de temps de traitement que la reconnaissance de l expression régulière équivalente. 94

105 3.3. Description linguistique 3.3 Description linguistique Marqueurs linguistiques L Exploration Contextuelle oblige une conceptualisation et une compréhension des mécanismes sémantiques, ce qui constitue un travail indispensable dans la modélisation de la langue. Ce processus s inscrit dans l étude et l organisation des formes de surface, issues d un côté du savoir linguistique propre à l expert humain, constructeur des ressources, et d un autre côté, des études de corpus. Un marqueur (indicateur ou indice) est représenté par un ensemble de formes de surface, qui peuvent être continues ou discontinues, et qui sont implémentées, du point de vue informatique, par des listes de chaînes de caractères ou des listes d expressions régulières. En pratique, les indicateurs, comparés aux indices, comprennent un plus grand nombre de formes et variations morphologiques. Un indicateur peut être, par exemple, une partie du paradigme d un verbe ou un ensemble de verbes ayant des significations proches, ou un ensemble d expressions introduisant la même relation ou, dans certains cas, un ou plusieurs signes de ponctuation. La langue naturelle permet une génération libre et infinie d énoncés. Pourtant, les marqueurs linguistiques utilisés par l EC sont des ensembles finis d expressions. Comment ce e méthode, peut-elle alors reconnaître et annoter l intégralité des énoncés qui puissent apparaître dans un texte et qui sont porteurs d un point de vue? La réponse de ce e question consiste en la nature des marqueurs linguistiques. Les indicateurs dans l EC sont des éléments textuels qui sont porteurs de la sémantique de la relation recherchée. Une telle relation est exprimable par une liste d expressions bien définie qui, elles, peuvent apparaître dans un nombre infini de contextes. En effet, un locuteur de la langue est capable de reconnaître et identifier l expression d une hypothèse, une conclusion, une rencontre dans un texte quelconque, grâce à l identification de certaines expressions, telles que «nous supposons que», «pour conclure», «s est entretenu avec», et ceci sans toujours connaître ou comprendre l intégralité de la phrase. Ces mêmes expressions sont les marqueurs linguistiques sur lesquels s appuie l EC. 95

106 C 3. M E C Construction des ressources linguistiques Les ressources linguistiques pour l Exploration Contextuelle sont construites manuellement, suite à une étude linguistique de corpus, une réflexion personnelle du linguiste et éventuellement la consultation de dictionnaires. Il s agit ici d un travail essentiellement linguistique, qui a pour but d examiner les différentes façons d exprimer un point de vue d annotation, recueillir les marqueurs de surface et créer les règles d EC. Les corpus d étude pour ce e tâche sont sélectionnés selon le critère suivant : le corpus doit contenir assez de phrases exprimant la relation recherchée pour être plus ou moins représentatif pour le point de vue étudié. Par exemple, pour constituer les ressources pour le point de vue de la rencontre il est plus approprié d étudier un corpus d articles de presse, où ce e relation est fréquente, que d articles scientifiques en physique quantique. Ce e étude des corpus préalable à l annotation différentie la méthode d Exploration Contextuelle par rapport au nombreuses autres méthodes d annotation qui utilisent des catégorisations pré-définies [Hunston, 2002]¹¹. Les corpora étudiés pour la constitution des ressources d Exploration Contextuelle sont relativement petits¹² (une centaine de pages de texte). Nous considérons que ceci constitue un avantage important de la méthode d Exploration Contextuelle devant d autres méthodes d annotation sémantique, notamment les méthodes par apprentissage automatique. En effet, l apprentissage automatique, pour être efficace, dépend de grands corpora d entraînement qui doivent être annotés et contrôlés manuellement. Or, de tels corpora ne sont pas toujours disponibles. L Exploration Contextuelle, quant à elle, se base sur l annotation manuelle d un corpus plus petit, où ce e annotation est effectuée par un linguiste ou un expert du point de vue annoté. Cela permet de mieux contrôler la qualité des annotations obtenues. ¹¹[Hunston, 2002], p. 93 : The categories used to annotate a corpus are typically determined before any corpus analysis is carried out, which in turn tends to limit, not the kind of question that can be asked, but the kind of question that usually is asked. Most of the work that is done using annotated corpora uses categories that have been developed in pre-corpus days, such as nominal clauses, anaphoric reference or direct and indirect speech. ¹²Ce constat a été confirmé en pratique par plusieurs applications de la méthode d Exploration Contextuelle. Les évaluations des résultats montrent une annotation satisfaisante par des ressources linguistiques construites à partir de corpora très restreints. Pour une liste des publications, voir la section

107 3.3. Description linguistique F. 3.3 : Exploration Contextuelle : construction des ressources linguistiques 97

108 C 3. M E C La figure 3.3 illustre le processus de construction de ressources linguistiques : les marqueurs et les règles d EC sont issus de l étude d un petit corpus, en faisant appel à une expertise humaine. La phase de construction des ressources implique un va-etviens entre les ressources produites et le corpus d étude, dans ce que nous appelons «évaluation interne». Les listes des marqueurs et des règles sont ainsi progressivement enrichies et contrôlées, jusqu à l obtention de résultats satisfaisants. Une fois les ressources validées sur le corpus d étude, d autres évaluations sont faites sur d autres corpora, perme ant d estimer les mesures de rappel et de précision sur un corpus quelconque. Si le traitement par Exploration Contextuelle nécessite la constitution préalable des ressources linguistiques, les résultats de l annotation peuvent être interprétés facilement, dans le sens où la source de chaque annotation, les marqueurs linguistiques et la règle qui a déclenché l annotation peuvent être identifiés à partir de la sortie du système. Ainsi, l annotation peut révéler non seulement les éléments textuels annotés par les catégories de la carte sémantique, mais également les marqueurs linguistiques, porteurs de la sémantique de chaque catégorie et leurs indices contextuels perme ant la désambiguïsation. Ceci présente un avantage pour deux raisons. Premièrement, les informations sur les marqueurs linguistiques peut être utile pour de nombreuses utilisations finales, telles que par exemple l analyse linguistique à partir des corpora annotés ou la construction de corpora d entraînement pour un apprentissage automatique¹³. Deuxièmement, la validation et l enrichissement des marqueurs devient un processus transparent : dans le cas d une annotation erronée, les règles défectueuses peuvent être identifiées et corrigées sans que cela entrave le reste du fonctionnement du système. La construction des ressources linguistiques est alors un processus qui s effectue en plusieurs étapes de façon incrémentale jusqu à l obtention d une qualité d annotation satisfaisante. Les marqueurs pour l Exploration Contextuelle sont des expressions linguistiques, tels que des morphèmes, des mots ou des expressions plus complexes, qui sont iden- ¹³En effet, l Exploration Contextuelle permet d annoter des corpora avec une grande précision, qui pourraient potentiellement être utilisés comme entrée d un apprentissage automatique 98

109 3.3. Description linguistique tifiables à la surface des textes. Leur identification ne nécessite pas d analyses morphologique ou syntaxique. En effet, l organisation des formes de surface utilisées par l Exploration Contextuelle ne repose pas sur leurs propriétés morphologiques ou syntaxiques, perme ant l application de la méthode indépendamment des traitements morpho-syntaxiques. Cependant, pour certaines applications spécifiques, si nécessaire, l EC peut être couplée avec des analyseurs morpho-syntaxiques Espaces de re er e Les espaces de recherche, c est-à-dire les zones du texte dans lesquelles s effectue la recherche des indices, sont déterminés par les règles d EC et repérés par rapport aux occurrences des indicateurs dans le texte. Les limites des possibles espaces de recherche sont déterminées dans une phase de segmentation préalable, dans laquelle sont identifiés les différents éléments textuels : phrases, paragraphes, sections, titres, etc. Un espace de recherche peut être défini en utilisant différents éléments textuels, par exemple, le contexte gauche / droit de l indicateur (c est-à-dire, le segment textuel se trouvant dans la même phrase et à gauche / à droite de l indicateur), la phrase contenant l indicateur, la phrase suivante, le paragraphe, le titre de la section, les premières trois phrases de chaque paragraphe, etc. La segmentation en phrases, voir en propositions, a un rôle important pour l application de l EC. En prenant en compte ce découpage naturel du texte, le traitement par l EC se distingue d autres algorithmes d annotation, notamment des analyseurs qui définissent le contexte d une occurrence en termes de distance en mots, par exemple des méthodes par des n-grammes¹⁴ ou les automates d états finis¹⁵. En effet, le traite- ¹⁴L idée de n-grammes est issue de la théorie de l information de Shannon[Shannon et Weaver, 1948]. Ce e approche se base sur l hypothèse, que l occurrence d un mot dans un texte ne dépend que des derniers n 1 mots. Les modèles de chaînes de Markov sont utilisées ainsi pour calculer, à partir d un corpus d entraînement, la distribution de probabilités pour un élément donné (un mot précédents. De nombreuses travaux en TALN s appuient sur ce e méthode, notamment dans les domaines de classification et annotation sémantique, par exemple [Pang et al., 2002, Dave et al., 2003, Philpot et al., 2003]. ¹⁵En 1959, Chomsky [Chomsky, 1959] a démontré que les langues naturelles ne sont pas reconnaissables par des automates d états finis, puisqu elles contiennent des structures syntaxiques complexes, notamment des propositions subordonnées et des phénomènes d intrication. Dans certains travaux, par exemple M. K. Church [Church, 1980], l utilisation des automates d états finis pour la modélisation des langues naturelles s appuie sur l argument que l utilisation de schémas syntaxiques complexes en pra- 99

110 C 3. M E C ment par EC s effectue au sein d un élément textuel qui est bien délimité et déterminé par l indicateur. Cet élément peut être une phrase, une proposition ou bien une autre structure tel que section, paragraphe, titre de section, phrase suivante ou précédente l occurrence de l indicateur, etc. Cela permet, en premier temps, de diminuer le bruit dans l identification des indices contextuels. En deuxième temps, la prise en compte de ces espaces de recherche donne la possibilité d identifier des indices très éloignés de l occurrence de l indicateur, surtout lorsqu il s agit de phrases complexes : une règle d EC peut en effet repérer les différents constituants d une proposition ; même si ces derniers se trouvent très éloignés dans l expression linéaire de la phrase à cause des nombreuses propositions subordonnées. Pour comparaison, les systèmes utilisant des cascades de transducteurs à état finis, tels que GATE par exemple, effectuent un traitement linéaire en traitant uniquement un contexte gauche ou droit limité et adjacent à la forme recherchée Cartes sémantiques et points de vue Une carte sémantique est le produit d une conceptualisation des relations sémantiques dans les textes. Elle s exprime par une ontologie linguistique liée à une tâche de fouille textuelle spécifique. Selon [Desclés, 2006a], la carte sémantique est un graphe dont les nœuds sont des classes de concepts, et dont les arcs orientés représentent des liaisons de spécifications et de généralisations entre ces classes. Les concepts (ou points de vue) dans la carte sémantique peuvent être de nature grammaticale (par exemple accompli/inaccompli) ou discursive (par exemple annonce thématique, rencontre, définition). Au-delà d être un réseau de concepts, la carte sémantique organise les marqueurs et les règles d EC sous-jacentes dans un réseau avec des relations de spécification, entre les concepts, ainsi qu entre les classes de marqueurs linguistiques, et d instanciation, entre chaque concept et la classe de marqueurs qui lui sont associés. Elle est issue d une étude linguistique qui a pour but de systématiser les marqueurs linguistiques par lesquels points de vue se réalisent à la surface des textes. tique est relativement limitée par la mémoire à court terme des êtres humains. Cependant, ce constat n est pas justifié : les locuteurs d une langue sont en effet capables de comprendre des phrases ayant des structures très complexes avec certaines contraintes contextuelles. 100

111 3.4. Applications Le point de vue se définit par une catégorie, comprenant un ensemble de concepts insérés dans un réseau sémantique sous forme d un treillis : la carte sémantique. Les instances de ces concepts sont des classes de marqueurs linguistiques (indicateurs) observables dans des textes. La relation qui existe entre les points de vue et les instances n est pas bijective, d où la nécessité d explorer le contexte pour déclencher l annotation. Par conséquent, les instances sont associées à des règles d EC perme ant de restreindre la relation entre les points de vue et les indicateurs afin d obtenir une nouvelle relation biunivoque. Pour des exemples de cartes sémantiques voir l annexe, page Applications Adaptation pour le traitement de domaines différents Pour la grande partie des points de vue que nous cherchons à annoter, les indicateurs sont indépendants des domaines. En fait, ces marqueurs relèvent de la structuration du discours et traversent les domaines [Desclés et al., 1997]. Si nous voulons prendre en compte le traitement des textes variés qui portent sur des thématiques différentes¹⁶, il est clair qu une forme de surface donnée est plus ou moins répandue dans les différents textes selon le domaine traité. Par exemple, le marqueur de la rencontre «s est entretenu avec» serait moins fréquent dans des articles scientifiques que dans les journaux. Cependant, dans tous les types de textes, la présence d un marqueur porteur de la sémantique du point de vue dans un extrait est identifiée et désambiguïsée toujours selon le même ensemble de règles. Par exemple, une phrase commençant par le marqueur «notre hypothèse est que» sera identifiée comme pertinente pour le point de vue «hypothèse». Ce e expression ne dépend pas du domaine traité : elle peut être utilisée pour introduire une hypothèse dans des textes en biologie, en mathématiques, en histoire, en musicologie, avec des fréquences différentes. De plus, même dans les cas où la phrase utilise une terminologie complexe, les locuteurs ¹⁶Ici il s agit surtout de textes non-li éraires. 101

112 C 3. M E C ne comprenant pas son sens en entier pourraient toujours l identifier en tant que porteuse d une hypothèse, ce qui montre que ce e expression est suffisante pour annoter une phrase en tant qu «hypothèse», puisqu elle porte ce e signification dans tous les contextes dans lesquels elle se réalise. L identification des hypothèses n implique donc pas de connaissances spécifiques du domaine. Ainsi, nous considérons qu une carte sémantique est par nature indépendante des domaines, dans le sens où elle s appuie sur des marqueurs linguistiques et des règles qui sont valides pour tous les domaines et indépendants de ceux-ci Adaptation à plusieurs langues L Exploration Contextuelle est adaptable à des traitements et des applications multilingues. Jusqu à présent, la méthode a été appliquée avec succès aux traitements des langues suivantes : français : par ex. [Desclés et al., 2010, Bertin et al., 2009a, Le Priol et al., 2006, Blais et al., 2006] ; anglais : par ex. [Desclés et al., 2011, Desclés et al., 2009, Bertin et al., 2009b] ; bulgare : [Atanassova et al., 2008a, Atanassova, 2006] ; coréen : [Chai, 2009] ; arabe : [Alrahabi, 2010, Alrahabi et al., 2006]. Si les ressources linguistiques (marqueurs et règles) sont spécifiques à une langue donnée, les cartes sémantiques s appuient sur des réseaux de concepts d un niveau plus abstrait, qui eux, sont réutilisables pour le traitement de différentes langues. Une première constitution des ressources pour une langue et une tâche donnée facilite considérablement la «traduction»¹⁷ de ces ressources vers d autres langues. Ce ¹⁷La nature des ressources linguistiques ne permet pas de traduction directe. Pour obtenir des ressources équivalentes pour une deuxième langue, il est nécessaire d étudier les moyens d expression et l organisation des formes de surface de celle-ci. En se basant sur les ressources déjà existantes, ce e étude est moins coûteux que la première constitution de la carte sémantique. 102

113 3.4. Applications F. 3.4 : Fiche de synthèse à partir d un texte bulgare travail consiste à identifier les instances des points de vue dans la nouvelle langue et à construire les règles d EC à partir des ressources existantes dans la langue source. L utilisation de la carte sémantique «Résumé automatique» produite en français par [Blais et al., 2006] nous a permis de produire des ressources linguistiques correspondantes en bulgare. En effet, la création des ressources pour le bulgare a été considérablement facilitée et accélérée par l exploitation des ressources déjà existantes pour le français. Ce travail a été effectué dans le cadre d un master [Atanassova, 2006], et il a donné lieu à une publication [Atanassova et al., 2008a]. La figure 3.4 présente la fiche de synthèse d un texte en bulgare, obtenu automatiquement à partir des annotations du système. L évaluation de ces ressources a montré que la qualité des résultats est comparable à celle des résultats en français. 103

114 C 3. M E C Travaux utilisant la méthode d Exploration Contextuelle au laboratoire LaLIC Moteur d annotation sémantique Excom L implémentation informatique de la méthode d Exploration Contextuelle a conduit à plusieurs réalisations au sein du laboratoire LaLIC. Un premier logiciel SEEK [Jouis, 1993] a été suivi par le système SERAPHIN (Système Expert de Repérage Automatique des Phrases Importantes d un texte et de leur Normalisation) [Le Roux et al., 1994, Berri, 1996], perme ait l extraction des phrases les plus importantes pour la construction automatique de résumés. La généralisation de ce e approche a produit le système SAPHIR [Berri et al., 1996], qui offre la possibilité de filtrage sémantique selon différentes stratégies de sélection. La plate-forme ContextO [Crispino, 2003], qui a pour principal objectif le filtrage sémantique des textes à travers les annotations. Réalisée en Java, elle est composée d un système de gestion des connaissances linguistiques et d un moteur d Exploration Contextuelle. Le système actuel Excom (EXploration COntexutuelle Multilingue) a été implémenté après une évaluation critique des performances du système ContextO. Deux réalisations ont été proposées : le moteur Excom-1 [Djioua et al., 2006], réalisé en Perl avec l utilisation de XSLT ; et le moteur Excom-2 [Alrahabi et Desclés, 2008], réalisé en Java. L implémentation de l Exploration Contextuelle est complètement indépendante des ressources linguistiques. Excom-2 est doté d une interface pour la saisie des règles d Exploration Contextuelle (voir la figure 3.5). Les marqueurs linguistiques (indicateurs et indices) sont définis par des listes de mots ou d expressions régulières stockées au format XML. L interface permet de spécifier les espaces de recherche, les types d indices (positifs ou négatifs), ainsi que l ordre entre les différents indices. Les ressources linguistiques, marqueurs et règles, sont stockées sous forme de fichiers XML. Les textes annotés en sortie sont également sous format XML en suivant la structure DocBook. Le moteur Excom a été testé et utilisé dans de nombreuses applications, dont : le Résumé automatique et les fiches de synthèse [Blais, 2008, Le Priol et al., 2009] ; 104

115 3.4. Applications F. 3.5 : Moteur Excom-2 : interface de saisie des règles d Exploration Contextuelle l extraction et la catégorisation des citations [Alrahabi, 2010] ; évaluation des articles scientifiques par une analyse des citations entre auteurs : l approche Bibliosémantique [Bertin, 2011] ; l identification des définitions à partir de textes scientifiques [Teissedre et al., 2008, Bertin et al., 2009c, Hacène, 2008] ; les flux RSS pour la rencontre [Djioua et al., 2007] ; l annotation des relations de localisation et d identification [Le Priol et al., 2006] ; l annotation des spécifications informatiques de besoins pour la conception de logiciels [Garcia-Flores, 2007] ; l annotation des événements naturels [Gwiazdecka, 2009, Elkhlifi et Faiz, 2010] ; l identification des hypothèses dans des textes en biologie [Desclés et al., 2010, Desclés et al., 2009]. 105

116 C 3. M E C Résumé automatique et fi es de synthèse Les annotations sémantiques ont permis de me re en place des stratégies de résumé automatique par l extraction des phrases annotées dans lesquelles la priorité d extraction est définie à partir des catégories d annotation. Ce travail a abouti à la réalisation d un système de Résumé automatique pour les articles scientifiques [Blais, 2008]. Ce type d approches permet de me re en place des résumés automatiques personnalisés et dynamiques, ainsi que des fiches de synthèse, qui sont des extraits catégorisés est structurés suivant un ensemble de points de vue de fouille. Il s agit d un nouveau type de documents, produits automatiquement et offrant un accès rapide aux informations saillantes contenues dans un ou plusieurs documents sources. Plusieurs réalisations ont été proposées avec le traitement de différentes cartes sémantiques [Atanassova, 2006, Le Priol et al., 2009]. La construction de fiches de synthèse des articles en biologie a été abordée par [Desclés et al., 2011] qui étudie l extraction et la catégorisation automatique des hypothèses dans le cadre du projet BioExcom [Desclés et al., 2010, Desclés et al., 2009]. Interface de navigation pour la Bibliosémantique Le nombre croissant de publications scientifiques accessibles en ligne pose le problème de l évaluation scientifique, ainsi que de l exploitation des connaissances contenues dans les articles scientifiques. En effet, il a été montré que les outils bibliométriques sont insuffisants pour une évaluation efficace au niveau des chercheurs. Si l approche bibliométrique repose sur des données statistiques des citations afin de fournir des outils d analyse numérique, il est plus pertinent de s intéresser aux relations entre auteurs, à savoir comment un auteur est cité par un autre auteur. Les limitations de l approche bibliométrique s expliquent en partie par une compréhension incomplète des actes de citation. Un auteur, est-il cité pour ses résultats, pour ses méthodes, ou pour ses définitions? Afin de répondre à ce besoin, [Bertin, 2011] a développé une nouvelle méthode, la bibliosémantique, dont l objectif est l analyse des actes de citation dans les publications scientifiques. Elle repère dans les textes des traces discursives des actes de citation, 106

117 3.4. Applications qui sont exploitées afin de proposer des outils informatiques de veille et d évaluation scientifique. L analyse bibliosémantique proposée par [Bertin, 2011] repose, dans un premier temps, sur l identification des références bibliographiques au sein des textes, permettant d identifier les segments contenant les citations. Dans un deuxième temps, la méthode d Exploration Contextuelle est employée afin de catégoriser les relations entre auteurs en recherchant des marqueurs linguistiques associés aux points de vue de la carte sémantique «Bibliosémantique». L annotation se fait de façon automatique par le moteur Excom. Par ailleurs, [Bertin, 2011] propose une classification des références bibliographiques en quatre classes selon des critères morphologiques. Les liens entre l auteur d une publication et les auteurs cités sont établis après l analyse de la bibliographie où les références dans le texte sont liées aux travaux cités dans la bibliographie. F. 3.6 : Interface de recherche d informations et d analyse bibliosémantique L automatisation de l ensemble de ces traitements permet la mise en place d un système bibliosémantique perme ant l analyse automatique de publications scientifiques et l exploitation des résultats dans une interface de navigation sous forme d un service web. L outil de navigation utilise les modules de recherche d informations, ainsi que des librairies d interrogation de la base de données développées dans la présente thèse 107

118 C 3. M E C F. 3.7 : Une bibliographie augmentée produite par l analyse bibliosémantique (voir chapitre 7). L interface dynamique pour la bibliosémantique permet de dresser les profils des auteurs selon les motivations pour leurs citations, d identifier et catégoriser les citations individuelles, d effectuer des recherches par auteur, par point de vue et par mots clés (figure 3.6). Ce e implémentation a également donné naissance à de nouveaux produits documentaires, tels que les notices bibliographiques augmentées (figure 3.7) facilitant l exploitation des annotations par l utilisateur [Bertin et al., 2009a]. De plus, ce e approche est adaptée aux besoins en veille, évaluation, synthèse. En effet, les besoins de la veille consistent aussi à détecter l émergence, à analyser des signaux faibles, ainsi qu à fournir d autres évaluations «plus qualitatives». Á titre d exemple, l analyse bibliosémantique de la présente thèse se trouve dans l annexe, page 295. Fouille sémantique de thèses en ligne La diffusion sur internet des thèses offre aux jeunes docteurs une meilleure visibilité de leur recherche. Cependant, l exploitation efficace de ces documents de plusieurs centaines de pages nécessite des outils de filtrage et de recherche d informations puissants et adaptés. Actuellement, les outils proposés ne perme ent qu une navigation 108

119 3.4. Applications hyper-textuelle à partir de la table des matières ou, au mieux, une recherche par mots clés. Pourtant, les thèses sont des travaux importants qui sont souvent novateurs et qui sont le résultat de plusieurs années de recherche. Nous avons proposé, dans le cadre d un projet de l Université Paris-Sorbonne, un outil de fouille des thèses en ligne d un nouveau type, perme ant un aperçu concis, mais structuré du contenu de la thèse par un filtrage d informations précis avec une navigation et recherche d informations selon des points de vue de fouille [Desclés et al., 2010]. Dans la phase expérimentale de ce projet, nous avons travaillé sur une cinquantaine de thèses provenant de sept écoles doctorales de l Université Paris-Sorbonne. Ces thèses portent sur différents domaines tels que les le res, la li érature, l histoire, la géographie, l histoire de l art. Le traitement proposé est complètement automatique. L indexation et la recherche d informations ont été assurées par le système développé dans la présente thèse. Projet IDEFICS en partenariat avec l AUF Le projet IDEFICS (L Indexation, le Dévelopement, l Évaluation Francophone de l Information et de la Communication Scientifique) associe l Université Paris-Sorbonne (Paris-IV) et l Agence Universitaire de la Francophonie (AUF) pour la construction d un prototype d un système de traitement automatique qui devrait être présenté en octobre 2012 à la réunion des Chefs d États avec pour objectif un projet plus important. Dans ce e phase préparatoire, il s agit d annoter les textes d un corpus fourni par des éditeurs dans les trois domaines suivants : la santé, la sécheresse et l agriculture. Ce e annotation a pour but la mise en place d un système de recherche d informations et des fiches de Bibliosémantique. Si le projet est piloté par le laboratoire LaLIC, il associe également le département de langues romaines de l Université de Sofia «Clément d Ohride», l Institut des Hautes Études Commerciales de Carthage (IHEC), l Institut Supérieur de Gestion de Tunis (ISG) et l Université Libanaise à Beyrouth. Après une première réunion en mars 2011, le projet a été présenté à l occasion du 50 e anniversaire de l AUF, lors du colloque sur «le français, langue de l innovation» qui s est déroulé à Montréal en septembre Ce e 109

120 C 3. M E C présentation a donné naissance à un partenariat qui se concrétise par une convention associant l AUF et l Université Paris-Sorbonne. 110

121 D Exploitation automatique des annotations sémantiques 111

122

123 C 4 Proposition d une stratégie de re er e d informations Sommaire 4.1 Un système de recherche d informations exploitant les annotations sémantiques Principe Extraction des connaissances à travers des annotations sémantiques Expertise humaine pour la recherche d informations Stratégies de recherche d informations et de navigation Orientation de la recherche par rapport aux points de vue sémantiques Documents secondaires : une réponse au besoin de l utilisateur

124 Résumé du chapitre 4 Dans ce apitre nous proposons un système de re er e d informations perme ant une re er e selon des points de vue de fouille. Ce système exploite les annotations sémantiques issues du moteur Excom. Le langage des requêtes prend en compte des points de vue de fouille organisés dans des cartes sémantiques construites par des experts. Nous décrivons l ar itecture générale du système, ainsi que les stratégies de re er e et de navigation sémantique dans les textes. Enfin, nous abordons la question des documents secondaires, qui constituent de nouvelles représentations des documents produites par différentes méthodes d extraction et synthèse suivant un besoin spécifique exprimée dans la requête. Les détails sur les traitements mis en place et sur l implémentation du système seront présentés dans les apitres suivants. 114

125 4.1. Un système de recherche d informations exploitant les annotations sémantiques 4.1 Un système de re er e d informations exploitant les annotations sémantiques L originalité de notre approche réside dans le fait que les corpus traités sont déjà annotés selon des points de vue de fouille sémantiques. Les organisations des cartes sémantiques sous-jacentes perme ent de restreindre considérablement les ensembles de phrases candidates, afin de fournir des résultats de recherche pertinents par rapport à un besoin ciblé Principe L annotation sémantique permet en effet d accéder au contenu textuel de façon plus pertinente que par une recherche uniquement par mots clés. Il s agit d étendre le modèle de recherche classique afin de prendre en compte des points de vue de fouille, qui sont annotés dans les textes et qui perme ent de filtrer l ensemble des occurrences des termes de la requête. Si les annotations font partie de l index du système, elles sont également utilisées par le langage des requêtes, donnant ainsi la possibilité d exprimer le besoin informationnel à partir de relations sémantiques. Nous nous intéressons ainsi au système informatique, perme ant l indexation de documents textuels structurés et annotés par des points de vue, proposant des traitements plein texte et des fonctionnalités de gestion des contenus, d extraction et de génération de documents secondaires dans une perspective de recherche d informations. Nous construisons un système dédié aux interfaces de navigation sémantique. Nous décrirons ici le principe et l architecture générale du système. Le schéma sur la figure 4.1 présente les principales étapes du traitement automatique. Les ressources linguistiques pour l Exploration Contextuelle se trouvent au cœur du système. D un côté, les cartes sémantiques, les marqueurs et les règles sont utilisés pour annoter les documents. D un autre côté, ces mêmes ressources structurent les interfaces d accès à l information, offrant à l utilisateur la possibilité de formuler des requêtes selon des points de vue qui sont organisés dans les cartes sémantiques. À partir des extractions 115

126 C 4. P F. 4.1 : Schéma général du traitement automatique utilisant des annotations sémantiques, l utilisateur peut parcourir le contenu des documents et créer des aperçus selon des cartes sémantiques, après un filtrage par des mots clés. Il peut également accéder à des documents secondaires, tels que des fiches de synthèse Extraction des connaissances à travers des annotations sémantiques La recherche d informations s appuyant sur des annotations par des points de vue permet d aborder les relations sémantiques exprimées dans les textes. Un utilisateur 116

127 4.1. Un système de recherche d informations exploitant les annotations sémantiques peut ainsi, à partir d un mot clé recherché, obtenir un panorama des relations exprimées par l ensemble des segments contenant l occurrence de ce mot clé dans les textes. La compréhension d un terme de recherche peut alors s éclairer à travers des segments annotés et extraits par le système. La recherche à partir d un mot clé permet ainsi de me re en valeur le concept associé par l exploitation des relations établies avec d autres concepts. La nature de la méthode d Exploration Contextuelle permet d obtenir une grande précision, ce qui implique également une forte valeur informative des résultats de la recherche. Nous nous plaçons dans un contexte de traitement d articles scientifiques, afin de concevoir des systèmes d accès à l information pour des chercheurs : interfaces d aide à l analyse et la production scientifique. La recherche d informations que nous cherchons à proposer repose avant tout sur la connaissance contenue dans les cartes sémantiques. Afin de mieux définir le système que nous cherchons à construire, nous pouvons le comparer à un moteur de recherche classique. Imaginons que le corpus comprend plusieurs textes scientifiques et des thèses sur le thème de la peinture. Si un utilisateur souhaite rechercher les définitions du mot «peinture» ou les différentes prises de position par rapport à ce e notion avec un moteur classique, en recherchant le mot clé «peinture», il serait confronté à une multitude de résultats, dont une grande partie non-pertinents, du fait de nombreuses occurrences du terme «peinture» dans le corpus. De plus, l enrichissement de sa requête par des termes comme «définir» ou «est» ne perme ra pas de retrouver toutes les définitions de façon fiable. L exploitation des annotations sémantiques dans ce cas offre la possibilité d extraire l ensemble des segments contenant des définitions liées à la peinture (pour une visualisation du résultat, voir la figure 8.5, page 211), du fait que les relations sémantiques ont été déjà identifiées et annotées dans le corpus. Grâce au moteur d annotations sémantiques Excom, il est possible d annoter de larges corpus d articles scientifiques selon différentes tâches et points de vue de fouille : résumé automatique, définition, bibliosémantique. Nous disposons donc d un grand nombre d annotations sémantiques, qui peuvent être exploitées afin d améliorer la pertinence d un système de recherche d informations. Contrairement à la recherche 117

128 C 4. P d informations classique, qui opère sur le principe de «sac de mots», les annotations sémantiques sont organisées dans des cartes sémantiques, donnant une structure sousjacente des marqueurs de surface sous forme d une ontologie linguistique. Les formes discursives liées à une tâche de fouille sont alors organisées dans des réseaux de catégories, du plus général au plus spécifique. Les tâches de fouille sont un élément fondamental pour la recherche d informations, du fait qu elles correspondent à des besoins spécifiques d un utilisateur. Cela implique que l utilisateur ne sera plus confronté à exprimer son besoin dans le formalisme d un langage logique avec des mots clés, mais il a le choix de la stratégie à appliquer en fonction de l orientation du besoin. L ordonnancement des réponses dans ce e approche joue un rôle spécifique : une réponse donnée trouve son utilité en fonction des relations sémantiques et selon le besoin de l utilisateur. En d autres termes, l annotation sémantique a ribuée à un segment définit en partie sa pertinence du fait qu elle reflète les catégories sémantiques qui sont exprimées. Nous pouvons alors élaborer des stratégies d ordonnancement guidées par les annotations, notamment en considérant le nombre et le type de celles-ci, mais aussi en définissant différentes hiérarchies entre les points de vue. Face à la multitude de segments textuels rendus disponibles, la redondance des informations doit être traitée au sein des réponses du système. En effet, si deux phrases contenant le même terme recherché expriment les mêmes informations, elles seront annotées par des points de vue identiques. Pour le système, il est possible de regrouper l ensemble des segments textuels et de spécifier à l utilisateur que le segment affiché peut être mis en relation avec d autres segments similaires. Les algorithmes de similarité sont proposés dans le chapitre 6. Répondre au besoin utilisateur, c est offrir des réponses pertinentes et non-redondantes Expertise humaine pour la re er e d informations La navigation et la recherche d informations dépendent du niveau des connaissances de l utilisateur, et de la stratégie déployée en relation avec son besoin. En effet, la navigation dans un texte s opère dans le cadre d une orientation informationnelle et 118

129 4.1. Un système de recherche d informations exploitant les annotations sémantiques nécessite une certaine expertise liée à ce e orientation. Selon [Couto et Minel, 2006, p. 227], «[ ] circuler ou naviguer dans un texte est l expression d un processus cognitif qui convoque des connaissances qui sont propres à la finalité de la navigation. Ainsi, [ ] un documentaliste qui doit écrire un résumé d un texte ne navigue pas de la même façon qu un le eur intéressé par l évolution des sentiments d un des personnages d un roman ou qu un linguiste qui explore les annotations placées par un système automatique.» Le système «idéal» de navigation et de recherche d informations devrait intégrer au moins une partie de ce e expertise dans ces fonctionnalités, proposant ainsi une fouille de textes intelligente et une interaction enrichissante pour l utilisateur. Comment passer d un expert humain à un système «expert»? Ce e question centrale dans le domaine de l intelligence artificielle a été une des motivations des systèmes experts développés dans les années 1980, qui formalisent le transfert de l expertise humaine dans un système informatique en utilisant des bases de connaissances, exploitées par un moteur d inférences [Jackson, 1998]. Cependant, notre but s éloigne de celui des systèmes experts classiques, conçus de façon à donner une réponse à un problème concret. Le système que nous construisons doit proposer, en premier temps, un cadre de recherche et de navigation, en établissant un certain nombre de relations entre des documents à travers les métadonnées et les annotations sémantiques, perme ant ainsi à suivre des stratégies de recherche d un expert du domaine. En deuxième temps, les produits secondaires élaborés dans l interaction entre l utilisateur et le système contribuent directement à la découverte de nouvelles informations par l utilisateur et l aident à mieux appréhender le cadre de sa recherche. La conception du système, basé sur des annotations sémantiques, exploite les connaissances linguistiques et l expertise humaine à plusieurs niveaux : d une part, l expert-linguiste intervient dans la construction des ressources, règles et marqueurs, pour l annotation automatique¹, et d autre part, l organisation de la représentation des ¹En effet, la méthode d Exploration Contextuelle qui effectue l annotation automatique peut être vue comme un système expert. Selon [Desclés et Guentcheva, 2003, p. 54] : «Pour résoudre un problème de décision, un système d exploration contextuelle comprend donc : 1) une base de connaissances linguistiques enregistrées sous forme : (i) de listes de marqueurs indiciels spécifiques à la ta e traitée et (ii) de règles d exploration appelées par un indice déclen eur et re er ant des indices complémentaires dans un espace de re er e précis ; 2) un moteur inférentiel argé de me re en œuvre l application informatique des règles avec 119

130 C 4. P données et l interface qui en résulte, font que les fonctionnalités déployées reposent sur des stratégies d experts. Ce choix conceptuel et méthodologique révèle une dimension didactique puisqu il permet l acquisition de connaissances complexes, ce qui se traduit en termes de recherche d informations par un outil perme ant de couvrir un domaine «tel que le ferait un expert» Stratégies de re er e d informations et de navigation Les annotations sémantiques sont produites à partir de ressources, issues d analyses linguistiques poussées, constituées par des experts dans le domaine [Desclés, 1997]. De même, la conception des cartes sémantiques et les déploiements des stratégies de navigation traduisent la façon dont un expert aborde son domaine. Il en résulte que l accessibilité aux résultats permet à l utilisateur, qu il soit novice ou expert, à faciliter l exploitation des connaissances contenues dans les textes, en favorisant l accès aux informations structurées selon des points de vue de fouille. Une interface ergonomique, reposant sur une expertise forte issue des annotations sémantiques ainsi que sur les organisations sous-jacentes, ne peut que contribuer à une meilleure formalisation du processus de la recherche d informations. Les cartes sémantiques constituent, de par leur nature, des différentes manières d aborder un texte et expriment des structures cognitives sous-jacentes à la navigation selon un besoin informationnel de l utilisateur. Par exemple, un étudiant cherchant à retrouver les différentes définitions d un concept donné se contentera d une liste des définitions extraites, en faisant appel au point de vue «définition». S il devait constituer lui-même ce e requête en termes de mots clés, il lui faudrait un certain temps, à la fois pour acquérir la connaissance nécessaire (dans ce cas les expressions linguistiques introduisant une définition), mais également pour appréhender le langage de requête utilisé et ces limites. Ainsi, l étudiant devra trier parmi tous les résultats fournis par le système à partir du terme recherché, afin d identifier les définitions, en espérant qu il y en a une². Un chercheur en train de construire l état de l art sur un domaine, aura consultation des ressources linguistiques.» ²Une recherche des définitions à l intérieur des articles scientifiques oblige à partir du terme recherché 120

131 4.1. Un système de recherche d informations exploitant les annotations sémantiques besoin des mêmes résultats, mais il voudra en plus les croiser par des analyses issues de la bibliosémantique «Bertin2008» : i a utilisé ce e définition? elles étaient ses sources, ses influences? i a cité/adopté/rejeté ce e définition? i est le premier auteur à définir le concept, et qui est l auteur central dans le domaine, le plus cité pour sa définition? L interaction homme-système intervient dans la construction de documents secondaires, issus à la fois des traitements sémantiques automatiques et d une orientation de la recherche choisie par l utilisateur. L accès à l information se fait de façon structurée, à travers des organisations pré-définies dans les cartes sémantiques et reposant sur une expertise forte du domaine. Les documents bruts, tout en restant accessibles, ne constituent plus le but final de la recherche : le contenu est synthétisé selon les besoins de l utilisateur et consultable sous une nouvelle forme faisant apparaître, à travers des organisations et des annotations sémantiques, des relations sémantiques existantes entre le texte et les métadonnées d un ou plusieurs documents. Une telle architecture permet une navigation textuelle riche, tout en prenant en compte l orientation de la recherche de l utilisateur par des mots clés et par des points de vue de fouille. L évaluation de la pertinence s appuie sur plusieurs critères. Premièrement, les points de vue de fouille perme ent de mieux cibler le besoin informationnel, donnant un moyen précis pour exprimer la requête. Deuxièmement, les tâches d annotation spécifient des situations de recherche correspondantes à des choix de stratégie d accéder à l information. Par exemple, si un étudiant a besoin de trouver les différentes citations liées à un terme, la recherche s effectuera dans le cadre de la carte sémantique Citation. De même, la carte sémantique «Résumé automatique» correspond à une situation dans laquelle l utilisateur cherche à extraire les informations saillantes perme ant une synthèse rapide du contenu des documents. Les stratégies de recherche qualitatives redéfinissent ainsi la recherche d informations en introduisant au cœur du système des structures correspondantes aux besoins informationnels spécifiques. Ceci marque également une évolution de la relation claset exclut l utilisation de mots clés comme «définir, appeler, etc.», car une définition est souvent exprimée par le verbe «être» ou encore par une apposition. 121

132 C 4. P sique entre les requêtes et les réponses : les résultats produits par le système sont issus d une stratégie reposant sur une expertise humaine, et constituent des points d entrée pour l utilisateur, afin d accéder au cœur des documents, lui perme ant de s enrichir par rapport à une problématique donnée. Un tel système devrait offrir la possibilité non seulement d extraire les occurrences d un terme, mais également d accéder à la connaissance «cachée» dans les documents par un aperçu des informations pertinentes et structurées selon des points de vue de fouille. 4.2 Orientation de la re er e par rapport aux points de vue sémantiques L information recherchée est rarement contenue dans un seul document. On voit l apparition de modèles itératifs, prévoyant plusieurs reformulations de la requête et la consultation de plusieurs ensembles de réponses par une navigation hyper-textuelle, comme nous l avons montré dans l état de l art. Les modèles existants de recherche d informations cherchent de plus en plus à cibler le besoin de l utilisateur. Nous définissons des scénarii de recherche d informations, liés à des situations de recherche spécifiques. L orientation de la recherche par rapport à des tâches de fouille permet en effet de limiter le cadre de la situation de recherche. Si la problématique de l ordonnancement des réponses dépend de la possibilité d estimer la pertinence d une réponse de façon objective, dans le paradigme de recherche d informations classique, une des difficultés majeures consiste en la distinction d une part entre les différentes situations de recherche et d autre part entre les profils utilisateurs. Nous considérons que le dispositif que nous proposons, à savoir une recherche selon des points de vue de fouille issus des cartes sémantiques, permet de mieux cibler la situation de recherche et donc de lever en partie la subjectivité dans l évaluation de la pertinence. En effet, les tâches de fouille correspondantes à des cartes sémantiques précisent les situations de recherche. Ces tâches de fouille qui fournissent des différents angles selon lesquels nous pouvons déterminer la pertinence de chaque segment textuel. Aussi, la recherche ne s effectue pas de façon générale, mais toujours par rapport à des points de vue prédéfinis 122

133 4.3. Documents secondaires : une réponse au besoin de l utilisateur et sélectionnés par l utilisateur. Par exemple, une recherche par rapport au point de vue hypothèse en Bibliosémantique indique que l utilisateur - étudiant, chercheur, veilleur - cherche à retrouver, dans un corpus de publications scientifiques, les auteurs cités pour leurs hypothèses, qui seront éventuellement liées à un terme précis. Nous avons ici une situation très spécifique, définie à travers la requête, perme ant l analyse fine de la pertinence : nous pouvons juger l utilité de chaque segment retrouvé de façon plus ou moins objective. En contrepartie, le système que nous proposons est adapté pour un nombre limité de tâches bien étudiées. Étant donné que la pertinence des résultats de la recherche est liée à la qualité de l annotation sémantique, qui est une étape préalable, pour élaborer notre approche nous supposerons que l annotation est correcte. Ainsi, nous ne discuterons pas les possibles erreurs d annotation. Par ailleurs, l annotation pour les différentes cartes sémantiques à été objet à des évaluations menées dans d autres travaux³. 4.3 Documents secondaires : une réponse au besoin de l utilisateur Les stratégies appliquées par l utilisateur font appel à plusieurs représentations des résultats. Le processus de recherche d informations est par nature un apprentissage : l utilisateur parcourt un grand nombre d informations, afin d obtenir une synthèse ou un aperçu du corpus traité et enrichir ses connaissances selon son angle de recherche. L application que nous construisons permet la navigation sur plusieurs produits documentaires, laissant le choix à l utilisateur de construire sa propre représentation. Nous ne sommes plus dans le paradigme de recherche documentaire, où le but est d identifier un document brut. Pour nous, les documents bruts sont des sources d information qui sont exploitées afin de fournir des informations synthétisées et structurées selon le besoin de l utilisateur et suivant une stratégie de recherche. Le système de recherche d informations a pour but d éclairer l utilisateur, de lui fournir les outils nécessaires ³Pour une liste de références, voir la section Pour une synthèse sur les évaluations publiées, voir la section

134 C 4. P pour construire une argumentation ou couvrir un sujet sous différents angles. L implémentation d une navigation plein texte fait appel à un changement de représentation : les structures relationnelles des métadonnées et les indexes plein texte sont exploitées afin de construire des documents secondaires selon des stratégies d analyse des segments textuels, des métadonnées et les annotations sémantiques. Ce e nouvelle représentation des documents doit être optimisée de façon à proposer une synthèse pertinente par rapport au besoin de l utilisateur. En effet, le processus de navigation s articule entre la représentation mentale du problème, les a entes de l utilisateur par rapport au système, et la représentation de l information recherchée, qui est construite automatiquement et proposée à l utilisateur par l interface. Les documents secondaires ont ainsi pour but de faciliter l acquisition de la connaissance, en offrant des extraits d informations organisées selon la tâche de fouille définie par le besoin informationnel. Un système de fouille de textes intelligente doit perme re une navigation à travers des contenus informationnels par la mise en relation de ceux-ci, en exploitant les relations sémantiques identifiées par l annotation. Il s agit de proposer à l utilisateur des nouveaux produits textuels, perme ant de mieux appréhender les documents ou de les analyser selon un certain angle, sans devoir parcourir la totalité du contenu de façon séquentielle. Ces documents secondaires⁴ construisent de nouvelles représentations des contenus, qui sont dans certains cas interactives, donnant à l utilisateur des aperçus synthétiques orientés selon sa tâche de recherche. À travers l exploitation et l enrichissement des données et les métadonnées par des annotations et des stratégies de recherche, nous pouvons dans le cadre d une tâche donnée, proposer des documents secondaires qui peuvent être considérés comme un produit avec une forte valeur informationnelle qui offre un accès synthétique aux contenus, comme le montre la figure 4.2. Alors que dans les domaines de la documenta- ⁴Un document secondaire est en général élaboré par un traitement documentaire des documents primaires, tels que l analyse ou le recensement, et contient des informations de nature analytique, portant sur le contenu des documents primaires, par exemple résumé, mots clés, etc., ou de nature signalétique, concernant la forme et la localisation. Les documents secondaires jouent un rôle primordial pour l accès à l information : selon [Gardiès et al., 2007, p. 71], «Les professionnels de l information se sont a a és au traitement des documents primaires par l analyse documentaire (condensation, indexation) et à la création de documents secondaires (référence, notice catalographique). Ils ont ainsi virtualisé le document primaire [ ]». 124

135 4.3. Documents secondaires : une réponse au besoin de l utilisateur F. 4.2 : Valeur informationnelle des documents tion et de la recherche d informations, les documents secondaires sont traditionnellement utilisés pour évaluer la pertinence d un document primaire, les documents secondaires que nous cherchons à produire acquièrent une certaine autonomie, du fait qu ils contiennent toutes les informations nécessaires à l utilisateur. Ces documents secondaires offrent à l utilisateur un accès aux contenus de façon pertinente et structurée selon la stratégie de recherche. Ils sont construits en partie par une interaction avec l utilisateur. Un exemple classique est le résumé automatique : un document court, présentant un aperçu des informations saillantes du document initial, construit par extraction à partir du document source [Blais, 2008]⁵. La figure 4.3 présente un exemple d un résumé automatique dans notre interface. L utilisateur a la possibilité : 1) de re-situer les phrases extraites dans leurs contextes originaux : un clic sur une phrase affiche le document source et l endroit où elle apparaît ; 2) d afficher l annotation des phrases ; 3) ⁵Dans les travaux de [Blais, 2008], suite à des études menées par [Berri, 1996], le résumé automatique d articles scientifiques est construit par l extraction des phrases annotées par la méthode d Exploration Contextuelle selon différentes stratégies de résumé. L annotation s effectue selon un certain nombre de points de vue de fouille, tels que présentation thématique, opinion, soulignement,, perme ant de capter les informations saillantes et les prises de position de l auteur. Le choix des phrases à extraire s opère suivant des stratégies, basées sur les annotations sémantiques, la position des segments dans le texte ainsi que d autres critères. Le taux de compression peut être modifié selon les besoins. 125

136 C 4. P F. 4.3 : Résumé produit par le système d accéder à la fiche de synthèse et au document source annoté ; 4) de régler le taux de compression du texte par le menu à droit. La production d un document secondaire passe par l analyse et la déstructuration du texte initial, afin d en réorganiser certains éléments extraits, pour obtenir une synthèse pertinente. Celui-ci peut être sous forme textuelle, comme dans le cas du résumé, ou sous une autre forme, issue d une organisation spécifique, par exemple une fiche de synthèse ou bien une bibliographie augmentée (voir section 3.4.3). Une fiche de synthèse présente des métadonnées et des extraits du document source sous une forme structurée, en exploitant les annotations sémantiques. Le contenu du document est présenté sous forme compressée, où les informations sont organisées et catégorisées selon des points de vue spécifiques, qui peuvent être définis selon les besoins de l utilisateur. La définition des catégories affichées et leur organisation constituent un modèle de fiche de synthèse, qui dépend de la tâche de fouille. L organisation est conçue de façon à faciliter la lecture et rendre l information accessible. Les phrases extraites sont classées par rapport à leur contenu sémantique, en s appuyant sur les annotations. La présentation permet une lecture non linéaire : l utilisateur peut directement accéder aux informations qui l intéressent. La figure 4.4 présente un exemple 126

137 4.3. Documents secondaires : une réponse au besoin de l utilisateur F. 4.4 : Fiche de synthèse d une fiche de synthèse d un article scientifique, produite automatiquement, où l on peut voir les différentes catégories (méthode, soulignement, opinion) et les phrases affichées pour chaque catégorie. L utilisateur a la possibilité de choisir les catégories à visualiser par le menu à droit, et de retrouver le contexte initial de n importe quelle phrase extraite, en cliquant sur la phrase, ce qui l amène au document primaire. 127

138

139 C 5 Ordonnancement des réponses Sommaire 5.1 Problèmatique Méthodes d ordonnancement existantes Fonctions d ordonnancement Scores indépendants de la requête Apprentissage automatique des ordonnancements Critères d ordonnancement proposés Critères génériques Position dans la carte sémantique Annotations multiples Types d indicateurs Score d annotation Propriétés Critères spécifiques aux cartes sémantiques Carte sémantique «Résumé automatique» Carte sémantique «Bibliosémantique»

140 C 5. O Carte sémantique «Connexion» Discussion

141 Résumé du chapitre 5 Nous proposons une nouvelle appro e à l ordonnancement des réponses qui exploite les annotations sémantiques, et notamment les ressources linguistiques et les structures des cartes sémantiques. Ce e appro e est adaptée au traitement des documents annotés par la méthode d Exploration Contextuelle. Nous présentons brièvement les autres méthodes d ordonnancement existantes, puis nous donnons les critères d ordonnancement que nous avons pris en compte dans notre algorithme. Ces critères nous ont permis de définir un score d annotation dont nous étudions les propriétés par une expérimentation sur des corpora. En travaillant sur trois cartes sémantiques différentes, nous proposons un second groupe de critères qui sont spécifiques aux cartes sémantiques. 131

142 C 5. O L ordonnancement des réponses est un problème central dans la recherche d informations. Dans la pratique un être humain ne peut consulter qu une petite partie de l ensemble des résultats, aussi l ordre de présentation de ceux-ci est primordial. Un bon algorithme d ordonnancement doit perme re de filtrer et de trier les résultats retrouvés, en identifiant ceux qui sont les plus utiles et susceptibles d intéresser le plus l utilisateur. Pour ceci, deux types de critères peuvent être utilisés : critères qui sont dépendants de la requête, appelés un score de contenu, ainsi que des critères qui dépendent uniquement des documents dans les corpora, comme l évaluation de l importance, la popularité ou la fiabilité d un document. 5.1 Problèmatique Notre principal objectif consiste à élaborer des méthodes d ordonnancement en exploitant les annotations sémantiques des corpora issues de cartes sémantiques dans le cadre de la méthode d Exploration Contextuelle. Les points de vue de fouille annotés relèvent des relations sémantiques exprimées dans les segments, afin d offrir un accès précis aux contenus textuels correspondant à un besoin spécifique [Desclés et Djioua, 2006]. Le système exploite ces annotations pour offrir une recherche ciblée perme ant de fouiller le contenu textuel selon des points de vue. L unité textuelle de base dans ce e approche est la phrase : tous les documents sont segmentés en phrases qui constituent un contexte minimal pour le traitement. Une phrase est constituée d un contenu textuel (une suite de termes) et des caractéristiques sémantiques qui sont a ribuées à une partie ou à la totalité de la phrase. De même, les requêtes sont constituées de deux éléments non obligatoires : une suite de termes, reliés éventuellement avec des opérateurs logiques, et un ensemble de points de vue de fouille sélectionnés parmi les points de vue traités. Nous voulons proposer des stratégies d ordonnancement qui exploitent avant tout la spécificité de l annotation sémantique. Le fait de disposer de corpora avec des annotations sémantiques à grande échelle constitue un premier pas vers une recherche d informations intelligente, guidée par le contenu sémantique des textes. Nous considérons 132

143 5.1. Problèmatique que le contenu sémantique d une réponse détermine en grande partie sa pertinence et doit donc être pris en compte pour l ordonnancement. Les relations sémantiques identifiées lors de l annotation sont porteuses d informations saillantes pour la recherche. Nous considérons que les annotations et les ressources linguistiques pour l Exploration Contextuelle peuvent servir pour l élaboration de nouveaux critères d ordonnancement, issus de la sémantique textuelle. Notre objectif consiste à évaluer la pertinence relative des segments, en se basant sur les points de vue annotés, et d introduire alors un score d annotation tenant compte d un ordonnancement issu des contenus sémantiques annotés. Les critères d ordonnancement que nous proposons utilisent d une part les annotations sémantiques des segments textuels, et d autre part, les ressources linguistiques pour l Exploration Contextuelle accessibles à partir des fichiers annotés. D une manière générale, le moteur de recherche que nous construisons présente les résultats sous forme de phrases annotées (plutôt que documents entiers) considérées dans leur contexte d origine et par rapport aux annotations sémantiques. Le score d annotation est indépendant de la requête dans le sens où il peut être calculé hors ligne. Il dépend entièrement des annotations et la structure sous-jacente des cartes sémantiques. La requête, quant à elle, détermine l ensemble des segments pertinents, ainsi que le score de contenu. Ces arguments nous amènent à formuler deux hypothèses de départ, présentées cidessous. Ces hypothèses déterminant le cadre de notre travail en ce qui concerne les critères d ordonnancement. Supposons que la carte sémantique est représentée par un graphe orienté C = (V, A), où V est l ensemble des nœuds et A est l ensemble des arcs. Dans le cas général, la carte sémantique est un treillis. Nous poserons par la suite qu un segment annoté p est représenté par un couple (T p, R p ) où T p est le texte du segment et R p V est l ensemble des points de vue d annotation. Nous considérons également que d est une distance définie entre segments textuels, perme ant de calculer un score de contenu dans un modèle classique de recherche d informations. La définition exacte de ce e distance n influence pas les argumentations de ce chapitre, puisqu elle relève du score 133

144 C 5. O de contenu. Hypothèse 1 : Une phrase p = (T p, R p ) est pertinente pour la requête q = (T q, R q ), si d(t q, T p ) < α et R q R p, dans le cas où l ensemble R q est non-vide. Les requêtes que nous considérons consistent en deux éléments distincts : points de vue de fouille R q et une expression contenant des termes T q. Nous nous intéresserons davantage au cas où ces deux éléments sont présents, perme ant de poser des requêtes ciblées exprimant un besoin informationnel spécifique. Si l ensemble R q est vide, la requête est posée sous une forme classique, constituée uniquement d un ensemble de termes. Nous allons alors considérer qu une phrase p = (T p, R p ) est pertinente pour ce e requête si T q T p ou certains éléments de T q peuvent être associés à des points de vue annotés s ils font partie des indicateurs de ces derniers. Hypothèse 2 : Les pertinences relatives des phrases annotées sont déterminées en partie par l annotation sémantique. En effet, les relations sémantiques identifiées par l annotation apportent des informations plus ou moins saillantes selon les cartes sémantiques. Par exemple, une phrase peut être porteuse de relations, telles que des hypothèses, des définitions, des connexions, Si deux phrases sont retrouvées dans la recherche, dont une contient une définition alors que l autre n est pas annotée, nous pouvons supposer que la définition est la plus pertinente puisqu elle contient, en plus des termes recherchés, des marqueurs linguistiques exprimant une définition. De même, si l utilisateur n a pas spécifié la relation qu il recherche, une phrase exprimant un résultat ou une évaluation serait plus pertinente qu une phrase annotée en tant qu objectif ou citation. La pertinence peut être aussi évaluée en termes de proximité entre les relations annotées et le besoin exprimé par la requête. Les cartes sémantiques sous-jacentes donnent des organisations hiérarchiques entre les points de vue, situant ainsi chaque relation annotée par rapport aux autres relations. Une carte sémantique peut être considérée comme un arbre dans lequel les points de vue se trouvant à un niveau élevé comprennent les points de vue situés plus bas dans l hiérarchie. Ainsi, une phrase annotée avec un point de vue donné est également annotée avec tous ses ancêtres. 134

145 5.2. Méthodes d ordonnancement existantes Avant d exposer l approche d ordonnancement que nous proposons dans ce chapitre, nous faisons une description des principales méthodes existantes. 5.2 Méthodes d ordonnancement existantes Fonctions d ordonnancement La pertinence des résultats dans une grande partie des moteurs de recherche est modélisée par une valeur numérique (un nombre réel entre 0 et 1) qui se calcule dans un premier temps à partir des mesures de similarité entre le document (le résultat) et la requête. Les mesures et les méthodes de calcul dépendent du modèle de recherche d - informations employé. L ensemble des résultats jugés pertinents, c est-à-dire ceux qui ont obtenu une valeur supérieure à 0, peut être ensuite ordonné. L estimation de la pertinence obtenue, constituant le score de contenu [Baeza-Yates et Ribeiro-Neto, 1999, Langville et Meyer, 2006], est calculée en temps réel puisqu elle est dépendante de la requête. Ceci constitue un obstacle important pour la mise en place d algorithmes complexes du fait que le temps de traitement reste très limité. L ordonnancement est défini classiquement par une fonction qui a ribue une valeur numérique à chaque document retrouvé pour la requête, perme ant d induire un ordre total dans la collection de documents. Parmi les fonctions d ordonnancement simples, nous pouvons citer la fréquence des termes, représentant la somme des nombres d occurrences des termes de la requête dans le document, ainsi que la mesure tf-idf (voir la section 1.2.2). En se basant sur la mesure tf-idf, [Robertson et al., 1995, Cummins et O Riordan, 2006] définissent la fonction Okapi-BM25 dans le cadre du modèle probabiliste. La pertinence d un document D par rapport à une requête Q est donnée par la formule suivante : S(D, Q) = n f(t i, D) f(t i, D) + k i=1 ( 1 b + b D longm ).log m d t i (5.1) d ti

146 C 5. O où la requête Q contient les termes t 1,..., t n, longm est la longueur moyenne en termes des documents dans le corpus, D est la longueur de document D et m est le nombre de documents dans le corpus. Les paramètres k et b dépendent de la nature des requêtes et du corpus et elles sont fixées expérimentalement. Par exemple pour TREC-7, k = 1, 2 et b = 0, 75 [Robertson et al., 1999]. La variante BM25F [Robertson et al., 2004] est une extension de ce e mesure pour des documents semi-structurés, qui prend en compte certains aspects de la structure des documents et surtout le texte d ancre des hyperliens. Le document est considéré comme un ensemble de champs différents (titre, corps, hyperliens, etc.) ayant des importances différentes. Le score du document se présente par une combinaison linéaire des scores de ses champs Scores indépendants de la requête La nécessité de développer des moteurs de recherche efficaces sur le Web a orienté les recherches vers des nouveaux scores d ordonnancement, pouvant rendre compte de l importance et de la fiabilité d un document dans un corpus hyper-textuel. Afin de répondre à ce e problématique, plusieurs alternatives aux scores de contenu ont été proposées comme celles s intéressant à la structure du graphe et les relations entre les documents au sein de la collection. Il s agit de scores d un nouveau type, n exprimant pas la proximité entre le document et la requête, mais cherchant à rendre compte de la qualité ou de l importance¹ du document [Kleinberg, 1999, Page et al., 1998, Baeza-Yates et al., 2006, Krishnan et Raj, 2006]. Ces nouveaux scores, appelés également scores d importance, ont la propriété d être indépendants de la requête. Il sont calculés hors ligne et expriment une pertinence relative du document pour une requête quelconque. Les scores d importance introduisent un ordonnancement dans la collection des documents, correspondant à un ordre d affichage souhaité dans une recherche d informations, qui reste constant pour n importe quelle requête. L importance des do- ¹Le terme «importance» exprime ici la pertinence indépendante de la requête. Si nous considérons une classe de requêtes, ce critère d ordonnancement privilégierait les documents qui sont les plus pertinents en moyenne pour ces requêtes. 136

147 5.2. Méthodes d ordonnancement existantes cuments est alors évaluée en faisant abstraction des scores de contenu. Dans un moteur de recherche, lorsqu une requête est posée, l ordonnancement final est obtenu en utilisant les deux scores : le score de contenu et le score d importance. La structure du graphe hyper-texte est exploitée par plusieurs méthodes afin d évaluer l importance des sources. La première méthode opérationnelle est le score Page- Rank, introduit par [Page et al., 1998] et utilisée par le moteur de recherche Google². Il mesure la popularité d une page Web au sein du corpus en se basant sur l analyse des liens entrants vers la page. Ces liens sont considérés comme des «votes» ou des recommandations venant d autres pages. Ce modèle se base donc sur l assomption qu un site est relativement important (ou pertinent) s il est cité par d autres sites importants. Pour chaque page on considère alors : les liens hyper-textes qui pointent vers la page (inlinks). Ils peuvent être internes (liens qui viennent d autres pages) ou externes (liens qui viennent de la même page) ; les liens hyper-textes que la page contient en citant d autres pages (outlinks). Le score PageRank est le résultat de la position relative des pages dans le graphe : l importance d une page influence et dépend des importances des pages dans son voisinage. Si ce principe peut être modélisé par une chaîne de Markov, [Page et al., 1998] utilisent plutôt la notion de «surfeur aléatoire» : un internaute imaginaire qui visite des sites de façon aléatoire en suivant les hyper-liens dans le Web. Une fois sur un site, il suit un des liens existants pour se déplacer sur un site suivant. Ce processus continue indéfiniment. La mesure de l importance d une page correspond alors au temps relatif que le surfeur aléatoire passe sur ce e page. Cela signifie que les pages visitées le plus souvent sont les plus importantes, puisqu elles sont pointées par un grand nombre d autres pages importantes. Le score PageRank représente en fait la probabilité que le surfeur aléatoire se trouve sur une page donnée dans un moment précis. ²En réalité, Google utilise le score PageRank en combinaison avec des scores de contenu pour les documents structurés et de nombreux autres algorithmes. Par exemple, l algorithme Panda récemment déployé, a pour but de privilégier les pages de qualité ayant des contenus originaux. Il s inscrit dans la lu e contre le spam et certains biais introduits par l optimisation des pages web. 137

148 C 5. O Le score PageRank (PR) d une page P i est : P R(P i ) = α P R(P j ) + (1 α) 1 P j N, (5.2) P j B Pi où B Pi est l ensemble des pages qui pointent vers la page P i et P j est le nombre des liens qui sortent de la page P j et N est le nombre de pages dans la collection. Le paramètre α (0, 1) influence le taux de convergence. Le calcul des scores se fait alors de façon itérative à partir de valeurs initiales, en utilisant une représentation matricielle des liens entre les pages. Afin d assurer la convergence, plusieurs ajustements du modèle sont faits, notamment pour traiter les cycles et le cas des pages sans issue qui ne contiennent aucun hyper-lien. Plusieurs paramètres peuvent être introduits dans le modèle, perme ant de gérer la sensibilité des scores par rapport à l ajout de nouvelles pages et la personnalisation de la recherche [Langville et Meyer, 2006]. Des essais ont été faits pour améliorer l efficacité du score PageRank en prenant en compte de nouvelles informations. Par exemple, [Haveliwala, 2003] propose Topic-sensitive PageRank et [Richardson et Domingos, 2002] introduit une variante de PageRank dépendante de la requête dans un modèle probabiliste. L idée d examiner le voisinage d une page dans le graphe a été exploitée par de nombreux autres scores. Par exemple, la méthode HITS [Kleinberg, 1999] a ribue deux scores différents à chaque page : un score d autorité et un score de hub, en supposant que les pages qui sont des autorités fiables sont pointées par de bons hubs, et vice versa. Des études montrent que la performance de HITS est comparable à celle de PageRank [Amento et al., 2000]. Le score TrustRank [Gyöngyi et al., 2004] est une estimation de la fiabilité des pages, afin de détecter le spam. Il est calculé de façon semi-automatique à partir d un petit ensemble de pages contrôlées manuellement. Le score de ces pages est propagé à travers le graphe par les hyper-liens. La valeur a ribuée à une page exprime la probabilité qu elle soit fiable, estimée à partir des valeurs pour les pages de son voisinage. La principale différence entre TrustRank et PageRank consiste dans le fait que PageRank n utilise 138

149 5.2. Méthodes d ordonnancement existantes aucune information initiale sur la qualité d une page. Évidemment, le score TrustRank varie selon le choix de l ensemble des pages examinées manuellement. Afin de pallier certains biais introduits par la structure hyper-textuelle, d autres scores comme BrowseRank [Liu et al., 2008] et TrafficRank [Tomlin, 2003] prennent en compte l historique de la navigation web et considèrent le temps et la fréquence des visites effectuées par les internautes. Il est intéressant d examiner les hypothèses de départ pour le calcul de ces scores d importance. Elles sont souvent liées à la nature des corpora ainsi qu à l interdépendances existantes entre les documents : PageRank et HITS : L importance d une page est proportionnelle au nombre et aux scores des autres pages web qui pointent vers ce e page. TrustRank : La fiabilité d une page dépend de la fiabilité des pages de son voisinage dans le graphe. Les sources fiables pointent rarement vers des pages de mauvaise qualité et vice-versa. BrowseRank : Le nombre de visites et le temps relatif que les utilisateurs passent sur une page, mesurés à partir de l historique de navigation, indiquent l importance de la page. La visite d une page par un utilisateur est considérée comme un vote implicite pour ce e page. TrafficRank : L importance d une page web est proportionnelle au trafic engendré par ce e page et donc au nombre d internautes qui la consultent en moyenne. Deux types d informations sont alors utilisées : la structure du corpus, exprimée par le graphe hyper-texte, et certains aspects du comportement des internautes. Un des problèmes liés à l exploitation des liens hyper-textes pour déterminer la pertinence est le fait que ces liens sont facilement manipulables par les créateurs des sites. En effet, afin d assurer la visibilité d un site, des techniques d optimisation peuvent être utilisées, dans un but de biaiser l ordonnancement par des moteurs de recherche. La fiabilité des liens hyper-textes est alors remise en question. 139

150 C 5. O Un deuxième problème consiste dans le fait que la pertinence d une page, son utilité et qualité par rapport à un besoin utilisateur, n est pas forcement en relation avec sa popularité au sein des autres pages dans le corpus indexé. éoriquement, il n est pas impossible que des pages pertinentes existent sans être connectées ou qui sont peu connues et reçoivent peu de liens entrants. De telles pages ne pourront être jamais retrouvées par des internautes utilisant un moteur de recherche. Au contraire, les sites ayant des scores très élevés de par leur popularité, tels que Wikipédia, Yahoo, Youtube, se retrouvent souvent en tête des listes des réponses, alors que dans de nombreux cas l utilité des informations qu ils proposent est discutable. La prise en compte des comportements des internautes, tout comme la structure hyper-texte, favorise les pages qui sont déjà populaires au sein de la communauté. La méthode BrowseRank utilise l historique de navigation afin de déterminer le temps passé sur une page, cet historique de navigation est surtout généré par l utilisation de moteurs de recherche déjà affirmés, notamment basés sur PageRank. Il est donc naturel que l ordonnancement obtenu ressemble en grande partie à l ordonnancement par les méthodes exploitant les hyper-liens. De plus, le temps passé sur une page n indique pas toujours qu elle contient de contenu pertinent. Par exemple, [Liu et al., 2008] affirment que parmi les sites ayant les BrowseRanks les plus élevés se trouvent Myspace, Youtube et Facebook. Il est clair que si les internautes passent plus de temps sur ces sites, c est à cause de la nature de leur contenu, notamment réseaux sociaux et contenu vidéo, et non grâce à une meilleure pertinence pour la recherche d informations. Enfin, le fait qu un utilisateur passe beaucoup de temps sur une page peut être résultat de nombreux facteurs qui ne sont pas liés à la pertinence : contenu plus long, information mal structurée ou moins accessible, distraction de l utilisateur, etc. Ces considérations montrent une conséquence importante de ces approches : l ordonnancement proposé dans la session de recherche d un utilisateur lambda et en fait déterminé en grande partie par le comportement de l ensemble des autres internautes et de l ensemble des auteurs des contenus web. La recherche renvoie souvent vers les informations les plus populaires dans la communauté ou ce qui est «à la mode». Mais ces informations ne sont pas toujours les plus pertinentes, surtout en considérant que 140

151 5.2. Méthodes d ordonnancement existantes la recherche a pour but, par définition, à trouver ce que l on ne connaît pas, ce qui est nouveau, caché, inaccessible Apprentissage automatique des ordonnancements Récemment la problématique de l ordonnancement a été traitée par des techniques d apprentissage automatique. La pertinence étant une notion complexe et multi-dimensionnelle, l utilisation de ces méthodes est motivée par le fait que l apprentissage pourrait théoriquement rendre compte de multiples critères d ordonnancement, sans pour autant devoir analyser et modéliser tous les phénomènes autour de la pertinence. L apprentissage automatique a été appliqué dans de nombreux systèmes de recherche d informations. Étant donnée une collection de documents, l apprentissage automatique des ordonnancements suppose l existence de données d apprentissage, ou corpus d entraînement, qui consiste à un ensemble de requêtes et un ensemble de documents jugés pertinents pour chacune des requêtes ainsi que les valeurs du score de pertinence. La première phase d entraînement consiste à créer une fonction d ordonnancement qui a la propriété de produire exactement toutes les listes ordonnées du corpus d entraînement. Dans une deuxième phase de test, ce e fonction est utilisée afin d ordonner des réponses de nouvelles requêtes. La mise en œuvre des algorithmes d apprentissage des ordonnancements est confrontée à une difficulté importante, qui est la définition des critères d apprentissage pertinents pour l optimisation des mesures d évaluation. En effet, les mesures telles que la précision moyenne MAP et ndcg³, sont difficiles à optimiser directement. Une première approche a été proposée par [Cohen et al., 1999], qui considèrent l ordre relatif des documents en utilisant une fonction binaire de préférence entre chaque couple de documents. Ce e idée a été exploitée par d autres travaux, qui optimisent le rang moyen des documents pertinents en minimisant les erreurs dans la fonction de préférence [Freund et al., 2003, Cao et al., 2006, Burges et al., 2005, Usunier, 2006, Vi aut et Gallinari, 2006]. L optimisation du rang moyen ne donne pas ³Pour des détails sur ces mesures, voir la section 1.2.3, page

152 C 5. O toujours des résultats satisfaisants. Les approches plus récentes se focalisent sur l optimisation des erreurs en début de la liste, par exemple [Volkovs et Zemel, 2009, Buffoni et al., 2010]. Un des problèmes principaux pour le déploiement de telles méthodes reste la création de corpus d apprentissage suffisamment grand et de bonne qualité. Or, l annotation manuelle des corpora d apprentissage est coûteuse. Les éventuelles erreurs ou le manque de cohérence dans les données d apprentissage baissent considérablement la performance de tels systèmes. 5.3 Critères d ordonnancement proposés Nous allons considérer deux types de critères : les critères génériques, qui s appliquent à toutes les cartes sémantiques, et les critères spécifiques, qui sont issus de l analyse d une carte sémantique⁴. Nous définissons des scores liés à ces critères, qui seront ensuite utilisés afin d obtenir un score d annotation Critères génériques Les critères génériques que nous proposons exploitent les organisations hiérarchiques des cartes sémantiques ainsi que d autres propriétés issues de l annotation. Nous donnerons la motivation, puis la mise en œuvre de chaque critère. Nous examinerons des exemples, afin de montrer l action et l influence de chacun des critères proposés sur les listes ordonnées. Une évaluation sera proposée dans le chapitre 9. Les trois critères génériques que nous avons considérés sont les suivants : la position dans la carte sémantique, la présence de multiples annotations et les types d indicateurs. Ils sont issus de la structure des cartes sémantiques et des ressources linguistiques. 142 ⁴Les cartes sémantiques étudiées sont présentées dans l annexe, page 263.

153 5.3. Critères d ordonnancement proposés Position dans la carte sémantique L organisation des points de vue dans les cartes sémantiques est liée à une organisation des marqueurs linguistiques sous-jacents : les points de vue se trouvant plus haut dans la hiérarchie sont plus généraux. En effet, la position des points de vue dans ce e hiérarchie donne une indication sur la pertinence des segments annotés dans une recherche d informations. Ce e position exprime la spécificité relative des relations sémantiques. Rappelons que la construction d une carte sémantique représente une organisation des relations sémantiques dans les textes, des plus générales aux plus spécifiques. C est une ontologie linguistique, structurée sous forme d un arbre ou treillis. Les points de vue, qui sont les nœuds dans ce e structure, représentent des classes de concepts ou de relations et les arcs correspondent à des relations de spécification entre ces classes [Desclés, 2006b]. Chaque point de vue est associé à un ensemble de marqueurs linguistiques de surface, c est-à-dire des indicateurs et des règles d exploration utilisant des indices contextuels qui déclenchent l annotation. Considérons un couple de points de vue (pdv 1, pdv 2 ) A, où pdv 2 est plus spécifique que pdv 1 dans la carte sémantique, nous pouvons formuler les observations suivantes : Si une phrase a été annotée par pdv 1 et non par pdv 2, cela signifie qu elle contient les marqueurs linguistiques perme ant d a ribuer l annotation pdv 1. Comme l annotation par pdv 2 n a pas été déclenchée, la phrase ne contient pas assez de marqueurs pour affiner l annotation. Selon la définition de la méthode d Exploration Contextuelle, ce e situation peut avoir deux raisons possibles : 1. l indicateur porte une sémantique plus large correspondante au pdv 1 et ne perme ant pas de supposer pdv 2 ; 2. le contexte de l indicateur ne contient pas d indices perme ant de déclencher l annotation par pdv 2. L annotation par pdv 2 implique l annotation par pdv 1, puisque (pdv 1, pdv 2 ) A, 143

154 C 5. O c est-à-dire que pdv 1 est plus général et pdv 2 est une spécification de pdv 1. Cela signifie qu une phrase annotée par pdv 2 contient suffisamment de marqueurs linguistiques, indicateurs désambiguïsés par des indices contextuels, perme ant de lui a ribuer ce e annotation ainsi que l annotation par pdv 1. Selon la méthode d Exploration Contextuelle, l annotation par les points de vue spécifiques (les plus fins dans une carte sémantique) s effectue uniquement dans la présence ou l absence de marqueurs contextuels (indices positifs ou négatifs) perme ant de spécifier et de désambiguïser la relation sémantique. Nous pouvons alors supposer que les segments annotés par les points de vue les plus fins contiennent plus de marqueurs (ou des marqueurs plus forts et non-ambigus) de ce e relation, augmentant la pertinence pour une recherche par rapport à ce e carte sémantique. Ces segments sont susceptibles de contenir plus d informations spécifiques correspondantes à la requête. Par ailleurs, les segments qui ne sont annotés qu avec des points de vue généraux (plus haut dans la carte sémantique) contiennent des indicateurs et assez d indices pour leur a ribuer une relation sémantique, mais ne contiennent pas d indices perme ant de spécifier plus loin le type de ce e relation. Par exemple, pour une recherche du point de vue Annonce thématique dans la carte sémantique «Résumé automatique», un segment annoté par Annonce thématique et Objectif serait plus pertinent qu un segment annoté uniquement par Annonce thématique, du fait que le point de vue Objectif et une spécification de Annonce thématique. Concernant la pertinence des résultats de recherche au sein d une carte sémantique, nous pouvons énoncer l hypothèse suivante. Hypothèse : Les segments annotés par les points de vue plus fins dans la hiérarchie d une carte sémantique sont plus pertinents par rapport aux segments annotés par des points de vue plus généraux. Pour un segment annoté p = (T p, R p ) nous pouvons alors définir le score suivant : SP os(p) = 1 M. max pdv R p {N(pdv)}, (5.3) où M est le niveau maximal de la carte sémantique. La fonction N : R p N associe 144

155 5.3. Critères d ordonnancement proposés à chaque point de vue son niveau dans la carte sémantique. Le point de vue le plus général dans une carte sémantique, la racine, a le niveau 1. 1, si pdv 1 V t.q. (pdv 1, pdv) A N(pdv) = k + 1, si (pdv 1, pdv 2,..., pdv k ) V k t.q. (pdv k, pdv) A et (pdv i 1, pdv i ) A, i = 2,..., k. (5.4) Le score SP os prend des valeurs entre 0 et 1, où 1 correspond au niveau le plus spécifique de la carte sémantique. Prenons quelques exemples. Supposons qu un enseignant s intéresse aux publications dans le domaine de l enseignement, apportant des informations précises (méthodes, analyses, résultats, ). Afin de fouiller la bibliographie liée à ce sujet, il pose une requête dans la tâche Bibliosémantique et choisit le point de vue information : Requête T : P : M : Bibliosémantique information enseignant* Parmi les résultats obtenus (figure 5.1⁵), il existe des segments annotés en tant que résultat, méthode et information. Le point de vue information se trouve à un niveau supérieur dans la carte sémantique, et les points de vue résultat et méthode sont ses sous-points de vue. Les derniers deux segments extraits ont obtenu un moindre score, puisqu ils sont annotés avec le point de vue information. Ils ne contiennent pas de marqueurs linguistiques perme ant leur annotation avec un des points de vue plus spécifiques. Les informations qu apportent ces deux segments, tout en étant pertinents, sont moins «utiles» pour l enseignant que les premiers segments extraits, du fait que ceux-ci apportent des résultats et des méthodes. Prenons un deuxième exemple : dans un corpus d articles de presse pour une période donnée, un journaliste recherche toutes les rencontres où il y a eu des discussions poli- ⁵Tous les sorties d écran dans ce chapitre contiennent des indications sur les scores d ordonnancement. Ces scores ne sont pas visibles dans l interface pour l utilisateur final. 145

156 C 5. O F. 5.1 : Résultats de recherche ordonnés : Bibliosémantique ; P information ; M enseignant* tiques. Il pose une requête selon le point de vue rencontre et il souhaite retrouver tous les types de rencontres dans le corpus (physiques, événementielles, réalisées, non-réalisées). Requête T : P : M : Connexion rencontre politique Plusieurs types de rencontres ont été retrouvées (figure 5.2). Les premières phrases sont annotées en tant que rencontre réalisée, physique ou événementielle. Le dernier résultat est moins pertinent : bien qu il mentionne une rencontre, il ne contient pas d indications sur le type de la rencontre. En effet, le contenu de la dernière phrase porte sur le sujet de discussion entre les deux présidents et la rencontre n est pas une information 146

157 5.3. Critères d ordonnancement proposés F. 5.2 : Résultats de recherche ordonnés : Connexion ; P rencontre ; M politique principale dans la phrase. Imaginons enfin qu un utilisateur s intéresse aux rencontres de N. Sarkozy à partir d un corpus d articles de presse. Dans la tâche Connexion, il peut filtrer les rencontres par rapport au mot clé Sarkozy : Requête T : P : M : Connexion rencontre Sarkozy Les figures 5.3 et 5.4 présentent le début et la fin de la liste des résultats de ce e requête. Nous pouvons voir que les premiers quelques résultats sont pertinents puisqu ils expriment des rencontres réalisées. Elles étaient annotées grâce aux marqueurs comme les deux hommes s étaient rencontrés ou à l issue d une réunion à l Élysée. Les résultats en fin de la liste sont toujours pertinents, puisqu ils annoncent des rencontres de N. Sarkozy, mais il sont moins importants. Par exemple, la phrase 17 indique que la visite du président pourrait être l occasion de signer un accord, et la phrase 16 parle de 147

158 C 5. O F. 5.3 : Résultats de recherche 1-5 : Connexion ; P rencontre ; M Sarkozy F. 5.4 : Résultats de recherche : Connexion ; P rencontre ; M Sarkozy l agenda de la visite de N. Sarkozy. Ces exemples montrent que l annotation sémantique constitue une indication importante de la pertinence des résultats. Annotations multiples L annotation multiple d un segment textuel indique la présence de plusieurs relations sémantiques, identifiées pendant la phase d annotation. Selon la méthode d Ex- 148

159 5.3. Critères d ordonnancement proposés ploration Contextuelle, l annotation par un point de vue implique la présence d un indicateur linguistique porteur de la sémantique recherchée. De plus, l annotation est déclenchée après la désambiguïsation de l emploi de l indicateur par son contexte. Nous pouvons donc conclure qu une phrase annotée plusieurs fois porte la sémantique de tous ses points de vue. Nous parlerons d annotations multiples uniquement dans le cas où les points de vue en question n entrent pas en relation hiérarchique dans la carte sémantique, par exemple résultat et méthode dans la carte sémantique «Bibliosémantique». Rappelons que l annotation par un point de vue donné implique l annotation par tous ses ancêtres dans la structure arborescente de la carte sémantique. L annotation par deux ou plusieurs points de vue qui sont en relation de spécification, par exemple résultat et information dans la carte sémantique «Bibliosémantique», ne sera donc pas considérée comme une annotation multiple. La construction de la carte sémantique implique que l annotation par les différents points de vue s effectue de façon indépendante. L annotation par un point de vue n entraîne pas automatiquement l annotation par autres points de vue. Par ailleurs, les points de vue se trouvant au même niveau de la carte sémantique sont soit incompatibles, soit indépendants entre eux. Un segment qui est annoté plusieurs fois cumule l ensemble des relations sémantiques annotées grâce à la présence des marqueurs linguistiques perme ant d identifier chacune de ces relations de façon indépendante. La taille des unités de base du système d annotation est un facteur important pour les occurrences des annotations multiples. Le système d annotation que nous utilisons effectue une segmentation en phrases et le niveau de la proposition n est pas considéré. En effet, le choix d exprimer plusieurs types de relations dans une seule phrase appartient entièrement à l auteur du texte. L annotation multiple est définie au niveau de la phrase et ne peut pas exister au niveau des propositions. Les phrases annotées par plusieurs points de vue contiennent plusieurs propositions, exprimant des relations différentes. Nous pouvons supposer que la pertinence d une phrase annotée augmente avec le nombre d annotations qu elle porte, puisque ces annotations sont liées à des relations 149

160 C 5. O sémantiques indépendantes exprimées dans la phrase. Nous pouvons donc formuler l hypothèse suivante : Hypothèse : Le nombre d annotations différentes d une phrase, au sein de la même carte sémantique, est proportionnel à sa pertinence. Pour un segment p = (T p, R p ), nous pouvons définir l ensemble de ses annotations indépendantes dans une carte sémantique C = (V, A) de la façon suivante : S p = {pdv (pdv R p ) & ( pdv (pdv R p )&((pdv, pdv ) A))} (5.5) Pour définir le score lié aux annotations multiples, nous utiliserons la somme des niveaux des points de vue indépendants : SNum(p) = 1 M pdv S p {N(pdv)} (5.6) Considérons par exemple les premiers quelques résultats de la requête suivante. L utilisateur recherche les remarques te niques liées à la perception⁶ : Requête T : P : M : Résumé automatique remarque technique percepti* Tous les segments extraits (figure 5.5) expriment des remarques techniques : hypothèses, méthodes, Cependant, dans les trois premiers résultats, les doubles annotations hypothèse, conséquence, méthode, soulignement, signalent la présence de plusieurs types de relations dans le même segment. L examen des résultats complets révèle clairement que ces trois premiers segments semblent être plus «utiles» par la richesse des informations qu ils apportent. Les scores Snum de ces segments sont plus élevés. Prenons un autre exemple : un chercheur voudrait fouiller les travaux autour de la notion d opérateur, à partir d un corpus de thèses et d articles en linguistique et logique. ⁶Le mot clé dans la requête se termine par un astérisque, qui permet d indiquer l ensemble des mots commençants par percepti- : perception, perceptible, perceptifs, etc. 150

161 5.3. Critères d ordonnancement proposés F. 5.5 : Résultats de recherche 1-5 : Résumé automatique ; P remarque te nique ; M percepti* Les résultats sont présentés sur la figure 5.6. Requête T : P : M : Bibliosémantique <tous> opérateur Les premières deux phrases sont porteuses de doubles annotations est apportent une information plus pertinente, notamment la première phrase pose une problématique complexe par rapport à une définition, et la deuxième phrase exprime l accord de l auteur de l article avec une citation directe. Les résultats sur la figure 5.7 sont obtenus à partir de la requête suivante : Requête T : P : M : Connexion Connexion Bush Les phrases 2-5 sont ordonnées selon le score Snum. En effet, la deuxième est la plus pertinente, parce qu elle évoque une rencontre planifiée qui n est pas encore réalisée. 151

162 C 5. O F. 5.6 : Résultats de recherche 1-5 : Bibliosémantique ; P <tous> ; M opérateur F. 5.7 : Résultats de recherche : Connexion ; P Connexion ; M Bush La rencontre n est pas le thème central des phrases 3 et 4, et la phrase 5 exprime une proximité. 152

163 5.3. Critères d ordonnancement proposés Types d indicateurs La méthode d Exploration Contextuelle définit plusieurs types d indicateurs selon les règles qu ils déclenchent et les contextes de recherche. Indicateurs forts et indicateurs faibles. Rappelons que par définition, l indicateur est un ensemble d expressions linguistiques qui sont associées à un point de vue donné et qui sont porteuses de la sémantique de ce point de vue. L occurrence d un indicateur peut être déterminée de façon unique. Par exemple, dans la phrase X a été reçu par Y qui exprime un rencontre, nous pouvons dire que l expression a été reçu par est l occurrence d un indicateur du point de vue rencontre. En effet, un interlocuteur n aurait pas besoin de comprendre le sens de X et Y pour supposer que ce e phrase exprime une rencontre. Dans ce sens l expression a été reçu par est porteur de la sémantique principale du point de vue rencontre. En général, les indicateurs peuvent être continus ou discontinus. Si un indicateur est auto-suffisant et que sa présence déclenche l annotation sans vérification d autres conditions, nous parlons alors d indicateur fort. Ceci est le cas quand l indicateur est non-ambigu et identifie la relation sémantique de façon certaine. Cependant, dans la plupart des cas la présence d un simple indicateur n est pas suffisante pour annoter le segment. Par exemple, si nous considérons que l expression a été reçu par est un indicateur d une rencontre événementielle, ce e expression peut être employée dans de nombreux contextes ne signifiant pas de rencontre, tels que la phrase Ce courrier a été reçu par au moins mille personnes. En fait, la présence de cet indicateur dans un segment textuel permet de formuler l hypothèse qu il exprime une rencontre. Un certain nombre de conditions, sous forme d indices contextuels, doivent être vérifiées afin d affirmer qu il s agit bien d une rencontre. Les indices sont nécessaires dans le cas où l indicateur est polysémique. Dans ce cas, nous parlons d indicateur faible. Nombre de marqueurs linguistiques. Un indicateur faible peut faire appel à des règles d Exploration Contextuelle qui vérifient la présence ou absence des indices. Les contextes 153

164 C 5. O de recherche pour les indices sont spécifiés par la position de l occurrence de l indicateur et l élément textuel à annoter. Le nombre d indices est variable selon les indicateurs et les règles. Notons que le nombre d indices dans chaque règle d Exploration Contextuelle est défini par le linguiste. Les indices sont représentés par des ensembles d expressions continues ou discontinues. Ainsi, si une expression discontinue doit être identifiée, le choix de la considérer comme plusieurs indices continus ou un indice discontinu appartient au créateur des ressources. Ce choix est gouverné avant tout par la sémantique. Nous pouvons poser la question suivante : la pertinence d une phrase est-elle dépendante du nombre de marqueurs linguistiques qu elle contient? Si oui, quelle est la nature de ce e relation? Hypothèse : Le nombre de marqueurs linguistiques ayant déclenché l annotation d une phrase est inversement proportionnel à sa pertinence. Nous considérons que si la relation sémantique est exprimée de façon non-ambiguë par un seul marquer linguistique, un indicateur fort, la phrase est parmi les plus pertinentes pour une recherche par rapport à ce point de vue. Inversement, si l indicateur n est pas suffisant pour déclencher l annotation, nous supposons que la pertinence diminue avec le nombre de conditions devant être vérifiées, c est-à-dire des indices contextuels. Nous définissons le score suivant : ST ype(p) = pdv R p 1 K(pdv) + 1, (5.7) où la fonction K : R p N donne le nombre d indices contextuels qui ont été utilisés. Le score ST ype prend des valeurs réelles entre 0 et 1 pour une annotation simple. Par exemple nous pouvons considérer les résultats de la requête suivante : Requête T : P : M : Bibliosémantique information réseau* 154

165 5.3. Critères d ordonnancement proposés F. 5.8 : Résultats de recherche 1-5 : Bibliosémantique ; P information ; M réseau* Les phrases extraites (figure 5.8) sont annotées par des indicateurs faibles, d où les scores ST ype = 0.5 pour les phrases 3-5. Par exemple, dans la troisième phrase, la citation a été identifiée grâce au renvoi bibliographique, qui est l indicateur, et un indice de type «Selon X,» Score d annotation Afin d obtenir un ordonnancement final, nous devons combiner les trois scores génériques que nous venons d introduire. Nous appellerons la fonction d ordonnancement obtenue un score d annotation parce qu il est issu principalement de l annotation sémantique. Ce e fonction est définie de façon à ce que le résultat de l ordonnancement soit identique à l application consécutive des scores SP os, SNum, ST ype et le classement des points de vue. Cela signifie qu un premier tri des réponses est effectué selon le score SP os, puis les réponses ayant des valeurs identiques de SP os sont triées selon SNum, et enfin les réponses ayant des valeurs identiques de SP os et SNum sont triées selon ST ype (figure 5.9). Le choix de cet ordre l application SP os SNum ST ype est motivé surtout par la nature des trois scores : nous considérons en effet que le critère le plus important est lié à la spécificité des relations exprimées et à la richesse des 155

166 C 5. O marqueurs linguistiques présents dans la phrase (le score SP os). L adéquation du score d annotation ainsi défini se confirme également par l évaluation (voir le chapitre 10). F. 5.9 : Application des scores d ordonnancement Une expression de la fonction d ordonnancement peut être donnée sous la forme : SAnnot(p) = 3 (α i S i ), où S = (SP os(p); SNum(p); ST ype(p)) (5.8) i=1 Les coefficients α i ]0, 1] sont fixés de façon à ce que : (S 1 (p 1 ) > S 1 (p 2 )) (SAnnot(p 1 ) > SAnnot(p 2 )) (S 1 (p 1 ) = S 1 (p 2 ))&(S 2 (p 1 ) > S 2 (p 2 )) (SAnnot(p 1 ) > SAnnot(p 2 )) (5.9) Le vecteur α définit une pondération entre les trois scores SP os, SNum et ST ype, et dans un cas particulier, permet de définir un ordre d application de ces critères. Ainsi, les conditions 5.9 garantissent que la fonction SAnnot(p) produit un ordonnancement correspondant à l application des trois scores SP os, SNum et ST ype l un après l autre et dans cet ordre. Des valeurs possibles pour les coefficients α i sont : α = (1; 0, 25; 0, 04). Ce vecteur satisfait les conditions (5.9) pour l ensemble des cartes sémantiques que nous étudions. 156

167 5.3. Critères d ordonnancement proposés Propriétés Le score d annotation que nous avons introduit, est calculé hors ligne et reste indépendant de la requête. Ce dernier peut alors être considéré comme un score d importance. Cependant, plusieurs propriétés le différencient des autres scores d importance que nous avons cités (voir la section 5.2.2). Premièrement, notre score d annotation ne dépend ni de la structure globale du corpus, ni du comportement de l ensemble des utilisateurs. C est exclusivement le contenu qui détermine la pertinence. Le score d un segment donné ne dépend donc pas du reste du corpus, mais uniquement de la sémantique du segment lui-même. Deuxièmement, le score est issu indirectement du contenu textuel en se basant sur une annotation qui explicite des relations sémantiques présentes dans des textes. Dans ce sens, il se rapproche plus aux scores de contenu, qui expriment une proximité entre la requête et les documents selon leurs contenus. Pour le calcul de notre score, l évaluation d un document dépend uniquement de son contenu et non pas du reste du corpus. Troisièmement, le score d annotation s appuie sur des ressources externes, qui ne sont ni le corpus ni la requête. Il exploite, d une part, les annotations automatiques, et d autre part, les cartes sémantiques, qui sont construites par des experts humains et encodent des connaissances linguistiques. L ordre obtenu prend en compte une certaine sémantique du texte, contenue dans les annotations et leur organisation dans la carte sémantique, qui n est pas directement accessible à partir d une analyse par des fréquences des termes. L annotation sémantique préalable, rendue opérationnelle par l Exploration Contextuelle, permet ainsi de révéler et d utiliser des relations sémantiques exprimées dans des textes. Nous constatons que les trois scores SP os, SNum et ST ype que nous avons définis utilisent en partie des propriétés communes des segments annotés, comme le nombre d annotations différentes. Par conséquent, les trois valeurs a ribuées à un segment donné ne sont pas indépendantes les unes des autres. En effet, ces trois scores perme ent de capter et de quantifier ensemble les différentes face es de l annotation d un segment : les niveaux dans la carte sémantique de ses annotations, le nombre d annotations et 157

168 C 5. O les types de marqueurs pour chaque annotation. Ainsi, les segments qui cumulent plusieurs annotations ont un score SNum élevé, et leur score ST ype est théoriquement plus grand que celui d un segment avec une simple annotation. De même, le niveau dans la carte sémantique est utilisé à la fois pour SP os et SNum. Afin d exprimer les relations entre ces scores, considérons un segment p annoté par N p points de vue. Nous avons donc les inégalités suivantes : 0 < SP os(p) 1 0 < SP os(p) SNum(p) N p (5.10) 0 < ST ype(p) N p La figure 5.10 montre la distribution des valeurs des trois scores génériques sur un corpus de segments annotés. Sur les graphiques, l axe horizontal représente les valeurs normalisées. L axe vertical représente le nombre de segments (à gauche) et le nombre de segments sur une échelle logarithmique (à droite). Les distributions montrent qu en général, un grand nombre de segments ont obtenu des scores faibles contre peu de segments avec des scores élevés. La distribution du premier score, SP os, indique qu environ segments ont obtenu le score maximal (valeur 1), alors que la majorité des segments annotés ont été évalués comme peu pertinents (valeur 0,25). Ce score, en dégageant dans un premier temps un ensemble de segments très pertinents, représentant moins de la moitié de tous les segments, effectue un premier tri. Les deux scores suivants SNum et ST ype sont plus sélectifs : peu de segments ont obtenu des valeurs élevées pour ces scores. Le score SNum est pénalisant pour la majorité des segments. Comme nous pouvons le voir à partir des deux points autour des valeurs 0,04 et 0,16, ce critère classe la majorité des résultats en deux groupes distincts (très peu pertinents et peu pertinents), et sélectionne comme pertinents un petit nombre de segments. Enfin, le score ST ype a les mêmes valeurs pour une grande majorité des segments (valeur 0,25), mais permet d éliminer un certain nombre de segments peu pertinents (valeur 0,13). 158

169 5.3. Critères d ordonnancement proposés F : Distributions des valeurs des scores Spos, SNum et Stype 159

170 C 5. O F : Distributions des valeurs des scores SNum et Stype pour les segments avec SP os = 1 Pour traiter efficacement de grandes quantités d information, un score doit avant tout privilégier la qualité de l ordonnancement en tête de la liste des résultats. Les distributions confirment que les scores que nous proposons sont adaptés à ce e tâche. En fait, les scores SNum et ST ype effectuent une sélection fine à partir d un ensemble plus large de segments jugés comme très pertinents par le premier score SP os. Ceci se confirme par la figure 5.11, qui représente les distributions de SNum et ST ype parmi les segments les plus pertinents qui ont obtenu SP os = 1. Ce e figure montre avant tout l efficacité de ces scores pour ordonner le début de la liste de résultats, où l ordonnancement a le plus d importance pour l utilisateur. Les scores opèrent sur des 160

171 5.3. Critères d ordonnancement proposés distinctions fines entre les segments très pertinents. Ainsi, ils sont moins précis quand il s agit de segments peu pertinents ; les valeurs faibles de ces scores ont été a ribuées à des classes de segments assez larges. F : Distributions des valeurs du score SAnnot Ces propriétés des scores définis garantissent une qualité de l ordonnancement surtout en début de la liste des résultats. Ceci est visible également par la distribution des valeurs du score combiné SAnnot, présentée sur la figure Elle montre que, d un côté, une grande partie des résultats peu pertinents sont indistincts pour ce score (valeur 0,2). D un autre côté, le grand nombre de bars distincts entre 0,6 et 1 indique la précision du score pour le classement des résultats en début de la liste Critères spécifiques aux cartes sémantiques Tous les scores que nous avons définis jusqu ici sont indépendants des catégories dans les cartes sémantiques. Ils sont définis de la même façon pour toutes les cartes sémantiques, du fait qu ils s appuient uniquement sur la structure de la carte et des propriétés génériques de ressources linguistiques. Les «étique es» des annotations, et donc le sens exprimé par les points de vue n a pas été pris en compte. Nous pouvons également constater que de nombreux segments reçoivent les mêmes valeurs du score d annotation, car il est calculé à partir des critères de position ou de nombre d an- 161

172 C 5. O notations : c est une fonction discrète et le nombre de valeurs possibles est limité. Par exemple, dans les résultats sur la figure 5.5, page 151, les premières cinq phrases ne sont pas ordonnées entre elles : les valeurs de leurs scores sont égales. Nous considérerons alors d autres critères d ordonnancement plus fins pour pouvoir ordonner la totalité des résultats. Les points de vue se trouvant au même niveau d une carte sémantique expriment des informations différentes. La pertinence des segments extraits varie selon l annotations. Par exemple, si un utilisateur s intéresse aux remarques te niques dans un corpus d articles scientifiques, il trouvera naturellement plus «utiles» les méthodes et les évaluations en tête de la liste, plutôt que les descriptions (voir la carte sémantique «Résumé automatique»). Chaque point de vue est associé à une classe de concepts spécifiques apportant ainsi un degré d importance différent par rapport à une tâche de recherche donnée. Nous introduisons alors des critères d ordonnancement, en s appuyant sur le sens des relations sémantiques annotées, au-delà de leur position dans la carte. Ces considérations s appliquent lorsque la recherche s effectue par rapport à un point de vue général qui ne se trouve pas au dernier niveau de la carte sémantique. Dans ce cas, l utilisateur n a spécifié que partiellement la relation recherchée. Nous pouvons, de façon empirique, définir un classement entre les points de vue d un même niveau de la carte sémantique, exprimant ainsi la pertinence relative des segments annotés indépendamment de la requête. Pour cela, nous sommes guidés par les définitions des points de vue considérés et l orientation de la recherche supposée par chaque carte sémantique. Ce classement définit ainsi un score de pertinence, qui est inversement proportionnel au rang des points de vue. Le score a ribué à un segment p s exprime par la formule suivante : SP dv(p) = pdv R p 1 C(pdv), (5.11) où C(pdv) est le rang du point de vue dans le classement lié à la carte sémantique. 162

173 5.3. Critères d ordonnancement proposés Nous avons étudié en détail les cartes sémantiques «Résumé automatique», «Bibliosémantique» et «Connexion». Carte sémantique «Résumé automatique» La carte sémantique «Résumé automatique» a été élaborée afin de construire un outil pour identifier les segments saillants des textes scientifiques, en organisant des catégories discursives : résultats, méthodes, évaluations, Ces catégories s expriment sur la surface des textes par des marqueurs spécifiques, tels que des traces de mise en texte ou des traces de l auteur. L annotation par rapport à ce e carte sémantique fait partie d un module de résumé automatique par l extraction de segments annotés selon des stratégies de résumé [Blais, 2008]. Pour cela, Blais propose des critères d extraction et deux stratégies de résumé, en introduisant un ordre partiel entre les points de vue, où la pertinence d un segment pour le résumé est déterminée en grande partie par l annotation. F : Classement des points de vue : carte sémantique «Résumé automatique» Afin d exprimer la pertinence relative des points de vue pour la recherche d infor- 163

174 C 5. O mations, nous introduisons un classement à chaque niveau de la carte sémantique. Ce classement définit l ordre d affichage des segments annotés lorsque ces segments ont obtenu les mêmes scores par ailleurs. La figure 5.13 présente le classement associé à chaque niveau de la carte. Nous considérons que les informations les plus importantes dans un article scientifique sont les remarques te niques et conclusives, qui se trouvent en début de classement du premier niveau de la carte sémantique. Les cinq premiers points de vue au deuxième niveau (résultat, hypothèse, ) sont issus des sous-catégories des remarques te niques et conclusives qui ont été réordonnés. Reprenons, par exemple, les résultats de la requête suivante citée plus haut : Requête T : P : M : Résumé automatique remarque technique percepti* Nous avons déjà présenté des résultats de ce e requête qui sont ordonnés uniquement par rapport aux scores Snum et SP os (voir figure 5.5), les résultats ayant des scores identiques n étaient pas ordonnés entre eux. F : Résultats de recherche 1-5 : Résumé automatique ; P remarque te nique ; M percepti* 164

175 5.3. Critères d ordonnancement proposés La figure 5.14 présente les résultats de ce e requête, où l ordonnancement prend en compte le classement défini dans la carte sémantique. Ce critère intervient dans l ordre entre les phrases 2 et 3, qui ont obtenu les mêmes scores génériques. La phrase 5, exprimant une hypothèse, était plus loin dans la liste (sur la figure 5.5), alors qu elle se retrouve ici dans les cinq premiers résultats. Carte sémantique «Bibliosémantique» Ce e carte sémantique constitue une organisation des types de citations entre auteurs dans des publications scientifiques [Bertin et al., 2006, Bertin, 2011]. Elle est issue de l analyse des contextes de références bibliographiques afin de dégager les différentes motivations d un auteur pour citer une publication, par exemple pour introduire une méthode, comparer les travaux entre eux, identifier une définition, etc. Toutes les relations sont considérées par rapport aux citations bibliographiques. Par exemple, le point de vue méthode est associé aux segments contenant une référence bibliographique de travaux qui sont cités pour leurs méthodes. De même, les points de vue comparaison et appréciation expriment un positionnement de l auteur de la publication par rapport aux autres travaux. F : Classement des points de vue : carte sémantique «Bibliosémantique» La figure 5.15 présente le classement que nous proposons pour la carte séman- 165

176 C 5. O tique «Bibliosémantique». Au premier niveau de la carte, nous considérons que les points de vue les plus pertinents sont la comparaison et l appréciation, puis la définition et l information. Le classement au deuxième niveau commence avec les points de vue communs avec la carte sémantique «Résumé automatique», puis les sous-catégories de la comparaison et l appréciation. Remarquons que le point de vue information est vers la fin du classement au premier niveau, mais ses sous-catégories se retrouvent en tête du classement. D un côté, les sous-catégories comme résultat, hypothèse, méthode apportent en général des informations qui ont une importance particulière quand ils sont extraits de textes scientifiques. De l autre côté, si un segment a été annoté uniquement par le point de vue information, son contenu indique que tel ou tel travail apporte une information sans spécifier son type. Dans le cadre d une analyse bibliographique, ce segment est en général moins pertinent qu une phrase apportant une comparaison ou une distance de l auteur par rapport à un autre travail. Prenons comme exemple la requête que nous avons déjà étudiée (figure 5.8) : Requête T : P : M : Bibliosémantique information réseau* Sur la figure 5.16 les résultats sont ordonnés en tenant compte du classement. La troisième phrase exprime un résultat important qui était avant en 5 e position. En effet, les phrases 3 6, qui ont par ailleurs le même score, sont ici ordonnées : d abord le résultat, ensuite les analyses et la citation. Carte sémantique «Connexion» Ce e carte sémantique a pour but d analyser les connexions entre les personnes dans les textes journalistiques [Bouhafs, 2005, Djioua et al., 2006]. Elle distingue trois types de connexions : une rencontre, une proximité, au sens physique ou idéologique, ou une communication, qui peut éventuellement s effectuer à distance. Le classement que nous proposons est présenté sur la figure La figure 5.18 présente les résultats de la requête : 166

177 5.3. Critères d ordonnancement proposés F : Résultats de recherche 1-6 : Bibliosémantique ; P information ; M réseau* Requête T : P : M : Connexion rencontre gouvernement Les deux premiers résultats sont ordonnés grâce à la distinction entre rencontre physique (phrase 1) et rencontre événementielle, dans cet exemple une réunion organisée à l Élysée (phrase 2). Ces deux phrases sont ordonnées selon le score SP dv. F : Classement des points de vue : carte sémantique «Connexion» 167

178 C 5. O F : Résultats de recherche 1-3 : Connexion ; P rencontre ; M gouvernement Les classements que nous avons proposés sont guidés par la définition des points de vue considérés. Cependant, le choix du classement le mieux adapté aux a entes de l utilisateur peut varier selon le contexte de la recherche ou le besoin informationnel. Il existe plusieurs voies d exploration de ce e problématique. Premièrement, il est tout à fait possible de proposer des interfaces de recherche d informations perme ant à l utilisateur de spécifier ces propres classements en désignant quelles sont les catégories les plus pertinentes pour lui en rapport avec son besoin. Une telle approche peut être utile à certains utilisateurs afin de privilégier l extraction de tel ou tel point de vue ou bien de pénaliser le score d un point de vue qui ne l intéresse pas. Néanmoins, une telle utilisation requiert une connaissance approfondie de la carte sémantique. Par ailleurs, si l utilisateur veut simplement privilégier l extraction de tel ou tel point de vue, il en a déjà la possibilité par les champs de recherche. Deuxièmement, le classement au sein d une carte sémantique peut être personnalisé si nous disposons d une modélisation des préférences de l utilisateur en fonction d un profil. Ce e solution reste théoriquement possible. Cependant, la pertinence dépend davantage de la situation de recherche (contexte, besoin, utilisation des résultats) que de la personnalité de l utilisateur. 168

179 5.4. Discussion 5.4 Discussion Les scores d ordonnancement que nous avons définis sont issus uniquement des caractéristiques des cartes sémantiques. Ils captent certaines propriétés de celles-ci, notamment la profondeur, la fréquence des occurrences des points de vue aux différents niveaux, le nombre de marqueurs nécessaires pour les points de vue, l importance relative d un point de vue par rapport aux autres points de vue au même niveau. Le score d annotation d un résultat donné ne dépend que de son annotation et de la carte sémantique. Ce e dernière définit en grande partie l ensemble des valeurs possibles pour le score SAnnot. Nous avons étudié avant tout l ordonnancement dans le cadre d une seule carte sémantique. Le système peut être généralisé pour perme re une recherche selon plusieurs cartes sémantiques à la fois, ou en traitant des annotations issues de cartes sémantiques multiples au sein d un même document. En effet, les cartes sémantiques, telles qu elles ont été conçues, ne sont pas totalement indépendantes : elles définissent différentes voies d appréhender le contenu des documents qui peuvent se croiser ou se compléter. Par exemple, la carte sémantique «Bibliosémantique» comprend le point de vue définition, perme ant d identifier dans les textes des définitions associées à des citations bibliographiques. Il s agit d un cas particulier des définitions qui sont traitées de façon plus générale dans la carte sémantique «Définition». Dans la section nous avons remarqué que le score défini opère des distinctions très fines entre les segments pertinents qui se trouvent en tête de la liste ordonnée. Ceci indique que ce score serait très performant pour l ordonnancement des premiers résultats, ce qui rend cet algorithme efficace pour traiter un grand nombre de résultats. Ce e observation reste à être confirmée par une évaluation afin de confirmer que les segments jugés comme pertinents par l algorithme sont réellement pertinents du point de vue d un utilisateur. Nous effectuons une évaluation dans le chapitre

180

181 C 6 Gestion de la redondance Sommaire 6.1 Problèmatique Méthodes existantes Proposition d une méthode à partir des annotations Expérimentation et évaluation Expérimentation sur un corpus en français Èvaluation sur le corpus MSRPC Discussion

182 Résumé du chapitre 6 Dans ce apitre, nous abordons le problème de la redondance parmi les réponses du système. Nous nous intéressons aux algorithmes de détection des paraphrases et des phrases similaires. Nous proposons une méthode en travaillant sur les phrases annotées, qui exploite les ressources linguistiques pour l annotation et qui peut être utilisée en complément d autres méthodes pour des corpora annotés sémantiquement. Nous faisons une expérimentation sur un corpus restreint en français et une évaluation sur une partie du corpus MSRPC que nous avons annoté partiellement afin d adapter l évaluation à notre appro e. 172

183 6.1. Problèmatique Dans ce chapitre, nous nous intéressons à la détection automatique des paraphrases et des phrases similaires. Pour cela, nous allons proposer des algorithmes limitant la redondance du système d annotation. Ces algorithmes ont pour but de regrouper certains segments textuels selon des critères de proximité sémantique que nous allons définir dans la suite de ce chapitre. L identification des informations redondantes perme ra d optimiser la recherche d informations, de limiter le bruit et donc d améliorer la qualité des réponses. Les premiers résultats proposés doivent en effet couvrir la diversité des informations pertinentes pour le besoin exprimé, dressant ainsi un panorama des contenus exploités. L élimination de la redondance est nécessaire afin d éviter la surcharge de l utilisateur avec des résultats redondants ou trop nombreux. 6.1 Problèmatique Nous nous intéressons à des relations de distance entre les segments textuels traduisant le degré de proximité entre les contenus. Nous pouvons considérer deux relations différentes : 1. paraphrases exactes : lorsque deux ou plusieurs segments expriment les mêmes relations et ont le même contenu sémantique¹ ; 2. segments similaires : lorsque deux ou plusieurs segments expriment plus ou moins la même information, avec d éventuelles nuances. Les paraphrases exactes sont alors des énoncés synonymes. Leur identification a été l objet de nombreux travaux, surtout en employant des méthodes statistiques basées sur les occurrences des termes, étant donné que dans la plupart des cas les paraphrases partagent un vocabulaire commun. Si nous avons rencontré plusieurs exemples de paraphrases exactes dans des articles de presse, elles sont beaucoup moins fréquentes dans des corpus d articles scientifiques. Leur identification s apparente aux travaux d identification du plagiat [Chen et al., 2004]. ¹Le sens du mot paraphrase s éloigne ici du sens li éraire : en effet, selon le Li ré, une paraphrase est un «développement explicatif, plus long que le texte ou que la simple tradu ion du texte». 173

184 C 6. G Nous cherchons à proposer des méthodes pour détecter automatiquement des classes de segments similaires. Ce choix est motivé par le fait que, d un côté les paraphrases exactes sont rares dans les corpora que nous voulons traiter, et de l autre côté, l identification de segments similaires est un élément important de la gestion de la redondance pour la recherche d informations. En effet, il s agit de regrouper les informations proches afin d introduire une organisation parmi les résultats de recherche, basée sur les contenus sémantiques. Pour cela, nous proposons de quantifier le degré de similarité entre segments en vue de nouvelles informations qu ils introduisent par rapport à une requête de recherche d informations. À titre d exemple, considérons les trois phrases suivantes : (a) «Nicolas Sarkozy reçoit Bara Obama vendredi, à Strasbourg, à l occasion du sommet du 60e anniversaire de l Otan.» (b) «Le président américain Bara Obama a été reçu vendredi par son homologue français Nicolas Sarkozy à Strasbourg avant un sommet de l Alliance atlantique.» (c) «Nicolas Sarkozy et Bara Obama ont eu vendredi à Strasbourg leur premier entretien bilatéral depuis l éle ion du président américain, quelques heures avant le début du sommet de l Otan.» Il est clair que la similarité entre deux segments peut difficilement être modélisée par une valeur binaire. En effet, [Desclés, 1988] montre que «la paraphrase n est pas une relation d équivalence mais une relation asymétrique». Si nous considérons les phrases (a) et (b), elles expriment la même relation, notamment la rencontre entre N. Sarkozy et B. Obama. Ce e information est également exprimée par la phrase (c), mais ce e dernière donne également des informations complémentaires et a un contenu qui di ère légèrement des deux phrases précédentes. Nous pouvons alors dire que les phrases (a) et (b) sont plus proches que les phrases (a) et (c). La mesure de similarité que nous voulons introduire prend donc des valeurs numériques afin de tenir compte de différents degrés de proximité. 174

185 6.2. Méthodes existantes 6.2 Méthodes existantes Les méthodes de détection de phrases similaires ont pour but de modéliser et quantifier la proximité sémantique entre des phrases. Beaucoup de méthodes s inspirent des modèles de recherche d informations, par exemple le modèle vectoriel, pour proposer des fonctions de similarité sur des textes. Selon les méthodes, les analyses s opèrent aux différents niveaux : Comparaison de termes de surface et utilisation de n-grammes [Paşca et Dienes, 2005]. Comparaison entre concepts [Corley et Mihalcea, 2005]. Des mesures de similarité entre concepts à partir des ontologies de domaine [Patwardhan et al., 2003, Dutoit et Poibeau, 2002, Leacock et Chodorow, 1998, Resnik, 1995], qui exploitent la structure des ontologies afin de calculer la distance entre concepts. [Poibeau, 2004] propose l extraction de paraphrases en s appuyant sur les structures d arbres syntaxiques afin de déterminer la distance entre des mots. Analyses syntaxiques : la similarité est déterminée par la comparaison d arbres syntaxiques en utilisant des règles [Poibeau, 2004, Qiu et al., 2006, Rus et al., 2008]. Extraction à partir de corpora parallèles multilingues en utilisant une langue pivot [Bannard et Callison-Burch, 2005, Max et Zock, 2008]. Alignement de corpora similaires [Barzilay et Lee, 2003]. Le calcul de la similarité entre phrases trouve des applications dans de nombreux traitements textuels, tels que les algorithmes de groupement, les résumés multidocuments ainsi que la recherche d informations. 175

186 C 6. G 6.3 Proposition d une méthode à partir des annotations La méthode que nous proposons exploite les annotations sémantiques obtenues par la méthode d Exploration Contextuelle. L annotation constitue en effet un premier classement des segments textuels selon leur appartenance à des points de vue. La détection des paraphrases à partir de corpora annotés s appuie sur les trois points suivants : 1. Nous recherchons des similarités uniquement parmi les segments annotés. 2. Les segments similaires se trouvent toujours au sein de l ensemble de segments annotés par les mêmes points de vue. En effet, si deux segments partagent une même annotation, cela signifie qu ils partagent une partie des relations qu ils expriment. 3. L évaluation de la similarité entre segments annotés fait appel à des informations linguistiques précises déjà identifiées par l annotation : marqueurs de surface et règles ayant déclenché l annotation. Le premier point vient du fait que l identification des phrases similaires dans notre approche est liée à un usage précis, notamment la recherche d informations à partir de points de vue de fouille. L annotation constitue en fait une classification, facilitant considérablement l identification des contenus similaires. Le choix d examiner uniquement les segments annotés, constituant environ 1% du nombre total des segments dans les corpora, permet d une part d optimiser le traitement, et d autre part, de limiter les erreurs du système. Le deuxième point est justifié par la définition de segments similaires. Ils ont un même contenu sémantique et expriment les mêmes relations identifiables par l Exploration Contextuelle. Les classes de similarité peuvent alors être constituées au sein des ensembles de segments ayant les mêmes annotations. Le troisième point consiste à l exploitation de l ensemble d informations fournies par l annotation, notamment l organisation des marqueurs et des règles dans les cartes 176

187 6.3. Proposition d une méthode à partir des annotations sémantiques sous-jacentes. Par définition, l indicateur, ayant des occurrences dans des segments annotés, est porteur de la relation sémantique associée au point de vue. Ceci nous permet donc de considérer deux occurrences différentes d un même indicateur comme des expressions synonymes dans les segments textuels, constituant alors un élément commun entre ceux-ci. L algorithme que nous proposons est spécifiquement adapté pour le traitement de textes annotés par l Exploration Contextuelle. Nous considérons en effet les ensembles des phrases ayant des annotations identiques, à partir desquels nous évaluons d abord la proximité entre les occurrences des indicateurs, puis nous comparons leurs contextes. L intérêt de ce e approche est surtout de montrer la faisabilité de la tâche par une nouvelle méthode, issue de l Exploration Contextuelle, même si ce e première étude reste à être approfondie. Dans la construction de cet algorithme, nous avons cherché à privilégier la précision : au lieu de rechercher tous les couples de phrases similaires, nous préférons déterminer avec certitude une partie de ces couples de façon à pouvoir les regrouper dans l affichage des résultats de recherche sans introduire des erreurs. Dans un premier temps, notre approche s appuie sur la comparaison entre les indicateurs localisés dans les segments textuels. Ce e démarche permet de tenir compte de l organisation des marqueurs linguistiques dans des classes. Si deux segments sont annotés par un même point de vue, ils contiennent tous les deux des occurrences de l indicateur qui expriment alors une relation identique. L annotation commune nous permet de formuler l hypothèse que les segments sont similaires. Ce e hypothèse reste à être confirmée ou infirmée par l examen des contextes des occurrences de l indicateur. Pour cela, dans un deuxième temps, nous examinons les éléments communs entre les deux segments, dans les espaces de recherche à gauche et à droite, afin de déterminer le degré de proximité (figure 6.1). Dans ces espaces de recherche se trouvent, entre autres, les arguments de la relation sémantique. Or, pour considérer que les phrases sont similaires, ces arguments doivent être identiques. Nous proposerons ici des règles d identification de phrases similaires, perme ant d a ribuer un degré de similarité entre deux segments annotés par un même point de 177

188 C 6. G F. 6.1 : Identification des phrases similaires en utilisant les indicateurs vue. Les conditions qui sont examinées par ces règles prennent en considération les propriétés suivantes : l équivalence entre les occurrences des indicateurs dans les deux phrases (en tant que chaînes de caractères) ; le nombre d expressions communes entre les deux phrases dans les contextes gauche et droit ; la position relative et la longueur (en mots) des expressions communes. Prenons comme exemple les deux phrases suivantes : (a) «Bara Obama a été reçu par Nicolas Sarkozy à Strasbourg à l occasion du sommet de l Otan au lendemain d un G20 à Londres.» (b) «Le président américain Bara Obama a été reçu vendredi par son homologue français Nicolas Sarkozy à Strasbourg avant un sommet de l Alliance atlantique.» Dans cet exemple, nous avons deux phrases annotées par le point de vue rencontre avec deux occurrences de l indicateur qui sont identiques : «a été reçu». De plus, ces occurrences font partie d un segment plus long qui est commun entre les deux phrases, notamment «Bara Obama a été reçu». Par ailleurs, les expressions «Nicolas Sarkozy à Strasbourg» et «sommet de» sont aussi communes entre ces deux phrases 178

189 6.3. Proposition d une méthode à partir des annotations et se trouvent dans l espace de recherche droit. De plus, si nous disposions d une base d entités nommées, nous pourrions également identifier l équivalence entre «l Otan» et «l Alliance atlantique», et aussi entre «Le président américain» et «Bara Obama». Soit p 1 et p 2 deux phrases différentes annotées par le même point de vue avec des occurrences de l indicateur i 1 et i 2. Un premier critère que nous utilisons est l égalité (des chaînes de caractères) des deux occurrences i 1 et i 2. Définissons le coefficient j : 1, si i 1 = i 2, j(p 1, p 2 ) = 0, sinon. (6.1) Nous formulerons ici les règles que nous proposons, perme ant d évaluer la similarité entre deux phrases. Chaque règle a ribue un coefficient D(p 1, p 2 ), qui évalue la distance entre les phrases et qui prend des valeurs 0, 1, 2,, où 0 correspond à la similarité la plus forte. Règle A : SI il existe une sous-chaîne (s 1 i 1 s 2 ) de p 1 et une souschaîne (s 1 i 2 s 2 ) de p 2, telles que s 1 s 2 L ET il existe une sous-chaîne s 3 de p 1 qui est aussi une sous-chaîne p 2, telle que s 3 L, ALORS D(p 1, p 2 ) = 1 j. (6.2) Règle B : SI il existe une sous-chaîne (s 1 i 1 s 2 ) de p 1 et une souschaîne (s 1 i 2 s 2 ) de p 2, telles que s 1 s 2 L, ALORS D(p 1, p 2 ) = 3 j. (6.3) Règle C : SI il existe les sous-chaînes s 1 et s 2 de p 1 qui sont aussi des sous-chaînes de p 2, telles que s 1 L et s 2 L, ALORS D(p 1, p 2 ) = 5 j. (6.4) 179

190 C 6. G Règle D 1 : SI il existe une sous-chaîne (s 1 i 1 ) de p 1 et une souschaîne (s 1 i 2 ) de p 2 ET il existe une sous-chaîne s 2 dans le contexte droit de p 1 qui est aussi dans le contexte droit de p 2, telle que s 2 L, ALORS D(p 1, p 2 ) = 7 j. (6.5) Règle D 2 : SI il existe une sous-chaîne (i 1 s 1 ) de p 1 et une souschaîne (i 2 s 1 ) de p 2 ET il existe une sous-chaîne s 2 dans le contexte gauche de p 1 qui est aussi dans le contexte gauche de p 2, telle que s 2 L, ALORS D(p 1, p 2 ) = 7 j. (6.6) Parmi les segments communs entre deux phrases, nous considérons comme longs les segments qui dépassent le seuil L en nombre de mots. Ce seuil sera fixé par la suite de façon expérimentale. Les segments ayant moins de L mots seront appelés segments courts. Ces règles sont ordonnées de la plus «forte» à la plus «faible». La règle A, qui est la plus «forte», reconnaît en effet les couples de phrases qui ont au moins trois segments longs communs, notamment s 1 et s 2 se trouvant autour des deux occurrences de l indicateur, et s 3 qui est un segment long. 6.4 Expérimentation et évaluation Expérimentation sur un corpus en français Nous avons effectué une première expérience sur un corpus de 24 phrases en français que nous avons construit manuellement. 180

191 6.4. Expérimentation et évaluation Le corpus contient 24 phrases, séparées en trois groupes : 10 phrases annotées avec le point de vue rencontre, 4 phrases annotées avec le point de vue citation et 10 phrases annotées avec le point de vue catastrophes naturelles. Les phrases sont issues en partie des corpora traités par notre moteur de recherche, ainsi que d autres articles de presse. Nous avons constitué alors un corpus de 96 couples candidats de paraphrases, parmi lesquels nous avons 30 paraphrases (voir la table 6.1). Nous avons présenté ce corpus dans l annexe, page 259. Point de vue Phrases distinctes Couples de phrases Paraphrases rencontre citation catastrophes naturelles Total T. 6.1 : Corpus d expérimentation VP FP FN Précision Rappel L = ,36% 100% L = ,21% 100% L = ,07% 73,07% L = ,66% 42,30% L = % 77,93% T. 6.2 : Résultats : corpus d expérimentation F. 6.2 : Rappel et précision : corpus d expérimentation 181

192 C 6. G Sur ce corpus, nous avons lancé l algorithme avec différentes valeurs de L. La table 6.2 et la figure 6.2 présentent les résultats obtenus. Ces premiers résultats montrent que la précision augmente très rapidement avec les valeurs de L. Pour L = 4 nous avons une précision de 91,66%, ce qui est satisfaisant. Le corpus utilisé dans ce e évaluation est très restreint et ne permet pas de tirer de conclusions générales Èvaluation sur le corpus MSRPC Ne disposant pas d un grand corpus de paraphrases annotées sur lequel nous pourrions tester notre approche, nous nous sommes appuyés sur un corpus existant en anglais, qui a été construit spécifiquement pour l évaluation des méthodes d apprentissage de détection des paraphrases. Le corpus Microso Resear Paraphrase Corpus (MSRPC)² [Dolan et Brocke, 2005] a été publié dans le but d encourager les recherches dans le domaine de la paraphrase. Il contient 5801 couples de phrases extraites à partir des sources d articles de presse en ligne sur une période de 18 mois. Les couples de phrases extraites sont annotés manuellement : chaque couple est examiné par deux juges humains qui doivent décider si les deux phrases sont «sémantiquement équivalentes» ou non. Chacun des juges a ribue une des deux valeurs possibles : paraphrase ou non-paraphrase. Les cas de désaccord entre les deux juges, qui sont autour de 17%, ont été résolus par un troisième juge. Le corpus est séparé en deux parties : un corpus d entraînement et un corpus de test plus petit. Les paraphrases constituent autour de 67% (voir la table 6.3). Corpus Couples de phrases Paraphrases Pourcentage Test ,49% Apprentissage ,54% Total ,23% T. 6.3 : Microso Research Paraphrase Corpus La table 6.4 montre des résultats des évaluations de différentes méthodes appliquées ²Disponible en ligne sur : h p ://research.microso.com/en-us/. 182

193 6.4. Expérimentation et évaluation Apprentissage non-supervisé Apprentissage supervisé T. 6.4 : Résultats publiés [Corley et Mihalcea, 2005] selon différentes méthodes sur le corpus MSRPC. Ce e synthèse est publiée par [Corley et Mihalcea, 2005]. Nous avons choisi ce corpus, parce qu il contient un grand nombre de paraphrases qui sont contrôlées manuellement et qui sont disponibles en tant que corpus de référence. Cependant, afin d évaluer notre méthode d identification des paraphrases, qui utilise les annotations sémantiques, nous avons sélectionné une partie du corpus MSRPC qui nous avons annotée par des points de vue qui nous intéressent. À partir du corpus MSRPC nous avons extrait et annoté 190 couples de phrases avec le point de vue rencontre. Nous avons constitué les ressources linguistiques pour ce e annotation et nous avons également contrôlé l annotation afin d éliminer les éventuelles erreurs qui pourraient biaiser l évaluation. Parmi les 190 couples examinés, 145 ont été jugés comme des paraphrases par les annotateurs de MSRPC (voir la table 6.5). Phrases distinctes Couples de phrases Paraphrases Pourcentage ,32% T. 6.5 : Corpus MSRPC, point de vue rencontre Les résultats que nous avons obtenus sont présentés dans la table 6.6 et la figure 6.3. La forme de ces courbes est très différente de courbes obtenues pour le corpus en français. La précision reste ici plus ou moins constante (entre 76,32% et 79,31%), ce qui montre que l identification des paraphrases dans MSRPC dépend peu de la longueur 183

194 C 6. G VP FP FN Précision Rappel L = ,32% 100% L = ,06% 98,62% L = ,97% 95,17% L = ,91% 87,59% L = ,58% 77,93% L = ,31% 63,45% T. 6.6 : Résultats : MSRPC, point de vue rencontre F. 6.3 : Rappel et précision : MSRPC, point de vue rencontre des expressions communes entre les deux phrases. Cependant, ce e expérience montre que notre méthode, en utilisant des règles simples, permet d obtenir des résultats comparables à ceux d autres systèmes, grâce à l annotation sémantique préalable. 6.5 Discussion Ce e méthode, telle qu elle est actuellement implémentée, permet l identification d un certain nombre de segments similaires avec une précision satisfaisante. Cependant, elle peut être améliorée, notamment afin de détecter un plus grand nombre de 184

195 6.5. Discussion phrases similaires, par exemple en prenant en compte les synonymes et antonymes ou l identification des entités nommées. L approche que nous avons mise en place est applicable uniquement aux phrases annotées ; elle permet donc de traiter qu une partie d un corpus tel que MSRPC, ou une partie d un corpus de documents textuels. Elle ne peut donc remplacer les autres méthodes pour la détection de paraphrases. Cependant, pour les traitements dans le système de recherche d informations que nous développons, nous nous intéressons uniquement aux phrases annotées. F. 6.4 : Affichage de phrases similaires Les paraphrases sont observables dans des grands corpora traitant un même sujet. Dans des corpora traités dans notre système, nous n avons observé que quelques exemples de phrases similaires. La figure 6.4 présente l affichage d une phrase similaire dans notre interface. Il nous a semblé important d aborder ce e problématique afin de pouvoir envisager des traitements efficaces à plus grande échelle dans un avenir proche. 185

196

197 C 7 Proposition d un système informatique pour l exploitation des annotations Sommaire 7.1 Travaux antérieurs Traitement de l information textuelle La structure des documents Annotation par le moteur Excom Gestion des documents annotés Recherche d informations Corpora d étude

198 Résumé du chapitre 7 Nous décrivons ici le système que nous avons développé. Il permet de re er er des informations et de naviguer dans les documents selon des points de vue de fouille. Ce système exploite les annotations sémantiques et met en place les idées et algorithmes présentés dans les apitres précédents. Nous présentons l ar itecture du système, les oix te nologiques et les traitements automatiques qui ont été implémentés pour les modules de re er e d informations. Enfin nous donnons quelques statistiques sur les corpora qui ont été traités. 188

199 7.1. Travaux antérieurs 7.1 Travaux antérieurs Au sein du laboratoire LaLIC, l automatisation des annotations sémantiques et la fouille textuelle selon différents points de vue a conduit à des projets autour de la recherche d informations. Une première étude sur les reformulations des requêtes par mots clés pour la collecte d informations par points de vue a été proposée par [Naït-Baha, 2004], avec une réalisation d un méta-moteur de recherche RAP. Le développement du moteur Excom et l intégration des annotations sémantiques dans des applications de veille et de recherche d informations a abouti à plusieurs réalisations : Le projet FluxExcom [Djioua et al., 2007] met en place une application informatique pour le traitement de flux RSS pour le repérage des relations discursives de citation et de rencontre dans des articles de journaux. La machine Mocxe [Desclés et Djioua, 2006, Djioua et Desclés, 2007, Desclés et Djioua, 2009a] est une réalisation d un moteur de recherche d - informations sémantiques. En utilisant le moteur Lucene en Java, elle construit un index à plusieurs niveaux : niveau des termes et niveau des annotations sémantiques. 7.2 Traitement de l information textuelle Nous proposons ici une implémentation légère de l indexation et l interface de recherche d informations par des annotations sémantiques, perme ant le traitement de corpora de taille moyen. Le système que nous avons créé permet le traitement rapide de corpora de taille moyenne¹, afin d étudier le phénomène d ordonnancement, la présentation des résultats et la navigation textuelle. L architecture générale de l implémentation est présentée sur la figure 7.1. Nous avons mis en place un serveur Apache avec une base de données MySQL qui effectue l ensemble des traitements nécessaires à l indexation des textes et des annota- ¹Pour une description des corpora traités, voir la section 7.3, page

200 C 7. P F. 7.1 : Architecture du système tions. La base de données contient toutes les métadonnées, les annotations sémantiques, ainsi que les indexes plein texte sur les champs contenant les segments textuels. L accès aux informations indexées se fait par des interfaces de navigation et de recherche d informations développées en PHP/AJAX. Les interfaces ont été conçues de façon modulaire afin d assurer un certain nombre de fonctionnalités communes, par exemple les modèles de formulaires HTML et l affichage des éléments des documents secondaires. Chaque interface utilise le noyau et la partie de la base de données qui lui est dédiée, ainsi que des modules indépendants. Parmi ces derniers sont les bibliothèques de traitement, assurant la cohérence et l intégrité des données, les bibliothèques d extraction des informations structurées, assurant les fonctionnalités de recherche plein texte par mots clés et par points de vue annotés, ainsi que des bibliothèques d affichage². La figure 7.2 présente le schéma général du traitement automatique. ²Dans l implémentation des objets d affichage dynamiques, nous avons utilisé quelques bibliothèques graphiques open source, dont J ery, Open Flash Chart et FreeMind. 190

201 7.2. Traitement de l information textuelle F. 7.2 : Schéma du traitement automatique 191

202 C 7. P La structure des documents Définissons la structure des documents³ : l édition et la diffusion électroniques font appel à des langages de balisage, tels que XML ou SGML, qui sont également devenus des formats d échange standards entre des systèmes informatiques. Ces langages ont une double fonction : d un côté, ils perme ent d associer un contenu textuel avec des métadonnées, et d un autre côté, ils représentent des structures logiques textuelles, tels que titre, section, paragraphe, etc.⁴ perme ant de dissocier le contenu textuel de la structure du document. Ce e structure logique, représentée par une arborescence, est une abstraction de la structure physique du texte, qui est linéaire. Le développement des différentes normes de balisage a été conditionné par la vision du texte comme une hiérarchie ordonnée d objets de contenu⁵, où le contenu d un document est organisé dans des unités à plusieurs niveaux. Notons que si les arbres XML perme ent une représentation des éléments logiques du texte (sections, paragraphes, phrases), ils sont difficilement utilisables pour la gestion d hiérarchies multiples, qui sont parfois nécessaires dans des cas de chevauchement des annotations [Wi, 2004], et insuffisants pour la modélisation de la structure discursive du texte. Par exemple [Wolf et Gibson, 2005] montre la nécessité d utiliser un graphe pour représenter la structure discursive. Pour aller plus loin, dans une perspective de recherche d informations et de navigation, nous pouvons définir le besoin de la façon suivante : filtrer à la fois le contenu textuel et les métadonnées associées afin de faire émerger ce que nous appelons des «blocs de connaissance» pertinents par rapport à un besoin spécifique. Il s agit de ³Notons que le sens originel du mot «document», du latin classique documentum «ce qui sert à instruire, à enseigner», ne prend en compte ni le format ni le support physique. Cela montre qu audelà de sa structure et de son support, la fonction première d un document est la transmission de la connaissance. ⁴Par exemple, les normes de balisage de la Text Encoding Initiative (TEI), proposent des balises pour des éléments textuels à différents niveaux, dont le paragraphe «p» ainsi que les éléments génériques «div1», «div2», perme ant de définir des sections de façon hiérarchique. Un autre format répandu, le format DocBook, utilisé plus souvent pour la production de documents techniques, spécifie des balises au niveau section «section» et paragraphe «para». ⁵Le terme hiérar ie ordonnée d objets de contenu (d anglais ordered hierarchy of content objects (OHCO) ) a été introduit initialement par [DeRose et al., 1990] dans le but de proposer des formats textuels d échange assurant la portabilité, l intégrité des données et la possibilité de multiples visualisations d un document à différents niveaux de représentation. 192

203 7.2. Traitement de l information textuelle reconstruire une visualisation de l information pertinente d un document ou d un ensemble de documents, filtrée par une requête à partir des annotations sémantiques. La structure logique du texte, telle que présente dans le document primaire, ne se retrouve pas immédiatement dans la navigation, mais elle sert comme une grille de lecture perme ant de restituer chaque information dans son contexte, soit par un retour au texte direct, soit par une réorientation de la recherche sur un objet plus spécifique. Par exemple, un utilisateur voulant identifier les définitions d un concept dans un corpus d articles scientifiques, recherchera ce concept dans le cadre de la tâche «définition», afin de retrouver l ensemble des phrases définitoires. À ce e étape, l utilisateur pourra également visualiser le type de chaque définition, son contexte textuel immédiat, le titre de l article, son auteur, les références bibliographiques de l article, etc. En choisissant une définition spécifique, l utilisateur peut affiner sa recherche, s intéresser à l ensemble de définitions, éventuellement d autres concepts, dans ce même document⁶, ou bien réorienter sa recherche vers les auteurs qui définissent ce concept, voire les façons dont ce e définition est citée dans d autres documents. Les documents que nous traitons sont préalablement segmentés en sections, paragraphes et phrases, et annotés selon des points de vue sémantiques par le système Excom en utilisant la méthode de l Exploration Contextuelle [Desclés, 1997, Djioua et al., 2006, Alrahabi et Desclés, 2008]. Comme présenté sur la figure 7.2, les documents segmentés et annotés à la sortie du système Excom, sous format XML⁷, sont importés avec leurs métadonnées relatives dans la base de données relationnelle, qui est interrogée lors de la recherche d informations. Les bibliothèques de traitement que nous avons développées accèdent à la base de données, afin de construire de nouvelles représentations affichées par les interfaces d accès à l information. ⁶Dans le système que nous proposons, l utilisateur peut accéder à une nouvelle représentation du document que nous appelons fiche de synthèse, qui permet une visualisation des phrases annotées classées selon les catégories sémantiques. ⁷Le format utilisé par le système Excom est le format DocBook, enrichi pour prendre en compte la segmentation en phrases. La segmentation se fait par un module dédié, basé sur une analyse de la ponctuation, implémentée initialement dans le système SegATex [Mourad, 1999, Djioua et al., 2006] 193

204 C 7. P Annotation par le moteur Excom Le moteur Excom (Exploration COntextuelle Multilingue) [Djioua et al., 2006, Alrahabi et Desclés, 2008]⁸, construit au laboratoire LaLIC, effectue la segmentation en phrases et l annotation sémantique des textes en utilisant la méthode d Exploration Contextuelle. Les ressources linguistiques pour les points de vue d annotation sont stockées dans des fichiers XML, où les marqueurs (indicateurs et indices) sont définis par des listes de chaînes de caractères ou d expressions régulières. Le moteur Excom prend comme entrée des fichiers en format texte et les ressources linguistiques. Il effectue dans un premier temps la segmentation automatique des textes en sections, paragraphes et phrases, par une étude de la ponctuation [Mourad, 1999], et dans un deuxième temps l annotation automatique selon des points de vue définis. Les fichiers de sortie du système sont des documents XML suivant le format DocBook, où les annotations sémantiques sont ajoutées comme des a ributs des phrases. L annotation consiste à ajouter des informations supplémentaires, telles que : le point de vue et sa position dans la carte sémantique, l indicateur et les règles qui ont été déclenchées, les occurrences d indicateurs et d indices dans le segment (voir la figure 7.3) Gestion des documents annotés Le moteur Excom produit les fichiers XML contenant à la fois le texte des documents et les annotations sémantiques. La figure 7.4 montre le schéma XSD qui définit les éléments XML utilisés pour gérer les annotations. Le texte est segmenté en phrases stockées dans des éléments de type «phrase». L annotation d une phrase s exprime par un élément «optionannotation» qui contient la liste des espaces de recherche, notamment l indicateur, l espace de recherche gauche «avantindicateur» et l espace de recherche droit «apres Indicateur». L étique e de l annotation a ribuée et la règle l ayant déclenchée se trouvent en a ributs. ⁸L implémentation informatique de la méthode d Exploration Contextuelle a conduit à plusieurs réalisations : le moteur Excom-1 [Djioua et al., 2006], réalisé en Perl avec l utilisation de XSLT, et le moteur Excom-2 [Alrahabi et Desclés, 2008], réalisé en Java. 194

205 7.2. Traitement de l information textuelle F. 7.3 : Extrait d un fichier annoté au format XML Afin d assurer l indexation des documents et des annotations, nous avons choisi d utiliser une base de données relationnelle. Ce e approche a l avantage de perme re une grande transparence dans la gestion des champs de l index et une facilité dans le déploiement des interfaces de démonstration. D autres solutions pour l indexation sont possible, notamment l utilisation du moteur de recherche Lucene⁹, écrit en Java. Du point de vue informatique, le stockage des documents dans une base de données a plusieurs conséquences : la structure arborescente est remplacée par une structure relationnelle, où les éléments semblables sont regroupés dans un même champ ou dans une même table. Ainsi, la notion de document individuel s estompe : même si l importation des fichiers XML dans la base de données peut s effectuer sans aucune perte de données, le document en tant que tel dans la base de données n est défini qu à un niveau logique plus abstrait, du fait que son contenu et sa structure sont partagés dans plusieurs tables. En revanche, la structure relationnelle permet, à travers des indexes, d identifier facilement l ensemble d informations liées à un élément donné, tel qu une phrase, un paragraphe ou une annotation. ⁹Le projet Lucene h p ://lucene.apache.org/ est un projet open source qui propose une implémetation d un serveur de recherche comprenant des modules d indexation, de correcteur orthographique et des analyseurs avancés pour le traitement de plein texte. 195

206 C 7. P F. 7.4 : Schema XSD des fichiers annotés 196

207 7.2. Traitement de l information textuelle F. 7.5 : Schéma partiel de la base de données : documents structurés (modèle physique) Les documents structurés sont entièrement stockés dans la base de données. Les tables «document», «section», «paragraphe», «phrase» et «texte» perme ent de représenter les différents niveaux de la structure logique des documents (figure 7.5). Les premières tables mentionnées ici représentent la structure du document et les métadonnées liées aux différents niveaux, alors que le contenu textuel ne se retrouve que dans la table «texte» qui contient l ensemble des phrases, indexées plein-texte afin de rendre possible une recherche classique par mots clés. Les métadonnées d un document, telles que par exemple le titre, l auteur, et la bibliographie, sont prises en charge dans la base de données sous une forme compatible avec le format Bibtex¹⁰. La base de données complète contient en plus les annotations sémantiques (selon des points de vue organisés dans des cartes sémantiques). Les cartes sémantiques sont gérées par des structures de graphes orientés, contenues dans les tables «pdv», «liste_pdv» et «liste», où la position relative de chaque point de vue est définie par les ensembles des sur- et sous-points de vue qui se trouvent dans la table «liste_pdv». La figure 7.7 donne le schéma complet de la base de données. Les indexes et les ¹⁰Le format Bibtex (h p :// destiné à la gestion des listes des références bibliographiques, est utilisé en relation avec les documents Latex, et en tant que format d échange dans certaines applications. Il définit plusieurs types de documents (book, article, etc.) et prend en compte un certain nombre de champs standards selon le type de document (author, title, year, publisher, etc.). Le choix de ce format a été motivé par sa compatibilité avec de nombreuses autres applications bibliographiques, ainsi que par le fait qu il peut facilement être étendu afin de prendre en compte de nouveaux champs. 197

208 C 7. P F. 7.6 : Schéma partiel de la base de données : annotations (modèle physique) relations entre les tables ont été organisés de façon à perme re un accès rapide aux informations pour la recherche. La structure de la base de données se trouve à la page 269 de l annexe. L importation des fichiers XML dans la base de données s effectue par un script PHP, dont nous donnons une version simplifiée ici. 1 <?php 2 function importer_fichier($chemin) { 3 //Connexion a la base de donnees : 4 $db = new mysqli(server_name, db_user, db_user_password, db_name) ; 5 if ($db->connect_error) 6 die( Probleme de connexion : (. $db->connect_errno. ). $mysqli->connect_error) ; 7 8 //Creer le XML : 9 $xml_file = simplexml_load_file($chemin) ; // Calculer le nombre de phrases/segments 12 $no_segs = sizeof($xml_file -> xpath( //phrase //segment )) ; $auteur = $xml_file -> articleinfo -> author ; 15 $auteur = $db -> real_escape_string($auteur) ; $titre = $xml_file -> title[0] ; 18 $titre = $db -> real_escape_string($titre) ; //insert statement : 21 $insert = INSERT INTO DOC (Nom_fichier, Chemin_complet, Taille, Date_dimportation, Titre, Auteur) 22 VALUES (.basename($chemin)., $chemin,.filesize($chemin)., NOW(), $titre, $auteur ) ; ; $doc_id = 0 ; 25 if ($db->query($insert)) 26 $doc_id = $db->insert_id ; 27 else echo Erreur de traitement du document : $insert ; //traitement des sections 30 foreach ($xml_file -> section as $section) { 31 $section_no = $section[ id ] ; 32 $section_titre = $section -> title[0] ; 33 $section_titre = $db -> real_escape_string($section_titre) ; //insert statement : 36 $insert = INSERT INTO SECTION (Titre, Doc_ID, No) 37 VALUES ( $section_titre, $doc_id, $section_no) ; ; $section_id = 0 ; 198

209 7.2. Traitement de l information textuelle F. 7.7 : Modèle physique de la base de données 40 if ($db->query($insert)) 41 $section_id = $db->insert_id ; 42 else echo Erreur de traitement de section : $insert ; $no_seg = 0 ; //traitement des sections : 47 foreach ($section -> paragraphe as $para) { 48 $no_para = $para[ id ] ; //traitement des paragraphes : 51 foreach ($para -> children() as $phrase) { 52 $no_seg ++ ; $texte = str_replace( \n,, $texte) ; 55 $texte = $db -> real_escape_string($texte) ; $insert = INSERT INTO SEG (Doc_ID, No_Para, No_Seg, Section_ID) 58 VALUES ($doc_id, $no_para, $no_seg, $section_id) ; ; $seg_id = 0 ; 61 if ($db->query($insert)) 62 $seg_id = $db->insert_id ; 63 else echo Erreur de traitement de segment : $insert ; $insert = INSERT INTO TEXTE (Seg_ID, Texte) VALUES ($seg_id, $texte ) ; ; 66 if (!($db->query($insert))) 67 echo Erreur d insertion de texte : $insert ; //traitement des annotations : 70 foreach ($phrase -> annotation as $pdv) { 71 $annot_string = $pdv[ title ] ; $pdv_ids = trouver_pdv_ids($annot_string) ; //fonction qui renvoie un array contenant les IDs des 74 // points de vue, c-a-d. le point de vue avec le nom $annot_string 75 // et tous ses sous-points de vue $indicateur = $pdv -> indicateur ; 78 $indicateur = $db -> real_escape_string($indicateur) ; $indices = ; 81 foreach (($pdv -> xpath( avantindicateur/indice apresindicateur/indice )) as $ind) 82 $indices = ($indices == )?$ind :$indices..$ind ; 199

210 C 7. P $indices = $db -> real_escape_string($indices) ; foreach ($pdv_ids as $pdv_id) { 87 $insert = INSERT INTO ANNOTATION (Seg_ID, Pdv_ID, Indicateur, Indices) 88 VALUES ($seg_id, $pdv_id, $indicateur, $indices ) ; ; 89 if (!($db->query($insert))) 90 echo Erreur d insertion d annotation : $insert ; 91 } 92 } 93 } 94 } 95 } 96 return $doc_id ; 97 } 98?> Re er e d informations Les requêtes dans notre système s effectuent à la fois sur des mots clés et des catégories sémantiques. Chaque requête est composée de plusieurs éléments : la tâche de fouille, liée à une carte sémantique ; des points de vue issus de la carte sémantique sélectionnée ; des mots clés, éventuellement liés par des opérateurs ; les corpora sur lesquels s effectue la recherche. Une fois entrées dans le système, les requêtes de recherche d informations sont converties en requêtes SQL correspondantes. Le traitement des mots clés prend en compte plusieurs opérateurs, qui sont fréquemment utilisés dans les moteurs de recherche : les opérateurs logiques AND, OR et NOT, et les parenthèses ; l opérateur de troncature *, perme ant d indiquer un ensemble de mots avec des suffixes différents ; la recherche d une expression exacte si elle se trouve entre guillemets. Les scores d ordonnancement indépendants de la requête¹¹ sont calculés hors-ligne pour chaque segment et les valeurs sont stockées dans des champs indexés de la base ¹¹Pour la définition des scores voir la section

211 7.3. Corpora d étude de données. L ordonnancement est ainsi garanti par des opérations de tri lors de l extraction des résultats. 7.3 Corpora d étude La table 7.1 présente un récapitulatif de la taille des corpora traités par le système. Tous les documents ont été annotés de façon automatique par le système Excom. Les tâches de fouille correspondent à des cartes sémantiques pour l annotation, qui sont décrites dans l annexe page 263. Tâ e Documents Phrases Nombre de mots Mots par phrase Résumé automatique ,03 Bibliosémantique ,96 Connexion ,64 Citation ,09 Hypothèses en biologie ,30 Définition ,80 Total ,24 T. 7.1 : Corpora d étude Le corpus annoté par la carte sémantique «Résumé automatique» a été constitué et annoté par A. Blais [Blais, 2008]. Il comprend d un côté des articles scientifiques issus de l AFIA, des colloques RECITAL 2001, CALS 2006, TALN 2001, et de la revue ALSIC, et d un autre côté, la thèse d Antoine Blais [Blais, 2008] annotée. Le deuxième corpus a été annoté par la carte sémantique «Bibliosémantique» par Marc Bertin [Bertin, 2011]. Ce corpus comprend 8 thèses de l Université Paris- Sorbonne, ainsi que des articles scientifiques issus de TALN 2002, Intellectica , ALSIC 1998, 1999, 2006 et 2007 (liste non-exhaustive). Le corpus annoté pour la tâche «Connexion» comprend des articles issus des journaux Figaro, Le monde et Libération. Les ressources linguistiques pour ce e tâche ont été construites par Aurélien Franchi [Franchi, 2008, Atanassova et al., 2008b], en 201

212 C 7. P utilisant les travaux de [Bouhafs, 2005]. La tâche «Citation» a été étudiée par Motasem Alrahabi [Alrahabi, 2010]. Le corpus comprend des articles de presse, dont 44 en langue arabe et 47 en langue française. La tâche «Hypothèses en biologie» comprend deux points de vue : «nouvelle hypothèse» et «ancienne hypothèse». Ce e tâche vise l identification d hypothèses émergentes dans la biologie [Desclés et al., 2009]. Le corpus, fourni par Julien Desclés, contient des articles scientifiques choisis autour d un thème précis. Le corpus annoté avec la carte sémantique «Définition» comprend deux thèses, annotées également par la tâche «Bibliosémantique» [Desclés et al., 2010]. Les ressources linguistiques pour ce e tâche ont été élaborées par Taouise Hacène [Hacène, 2008]. Tâ e Phrases Phrases annotées Pourcentage Résumé automatique ,00% Bibliosémantique ,41% Connexion ,23% Citation ,05% Hypothèses en biologie ,09% Définition ,75% Total ,92% T. 7.2 : Corpora : pourcentage des phrases annotées La table 7.2 montre que les annotations sémantiques présentent autour de 4% de tous les segments textuels. Ce constat est important puisqu il signifie que la recherche d informations dans notre système s effectue uniquement sur ces 4% du texte qui ont été filtrés par l annotation. Ceci permet d éliminer une grande partie du bruit : les réponses pertinentes se trouvent parmi les segments annotés car ils sont porteurs des relations sémantiques liées aux points de vue de fouille. La précision de l annotation est ainsi un facteur important pour la pertinence des résultats. 202

213 C 8 Interfaces de re er e d informations sémantique Sommaire 8.1 Interface de recherche d informations Langage des requêtes Interrogation du moteur de recherche Présentation des résultats Interfaces dédiées aux différentes tâches de fouille et collaborations Discussion et exemples d utilisation

214 Résumé du chapitre 8 Dans ce apitre, nous présentons les interfaces qui ont été mises en place afin de proposer une re er e d informations fluide et une navigation aisée dans les contenus sémantiques. Nous avons implémenté des librairies graphiques réutilisables dans différents types d interfaces offrant des fonctionnalités de re er e d informations par points de vue de fouille. Nous décrivons ici l interface principale d interrogation du moteur de re er e et la présentation des résultats. Nous discutons de l utilité du retour au contexte ainsi que la construction de différents types de documents secondaires. Enfin, nous donnons des exemples d utilisation sous forme de scénarii de re er e d informations. 204

215 Selon [Hearst, 1999], une bonne interface de recherche d informations doit proposer une interaction homme-machine, afin de répondre aux objectifs suivants : Aider l utilisateur à formaliser son besoin informationnel et l exprimer dans une requête ; Perme re la sélection parmi des sources d information possibles ; Guider l utilisateur dans la compréhension des résultats de la requête, d un côté en explicitant les critères pour l extraction des résultats, et d un autre côté, en fournissant un certain contexte aux informations et documents extraits ; Assurer un suivi du progrès de la recherche, en explicitant les choix qui ont déjà été faits et en perme ant le retour vers des stratégies abandonnées, le changement de la stratégie, et le passage de l information vers le contexte de nouvelles stratégies. Toujours selon [Hearst, 1999], au centre de l interaction homme-machine se trouve le retour d information¹ sur la relation entre la requête et l ensemble de réponses retrouvées, ainsi que les relations entre les documents. Pour le système que nous avons construit, nous avons développé des interfaces qui cherchent à répondre aux conditions suivantes : 1. Étant donné que nous travaillons à partir de documents structurés au format XML, l interface doit perme re de visualiser la structure et les différents éléments du contenu. 2. Nous privilégions une forte interaction entre l utilisateur et le système pour perme re la construction de documents secondaires en réponse des requêtes. 3. Les cartes sémantiques sont des supports de fouille textuelle qui orientent la recherche et structurent les sorties. ¹Feedba en anglais. 205

216 C 8. I L interface de recherche d informations que nous proposons exploite les annotations sémantiques selon des points de vue de fouille, perme ant d associer une requête par mots clés à une ou plusieurs relations sémantiques recherchées, afin d obtenir des résultats pertinents². Les phrases contenant la relation sémantique visée sont directement localisées dans les documents et affichées dans leurs contextes immédiats (voir la figure 8.1). Après avoir parcouru ces résultats, l utilisateur a la possibilité de remonter aux documents sources, ou d accéder aux documents secondaires, tels que les fiches de synthèse et les résumés automatiques. F. 8.1 : Interface de recherche d informations sémantique 8.1 Interface de re er e d informations Langage des requêtes Dans notre approche, les requêtes sont composées de deux éléments : un point de vue lié à une carte sémantique et un ou plusieurs mots clés qui seront associés au point ²Une première approche a déjà été proposée par [Desclés et Djioua, 2007]. 206

217 8.1. Interface de recherche d informations de vue pendant la recherche, que nous appelons également termes de filtrage. Un segment textuel est considéré comme pertinent, s il est annoté par le point de vue recherché, et s il contient les termes de filtrage entrés par l utilisateur³. Cela constitue un enrichissement considérable du langage des requêtes par rapport aux systèmes traditionnels, impliquant une meilleure précision dans l expression du besoin de l utilisateur. En effet, la possibilité de définir des relations sémantiques recherchées signifie une indépendance relative des moyens linguistiques employés dans les documents primaires : nous savons qu une même relation peut être exprimée par de nombreuses expressions linguistiques différentes, faisant appel à un vocabulaire et une syntaxe variés. L annotation sémantique, en explicitant un certain nombre de relations sémantiques présentes dans les textes, rend possibles leurs identifications en faisant abstraction des moyens linguistiques par lesquels ces relations ont été exprimées. Par exemple, pour identifier toutes les hypothèses présentes dans un texte, l utilisateur n a pas besoin de connaître toutes les façons d exprimer une hypothèse. Ce constat signifie également que la formalisation du besoin de l utilisateur, qui consiste dans la construction de la requête, se fait de façon plus intuitive que la simple utilisation de mots clés : les points de vue de fouille, dont l identification automatique fait appel à des ressources linguistiques et des règles d annotation, sont directement accessibles pour l utilisateur, lui perme ant d effectuer une recherche sur un niveau plus abstrait que les mots clés Interrogation du moteur de re er e L interface d interrogation (figure 8.2) comprend quatre zones principales : 1. le choix de la tâche, qui correspond à la stratégie de recherche ; 2. le choix du point de vue de fouille dans le cadre de la tâche choisie (non obligatoire) ; ³La construction des requêtes met en place les fonctionnalités standards pour une recherche par mots clés : une requête peut contenir plusieurs mots clés sous forme d une liste ou d une expression logique utilisant les connecteurs, et. L opérateur de troncature (*) est également pris en compte, ainsi que les parenthèses et la recherche d expressions exactes, en utilisant des guillemets. 207

218 C 8. I F. 8.2 : Recherche d informations sémantique : interface d interrogation simple 3. la spécification d un ou plusieurs mots clés ou d une expression logique pour la recherche (non obligatoire) ; 4. le choix des corpora dans lesquels s effectuera la recherche. F. 8.3 : Recherche d informations sémantique : interface d interrogation avancée Ces champs restent accessibles dans l interface tout au long de la recherche, afin de perme re une éventuelle (re)formulation de la requête. La structure de la carte sé- 208

219 8.2. Interfaces dédiées aux différentes tâches de fouille et collaborations mantique est visible sous forme d un arbre. Un formulaire de recherche existe en deux variantes : simple et avancé. Le formulaire de recherche avancée permet d effectuer des requêtes selon plusieurs points de vue à la fois (figure 8.3) Présentation des résultats Comme le montre la figure 8.1, page 206, les résultats sont présentés sous forme d une liste ordonnée de segments annotés extraits avec leur contexte. Plusieurs informations sont affichées par rapport à chaque extrait : l annotation sémantique, les mots clés identifiés et la position du segment dans le document primaire. Chaque résultat affiché donne accès à des produits secondaires associés au document. La figure 8.4 montre les différentes représentations du document accessibles dans l interface : (1) la réponse, constituée d une phrase annotée et son contexte immédiat ; (2) le contexte initial de la phrase extraite⁴, c est-à-dire le document source et ses annotations ; (3) le document source et ses annotations ; (4) la fiche de synthèse constituée selon la stratégie correspondante à la tâche ; et (5) le résumé automatique. Les deux dernières représentations, notamment la fiche de synthèse et le résumé automatique, sont dynamiques : l utilisateur peut choisir les points de vue à afficher pour la fiche de synthèse et le taux de compression du texte pour le résumé. 8.2 Interfaces dédiées aux différentes tâ es de fouille et collaborations La recherche d informations, telle qu implémentée dans ce e thèse, a été utilisée dans de nombreux projets au sein du laboratoire LaLIC. En effet, les algorithmes développés et les librairies d importation et d extraction des informations sémantiques à partir de la base de données ont servi de support pour des démonstrateurs et ont permis, dans certains cas, la conception d interfaces dédiées à d autres tâches de traitement, par exemple la Bibliosémantique dans la thèse de Bertin [Bertin, 2011]. Une première réa- ⁴Dans tous les documents secondaires, un clic sur un segment renvoie à son contexte initial. 209

220 C 8. I F. 8.4 : Recherche d information sémantique : exploitation des résultats 210

221 8.3. Discussion et exemples d utilisation lisation d une interface de recherche d informations BioExcom pour la fouille de textes en biologie. De plus, de nombreuses collaborations ont eu lieu notamment dans le cadre des fiches de synthèse, le Résumé automatique [Blais et al., 2007], la recherche des définitions [Bertin et al., 2009b], la fouille de thèses en ligne [Desclés et al., 2010], où les réalisations informatiques reposent sur les modules de traitement décrits dans les chapitres 7 et Discussion et exemples d utilisation La connaissance contenue dans une thèse est importante. Un chercheur souhaite effectuer une recherche sur la peinture, et plus spécifiquement identifier les différentes définitions de la peinture à partir d un corpus de thèses annotées. La thèse de Vigneron que nous avons traitée contient plusieurs centaines de pages. Rechercher les occurrences du terme «peinture» par une méthode classique générerait beaucoup trop de bruit et ne serait donc par pertinente. L exploitation par le système des annotations sémantiques permet de filtrer l information afin de répondre à ce besoin. Pour cela, le chercheur peut considérer le point de vue de fouille définition, afin de retrouver l ensemble de définitions dans la thèse contenant le mot recherché. La figure 8.5 montre le résultat d une telle recherche : nous obtenons des définitions et pseudo-définitions autour de la peinture, qui sont des résultats pertinents. F. 8.5 : Recherche des définitions de la «peinture» 211

222 C 8. I Parmi les réponses proposées, nous retrouvons, par exemple, les réponses 7 et 8 (voir la figure 8.6), qui portent sur l origine même de la peinture : dans l exemple 7 la peinture est considérée comme une science, et dans l autre, un parallèle est établi avec l origine primordiale de l univers. F. 8.6 : Recherche des définitions de la «peinture» : réponses 7 et 8 L utilisateur, pour la construction de son argumentation, cherchera à me re en relation les propos développés sur l origine de la peinture avec d autres ouvrages cités dans la bibliographie. Une nouvelle requête, toujours avec le même mot clé «peinture», mais sur les points de vue pour la Bibliosémantique, donnera les résultats présentés sur la figure 8.7. Le résultat numéro 4 de la figure 8.7 nous montre une relation entre la peinture et les mathématiques, perme ant ainsi d identifier certains auteurs pertinents pour la construction de l argumentation de l utilisateur. À partir des résultats déjà obtenus, il suppose alors qu il existe une relation forte entre les mathématiques, la peinture et la beauté. Afin de préciser ce qu est la beauté dans le cadre de la thèse de Vigneron, il peut effectuer une nouvelle recherche, ce e fois-ci avec le point de vue de la «définition» avec le mot clé «beauté». Les résultats obtenus sont présentés sur la figure 8.8, où l utilisateur a volontairement restreint sa recherche aux définitions engagées, cherchant ainsi des positions fortes ou de nouvelles idées. Parmi ces résultats, nous pouvons voir que l auteur de la thèse définit la beauté à travers l idéal, tout en remarquant qu «une ose peut être idéale sans être belle». Le 212

223 8.3. Discussion et exemples d utilisation F. 8.7 : Recherche du mot «peinture» en Bibliosémantique F. 8.8 : Recherche des définitions engagées avec mot clé «beauté» 213

224 C 8. I deuxième résultat donne une définition de la beauté en tant d une idée visible de la perfection. Le chercheur souhaite alors identifier de nouvelles sources autour de la beauté. Afin de relativiser les définitions engagées retrouvées, il a la possibilité de rechercher le mot «beauté» avec le mot clé de la Bibliosémantique. Ceci lui permet d identifier les positions des auteurs à travers les citations bibliographiques. Les résultats fournis par ce e approche, voir la figure 8.9, perme ent d identifier un auteur, cité pour son résultat dans un ouvrage sur l analyse de la beauté, et une citation d un auteur Ho-garth, ayant déjà traité ce e problématique. F. 8.9 : Recherche des auteurs cités en relation avec le mot clé «beauté» Nous constatons alors que l organisation des ressources linguistiques est une étape nécessaire et primordiale pour la mise en place d un système de navigation dédié à l exploitation et au filtrage de l information contenue dans les articles scientifiques ou les thèses. 214

225 T Évaluations et discussion 215

226

227 C 9 Expérimentation et comparaison avec une re er e par mots clés Sommaire 9.1 Protocole Ensemble de requêtes Comparaison de notre approche avec une recherche par mots clés Segments pertinents vs occurrences des mots clés Un langage de requêtes plus riche La qualité des annotations : un facteur décisif pour la qualité de la recherche d informations Discussion

228 Résumé du chapitre 9 Ce apitre présente une expérimentation qui a pour objectif de montrer l utilité des annotations sémantiques pour la re er e d informations par une comparaison par rapport à une re er e par mots clés. Nous décrivons d abord l ensemble des requêtes que nous avons constitué et qui est utilisé pour les évaluations. La comparaison directe avec une re er e classique par mots clés est impossible, puisque le langage des requêtes que nous utilisons est différent des requêtes par mots clés : une évaluation par les mesures de rappel et précision ne serait pas pertinente. Cependant, nous avons mené ici une comparaison expérimentale, visant à dégager les principales différences entre ces deux types d appro es afin de mieux comprendre le rôle des annotations sémantiques pour la re er e d informations. 218

229 9.1. Protocole 9.1 Protocole L évaluation d un système de recherche d informations revient à mesurer la qualité des réponses données par rapport à un ensemble (ordonné) de réponses de référence que l utilisateur espère retrouver. De nombreuses campagnes d évaluation existent (TREC, Amaryllis, ), me ant à disposition des corpora et des requêtes pour la comparaison entre systèmes. Ces campagnes sont orientées vers l évaluation des systèmes «classiques» à base de mots clés, ou des systèmes de question-réponse. Les particularités de notre approche rendent difficile l évaluation avec les données et les protocoles disponibles. D une part, notre système fait appel à un langage de requêtes spécifique, du fait de l utilisation de points de vue sémantiques, et d autre part, les résultats fournis sont présentés sous forme de phrases annotées. Pour évaluer le système, nous sommes donc obligés, à partir des corpora annotés, à constituer nos propres ressources pour l évaluation : un ensemble de requêtes et des ordonnancements de référence, ainsi que des protocoles d évaluation. Notre évaluation consiste en plusieurs étapes. Dans un premier temps, nous constituons un ensemble de requêtes que nous utiliserons pour évaluer le système. Dans un deuxième temps, nous comparerons notre approche avec le paradigme classique de recherche d informations par mots clés, afin de montrer que le langage de requêtes que nous utilisons permet une recherche plus fine, due à la meilleure spécification du besoin informationnel. Une comparaison directe avec les résultats d un système classique qui travaille uniquement à partir des mots clés ne serait pas pertinente. Nous pouvons cependant, pour un besoin informationnel précis, examiner les résultats extraits par notre système et essayer d identifier des requêtes dans un système par mots clés qui correspondent au même besoin. Il s agit ici d une comparaison expérimentale, visant à dégager les principales différences entre les deux approches afin de mieux comprendre l apport de l annotation sémantique pour la recherche d informations. Dans un troisième temps, nous évaluerons les pertinences des résultats obtenus par le système, ainsi que l ordonnancement des réponses (voir le chapitre suivant). 219

230 C 9. E Dans toutes les expérimentations et évaluations, la recherche s effectue sur l ensemble des corpora traités par le système. Pour une description des corpora, voir la section 7.3, page Ensemble de requêtes Après un examen approfondi des corpora, nous avons constitué un ensemble de 20 requêtes, dont les résultats seront examinés lors des évaluations. La table 9.1 présente l ensemble des requêtes retenues. Chaque requête est constituée d un ou plusieurs points de vue selon une carte sémantique, ainsi que termes de filtrage qui sont entrés par l utilisateur (cf. le langage des requêtes, section 8.1). La table 9.2 donne un récapitulatif de ces requêtes. Ces requêtes ont été choisies d après les thématiques présentes dans les corpora. Les requêtes, issues de quatre tâches différentes, ont été sélectionnées de façon semiautomatique, parmi l ensemble des requêtes qui renvoient entre 5 et 100 résultats. Cet ensemble a été généré en considérant la distribution des occurrences des termes dans des segments annotés. Ces occurrences ont été croisées avec l ensemble des points de vue d annotation afin de constituer des requêtes candidates. Le choix des requêtes a été guidé par les critères suivants : Nous avons cherché à représenter chacune des quatre tâches par au moins trois requêtes. Les tâches Bibliosémantique et Connexion sont représentées par 7 requêtes du fait que les corpora que nous avons traités ont été plus conséquents. Pour équilibrer l ensemble, nous avons considéré également deux requêtes renvoyant 4 résultats (requêtes 8 et 12) et deux requêtes renvoyant 3 résultats (requêtes 17 et 19). 220

231 9.2. Ensemble de requêtes Bibliosémantique Résumé automatique Points de vue Mots clés Résultats 1 citation résultat psychologi* congiti* 6 2 résultat logique 26 3 information enseignement 16 4 information enseignant* 15 5 information réseau* 7 6 <tous> signification* 24 7 <tous> opérateur* 27 8 hypothèse percepti* sensor* 4 9 remarque technique percepti* remarque technique discours 5 Définition Connexion 11 <tous> peinture définition engagée beauté 4 opposition 13 définition contextualisée identification style 6 14 rencontre réalisée Chirac 6 15 rencontre Sarkozy <tous> Sarkozy président 19 français 17 <tous> Merkel 3 18 rencontre politique 6 19 rencontre gouvernement 3 20 <tous> Bush 5 T. 9.1 : Ensemble de requêtes évaluées Tâ e Nombre de requêtes Nombre moyen de résultats Bibliosémantique 7 17,29 Résumé automatique 3 12,67 Définition 3 11,00 Connexion 7 8,43 Total 20 12,35 T. 9.2 : Récapitulatif des requêtes évaluées 221

232 C 9. E 9.3 Comparaison de notre appro e avec une re er e par mots clés Segments pertinents vs occurrences des mots clés À partir de l ensemble des requêtes, nous pouvons estimer le nombre de réponses retournées par le système, mais également le nombre de réponses qui auraient été retrouvées par un système plus classique qui prend en compte uniquement les mots clés et ne travaille pas sur des points de vue de fouille. La table 9.3 montre le nombre de résultats contenant les mots clés pour chacune des requêtes examinées. Nous pouvons observer que le nombre d occurrences des termes recherchés dans le corpus est très élevé. Si l utilisateur devait poser la requête uniquement à l aide de mots clés, il serait confronté à une liste de réponses extrêmement longue, dont la plupart ne seront pas pertinents par rapport à la recherche. La recherche utilisant les annotations sémantiques permet en effet d «élire» un ensemble très restreint de segments parmi toutes les réponses contenant les mots clés. Ainsi, l utilisateur a accès directement à une information très pertinente. La table 9.3 montre que le pourcentage des phrases annotées contenant les mots clés, c est-à-dire les occurrences pertinentes, constituent entre 0,19% et 14,81% parmi toutes les occurrences des mots clés, sauf pour les requêtes 14 et 17 qui se distinguent par le nombre de résultats relativement faible Un langage de requêtes plus ri e Lorsqu un utilisateur pose une requête par mots clés, la formulation de celle-ci afin d exprimer le plus exactement possible son besoin informationnel, mobilise des connaissances particulières : quels termes sont susceptibles d apparaître dans les documents pertinents, quelles expressions linguistiques traduisent les informations recherchées. Or, le langage des requêtes que nous avons mis en place permet de croiser une recherche selon des points de vue de fouille avec un filtrage par des termes de l utilisateur. 222

233 9.3. Comparaison de notre approche avec une recherche par mots clés Requête Résultats du système (phrases annotées) Phrases contenant les mots clés Pourcentage des phrases annotées ,23% ,83% ,27% ,03% ,73% ,96% ,49% ,81% ,58% ,36% ,19% ,26% ,28% ,09% ,98% ,67% ,00% ,99% ,27% ,94% T. 9.3 : Segments contenant les mots clés des requêtes 223

234 C 9. E Examinons, à titre d exemple la requête 15 suivante¹ : Requête T : P : M : Connexion rencontre Sarkozy Comment un utilisateur pourrait-il retrouver les mêmes résultats par une recherche uniquement sur des mots clés? S il entre la requête «Sarkozy», il retrouvera 131 résultats, qu il sera obligé de trier manuellement afin d identifier les segments qui expriment des rencontres. S il entre la requête «Sarkozy rencontre», il retrouvera uniquement 4 résultats dans le corpus, qui sont présentés sur la figure 9.1. F. 9.1 : Résultats de recherche par mots clés : requête «Sarkozy rencontre» Parmi ces résultats, trois sont annotés : ils sont pertinents et ont été également retrouvés par la recherche selon le point de vue Rencontre dans notre système. Le quatrième résultat n est pas pertinent, puisqu il annonce la conséquence d une rencontre et non la rencontre elle-même. Mais ce e recherche n a pas permis d identifier les autres résultats pertinents, qui contiennent de nombreux marqueurs de rencontre comme «a été convoqué par», «a dîné avec», «lors d une conférence de presse», «pendant la ¹Les cinq premiers résultats de ce e requête obtenus par notre système sont présentés à la page 148, figure

235 9.3. Comparaison de notre approche avec une recherche par mots clés réunion» Pour retrouver ces phrases à partir d une requête par mots clés, l utilisateur devrait complexifier sa requête jusqu à prendre en compte tous les marqueurs de la rencontre. Cela revient en effet à construire la liste des indicateurs de ce point de vue et n est pas réaliste en terme de temps et d effort nécessaire pour formuler ce e requête. Par ailleurs, l enrichissement de la requête par la liste des indicateurs de la rencontre ne suffira pas pour obtenir des résultats pertinents. Un nombre de ces indicateurs sont polysémiques et l extraction de tous les segments contenant leurs occurrences contribuera à augmenter le bruit parmi les réponses sans apporter des résultats satisfaisants. Nous voyons ici toute l utilité de la méthode d Exploration Contextuelle qui identifie les relations exprimées par une désambiguïsation des occurrences selon le contexte La qualité des annotations : un facteur décisif pour la qualité de la re er e d informations La qualité des résultats obtenus par le système de recherche d informations est évidemment liée à la qualité des annotations sémantiques et notamment la précision de celles-ci. En effet, toute annotation fausse entraînerait l extraction d un segment nonpertinent ou moins pertinent pour la recherche d informations. Par ailleurs, l hypothèse principale de notre travail est que les résultats pertinents se trouvent parmi les segments annotés : le rappel de l annotation sémantique influence directement le rappel du système de recherche d informations. Aussi l évaluation des annotations sémantiques est une étape importante de l évaluation du système. Les annotations provenant des différentes cartes sémantiques que nous utilisons ici ont été évaluées dans d autres travaux : les résultats sont synthétisés dans la table 9.4². ²Pour la carte sémantique «Bibliosémantique», l évaluation de l identification des renvois bibliographiques et les entités nommées liées à la bibliographie dans des publications scientifiques. Le résultat du rappel rapporté pour la carte sémantique «Définition» est approximatif ; ce e valeur et variable selon les textes. 225

236 C 9. E Carte sémantique Publication Taille du corpus Rappel Précision Résumé automatique [Blais, 2008] 20 articles scientifiques (4930 phrases) Bibliosémantique 2 [Bertin, 2011] Plusieurs centaines de documents Hypothèses en biologie [Desclés et al., 2009] Autour de 600 phrases Définition [Hacène, 2008] Plusieurs chapitres de thèses 66,67% 78,85% 67,15% 98,91% 93,20% 90,20% 95,91% 81% 2 Connexion [Franchi, 2008] 50 articles de presse 93,33% 85,70% T. 9.4 : Synthèse des évaluations publiées sur les annotations sémantiques 9.4 Discussion Dans ce chapitre nous avons tenté de comparer notre approche par rapport à une approche plus classique en recherche d informations utilisant des mots clés. L annotation sémantique dans notre système permet à la fois de préciser la requête en éliminant un certain bruit ainsi que de retrouver un ensemble de réponses qui expriment le point de vue de fouille par des divers réalisations linguistiques de surface. Il est possible d enrichir le système de recherche d informations par l utilisation d autres ressources linguistiques, comme des dictionnaires de synonymes, des bases d entités nommées, ou des ontologies de domaine, afin de prendre en compte les variations possibles de l expression des termes de filtrage. Dans l exemple ci-dessus nous avions recherché le terme «Sarkozy». Cependant, il existe d autres manières de désigner la même personne, par exemple «le président français», «le locateur de l Elysée», Les requêtes peuvent alors être enrichies à partir de ressources linguistiques permettant de gérer ces variations, afin d augmenter le rappel du système. 226

237 C 10 Évaluation de l ordonnancement Sommaire 10.1 Protocole d évaluation Pertinences de référence Mesures d évaluation Résultats Précisions moyennes pour les résultats ordonnés Valeurs de ndcg Discussion

238 Résumé du chapitre 10 Nous proposons une évaluation de l ordonnancement des réponses en prenant en compte des jugements de pertinence par des juges humains sur une é elle de trois valeurs différentes. Ce e évaluation est effectuée par rapport à l ensemble des requêtes que nous avons constitué et décrit dans le apitre précédent. Nous avons ainsi étudié quatre cartes sémantiques, pour lesquelles nous avons calculé les mesures de précision moyenne. Ce e évaluation nous permet de montrer l adéquation des critères que nous avons proposés pour l ordonnancement des résultats annotés. 228

239 10.1. Protocole d évaluation Nous aborderons ici l évaluation de l algorithme d ordonnancement des réponses que nous avons proposé. Ce e évaluation a pour but de déterminer l adéquation de l ordonnancement que nous proposons pour l affichage des résultats annotés. Elle consiste à comparer les sorties du système à des jugements de pertinence a ribués par des juges humains. Ces jugements nous perme ent de constituer des ordonnancements de référence, afin de calculer les valeurs des différentes mesures d évaluation comme la précision moyenne. L évaluation consiste donc en deux étapes : 1) Établir les pertinences de référence, correspondantes aux a entes des utilisateurs pour l ensemble de requêtes. Pour cela, nous avons utilisé des jugements de pertinence a ribués manuellement aux résultats du système par trois juges humains. 2) Comparer les résultats du système avec les valeurs de pertinence de référence afin de calculer les valeurs AP, ndcg, ainsi que la précision moyenne MAP Protocole d évaluation Pour ce e évaluation nous avons demandé aux juges humains d a ribuer, de façon indépendante, une estimation de la pertinence aux réponses du système. Ils ont ainsi évalué les dix premiers résultats de chacune des 20 requêtes étudiées qui ont été présentées dans la section 9.2. Les jugements prennent trois valeurs possibles : pertinent, peu pertinent, ou non-pertinent. Les résultats du système qui sont présentés aux juges sont ordonnés de façon aléatoire. Cet ordre est différent pour chacun des juges afin de s assurer qu il n introduit pas de biais dans l estimation de la pertinence. Dans le cas où une phrase extraite fait partie d un paragraphe plus grand, une partie de la phrase précédente et de la phrase suivante sont également affichées, afin d indiquer le contexte proche. En effet, le questionnaire étant rempli sur papier, les juges n ont pas la possibilité de retour au texte pour évaluer la pertinence. Les annotations sémantiques des résultats sont visibles pour les juges, avec un affichage identique à celui de l interface que nous avons développée. En dehors des éti- 229

240 C 10. É que es des annotations sémantiques et les contenus textuels des phrases, les juges n ont aucune indication de l importance ou de la qualité d une phrase : ils n ont pas accès aux valeurs des scores a ribuées par le système, ni à l ordonnancement qui en résulte. Ce e évaluation a été effectuée par 3 juges¹ indépendants. Le temps de travail est d environ 30 minutes². Un exemple du questionnaire d évaluation se trouve dans l annexe, page 275. Notre objectif est d évaluer l algorithme d ordonnancement parmi les dix premiers résultats de chaque requête. Notons que ce e évaluation n a pas pour but d évaluer les performances globales du système. Une évaluation complète serait plus coûteuse du fait qu un très grand nombre de résultats doit être examiné manuellement. En effet, selon notre protocole d évaluation, les évaluateurs ont a ribué des jugements uniquement aux résultats retrouvés par le système. Seules les phrases qui figurent parmi les résultats des requêtes ont été évaluées, ce qui rend l évaluation inadéquate pour estimer le rappel. Nous remarquerons néanmoins qu en considérant uniquement les dix premiers résultats de chaque requête, nous ne pouvons pas évaluer une liste longue qui pourrait éventuellement contenir des résultats pertinents vers la fin Pertinences de référence Dans un premier temps, nous cherchons à estimer les valeurs de pertinence de référence, à partir des trois jugements pour chaque résultat. Pour un résultat r ayant obtenu les jugements j 1, j 2 et j 3, nous considérons la moyenne : P ert(r) = j i (r), où (10.1) i=1 ¹Les juges qui ont participé à l évaluation sont des doctorants dans le domaine du TAL. Ils ne travaillent pas sur la recherche d informations et n ont pas de connaissances approfondies sur les cartes sémantiques utilisées. ²Environ 10 secondes par résultat. 230

241 10.2. Pertinences de référence 0, si r est jugé non-pertinent j i (r) = 0, 5, si r est jugé peu pertinent 1, si r est jugé pertinent. (10.2) Les valeurs P ert(r) indiquent l appréciation de la pertinence d un résultat par l ensemble des juges. Pour trois juges nous avons sept valeurs de pertinence possibles. Ce e approche nous permet de modéliser la pertinence par une échelle à plusieurs valeurs entre 0 et 1, afin de mieux rendre compte du phénomène de pertinence. En effet, [Kekäläinen et Järvelin, 2002] soulignent que les jugements binaires sont à éviter pour les évaluations de la pertinence puisqu ils ne peuvent refléter la variabilité et la complexité de celle-ci. Ils suggèrent que les jugements de pertinence soient plutôt modélisés par un ensemble de valeurs continu et proposent une généralisation des mesures de précision et de rappel pour de tels jugements. Par la suite, étant donné un résultat r, nous considérerons que sa pertinence est représentée par la valeur P ert(r) [0, 1]. Nous allons considérer que r est non-pertinent si P ert(r) = 0. La table 10.1 montre les valeurs des pertinences de référence pour l ensemble des résultats, calculées à partir des jugements humains selon la formule (10.1). La figure 10.1, page 233, présente la distribution des valeurs de pertinence obtenues à partir des jugements sur l ensemble des résultats. En examinant les pertinences a ribuées par les juges, nous pouvons constater que : Aucun des résultats n a obtenu un score de pertinence 0, c est-à-dire pour chaque réponse évaluée, il existe au moins un juge qui l a considérée comme pertinente ou (au moins) peu pertinente. Très peu de résultats, moins d une dizaine, ont des scores de pertinence faibles en dessous de 0,5. La majorité des résultats, 64%, ont été jugés pertinents par au moins deux juges parmi les trois. 231

242 C 10. É Requête J Position dans l ordonnancement ,00 0,83 0,83 1,00 0,83 0, ,00 0,83 0,67 0,67 1,00 1,00 0,83 0,83 0,83 0, ,00 0,83 1,00 0,83 0,67 0,67 0,83 0,67 0,50 0, ,00 1,00 1,00 1,00 0,83 0,83 0,83 0,67 0,50 0, ,00 1,00 1,00 1,00 0,83 0,67 0, ,00 0,83 0,50 0,83 0,83 0,67 0,33 0,83 0,33 0, ,00 1,00 1,00 1,00 0,83 0,67 0,83 0,67 0,50 0, ,83 0,83 0,67 0, ,00 1,00 1,00 0,83 0,83 0,67 0,50 0,83 0,67 0, ,00 0,67 0,67 0,67 0, ,83 0,83 1,00 0,83 0,83 0,83 0,67 0,50 0,50 0, ,00 0,83 1,00 0, ,83 1,00 0,67 1,00 0,67 0, ,83 1,00 1,00 0,83 0,83 0, ,00 1,00 1,00 1,00 1,00 1,00 0,67 0,83 0,17 0, ,00 1,00 1,00 0,83 1,00 1,00 0,67 0,67 0,33 0, ,00 1,00 1, ,00 0,83 0,67 0,83 0,83 0, ,83 0,50 0, ,00 1,00 1,00 0,67 0,67 Total 145 0,96 0,89 0,86 0,84 0,81 0,74 0,63 0,72 0,48 0,48 T : Pertinences des résultats a ribuées par les juges 232

243 10.2. Pertinences de référence F : Distribution des pertinences a ribuées par les juges La majorité des résultats, 62%, ont obtenu une des deux valeurs les plus élevées possibles : 0,83 et 1. Tous les résultats qui ont été classés en tête de liste par le système ont obtenu une des deux valeurs les plus élevées possibles : 0,83 et 1. Ceci est vrai également pour les résultats classés en deuxième position de la liste, à l exception des requêtes 10 et 19. Ces observations indiquent que les annotations sémantiques qui sont au cœur du système sont adaptées pour la recherche d informations. Ces annotations effectuent un premier tri très sélectif parmi les phrases du corpus, et perme ent ainsi de limiter la recherche à un ensemble de segments dont la grande majorité sont très pertinents. C est en effet l annotation sémantique préalable que garantit la qualité de la recherche d informations, car elle permet de réduire très fortement le bruit en éliminant la majorité des segments non-pertinents. Nous avons supposé dans la section 4.2, page 122, que la définition des tâches de 233

244 C 10. É F : Taux d accord entre les jugements de pertinence fouille permet de lever en partie la subjectivité dans l évaluation de la pertinence. Avec ce e évaluation, nous pouvons effectivement observer que les trois juges ont été en accord pour une grande partie des résultats évalués. Nous avons notamment obtenu trois jugements identiques (accord parfait) dans 37% des cas et trois jugements différents (désaccord total) dans uniquement 6% des cas. Parmi les restants 57% des résultats, nous avons 48% où le désaccord est entre les jugements pertinent (1) et peu pertinent (0,5) : voir la figure Mesures d évaluation En se basant sur ces valeurs de pertinence a ribuées par les juges, nous pouvons évaluer l ordonnancement des réponses, c est-à-dire estimer si celui-ci est en accord avec les jugements humains. Nous nous a endons à ce que les résultats jugés moins pertinents se retrouvent vers la fin de la liste ordonnée, et que les résultats jugés très pertinents se retrouvent au début de la liste. Pour chaque requête nous avons calculé les valeurs ainsi que la précision moyenne AP et RP rec en prenant en compte les 10 premiers résultats de la liste. Rappelons-en les définitions : 234

245 10.4. Résultats = P ert(r 1 ) ; = 1 j AP = RP rec = j J J j P ert(r i ) i=1, où J = {k [1; 10] P ert(r k ) > 0} pour n = J (10.3) Les précisions indiquent la précision en considérant la tranche des j premiers résultats, et AP donne une précision moyenne sur toute la liste ordonnée, en pénalisant d avantage le bruit en début de la liste³. La mesure RP rec donne la précision après n documents, où n est exactement le nombre total de résultats pertinents pour la requête. Par exemple, si nous avons une requête pour laquelle il y a 5 résultats pertinents dans le corpus de recherche, le système de recherche d informations idéal devrait afficher ces résultats sur les cinq premières positions du classement. Dans ce cas, la mesure RP rec donnera la précision en ne considérant que les premiers cinq résultats, mesurant ainsi la capacité du système de présenter la totalité des informations pertinentes en début de la liste des résultats. Nous avons également considéré la mesure ndcg (Normalized Discounted Cumulative Gain) qui utilise l hypothèse que la pertinence diminue par rapport à la position dans la liste, de façon logarithmique et non pas linéaire. Pour la définition détaillée de ce e mesure, voir la section 1.2.3, page Résultats Précisions moyennes pour les résultats ordonnés La table 10.2 présente les valeurs des mesures obtenues selon la formule (10.3) pour les 20 requêtes considérées. La table 10.3 donne les valeurs moyennes par tâche. L efficacité de la méthode d ordonnancement se mesure par sa capacité d ordonner ³Pour plus de détailles sur ces mesures, voir la section 1.2.3, page

246 C 10. É Requête ,000 0,917 0,889 0,917 0,900 0, ,000 0,917 0,833 0,792 0,833 0,861 0,857 0,854 0,852 0, ,000 0,917 0,944 0,917 0,867 0,833 0,833 0,813 0,778 0, ,000 1,000 1,000 1,000 0,967 0,944 0,929 0,896 0,852 0, ,000 1,000 1,000 1,000 0,967 0,917 0, ,000 0,917 0,778 0,792 0,800 0,778 0,714 0,729 0,685 0, ,000 1,000 1,000 1,000 0,967 0,917 0,905 0,875 0,833 0, ,833 0,833 0,778 0, ,000 1,000 1,000 0,958 0,933 0,889 0,833 0,833 0,815 0, ,000 0,833 0,778 0,750 0, ,833 0,833 0,889 0,875 0,867 0,861 0,833 0,792 0,759 0, ,000 0,917 0,944 0, ,833 0,917 0,833 0,875 0,833 0, ,833 0,917 0,944 0,917 0,900 0, ,000 1,000 1,000 1,000 1,000 1,000 0,952 0,938 0,852 0, ,000 1,000 1,000 0,958 0,967 0,972 0,929 0,896 0,833 0, ,000 1,000 1, ,000 0,917 0,833 0,833 0,833 0, ,833 0,667 0, ,000 1,000 1,000 0,917 0,867 Moyenne 0,958 0,925 0,903 0,896 0,888 0,875 0,860 0,847 0,807 0,774 T : Pertinences des résultats pour les 20 requêtes Tâ e ,000 0,952 0,921 0,917 0,900 0,869 0,841 0,833 0,800 0, ,944 0,889 0,852 0,819 0,817 0,889 0,833 0,833 0,815 0, ,889 0,889 0,889 0,875 0,850 0,833 0,833 0,792 0,759 0, ,952 0,929 0,913 0,925 0,913 0,903 0,940 0,917 0,843 0,808 T : Pertinences des résultats par tâche 236

247 10.4. Résultats les résultats de façon à ce que les valeurs pour chaque requête soient dans un ordre décroissant. Nous pouvons observer cela sur la figure 10.3, qui montre la progression des valeurs des précisions pour les quatre tâches examinées. F : Valeurs des précisions pour les 4 tâches évaluées Sur ce e figure, il est clairement visible que les valeurs ont une tendance à diminuer de façon monotone. Nous pouvons néanmoins observer des anomalies autour du 6 e résultat pour la tâche Résumé automatique et autour du 7 e résultat pour la tâche Connexion. Elles sont dues à plusieurs facteurs. Premièrement, le nombre de résultats renvoyés par les requêtes est variable, aussi cela introduit un léger biais dans les calculs puisqu ils comparent les pertinences à la même position de la liste pour l ensemble des requêtes. Deuxièmement, les imperfections de l algorithme d ordonnancement sont visibles pour certaines requêtes. En effet, l algorithme a produit des ordonnancements parfaits (en total accord avec l ordre induit par les jugements humains) pour les requêtes 5, 8, 10, 17, 19 et 20. Dans le reste des cas, l ordonnancement est imparfait : certains résultats moins pertinents ont été positionnés devant des résultats plus pertinents. Néanmoins, ces inversions se trouvent le plus souvent dans la deuxième moitié de la liste ordonnée. 237

248 C 10. É Ceci est également visible sur la figure 10.3, où nous pouvons observer que les valeurs diminuent de façon constante jusqu au 5 e résultat. Les tables 10.4 et 10.5 présentent les valeurs des précisions moyennes AP et la mesure RP rec. Nous pouvons alors calculer la moyenne des valeurs AP obtenues pour les 20 requêtes : MAP = i=1 AP (q i ) = 0, 884. (10.4) Requête Documents pertinents RP rec AP 1 6 0,833 0, ,800 0, ,733 0, ,833 0, ,810 0, ,667 0, ,817 0, ,750 0, ,767 0, ,700 0, ,733 0, ,875 0, ,806 0, ,833 0, ,800 0, ,817 0, ,000 1, ,806 0, ,611 0, ,867 0,957 Moyenne 7,25 0,793 0,884 T : Valeurs de RP rec et précisions moyennes pour les 20 requêtes Valeurs de ndcg 238 La table 10.6 présente les valeurs obtenues pour la mesure ndcg.

249 10.4. Résultats Tâ e Résultats pertinents Requêtes RP rec AP Bibliosémantique ,785 0,893 Résumé automatique ,739 0,838 Définition ,805 0,870 Connexion ,819 0,902 T : Valeurs de RP rec et précisions moyennes par tâche La mesure ndcg a une valeur 1, si l ordonnancement du système coïncide avec l ordonnancement de référence, c est-à-dire l ordonnancement issu des jugements humains. Les valeurs inférieures à 1 expriment le degré d écart par rapport à l ordonnancement de référence, où la pénalité pour une erreur diminue de façon logarithmique avec la position dans la liste ordonnée. Requête ndcg ,000 0,917 0,934 0,972 0,975 0,976 0,976 0,976 0,976 0, ,000 0,917 0,857 0,849 0,886 0,913 0,920 0,937 0,952 0, ,000 0,917 0,976 0,979 0,960 0,963 0,981 0,982 0,982 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,988 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1, ,000 1,000 0,911 0,924 0,933 0,938 0,924 0,958 0,959 0, ,000 1,000 1,000 1,000 1,000 0,983 0,999 0,999 0,987 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1, ,000 1,000 1,000 1,000 1,000 0,983 0,969 0,984 0,996 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1, ,833 0,909 0,974 0,978 0,980 0,982 0,983 0,984 0,985 0, ,000 0,917 0,976 0,978 0,978 0,978 0,978 0,978 0,978 0, ,833 0,917 0,892 0,963 0,967 0,969 0,969 0,969 0,969 0, ,833 0,917 0,976 0,979 0,981 0,982 0,982 0,982 0,982 0, ,000 1,000 1,000 1,000 1,000 1,000 0,986 0,999 0,988 0, ,000 1,000 1,000 0,973 0,977 0,995 0,995 0,996 0,973 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1, ,000 1,000 0,955 0,962 0,989 0,990 0,990 0,990 0,990 0, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1, ,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 T : Valeurs de ndcg pour les 20 requêtes La table 10.7 et la figure 10.4 montrent les valeurs moyennes de ndcg pour cha- 239

250 C 10. É cune des tâches évaluées. Tâche ndcg ,000 0,964 0,954 0,961 0,965 0,968 0,971 0,979 0,978 0, ,000 1,000 1,000 1,000 1,000 0,994 0,990 0,995 0,999 0, ,889 0,914 0,947 0,973 0,975 0,977 0,977 0,977 0,977 0, ,976 0,988 0,990 0,988 0,992 0,995 0,993 0,995 0,990 0,995 T : Valeurs de ndcg par tâche F : Valeurs de ndcg par tâche Sur la figure 10.4, nous pouvons observer que les tâches de Résumé automatique et Connexion ont obtenu d excellents résultats. Les valeurs pour la tâche Bibliosémantique diminuent légèrement autour du 3 e résultat. Ceci est du notamment aux résultats des requêtes 1, 2 et 6. Les valeurs pour la tâche Définition commencent à partir de 0,89 pour le premier résultat avant de monter à 0,97 pour le 4 e résultat, à cause des requêtes 11 et

251 10.5. Discussion 10.5 Discussion Un premier constat est que l algorithme d ordonnancement que nous avons proposé est très performant en ce qui concerne les premiers résultats fournis par le système. Ceci confirme ce que nous avons remarqué dans le chapitre 5 sur la base de la distribution des scores, notamment que l algorithme opère des distinctions précises surtout entre les segments pertinents en tête de liste. En effet, la figure 10.3 montre bien que le système a une tendance prononcée à classer les résultats les plus pertinents en début de la liste, et donc d ordonnancer les résultats dans un ordre proche de celui des juges humains. Ce e première évaluation est encourageante, même si nous sommes conscients qu il sera nécessaire de confirmer ce résultat à une plus grande échelle. Les valeurs obtenues pour les précisions moyennes, notamment M AP = 0, 884, confirment que l annotation sémantique apporte une meilleure qualité à la recherche d informations. En effet, nous pouvons observer des valeurs très élevées des pertinences des premiers résultats du système (P@1=9,58 en moyenne). Ce e qualité des réponses résulte d une part de l annotation sémantique préalable, et d autre part de l algorithme d ordonnancement qui exploite les propriétés des cartes sémantiques. Au-delà de l algorithme d ordonnancement, les valeurs des précisions très élevées reflètent également la précision des annotations sémantiques. 241

252 C 10. É 242

253 Conclusion générale Comme l indique le titre de la thèse, «Exploitation informatique des annotations sémantiques automatiques d Excom pour la re er e d informations et la navigation», nous avons tenté d apporter des réponses aux problématiques de recherche d informations à partir d annotations sémantiques. Nous avons mis en place un système informatique ayant pour objectif d offrir une fouille textuelle ciblée selon différents points de vue ainsi qu une navigation guidée par la sémantique des textes. Nous travaillons sur des documents annotés automatiquement par le moteur Excom. La problématique de la recherche d informations consiste à proposer à l utilisateur un outil lui perme ant d abord à formaliser son besoin informationnel, et ensuite à identifier les informations les plus pertinentes selon un besoin exprimé. La pertinence de notre approche repose sur l exploitation des relations sémantiques identifiables dans les textes. Les relations sémantiques servent à la fois à cibler le besoin de l utilisateur, lui perme ant de définir des points de vue selon lesquels il souhaite aborder le texte, ainsi qu à retrouver les segments pertinents à travers les annotations sémantiques automatiques des corpora. Les langues naturelles construisent des représentations à partir d opérations discursives complexes, aussi des analyses linguistiques sont-elles indispensables pour accéder à la sémantique de façon pertinente et efficace en exploitant justement les traces de ces opérations discursives. Pour cela, nous nous appuyons sur les annotations sémantiques effectuées automatiquement par le moteur Excom, à partir desquelles nous 243

254 Conclusion générale pouvons concevoir un système de recherche d informations et une nouvelle approche de fouille textuelle reposant sur une sémantique discursive. Notre thèse ouvre de nouvelles possibilités pour la recherche d informations et permet d élaborer des outils de fouille textuelle qui utilisent des connaissances linguistiques. Les catégories d annotation sémantique définissent des points de vue de fouille qui correspondent à différentes manières d aborder un contenu textuel. Le traitement des requêtes selon des points de vue de fouille se trouve donc au cœur de notre stratégie de recherche d informations. Le système offre ainsi la possibilité de rechercher un ou plusieurs termes de filtrage (des mots clés introduits par l utilisateur) qui sont mis en relation avec des marqueurs de catégories sémantiques (hypothèse, rencontre, définition, citation, ). Notre approche de la recherche et extraction d informations revient à croiser deux types de requêtes, l une portant sur la sélection d un point de vue et l autre sur un filtrage par des termes. Ce e approche devient possible grâce aux annotations sémantiques automatiques d Excom qui reposent sur la méthode d Exploration Contextuelle. Ce e méthode fait appel à une modélisation de certaines connaissances linguistiques sous forme de marqueurs et de règles d exploration du contexte perme ant de lever l éventuelle indétermination sémantique des occurrences de marqueurs. Elle permet ainsi de repérer les segments textuels porteurs de relations sémantiques avec une forte précision (cf. chapitre 9). Ceci nous a permis de me re effectivement en place une recherche d informations avec des résultats pertinents. La méthode d Exploration Contextuelle s appuie sur des marqueurs de surface porteurs des relations sémantiques qui sont relativement indépendants des domaines et des types de textes. Par exemple, si un texte journalistique est moins susceptible de contenir des définitions qu un article scientifique, l identification de celles-ci s effectue toujours par les mêmes marqueurs linguistiques, à savoir des expressions telles que «nous définissons comme un(e)», «par ce terme nous entendons», le verbe «être» dans certains contextes, etc. Les corpora hétérogènes traités dans ce e thèse illustrent la capacité de la méthode d annoter différents genres de textes, ainsi que de travailler avec de très grands documents tels que les thèses de doctorat. Notre approche s appuie sur des catégories d annotation organisées en cartes sé- 244

255 Conclusion générale mantiques, qui sont des sortes d ontologies linguistiques présentées par des treillis. Le système exploite les ressources linguistiques qui sont le reflet d une expertise humaine, ce qui permet ainsi au système d accéder à une sémantique textuelle. Ce e approche s oppose aux méthodes purement statistiques de recherche d informations, qui utilisent essentiellement des occurrences de mots clés, où chaque document est représenté par un «sac de mots». En effet, nous considérons que l annotation sémantique est une étape utile dans le traitement automatique afin de perme re au système d accéder à une représentation du contenu textuel, rendant possible une recherche selon des catégories sémantiques. Ce constat est en accord avec la position de [Poibeau, 2011], qui souligne que la compréhension automatique passe nécessairement par une annotation avec des catégories sémantiques exprimant partiellement le sens du texte : [Poibeau, 2011, p. 55] : D un point de vue informatique, on ne peut pas nier la nécessité de normaliser et de regrouper certains éléments par-delà la variation langagière, fût-ce au prix d une certaine simplification. L annotation sémantique répond en partie à cet obje if. Il s agit de reconnaître, au sein du texte, des éléments signifiants atomiques, qui pourront ultérieurement être mis en relation pour faire sens. L hypothèse la plus fréquente est que ces éléments peuvent être nommés, qu ils partagent des propriétés et peuvent être organisés dans des hiérar ies pour former des ontologies. Enfin, le système mis en place cherche principalement à répondre à un besoin utilisateur : fournir un ensemble d informations précises, pertinentes et non-redondantes. Dans la recherche d informations, il s agit bien entendu de trouver des informations pertinentes et précises, mais aussi d éliminer le bruit, non seulement les informations fausses, peu précises et redondantes. En effet, dans des systèmes de recherche d informations opérant uniquement par mots clés, très souvent le nombre de documents retournés par le système dépasse largement le nombre de documents que l utilisateur est réellement capable à consulter. Par ailleurs, si la requête contient un terme recherché il est rare que l utilisateur s intéresse au terme lui-même ; il cherche certes à en extraire les occurrences, mais il souhaite avant tout interroger les textes selon un certain point de vue de fouille et donc croiser un point de vue retenu et un terme de filtrage. Afin d offrir à l utilisateur des résultats pertinents, nous avons élaboré et mis en 245

256 Conclusion générale place des algorithmes d ordonnancement des réponses et de gestion de la redondance (voir chapitres 5 et 6). Ces algorithmes reposent principalement sur la structure des «ontologies linguistiques» (cartes sémantiques) ainsi que sur les différents types d annotations. Ainsi nous avons proposé des scores d ordonnancement des réponses exploitant les annotations sémantiques. À la différence d autres méthodes d ordonnancement, la pertinence d une réponse dans notre approche est totalement déterminée par son contenu sémantique et ne dépend pas du reste du corpus. L évaluation de l ordonnancement des réponses que nous avons effectuée montre des résultats encourageants sur un corpus restreint de 20 requêtes (voir chapitre 10). Elle a este la capacité de l algorithme à classer les segments très pertinents en début de la liste des résultats. Les pertinences de référence ont été calculées à partir des jugements de trois juges indépendants. La précision moyenne MAP obtenue est de 88,4%. Ce e évaluation reste à être poursuivie sur d autres corpora, afin de confirmer ces résultats, ce que nous pensons entreprendre dans les mois qui viennent. Les interfaces que nous avons développées perme ent la construction de produits documentaires tels que les résumés automatiques ou les fiches de synthèse offrant une extraction d informations structurées selon des critères sémantiques spécifiés par l utilisateur. Ces nouvelles représentations, qui sont construites dynamiquement à travers une interaction homme-machine, donnent accès à des synthèses plus personnalisées pour mieux appréhender un document ou un corpus et en exploiter le contenu. Volontairement, nous avons voulu une approche générale, perme ant une application rapide pour n importe quel point de vue de fouille et non pas réduite aux tâches que nous avons retenues pour notre expérimentation. Notre système est adaptable aux spécificités des différentes cartes sémantiques. Il autorise des applications dans de nombreux domaines et tâches de recherche, par exemple pour l analyse des thèses en ligne, l analyse Bibliosémantique, l extraction de définitions, la recherche de connexions ou rencontres entre personnes, De plus, nos interfaces sont destinées à plusieurs types d utilisateurs : chercheurs, étudiants, journalistes, évaluateurs, documentalistes, Ce e approche a également pour vocation de proposer des outils dédiés à la veille stratégique et à l intelligence économique. En effet un veilleur a besoin d extraire des 246

257 Conclusion générale informations très pertinentes et ciblées à partir des corpora statiques ou des flux de documents continus sans être gêné par un trop grand bruit. Par exemple, il peut souhaiter identifier les connexions entre deux personnes qui ont été relatées dans la presse sur une période donnée. Une recherche par rapport à la carte sémantique «Connexion» perme rait de retrouver les segments textuels pertinents. Les mêmes résultats seraient beaucoup plus difficiles, voire impossibles, à obtenir avec un outil travaillant uniquement par mots clés, du fait que la relation recherchée peut être exprimée par un très grand nombre de formes de surface. En effet, si un veilleur s intéresse au point de vue Connexion et un terme de filtrage, éventuellement une entité nommée, par exemple «Sarkozy» ou «Chirac», le système effectue de fait une recherche sur non seulement le terme de filtrage entré par l utilisateur, mais aussi sur l ensemble des marqueurs linguistiques associés au point de vue Connexion dans la carte sémantique, la recherche étant guidée par l Exploration Contextuelle. En recourant à des systèmes plus classiques, en entrant la requête «Connexion Sarkozy» ou dans une recherche plus étendue quelques marqueurs qui lui semblent associés à la Connexion, le veilleur n obtiendra pas les mêmes résultats (cf. section 9.3.2). Le système que nous proposons permet en effet d accéder à la relation sémantique de Connexion sans pour autant connaître tous les marqueurs de surface signalant des connexions. De plus, à partir des premières réponses du système, le veilleur peut, s il identifie une information particulière, la resituer dans son contexte initial en revenant au texte et construire une fiche de synthèse. Ce travail s inscrit dans un programme d annotation sémantique mené au laboratoire LaLIC depuis 1995, ayant donné des applications sur le Résumé automatique, les fiches de synthèses automatiques, le filtrage et la recherche d informations sémantiques. Les différents travaux et les conférences ont conduit à la publication d un ouvrage de synthèse aux éditions Hermes [Desclés et Djioua, 2009b]. Dans ce e thèse, notre contribution ne se situe pas dans l annotation sémantique ou la construction de ressources linguistiques, mais dans l exploitation des corpora annotés pour la recherche d informations et plus particulièrement pour l ordonnancement des réponses et la gestion de la redondance, contribuant à éliminer une partie du brut. Le système que nous avons implémenté est utilisé dans de nombreux projets au sein 247

258 Conclusion générale du laboratoire LaLIC (voir section 8.2). Ce type d approche peut rentrer dans le cadre du projet IDEFICS (L Indexation, le Dévelopement, l Évaluation Francophone de l Information et de la Communication Scientifique), qui a pour objectif d annoter et d exploiter un grand corpus de textes et offrir des fonctionnalités de recherche d informations et d analyses bibliosémantiques. Ce projet associe l Université Paris-Sorbonne à l AUF en relation avec d autres universités. 248

259 249 Annexes

260

261 A A Hiérar ie de Chomsky et Exploration Contextuelle Langages réguliers Les expressions régulières sont définies dans la théorie des langages formels comme des expressions formées à partir de constantes et des opérateurs. Chaque expression régulière reconnait (ou décrit) un ensemble de chaînes de caractères, appelé langage. Soit l alphabet fini Σ = {σ 1, σ 2,..., σ p }, et A et B des ensembles de chaînes de caractères sur Σ. Définissons les trois opérations de base suivantes : 1) concaténation : AB = {ab a A et b B} 2) alternative : A B = A B 3) étoile de Kleene : A est le plus petit ensemble S contenant A (S A) et qui est fermé par rapport à la concaténation. En d autres termes, A est l ensemble de toutes les chaînes qui peuvent être produites par la concaténation de zéro, une ou plusieurs chaînes de A. Définition 1. Une expression régulière (ER) est définie récursivement comme suit : i) L ensemble vide, est une expression régulière ; ii) La chaîne de longueur 0, ϵ est une expression régulière ; iii) Une le re a Σ, qui est une chaîne de longueur 1, est une expression régulière ; iv) Si A et B sont des expressions régulières, alors la concaténation AB et l alternative A B sont des expressions régulières ; 251

262 A A v) Si A est une expression régulière, alors l étoile de Kleene A est une expression régulière. L ensemble des expressions régulières est alors la fermeture transitive et réflexive des opérations de concaténation, alternative et étoile de Kleene, contenant l ensemble vide et la chaîne de longueur 0, notée par ϵ. D autres opérations peuvent être définis dans l ensemble d expressions régulières, par exemple : A? = A A + = AA (10.5) Ces dernières opérations n étendent pas l ensemble d expression régulière, puisqu elles sont exprimables par les trois opérations de base. Cependant, elles sont souvent utilisées pour plus de commodité. Définition 2. Nous appelons un langage reconnu par une expression régulière l ensemble de chaînes décrit par ce e expression régulière. Un langage qui peut être reconnu par une expression régulière s appelle un langage régulier (aussi langage rationnel). Exemples de langages réguliers : Tous les langages finis. Pour un langage fini L = {s 1, s 2,..., s m }, l expression régulière (s 1 s 2... s m ) reconnaît L. Pour une chaîne donnée s, l ensemble de chaînes contenant s. Pour une chaîne donnée s, l ensemble de chaînes contenant k fois la chaîne s pour k 0. Exemples de langages qui ne sont pas réguliers : le langage {a n b n n 1} = {ab, aabb, aaabbb,...} le langage des palindromes sur Σ : 252 P = {s 1 s 2...s n s 1 s 2... s n = s n s n 1... s 1, s i Σ}

263 A A Une propriété importante des langages réguliers est donnée par la théorème de Kleene, qui affirme que la classe des langages réguliers est exactement la classe des langages reconnus par des automates à états finis. De plus, toute expression régulière peut être convertie en un automate fini équivalent et vice versa [Kleene, 1956]. En d autres termes, à tout automate fini peut être associé une expression régulière qui définit le langage reconnu par l automate, et réciproquement. Toutefois, il n existe pas de bijection entre les automates et les expressions régulières : un même langage peut être reconnu par plusieurs automates différents et défini par plusieurs expressions régulières. De plus, une différence significative existe entre les automates finis et les expressions régulières en termes de compacité de représentation : certaines familles de langages rationnels nécessitent pour leur description une famille d automates dont la taille croît exponentiellement, alors que la taille des expressions rationnelles nécessaires ne croît que linéairement. Expressions régulieres en informatique Suite à la théorie des langages formels, le dispositif des expressions régulières a été implémentés dans un grand nombre d outils informatiques de filtrage par motif (en anglais pa ern-mat ing), comme par exemple la fonction grep d UNIX, et les outils d analyse lexicale et syntaxique Lex et Yacc [Levine et al., 1992]. En effet, le formalisme, la facilité et l économie des expressions régulières pour la description de certaines familles de chaînes de caractères répondent à un besoin informatique essentiel. Les langages de programmation, tels que Perl, Java, Python, Ruby, offrent un ensemble très riche d extensions pour le traitement des expressions régulières. Il est important de noter que les implémentations informatiques des expressions régulières ne correspondent par à la définition formelle que nous avons donnée ci-dessus. Par exemple, le standard POSIX⁴, qui est une tentative de normaliser entre autres le syntaxe des expressions régulières en informatique, définit deux classes : expressions régulières de base (BRE) et expressions régulières étendues (ERE). Ces deux classes incluent ⁴Portable Operationg System Interface, IEEE Std

264 A A de nombreuses fonctionnalités qui ne font par partie de la définition formelle, comme le retour sur trace (en anglais ba tra ing), c est à dire la possibilité de référencer certaines parties d une expression qui ont été déjà reconnues. Cela revient à «me re en mémoire» une partie d une chaîne reconnue pour en identifier les occurrences plus loin dans l expression. Un tel algorithme est capable de reconnaître par exemple le langage L = {ss s Σ } qui n est pas régulier. Les expressions régulières sous la norme POSIX reconnaissent alors une classe de langages plus grande que les langages réguliers, mais qui n est pas encore la classe des langages hors contexte. Les différents langages de programmation implémentent des «diale es» d expressions régulières, qui ne correspondent pas vraiment au normes POSIX, offrant chacun des fonctionnalités plus ou moins étendues. De plus, de point de vue algorithmique, la reconnaissance des expressions régulières se fait pas deux types de moteurs différents : l un utilisant un automate à états finis déterministe (DFA, par exemple dans egrep, lex, MySQL) et l autre un automate à états finis non-déterministe (NFA, par exemple dans Java, Perl, Python, PHP,.NET). Hiérar ie de Chomsky Une grammaire formelle est un ensemble de règles de production qui décrivent les chaines de caractères valides dans un langage formel. La formalisation des grammaires génératives a été proposée en 1957 par le linguiste N. Chomsky [Chomsky, 1957]. Définition 3. Une grammaire G est définie par un quadruplet (N, Σ, P, S), où : N est un ensemble fini de symboles non-terminaux ; Σ est un ensemble fini de symboles terminaux, Σ N = ; P est un ensemble fini de règles de production, chaque règle ayant la forme : (Σ N) N(Σ N) (Σ N) 254 S N est un symbole appelé axiome.

265 A A En 1956, Chomsky propose une classification des langages formels et les grammaires qui les engendrent [Chomsky, 1956], appelée également hiérar ie de Chomsky. Il définit quatre classes de langages imbriquées, chaque classe étant plus spécifique que la classe précédente (voir la figure 10.5). Nous remarquons que tout système formel pouvant être utilisé pour générer ou accepter un langage quelconque est strictement équivalent à l une des grammaires formelles de Chomsky [Chomsky, 1957]. F : Hierarchie de Chomsky Type 0 : Grammaires non-restreintes (ou générales) qui incluent toutes les grammaires formelles. Les règles sont de la forme : α β, où α, β Σ, α ϵ. Les langages engendrés pas ces grammaires sont les langages dites récursivement énumerables, définis comme les langages acceptés par une machine de Turing. Selon la théorème de Turing de 1959, tout langage reconnu par une grammaire générale est un langage récursivement énumerable. Type 1 : Grammaires contextuelles. Dans ces grammaires le remplacement d un élément non-terminal peut dépendre de son contexte. Les règles ont la forme : αaβ αγβ, où A N, α, β (Σ N), γ (Σ N) + 255

266 A A. Les langages engendrés pas ces grammaires sont les langages contextuels ou les langages dépendants du contexte. Ils sont reconnus par une machine de Turing linéairement bornée⁵ non-déterministe. Exemple d un langage contextuel : {a n b n c n, n 1}. Type 2 : Grammaires hors contexte. Elles génèrent les langages hors contexte, reconnaissables par les automates à piles. Les règles sont de la forme : A γ, où A N, γ Σ. Ces langages sont la base théorique de la syntaxe d une grande partie des langages de programmation. La forme de Backus-Naur, perme ant de décrire les règles syntaxiques des langages de programmation, est une grammaire hors contexte. Exemple d un langage hors contexte : {a n b n, n 1}. Type 3 : Grammaires régulières. La classe des langages engendrée par ces grammaires est exactement la classe des langages réguliers, reconnus par des automates à états finis et les expressions régulières. Les règles sont de la forme : A ab et A a, où A, B N, a Σ. Les classes des langages de types 1, 2 et 3 sont fermés par rapport aux opérations régulières, notamment l union, la concaténation et la substitution. Programme reconnaissant le langage contextuel a n b n c n par Exploration Contextuelle Le programme suivant, écrit sous Perl, montre une réalisation informatique des indicateurs et règles décrits dans la section Ce e méthode permet de reconnaître le langage contextuel {a n b n c n n 1} par la méthode d Exploration Contextuelle. ⁵Une machine de Turing est dit linéairement bornée si elle n utilise de sa mémoire qu une portion dépendante linéairement de la taille du mot testé. 256

267 A A 1 use strict ; 2 3 sub EC{ 4 my $res = I0($_[0]) ; 5 if ($res == 0) { 6 print non reconnue \n ; 7 } 8 else { 9 print reconnue \n ; 10 } 11 } sub I0{ 14 if ($_[0] =~ m/(aa*bb*cc*)/) { 15 print. $1. ; 16 return I1($1) ; 17 } 18 return 0 ; 19 } sub I1{ 22 my $pos = index($_[0], b ) ; 23 if ($pos >= 0) { 24 return R1($_[0], $pos-1, $pos+1) ; 25 } 26 return 0 ; 27 } sub R1{ 30 my $gauche = substr($_[0], 0, $_[1]+1) ; 31 my $droite = substr($_[0], $_[2]) ; 32 if ( (index($gauche, a ) >= 0) && ( index($droite, c ) >= 0) ) { 33 $gauche =~ s/a/a/ ; 34 $droite =~ s/c/c/ ; 35 my $resultat = $gauche. B. $droite ; 36 return (I1($resultat) + I2($resultat)) ; 37 } 38 return 0 ; 39 } sub I2{ 42 my $pos = index($_[0], B ) ; 43 if ($pos >= 0) { 44 return R2($_[0]) ; 45 } 46 return 0 ; 47 } sub R2{ 50 my $chaine = $_[0] ; 51 if ((index($chaine, b ) < 0)&&(index($chaine, a ) < 0) 52 &&(index($chaine, c ) < 0) ) { 53 $chaine =~ s/a/a/g ; 54 $chaine =~ s/b/b/g ; 55 $chaine =~ s/c/c/g ; 56 return 1 ; 57 } 58 return 0 ; 59 } while (my $var = <STDIN>) { 62 EC($var) ; 63 } 257

268

269 A B Corpus de phrases similaires Point de vue «rencontre» : 1. Nicolas Sarkozy et Barack Obama ont eu vendredi à Strasbourg leur premier entretien bilatéral depuis l élection du président américain, quelques heures avant le début du sommet de l Otan. 2. Nicolas Sarkozy reçoit Barack Obama vendredi, à Strasbourg, à l occasion du sommet du 60e anniversaire de l Otan. 3. Le président américain Barack Obama a été reçu vendredi par son homologue français Nicolas Sarkozy à Strasbourg avant un sommet de l Alliance atlantique. 4. Lors d une conférence de presse commune, Barack Obama a salué le courageux leadership de Nicolas Sarkozy lors du G20 de Londres. 5. Nicolas Sarkozy a rencontré officiellement Barack Obama avant le sommet de l Otan, ce vendredi à Strasbourg. 6. Barack Obama et Nicolas Sarkozy ont donné leur première conférence de presse ensemble. 7. Lors d une visite à Bethléem, en Cisjordanie, le pape Benoît XVI a appelé à la création d un Etat palestinien, aux côtés du président de l Autorité palestinienne, Mahmoud Abbas. 259

270 A B 8. Le pape Benoît XVI a apporté mercredi son soutien à la création d un État palestinien et déploré le «tragique» mur de séparation érigé par Israël, lors d une visite à Bethléem au sixième jour de son pèlerinage en Terre sainte. 9. Pour leur première conférence de presse commune, à Strasbourg le 3 avril, le président américain n a pas tari d éloges à l égard de son homologue français. 10. Barack Obama a été reçu par Nicolas Sarkozy à Strasbourg à l occasion du sommet de l Otan au lendemain d un G20 à Londres. Point de vue «citation» : 11. Obama? C est mon copain, confie le président au Figaro. 12. Barack Obama, c est mon copain déclarait Nicolas Sarkozy dans une interview au Figaro ce vendredi matin. 13. Buzz Nicolas Sarkozy Obama? c est mon copain Nicolas Sarkozy s est vanté d être le seul Français à connaître Barack Obama. 14. Nicolas Sarkozy a déclaré dans Le Figaro paru le matin même : Obama? C est mon copain. Je suis le seul Français à le connaître. Point de vue «catastrophes naturelles» : 15. Un séisme d une magnitude de 8,8 sur l échelle de Richter a durement frappé l archipel japonais vendredi matin. 16. Un tremblement de terre de 8,8 sur l échelle de Richter s est produit au large de la côte nord-est du Japon, déclenchant un tsunami dont on ignore encore avec précision l ampleur. 17. Un séisme d une magnitude de 8,9 s est produit au large des côtes nord-est du Japon, vendredi 11 mars, provoquant la formation de vagues a eignant jusqu à 10 mètres de hauteur à Sendai. 260

271 A B 18. Le tsunami de 10 mètres qui a déferlé ce matin sur les côtes de Sendai, au nord-est du Japon, après le très violent séisme de magnitude 8,8 (ou 8,9), a provoqué de graves dégâts. 19. Les images radar prises le 12 mars par le satellite Envisat de l ESA révèlent que des icebergs se sont détachés des plates-formes de glace qui prolongent la calo e glaciaire dans la baie de Sulzberger. 20. Les vagues géantes ont détaché des morceaux de la calo e glaciaire dans la baie de Sulzberger, à km de Fukushima. 21. Le tsunami ayant frappé le Japon le 11 mars a propagé des vagues qui ont créé des icebergs géants dans l Antarctique à km de là, selon des images satellitaires diffusés mardi par l Agence spatiale européenne (Esa). 22. Le puissant séisme d une magnitude de 7,3 sur l échelle de Richter, a provoqué des dégâts très importants, notamment dans le centre de la capitale, Port-au-Prince. 23. Un puissant séisme de magnitude 7 a frappé Haïti près de la capitale Port-au-Prince, où plusieurs bâtiments, dont ceux de l ONU se sont effondrés, faisant craindre des centaines de morts dans le pays le plus pauvre d Amérique. 24. Le puissant tremblement de terre, qui a frappé Haïti le 12 janvier, a ravagé la capitale surpeuplée de Port-au-Prince, rayant de la carte une partie de la ville et provoquant des dizaines de milliers de morts. Classes de similarité : ; ; 7-8 ; ; ; ; ;

272

273 A C Cartes sémantiques Nous présentons ici brièvement les cartes sémantiques traitées par notre système. La carte sémantique «Résumé automatique» (figure 10.6) a été développée par A. Blais [Blais, 2008]⁶ afin de proposer des stratégies de résumé automatique par extraction de segments annotés. L extraction s appuie sur plusieurs critères dont l annotation, la position dans le texte et la présence d anaphores dans le segment. Ce e méthode a été conçue pour le traitement de publications scientifiques et les points de vue correspondent à des catégories discursives identifiées grâce aux marqueurs spécifiques comme des traces de mise en texte et des traces de l auteur. Les annotations vise l identification de certains segments porteurs d informations saillantes dans les textes, qui sont pour la plupart exploitables hors contexte. Les cinq points de vue principaux (annonce thématique, remarque te nique, remarque conclusive, appréciation et navigation) sont sous-divisés en points de vue plus spécifiques. Ce e carte sémantique a des particularités dus au fait qu elle est construite pour répondre à un besoin de traitement informatique, qu est le résumé automatique. À la différence d autres cartes sémantiques, elle n est pas issue directement d une seule tâche de fouille textuelle et les points de vue qu elle contient sont variés. La carte sémantique «Bibliosémantique» (figure 10.7) propose une catégorisation des citations entre auteurs dans des publications scientifiques ⁶En utilisant les travaux de [Berri, 1996]. 263

274 A C [Bertin et al., 2006, Bertin, 2011]. Elle est issue de l analyse des contextes de références bibliographiques afin de dégager les différentes motivations d un auteur pour citer une publication, par exemple pour introduire une méthode, comparer ses travaux au autres, reprendre une définition, etc. L annotation permet, à travers une étude de la bibliographie, d identifier les relations entre auteurs. La carte sémantique «Connexion» (figure 10.8) vise l identification de la relation de connexion entre des personnes [Bouhafs, 2005, Djioua et al., 2006, Franchi, 2008]. Les trois points de vue principaux sont rencontre, proximité et communication. Ce e carte a été conçue pour le traitement d articles de presse. Une distinction est faite entre les différents types de connexions, notamment entre individuelle et collective, et entre réalisée et non-réalisée. Les rencontres nonréalisées sont celles qui ont été prévues mais ne se sont pas produites. La carte sémantique «Citation» a été conçue pour analyser les citations directes dans les textes journalistiques. L annotation se base sur l analyse des actes de discours. Une carte sémantique approfondie de la citation a été proposée par [Alrahabi, 2010]. L idée principale consiste à catégoriser les modalités d énonciation et d identifier, par exemple l accord et le désaccord, ainsi que la prise en charge [Desclés et Guentcheva, 2000]. La carte sémantique «Définition» (figure 10.9) s appuie sur une analyse linguistique de la définition [Hacène, 2008, Bertin et al., 2009c]. L intérêt de ce e carte sémantique est de pouvoir extraire, catégoriser, et comparer les différentes définitions d un concept à partir des textes, articles scientifiques, thèses, livres. En effet, en science humaines, il est souvent pertinent de considérer plusieurs définitions afin de mieux cerner un concept ou d analyser les points de vue de différents auteurs. 264

275 A C Annonce thématique Présentation thématique Objectif Problématique contenu thématique Méthode Remarque technique Description Évaluation contenu technique Hypothèse Annotation des textes scientifiques Remarque conclusive Conclusion Résultat contenu inféré Conséquence Appréciation Soulignement Opinion contenu subjectif Navigation Récapitulation Reformulation contenu transformé Rappel F : Carte sémantique «Résumé automatique» 265

276 A C Hypothèse Analyse Résultat Information Méthode Citation Contre-exemple Bibliosémantique Comparaison Appréciation Point de vue Similitude Dissimilitude Accord Désaccord Prise de position Définition F : Carte sémantique «Bibliosémantique» 266

277 A C Connexion Rencontre Proximité Communication Événementielle Physique Individuelle Collective Réalisée Non réalisée F : Carte sémantique «Connexion» Définition générale Axiome Définition d'entités mathématiques Définition Facette définitoire Identification Catégorisation déterminée Pseudo-définition Définition axiomatique Définition rapportée Définition contextualisée Définition contextualisée concessionnelle Définition engagée F : Carte sémantique «Définition» 267

278

279 A D Structure de la base de données T : Structure de la table annotation Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Seg_ID bigint(20) Non Clé étrangère vers SEG Pdv_ID bigint(20) Non Clé étrangère vers PDV Indicateur varchar(255) Non Indicateur Indices varchar(255) Non Indices T : Structure de la table corpus Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Nom char(100) Non Nom du corpus Commentaire_corpus text Non T : Structure de la table corpus_ta e Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Corpus_ID bigint(20) Non Clé étrangère vers CORPUS 269

280 A D T : Structure de la table corpus_ta e (suite) Champ Type Null Défaut Commentaires Tache_ID bigint(20) Non Clé étrangère vers TACHE T : Structure de la table doc Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Nom_fichier varchar(255) Non Nom du fichier Chemin_complet varchar(200) Non Repertoire Taille bigint(20) Non 0 Taille en octets No_segs int(11) Non 0 Nombre de segments dans le fichier Titre text Non Titre s il existe, extrait à partir du XML Auteur text Non Auteur s il existe, extrait à partir du XML Date_dimportation datetime Non CURRENT_TIMESTAMP Date d importation du fichier T : Structure de la table doc_corpus Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Doc_ID bigint(20) Non Clé étrangère vers DOC Corpus_ID bigint(20) Non Clé étrangère vers CORPUS 270

281 A D T : Structure de la table doc_meta Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Doc_ID bigint(20) Oui NULL Clé étrangère vers DOC Author text Non Auteur Date_ text Non Description text Non Editor text Non Format_ text Non Key_words text Non Language text Non Note text Non Pagecount text Non Paralleltitel text Non Publisher text Non Subject text Non Title text Non Type_ text Non URL text Non Volume text Non T : Structure de la table doc_ta e Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Doc_ID bigint(20) Non Clé étrangère vers DOC Tache_ID bigint(20) Non Clé étrangère vers TACHE 271

282 A D T : Structure de la table doc_ta e (suite) Champ Type Null Défaut Commentaires Date timestamp Non CURRENT_TIMESTAMP T : Structure de la table liste Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Nom char(100) Non T : Structure de la table liste_pdv Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Pdv_ID bigint(20) Non Clé étrangère vers PDV Liste_ID bigint(20) Non Clé étrangère vers LISTE T : Structure de la table ordonnancement Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Seg_ID bigint(20) Non Clé étrangère vers SEG Tache_ID bigint(20) Non Clé étrangère vers TACHE SPos float Non 0 SNum float Non 0 SType float Non 0 SPdv float Non 0 272

283 A D T : Structure de la table pdv Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Nom char(100) Non Description text Non Description du point de vue Exemples text Non Exemples de phrases SurPdv_ID bigint(20) Non Clé étrangère vers LISTE SousPdv_ID bigint(20) Non Clé étrangère vers LISTE Annotations varchar(500) Non Identifiant dans fichiers XML Ordre int(11) Non Ordre pour l affichage Tache_ID bigint(20) Non Clé étrangère vers TACHE T : Structure de la table section Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Doc_ID bigint(20) Non Clé étrangère vers DOC No int(11) Non 1 Numéro de section dans le document Titre text Non Titre de section T : Structure de la table seg Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Doc_ID bigint(20) Non Clé étrangère vers DOC No_seg int(11) Non Numéro de phrase dans le paragraphe No_para int(11) Non 1 Numéro du paragraphe No_reel int(11) Non Numéro dans le document Section_ID int(11) Non Clé étrangère vers SECTION 273

284 A D T : Structure de la table ta e Champ Type Null Défaut Commentaires ID bigint(20) Non Clé primaire Nom varchar(255) Non Identificateur varchar(255) Non Identifiant dans fichiers XML T : Structure de la table texte Champ Type Null Défaut Commentaires Seg_ID bigint(20) Non Clé primaire Texte text Non Contenu du segment 274

285 A E estionnaire d évaluation Il s agit d évaluer la pertinence des résultats d un système de recherche d informations. Vous avez 10 situations de recherche différentes qui sont présentées ci-dessous. À partir des situations proposées, vous devez examiner les résultats (les phrases proposées comme réponses par le système), et pour chaque résultat déterminer s il est pertinent (1), peu pertinent (1/2), ou non-pertinent (0). Un résultat est : pertinent, s il contient une information intéressante, utile, pertinente par rapport à la situation de recherche décrite. peu pertinent, s il contient une information secondaire, qui peut présenter un certain intérêt dans la situation de recherche, mais qui est moins intéressante, utile, pertinente que d autres réponses. non-pertinent, s il n a aucun intérêt, et ne donne pas d informations pertinentes, intéressantes, ou utiles par rapport à la situation de recherche. Les phrases à évaluer sont en jaune. Dans certains cas les phrases précédentes et suivantes sont affichées pour vous perme re de visualiser le contexte. Les résultats vous sont présentés dans un ordre aléatoire. Notez vos évaluations (0, 1/2, ou 1) à droite de chaque résultat. 275

286 A E Situation 1. Vous êtes un étudiant en psychologie et vous devez écrire un rapport sur les avancées en psychologie cognitive. Vous disposez d un corpus d articles scientifiques sur ce sujet. Vous voulez identifier les auteurs (les références bibliographiques) qui ont produit des résultats précis dans ce domaine, ainsi que des citations pertinentes. Requête : : Bibliosémantique ; P : citation OU résultat ; M : psy ologi* ET cogniti* ⁷ Situation 2. Vous voulez dresser un panorama des résultats intéressants concernant la logique à partir d un corpus d articles scientifiques et des thèses. Vous voulez identifier les auteurs (les références bibliographiques) qui ont été cités pour leurs résultats. Requête : : Bibliosémantique ; P : résultat ; M : logique 276 ⁷Les résultats sont présentes dans un ordre aléatoire, qui est différent pour chaque juge.

287 A E 277

288 A E Situation 3. Un pédagogue s intéresse à des auteurs traitant des nouvelles méthodes, hypothèses, informations à partir des articles scientifiques dans le domaine de l enseignement. Il pose sa requête par rapport au point de vue information dans la Bibliosémantique, avec mots clés «enseignement» et «enseignant». Requêtes 3 et 4 : : Bibliosémantique ; P : information ; M : enseignement : Bibliosémantique ; P : information ; M : enseignant* 278

289 A E 279

290 A E 280

291 A E Situation 5. Vous cherchez les références bibliographiques autour de la notion de «réseau» : les résultats, les définitions, les citations de différents types de réseaux chez les différents auteurs. Requête : : Bibliosémantique ; P : information ; M : réseau* 281

292 A E Situation 6. Vous voulez identifier les principaux auteurs qui sont cités dans des articles scientifiques autour de la notion de «signification». Requête : : Bibliosémantique ; P : <tous> ; M : signification* 282

293 A E Situation 7. Vous voulez identifier les principaux auteurs qui sont cités dans des articles scientifiques autour de la notion d «opérateur». Requête : : Bibliosémantique ; P : <tous> ; M : opérateur 283

294 A E Situation 8. Vous vous intéressez à la perception sensorielle, et notamment aux hypothèses liées à celle-ci, extraites à partir d articles scientifiques issus de ce domaine. Requête : : Résumé automatique ; P : hypothèse ; M : percepti* ET sensor* Situation 9. Vous voulez extraire, à partir des articles scientifiques, les remarques techniques (hypothèses, méthodes, ) concernant la perception. Requête : : Résumé automatique ; P : remarque te nique ; M : percepti* 284

295 A E 285

296 A E Situation 10. Vous voulez extraire, à partir des articles scientifiques, les remarques techniques (hypothèses, méthodes, ) sur la notion de «discours». Requête : : Résumé automatique ; P : remarque te nique ; M : discours Situation 11. Vous fouillez des thèses en histoire de l art sur le sujet de la peinture. Vous voulez retrouver toutes les définitions de la peinture. Requête : : Définition ; P : <tous> ; M : peinture 286

297 A E 287

298 A E Situation 12. Vous voulez étudier la notion de «beauté» à partir de textes en histoire de l art. Vous vous intéressez ici aux définitions engagées et oppositions exprimées en rapport avec la beauté. Requête : : Définition ; P : définition engagée OU opposition ; M : beauté Situation 13. Toujours à partir du même corpus de thèses, vous voulez effectuer une recherche sur la notion de «style». Vous cherchez en priorité les définitions contextualisées et les identifications. Requête : : Définition ; P : définition contextualisée OU identification ; M : style 288

299 A E Situation 14. Á partir d un corpus d articles de presse, vous vous intéressez aux rencontres du président Jacques Chirac, notamment ses rencontres réalisées. Requête : : Connexion ; P : rencontre ET réalisée ; M : Chirac 289

300 A E Situation 15. Á partir d un corpus d articles de presse, vous vous intéressez aux rencontres (réalisées ou non) du président Sarkozy. Requête : : Connexion ; P : rencontre ; M : Sarkozy 290

301 A E Situation 16. Vous vous intéressez ce e fois-ci aux toutes les connexions (rencontres, communications, proximités) du président Sarkozy. Requête : : Connexion ; P : <tous> ; M : Sarkozy OU président français 291

302 A E Situation 17. Vous vous intéressez aux connexions (rencontres, communications, proximités) de Mme Merkel. 292

303 A E Requête : : Connexion ; P : <tous> ; M : Merkel Situation 18. Vous voulez retrouver les rencontres qui sont liées aux débats en politique. Requête : : Connexion ; P : rencontre ; M : politique 293

304 A E Situation 19. Vous voulez identifier les rencontres autour du gouvernement. Requête : : Connexion ; P : rencontre ; M : gouvernement Situation 20. Vous voulez identifier les connexions (rencontres, communications, proximités) du président américain G. Bush, à partir des articles de presse. Requête : : Connexion ; P : <tous> ; M : Bush 294

305 A F Analyse bibliosémantique de la thèse Ce e thèse a été analysée par l outil Bibliosémantique développé par [Bertin, 2011]. La distribution et la répartition des annotations présentées dans des figures et ont été générées automatiquement⁸. F : Distribution des renvois bibliographiques annotés dans la présente thèse ⁸Le temps de traitement était de 8 secondes pour la segmentation et de 5 secondes pour l annotation sémantique. 295

306 A F La figure présente la distribution des renvois bibliographiques dans la présente thèse. Les actes de citation ont été analysés et catégorisés selon les points de vue de la carte sémantique «Bibliosémantique». L axe horizontal représente le document segmenté en phrases, en commençant par la première phrase à gauche et en allant jusqu à la fin du texte à droit. L axe vertical représente les différentes catégories discursives qui ont été prises en compte par l annotation. Ce e distribution montre la progression des types d actes de citation utilisés dans la thèse. Selon la distribution, nous pouvons dégager trois parties différentes de la thèse. La première partie, qui est constituée des premières autour de 800 phrases, montre une forte concentration des renvois bibliographiques et des différentes catégories de la citation. Ce e partie correspond à l état de l art dans la thèse. Nous y voyons une distribution très hétérogène des catégories discursives : des actes de citation, avec notamment un grand nombre d exemples, de prises de position, de méthodes et de résultats, mais également des définitions, des similitudes et des analyses. De la partie centrale de la thèse aux environs de la phrase 2000, la distribution montre une forte présence de trois catégories principales : des résultats, des méthodes et des exemples. Enfin, dans la troisième partie de la thèse nous pouvons observer une concentration des points de vue autour de la citation et des résultats. Ce e dernière partie correspond aux résultats, évaluations et la conclusion de la thèse. La figure présente la répartition des renvois annotés et complète la lecture de la distribution en montrant les proportions dans lesquelles les catégories de citation sont employées dans la globalité de la thèse. Nous pouvons observer que les catégories de citations les plus utilisées dans la thèse sont notamment les résultats, les exemples et les méthodes. 296

307 A F F : Répartition des renvois bibliographiques annotés dans la présente thèse 297

308

309 Liste des figures 1.1 Schéma simplifié du fonctionnement d un système de recherche d informations Représentation des documents dans le modèle vectoriel Diagramme des fréquences des mots : [Luhn, 1958] Lignes de similarité équidistantes de (1,1) et (0,0) pour les requêtes A B et A B [Salton et al., 1983] Évaluation par des courbes rappel/précision Modèle simplifié d accès à l information : [Hearst, 1999] Modèle d accès à l information avec distinction entre les actions de l utilisateur et du système Le processus de recherche d informations [Marchionini, 1992] Schéma de fonctionnement de la méthode d EC Ordre d application des règles Exploration Contextuelle : construction des ressources linguistiques Fiche de synthèse à partir d un texte bulgare Moteur Excom-2 : interface de saisie des règles d Exploration Contextuelle Interface de recherche d informations et d analyse bibliosémantique Une bibliographie augmentée produite par l analyse bibliosémantique Schéma général du traitement automatique Valeur informationnelle des documents Résumé produit par le système Fiche de synthèse

310 LISTE DES FIGURES 5.1 Résultats de recherche ordonnés : Bibliosémantique ; P information ; M enseignant* Résultats de recherche ordonnés : Connexion ; P rencontre ; M politique Résultats de recherche 1-5 : Connexion ; P rencontre ; M Sarkozy Résultats de recherche : Connexion ; P rencontre ; M Sarkozy Résultats de recherche 1-5 : Résumé automatique ; P remarque te nique ; M percepti* Résultats de recherche 1-5 : Bibliosémantique ; P <tous> ; M opérateur Résultats de recherche : Connexion ; P Connexion ; M Bush Résultats de recherche 1-5 : Bibliosémantique ; P information ; M réseau* Application des scores d ordonnancement Distributions des valeurs des scores Spos, SN um et Stype Distributions des valeurs des scores SN um et Stype pour les segments avec SP os = Distributions des valeurs du score SAnnot Classement des points de vue : carte sémantique «Résumé automatique» Résultats de recherche 1-5 : Résumé automatique ; P remarque te nique ; M percepti* Classement des points de vue : carte sémantique «Bibliosémantique» Résultats de recherche 1-6 : Bibliosémantique ; P information ; M réseau* Classement des points de vue : carte sémantique «Connexion» Résultats de recherche 1-3 : Connexion ; P rencontre ; M gouvernement

311 LISTE DES FIGURES 6.1 Identification des phrases similaires en utilisant les indicateurs Rappel et précision : corpus d expérimentation Rappel et précision : MSRPC, point de vue rencontre Affichage de phrases similaires Architecture du système Schéma du traitement automatique Extrait d un fichier annoté au format XML Schema XSD des fichiers annotés Schéma partiel de la base de données : documents structurés (modèle physique) Schéma partiel de la base de données : annotations (modèle physique) Modèle physique de la base de données Interface de recherche d informations sémantique Recherche d informations sémantique : interface d interrogation simple Recherche d informations sémantique : interface d interrogation avancée Recherche d information sémantique : exploitation des résultats Recherche des définitions de la «peinture» Recherche des définitions de la «peinture» : réponses 7 et Recherche du mot «peinture» en Bibliosémantique Recherche des définitions engagées avec mot clé «beauté» Recherche des auteurs cités en relation avec le mot clé «beauté» Résultats de recherche par mots clés : requête «Sarkozy rencontre» Distribution des pertinences a ribuées par les juges Taux d accord entre les jugements de pertinence Valeurs des précisions pour les 4 tâches évaluées Valeurs de ndcg par tâche Hierarchie de Chomsky Carte sémantique «Résumé automatique» Carte sémantique «Bibliosémantique»

312 LISTE DES FIGURES 10.8 Carte sémantique «Connexion» Carte sémantique «Définition» Distribution des renvois bibliographiques annotés dans la présente thèse Répartition des renvois bibliographiques annotés dans la présente thèse

313 Liste des tables 6.1 Corpus d expérimentation Résultats : corpus d expérimentation Microso Research Paraphrase Corpus Résultats publiés [Corley et Mihalcea, 2005] selon différentes méthodes Corpus MSRPC, point de vue rencontre Résultats : MSRPC, point de vue rencontre Corpora d étude Corpora : pourcentage des phrases annotées Ensemble de requêtes évaluées Récapitulatif des requêtes évaluées Segments contenant les mots clés des requêtes Synthèse des évaluations publiées sur les annotations sémantiques Pertinences des résultats a ribuées par les juges Pertinences des résultats pour les 20 requêtes Pertinences des résultats par tâche Valeurs de RP rec et précisions moyennes pour les 20 requêtes Valeurs de RP rec et précisions moyennes par tâche Valeurs de ndcg pour les 20 requêtes Valeurs de ndcg par tâche Structure de la table annotation Structure de la table corpus Structure de la table corpus_ta e

314 LISTE DES TABLES 10.10Structure de la table corpus_ta e (suite) Structure de la table doc Structure de la table doc_corpus Structure de la table doc_meta Structure de la table doc_ta e Structure de la table doc_ta e (suite) Structure de la table liste Structure de la table liste_pdv Structure de la table ordonnancement Structure de la table pdv Structure de la table section Structure de la table seg Structure de la table ta e Structure de la table texte

315 Références bibliographiques [Aime et al., 2009] A, X., F, F., K, P. et T, F. (2009). Gradients de prototypicalité appliqués à la personnalisation d ontologies. IC cité page 54 [Alrahabi, 2010] A, M. (2010). EXCOM-2 : plateforme d annotation automatique de catégories sémantiques. Applications à la catégorisation des citations en français et en arabe. èse de doctorat, Université Paris-Sorbonne. 4 citations : pages 102, 105, 202 et 264 [Alrahabi et Desclés, 2008] A, M. et D, J.-P. (2008). Automatic annotation of direct reported speech in Arabic and French, according to a semantic map of ennunciative modalities. In 6th Internatilnal Conference of NLP, GOTAL, Gothenburg, Sweden. 3 citations : pages 104, 193 et 194 [Alrahabi et al., 2006] A, M., I, A. H. et D, J.-P. (2006). Semantic Annotation of Reported Information in Arabic. In FLAIRS 2006, Melbourne, Florida. cité page 102 [Amati et Van Rijsbergen, 2002] A, G. et V R, C. (2002). Probabilistic models of information retrieval based on measuring the divergence from randomness. ACM Transactions on Information Systems (TOIS), 20(4) : cité page 32 [Amento et al., 2000] A, B., T, L. et H, W. (2000). Does authority mean quality? Predicting expert quality ratings of Web documents. In Proceedings of the 23rd annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page

316 RÉFÉRENCES BIBLIOGRAPHIQUES [Aswani et al., 2005] A, N., T, V., B, K. et C, H. (2005). Indexing and erying Linguistic Metadata and Document Content. In Proceedings of Fi h International Conference on Recent Advances in Natural Language Processing (RANLP2005), Borovets, Bulgaria. cité page 73 [Atanassova, 2006] A, I. (2006). Annotations sémantiques automatiques de textes bulgares intégrées dans la plate-forme Excom. Fiches de résumé. Mémoire de D.E.A., Université Paris-Sorbonne, sous la direction de M. J.-P. Desclés. 3 citations : pages 102, 103 et 106 [Atanassova et al., 2008a] A, I., B, A. et D, J.-P. (2008a). A Cross-lingual approach to the discourse automatic annotation : application to French and Bulgarian. In FLAIRS, Coconut Grove, Floride. AAAI Press. 2 citations : pages 102 et 103 [Atanassova et al., 2008b] A, I., D, J.-P., F, A. et L P, F. (2008b). La plate-forme excom comme outil automatique d annotations sémantiques des textes pour la catégorisation des informations sur le web. In Colloque «Internet : besoin de communiquer autrement», Université St. Clément d Ohride, Sofia, Bulgarie. cité page 201 [Baeza-Yates et al., 2006] B Y, R., B, P. et C, C. (2006). Generalizing PageRank : damping functions for link-based ranking algorithms. Proceedings of the 29th annual international ACM SIGIR conference on Resear and development in information retrieval, 1 : cité page 136 [Baeza-Yates et Ribeiro-Neto, 1999] B Y, R. et R N, B. (1999). Modern Information Retrieval. Addison Wesley, 1 e édition. 5 citations : pages 20, 23, 51, 68 et 135 [Bannard et Callison-Burch, 2005] B, C. et C B, C. (2005). Paraphrasing with bilingual parallel corpora. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pages ACL. cité page 175 [Barry, 1994] B, C. (1994). User-defined relevance criteria : An exploratory study. Journal of e American Society for Information Science, pages citations : pages 56 et

317 RÉFÉRENCES BIBLIOGRAPHIQUES [Barry et Schamber, 1998] B, C. et S, L. (1998). Users criteria for relevance evaluation : a cross-situational comparison. Information processing & management, 34(2-3) : cité page 58 [Barzilay et Lee, 2003] B, R. et L, L. (2003). Learning to paraphrase : An unsupervised approach using multiple-sequence alignment. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Te nology-volume 1, pages cité page 175 [Bates, 1989] B, M. J. (1989). e design of browsing and berrypicking techniques for the online search interface. On-line review, 13(5) : cité page 52 [Bates, 1990] B, M. J. (1990). Where should the person stop and the information search interface start? Information Processing & Management, 26(5) : cité page 54 [Bates, 2002] B, M. J. (2002). Speculations on browsing, directed searching, and linking in relation to the Bradford distribution. In CoLIS 4 : proceedings of the Fourth International Conference on Conceptions of Library and Information Science, Sea le, WA, USA, July 21-25, 2002, pages Libraries Unltd Inc. cité page 51 [Belkin, 1993] B, N. (1993). Interaction with texts : Information retrieval as information-seeking behavior. Information retrieval, 93 : cité page 19 [Berners-Lee, 1989] B L, T. (1989). Information management : A proposal. CERN. cité page 15 [Berners-Lee et al., 2001] B L, T., H, J., L, O. et al. (2001). e semantic web. Scientific American, 284(5) : cité page 63 [Berri, 1996] B, J. (1996). Contribution à la méthode d exploration contextuelle. Applications au résumé automatique et aux représentations temporelles. Réalisation informatique du système SERAPHIN. èse de doctorat, Université Paris-Sorbonne. 3 citations : pages 104, 125 et 263 [Berri et al., 1996] B, J., C, E., D, J., J, A. et M, J. (1996). Saphir, un système automatique de filtrage de textes. In TALN 96, Marseille. cité page

318 RÉFÉRENCES BIBLIOGRAPHIQUES [Bertin, 2011] B, M. (2011). Bibliosémantique : une te nique linguistique et informatique par exploration contextuelle. èse de doctorat, Université Paris- Sorbonne. 9 citations : pages 105, 106, 107, 165, 201, 209, 226, 264 et 295 [Bertin et al., 2009a] B, M., A, I. et D, J.-P. (2009a). Automatic analysis of author judgement in scientific articles based on semantic annotation. In FLAIRS 09, Sundial Beach, Floride. AAAI Press. 2 citations : pages 102 et 108 [Bertin et al., 2009b] B, M., A, I. et D, J.-P. (2009b). Extraction of Authors Definitions Using Indexed Reference Identification. In First Workshop of Definition Extraction, RANLP citations : pages 102 et 211 [Bertin et al., 2006] B, M., D, J.-P., D, B. et K, Y. (2006). Bibliométrie et linguistique : Evaluation de la production scientifique et annotation sémantique. In 9th International Conference on Electronic Documents with SDN, CiDE09, Fribourg, Suisse. 2 citations : pages 165 et 264 [Bertin et al., 2009c] B, M., H, T. et D, J.-P. (2009c). Comment extraire des définitions des textes? 2 citations : pages 105 et 264 [Besançon et al., 2001] B, R., R, A., C, J. et R, M. (2001). Intégration probabiliste de sens dans la représentation de textes. Actes de la 8ème conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN), pages cité page 62 [Biemann, 2005] B, C. (2005). Semantic indexing with typed terms using rapid annotation. In Proceedings of the TKE Workshop on Methods and Applications of Semantic Indexing, Copenhagen, Denmark. cité page 63 [Blais, 2008] B, A. (2008). Résumé automatique de textes scientifiques et construction de fi es de synthèse catégorisées : Appro e linguistique par annotations sémantiques et réalisation informatique. èse de doctorat, Université Paris-Srobonne. 7 citations : pages 104, 106, 125, 163, 201, 226 et 263 [Blais et al., 2007] B, A., A, I., D, J.-P., Z, L. et Z, M. (2007). Discourse automatic annotation of texts : an application to summarization. In e 20th International FLAIRS Conference, Key West, Floride. AAAI Press. cité page

319 RÉFÉRENCES BIBLIOGRAPHIQUES [Blais et al., 2006] B, A., D, J.-P. et D, B. (2006). Le résumé automatique dans la plate-forme Excom. In Digital humanities. Paris. 2 citations : pages 102 et 103 [Bookstein, 1979] B, A. (1979). Relevance. Journal of the American Society for Information Science, 30(5) : cité page 55 [Borlund, 2003] B, P. (2003). e concept of relevance in IR. Journal of the American Society for information Science and Te nology, 54(10) : cité page 58 [Bouhafs, 2005] B, A. (2005). Utilisation de la méthode d Exploration Contextuelle pour une extraction d informations sur le Web dédiées à la veille. Réalisation du système informatique JavaVeille. èse de doctorat, Université Paris-Sorbonne. 3 citations : pages 166, 202 et 264 [Bouzeghoub et Kostadinov, 2005] B, M. et K, D. (2005). Personnalisation de l information : aperçu de l état de l art et définition d un modèle flexible de profils. Actes de la 2e Conférence de Re er e d Informations et Applications CORIA, pages cité page 54 [Braschler, 2001] B, M. (2001). CLEF 2000 Overview of results. Cross-Language Information Retrieval and Evaluation, 1 : cité page 39 [Bremer et Gertz, 2006] B, J. et G, M. (2006). Integrating document and data retrieval based on XML. e International Journal on Very Large Data Bases, 15(1) : cité page 18 [Buckley et Voorhees, 2004] B, C. et V, E. (2004). Retrieval evaluation with incomplete information. In Proceedings of the 27th annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page 42 [Buckley et Voorhees, 2000] B, C. et V, E. M. (2000). Evaluating evaluation measure stability. In Proceedings of the 23rd annual international ACM SIGIR conference on Resear and development in information retrieval, pages citations : pages 36 et 42 [Budzik et Hammond, 2000] B, J. et H, K. (2000). User interactions with everyday applications as context for just-in-time information access. In 309

320 RÉFÉRENCES BIBLIOGRAPHIQUES Proceedings of the 5th international conference on Intelligent user interfaces, pages cité page 54 [Buffoni et al., 2010] B, D., U, N. et G, P. (2010). Apprentissage de fonctions d ordonnancement par classification par paires ordonnées et pondérées (owpc). CORIA 2010, pages cité page 142 [Burges et al., 2005] B, C., S, T., R, E., L, A., D, M., H, N. et H, G. (2005). Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Ma ine learning, pages ACM. cité page 141 [Bush, 1945] B, V. (1945). As we may think. e Atlantic Monthly, 176(1) : citations : pages 14 et 15 [Cao et al., 2006] C, Y., X, J., L, T., L, H., H, Y. et H, H. (2006). Adapting ranking SVM to document retrieval. In Proceedings of the 29th annual international ACM SIGIR conference on Resear and development in IR, pages cité page 141 [Chai, 2009] C, H. (2009). Problèmes de l Annotation Sémantique Automatique Multilingue - une étude de cas : les relations de localisation en Coréen par la méthode d Exploration Contextuelle. èse de doctorat, Université Paris-Sorbonne. cité page 102 [Chaudiron, 2004] C, S. (2004). Les systèmes de re er e d informations : modèles conceptuels, chapitre L évaluation des systèmes de recherche d informations, pages Lavoisier. 2 citations : pages 39 et 47 [Chaudiron et Schmi, 1999] C, S. et S, L. (1999). Amaryllis : An evaluation-based program for text retrieval in French. Collaboration in LAnguage and Spee Science and te nology (CLASS), page 62. cité page 39 [Chen et al., 2004] C, X., F, B., L, M., M, B. et S, A. (2004). Shared information and program plagiarism detection. Information eory, IEEE Transactions on, 50(7) : cité page 173 [Chomsky, 1956] C, N. (1956). ree models for the description of language. IRE Transactions on Information eory, 2 : cité page

321 RÉFÉRENCES BIBLIOGRAPHIQUES [Chomsky, 1957] C, N. (1957). Syntactic structures. London : Mouton. 2 citations : pages 254 et 255 [Chomsky, 1959] C, N. (1959). On certain formal properties of grammars. Information and Control, 2 : cité page 99 [Church, 1980] C, K. W. (1980). On Memory Limitations in Natural Language Processing. Rapport technique 245, MIT Laboratory of Computer Science. cité page 99 [Cleverdon, 1967] C, C. W. (1967). e Cranfield Tests on Index Language Devices. Aslib Proceedings, 1 : (réimprimmé dans : Jones et Willet, Readings in information retrieval 1997, pages 47 59). 2 citations : pages 14 et 33 [Cleverdon, 1991] C, C. W. (1991). e significance of the Cranfield tests on index languages. In Proc. SIGIR, pages ACM Press. cité page 39 [Cohen et al., 1999] C, W., S, R. et S, Y. (1999). Learning to order things. Journal of Artificial Intelligence Resear, 10 : cité page 141 [Cooper, 1968] C, W. (1968). Expected search length : A single measure of retrieval effectiveness based on the weak ordering action of retrieval systems. American Documentation, 19(1) : cité page 38 [Corley et Mihalcea, 2005] C, C. et M, R. (2005). Measuring the semantic similarity of texts. In Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, pages citations : pages 175, 183 et 303 [Cormem et al., 2009] C, T., L, C., R, R. et S, C. (2009). Introduction to algorithms. MIT Press, 3e édition. cité page 94 [Couto et Minel, 2006] C, J. et M, J. (2006). Navigation textuelle : Représentation des textes et des connaissances. Revue TAL, 47(2) :1 24. cité page 119 [Cove et Walsh, 1988] C, J. et W, B. (1988). Online text retrieval via browsing. Information Processing & Management, 24(1) : cité page 52 [Crispino, 2003] C, G. (2003). Une plate-forme informatique de l exploration contextuelle : modélisation, ar itecture et réalisation (ContextO). Application au filtrage sémantique des textes. èse de doctorat, Université Paris-Sorbonne. cité page

322 RÉFÉRENCES BIBLIOGRAPHIQUES [Cummins et O Riordan, 2006] C, R. et O R, C. (2006). Evolving local and global weighting schemes in information retrieval. Information Retrieval, 9(3) : cité page 135 [Cunningham, 1999] C, H. (1999). JAPE : a Java Annotation Pa erns Engine. Research Memorandum CS-99-06, Department of Computer Science, University of Sheffield. cité page 73 [Cunningham, 2000] C, H. (2000). So ware Ar itecture for Language Engineering. èse de doctorat, University of Sheffield. cité page 73 [Dave et al., 2003] D, K., L, S. et P, D. (2003). Mining the peanut gallery : opinion extraction and semantic classification of product reviews. In Proceedings of the 12th international conference on World Wide Web, pages ACM. cité page 99 [De Loupy, 2000] D L, C. (2000). Evaluation de l apport de connaissances linguistiques en desambigüisation semantique et re er e documentaire. èse de doctorat, Université d Avignon et des pays du Vaucluse. cité page 62 [Decker et al., 2000] D, S., F, D., V H, F., H, I., M, S., K, M. et B, J. (2000). Knowledge representation on the web. In Proceedings of the 2000 Description Logic Workshop (DL 2000), pages cité page 63 [Deerwester et al., 1990] D, S., D, S., F, G., L, T. et H, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American society for information science, 41(6) : cité page 31 [Denos, 1997] D, N. (1997). Modélisation de la pertinence en re er e d information : modèle conceptuel, formalisation et application. èse de doctorat, Université de Grenoble 1. cité page 55 [DeRose et al., 1990] D R, S., D, D., M, E. et R, A. (1990). What is text, really? Journal of Computing in Higher Education, 1(2) :3 26. cité page 192 [Desclés et al., 2009] D, J., A, M. et D, J.-P. (2009). Bioexcom : Automatic annotation and categorization of speculative sentences in biological literature by a contextual exploration processing. In Proceedings of the 4th Language & Te nology Conference, Poznan, Poland. 5 citations : pages 102, 105, 106, 202 et

323 RÉFÉRENCES BIBLIOGRAPHIQUES [Desclés et Guentcheva, 2000] D, J. et G, Z. (2000). Enonciateur, locuteur, médiateur dans l activité dialogique. A. Monod-Becquelin, Ph. Erikson, éds : Les rituels du dialogue. Paris : Société d ethnologie, Université de Paris-Nanterre. cité page 264 [Desclés et al., 2011] D, J., M, O. et D, J.-P. (2011). Towards automatic thematic sheets based on discursive categories in biomedical literature. In Proceedings of the International Conference on Web Intelligence, Mining and Semantics, Songdal,Norway. ACM. 2 citations : pages 102 et 106 [Desclés et al., 2010] D, J., M, O. et H, T. (2010). Automatic annotation of speculation in biomedical texts : new perspectives and large-scale evaluation. In Proceedings of the Workshop on Negation and Speculation in Natural Language Processing, pages ACL. 2 citations : pages 105 et 106 [Desclés, 1988] D, J.-P. (1988). La paraphrase n est pas une relation d équivalence mais une relation asymétrique. L Ambiguïté et la Paraphrase, pages cité page 174 [Desclés, 1997] D, J.-P. (1997). Systèmes d exploration contextuelle. Presses Universitaires de Caen. 2 citations : pages 120 et 193 [Desclés, 2006a] D, J.-P. (2006a). Contextual exploration processing for discourse automatic annotations of texts. In FLAIRS 2006, Invited speaker, Melbourne, Floride. AAAI Press. 3 citations : pages 80, 89 et 100 [Desclés, 2006b] D, J.-P. (2006b). Sur le rôle central des annotations sémantiques automatiques pour l accès aux informations. In Colloque LaLIC, Maison de la Recherche, Université Paris-Sorbonne. cité page 143 [Desclés et al., 1997] D, J.-P., C, E., J, A. et M, J.-L. (1997). Textual Processing and Contextual Exploration Method. CONTEXT 97, Rio de Janeiro, 1 : citations : pages 80, 81 et 101 [Desclés et Djioua, 2007] D, J.-P. et D, B. (2007). La recherche d informations par accés aux contenus sémantiques : vers une nouvelle classe de systèmes de recherche d informations. Revue roumaine de linguistique, LII(1-2) :5 54. cité page

324 RÉFÉRENCES BIBLIOGRAPHIQUES [Desclés et Djioua, 2009a] D, J.-P. et D, B. (2009a). Annotations automatiques et re er e d information, chapitre La recherche d informations par accés aux contenus sémantiques. Hermes, Traité IC2 Cognition et Traitement de l information (éds. J.-P. Desclés et F. Le Priol). 2 citations : pages 64 et 189 [Desclés et Djioua, 2009b] D, J.-P. et D, B. (2009b). Annotations automatiques et re er e d information. Hermes, Traité IC2 Cognition et Traitement de l information. cité page 247 [Desclés et Djioua, 2006] D, J.-P. et D, B. (2006). Machines d annotation et d indexation discursives de textes : EXCOM/MOCXE. In Annotation automatique de relations sémantiques et re er e d informations : vers de nouveaux accès aux savoirs, Paris. 2 citations : pages 132 et 189 [Desclés et Guentcheva, 2003] D, J.-P. et G, Z. (2003). Comment déterminer les significations du passé composé par une exploration contextuelle? Langue française, 138(1) : cité page 119 [Desclés et al., 2010] D, J.-P., L P, F., A, M., A, I. et B, M. (2010). Fouille sémantique des thèses en ligne : un projet de parissorbonne. In 78e congrès de l ACFAS, Montreal Traitement automatique des langues naturelles, analyses et applications. 4 citations : pages 102, 109, 202 et 211 [Dietze, 2010] D, D. (2010). GoWeb : Semantic Sear and Browsing for the Life Sciences. èse de doctorat, Technischen Universität Dresden. cité page 63 [Dinet, 2009] D, J. (2009). Pour une conception centrée-utilisateurs des bibliothèques numériques. Communication et langages, 1 :59. cité page 49 [Djioua et Desclés, 2007] D, B. et D, J.-P. (2007). Indexing documents by discourse and semantic contents from automatic annotations of texts. e 20th international FLAIRS Conference, Key West, Floride, 1 : cité page 189 [Djioua et al., 2007] D, B., D, J.-P. et M, G. (2007). Annotation et indexation des flux RSS par des relations discursives de citation et de rencontre : le systeme FluxExcom. In Analyse de texte par ordinateur, multilinguisme et applications, Trois-Rivières, Canada. 75e congrès de l ACFAS. 2 citations : pages 105 et

325 RÉFÉRENCES BIBLIOGRAPHIQUES [Djioua et al., 2006] D, B., F, J. G., B, A., D, J.-P., G, G., J, A., L P, F., N B, L. et S, B. (2006). Excom : an automatic annotation engine for semantic information. e 19th international FLAIRS Conference, Melbourne, Floride, 1 : citations : pages 104, 166, 193, 194 et 264 [Dobrov et al., 2004] D, B., K, I., L, N., N, I. et S, I. (2004). Russian information retrieval evaluation seminar. In Proc. of LREC, volume 4. Citeseer. cité page 40 [Dolan et Brocke, 2005] D, W. et B, C. (2005). Automatically constructing a corpus of sentential paraphrases. In Proceedings of IWP. cité page 182 [Dominich, 2008] D, S. (2008). e modern algebra of information retrieval. Springer-Verlag. cité page 23 [Dumais, 1991] D, S. (1991). Improving the retrieval of information from external sources. Behavior Resear Methods, 23(2) : cité page 31 [Dumais et al., 2003] D, S., C, E., C, J., J, G., S, R. et R, D. (2003). Stuff i ve seen : a system for personal information retrieval and re-use. In Proceedings of the 26th annual international ACM SIGIR conference on Resear and development in informaion retrieval, pages cité page 54 [Dutoit et Poibeau, 2002] D, D. et P, T. (2002). Inferring knowledge from a large semantic network. In Proceedings of the 19th international conference on Computational linguistics, pages 1 7. ACL. cité page 175 [Elkhlifi et Faiz, 2010] E, A. et F, R. (2010). French-wri en event extraction based on contextual exploration. In Proceedings of FLAIRS. cité page 105 [Ellis, 1992] E, D. (1992). e physical and cognitive paradigms in information retrieval research. Journal of documentation, 48(1) : cité page 49 [Faraj et al., 1996] F, N., G, R., M, R., D, S. et P, P. (1996). Analyse d une méthode d indexation automatique basée sur une analyse syntaxique de texte. Canadian Journal of Information and Library Science, 21(1) :1 21. cité page

326 RÉFÉRENCES BIBLIOGRAPHIQUES [Faure et Poibeau, 2000] F, D. et P, T. (2000). First experiments of using semantic knowledge learned by asium for information extraction task using intex. In the proceedings of the 14 th European Conference on Artificial Intelligence. cité page 74 [Fellbaum, 1998] F, C. (1998). WordNet : An electronic lexical database. MIT Press. cité page 63 [Fluhr, 1994] F, C. (1994). Spirit : un système d exploration de données textuelles. Le Traitement Informatique des Corpus Textuels. cité page 61 [Franchi, 2008] F, A. (2008). Evaluation du point de vue de la «rencontre» entre entités dans le cadre d un système de recherche d information. Mémoire de D.E.A., Université Paris-Sorbonne, sous la direction de M. J.-P. Desclés. 3 citations : pages 201, 226 et 264 [Freund et al., 2003] F, Y., I, R., S, R. et S, Y. (2003). An efficient boosting algorithm for combining preferences. e Journal of Ma ine Learning Resear, 4 : cité page 141 [Froehlich, 1994] F, T. J. (1994). Relevance reconsidered - towards an agenda for the 21st century : Introduction to special topic issue on relevance research. JASIS, 45(3) : citations : pages 55 et 56 [Gaizauskas et al., 1996] G, R., C, H., W, Y., R, P. et H, K. (1996). GATE an Environment to Support Research and Development in Natural Language Engineering. In Proceedings of the 8th IEEE International Conference on Tools with Artificial Intelligence (ICTAI-96), Toulouse, France. cité page 73 [Garcia-Flores, 2007] G F, J. (2007). Annotation sémantique des spécifications informatiques de besoins par la méthode d exploration contextuelle : une contribution des méthodes linguistiques aux conceptions de logiciels. èse de doctorat, Université Paris-Srobonne. cité page 105 [Gardiès et al., 2007] G, C. et. (2007). Distance et immédiateté : incidences du document numérique sur le traitement de l information. Études de communication, 1 : cité page

327 RÉFÉRENCES BIBLIOGRAPHIQUES [Goffman, 1964a] G, W. (1964a). Methodology for test and evaluation of information retrieval systems. Rapport technique, Western reserve univ. Cleveland Ohio Center for documentation and communication research. cité page 33 [Goffman, 1964b] G, W. (1964b). On relevance as a measure. Information Storage and Retrieval, 2(3) : cité page 56 [Goldman et Widom, 2000] G, R. et W, J. (2000). WSQ/DSQ : A practical approach for combined querying of databases and the web. In Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages cité page 18 [Greene et al., 1990] G, S., D, S., C, P. et G, L. (1990). No IFs, ANDs, or ORs : A study of database querying. International Journal of Man-Ma ine Studies, 32(3) : cité page 24 [Grishman et Sundheim, 1996] G, R. et S, B. (1996). Message understanding conference-6 : A brief history. In Proceedings of the 16th conference on Computational linguistics-volume 1, pages ACL. 2 citations : pages 72 et 73 [Grossman et Frieder, 2004] G, D. et F, O. (2004). Information retrieval : Algorithms and heuristics, volume 15. Kluwer Academic Pub. cité page 23 [Gustafson et Ng, 2008] G, N. et N, Y. (2008). Augmenting Data Retrieval with Information Retrieval Techniques by Using Word Similarity. Natural Language and Information Systems, pages cité page 18 [Gövert et Kazai, 2002] G, N. et K, G. (2002). Overview of the INitiative for the Evaluation of XML retrieval. In INEX Workshop, pages cité page 40 [Gwiazdecka, 2009] G, E. (2009). L organisation du lexique pour l extraction automatique des événements saillants de la presse sur le web. In Methods of lexical analysis, theoretical assumptions and practical applications, pages cité page 105 [Gyöngyi et al., 2004] G, Z., G M, H. et P, J. (2004). Combating web spam with trustrank. In Proceedings of the 30th international conference on Very large data bases, volume 30, pages cité page

328 RÉFÉRENCES BIBLIOGRAPHIQUES [Hacène, 2008] H, T. (2008). Comment extraire des définitions des textes? Mémoire de D.E.A., Université Paris-Sorbonne, sous la direction de M. J.-P. Desclés. 4 citations : pages 105, 202, 226 et 264 [Halevy et al., 2009] H, A., N, P. et P, F. (2009). e unreasonable effectiveness of data. Intelligent Systems, IEEE, 24(2) :8 12. cité page 46 [Harman, 1992] H, D. (1992). e DARPA TIPSTER project. ACM SIGIR Forum, 26(2) :28. cité page 39 [Harman, 2000] H, D. (2000). What we have learned, and not learned, from trec. In Proceedings of the BCS IRSG, pages cité page 48 [Harman, 1993] H, D. K. (1993). Overview of the first text retrieval conference (TREC-1). In First Text REtrieval Conference (TREC-1) : Proceedings, pages Diane Publishing. 3 citations : pages 14, 39 et 40 [Harris, 1957] H, Z. (1957). Linguistic transformations for information retrieval. In Proceedings of the International Conference on Scientific Information, volume 2, pages , Washington DC. cité page 61 [Harter, 1975] H, S. (1975). A probabilistic approach to automatic keyword indexing. Part II. An algorithm for probabilistic indexing. Journal of the American Society for Information Science, 26(5) : cité page 31 [Harter, 1992] H, S. (1992). Psychological relevance and information science. Journal of the American Society for information Science, 43(9) : cité page 55 [Haveliwala, 2003] H, T. (2003). Topic-sensitive pagerank : A contextsensitive ranking algorithm for web search. IEEE transactions on knowledge and data engineering, pages cité page 138 [Haveliwala et al., 2003] H, T., K, S. et J, G. (2003). An analytical comparison of approaches to personalizing pagerank. Rapport Te nique, Stanford University, juin cité page 54 [Hearst, 1999] H, M. (1999). User interfaces and visualization. Modern information retrieval, pages citations : pages 49, 50, 205 et

329 RÉFÉRENCES BIBLIOGRAPHIQUES [Hempelmann, 2007] H, C. (2007). Beyond proof-of-concept : Implementing ontological semantics as a commercial product. In Proceedings of the 4th Midwest Computational Linguistics Colloquium. cité page 63 [Hempelmann et Raskin, 2008] H, C. et R, V. (2008). Semantic search : Content vs. formalism. In Language and Spee Te nology Conference. cité page 63 [Hull, 1994] H, D. (1994). Improving text retrieval for the routing problem using latent semantic indexing. In Proceedings of the 17th annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page 31 [Hunston, 2002] H, S. (2002). Corpora in Applied Linguistics. Cambridge University Press. cité page 96 [Ingwersen, 1996] I, P. (1996). Cognitive perspectives of information retrieval interaction : elements of a cognitive IR theory. Journal of documentation, 52 : citations : pages 19 et 49 [Ingwersen et Järvelin, 2005] I, P. et J, K. (2005). e turn : Integration of Information Seeking and Retrieval in Context. Springer. 4 citations : pages 19, 48, 58 et 59 [Ingwersen et Wille, 1995] I, P. et W, P. (1995). An introduction to algorithmic and cognitive approaches for information retrieval. Libri, 45(3-4) : cité page 45 [Jackson, 1998] J, P. (1998). Introduction to Expert Systems. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA. cité page 119 [Jansen et al., 1998] J, B., S, A., B, J. et S, T. (1998). Real life information retrieval : a study of user queries on the web. ACM SIGIR Forum, 32(1) : citations : pages 24 et 44 [Jansen et Spink, 2005] J, B. J. et S, A. (2005). An analysis of Web searching by European AlltheWeb. com users. Information Processing & Management, 41(2) : cité page

330 RÉFÉRENCES BIBLIOGRAPHIQUES [Jones et van Rijsbergen, 1975] J, K. et van R, C. (1975). Report on the need for and provision of an ideal information retrieval test collection. British Library Research and Development Report Computer Laboratory, University of Cambridge, 46. cité page 41 [Jouis, 1993] J, C. (1993). Contribution à la conceptualisation et à la modélisation des connaissances à partir d une analyse de textes. Réalisation d un prototype : le système Seek. èse de doctorat, èse en informatique, EHESS, Paris. cité page 104 [Järvelin et Kekäläinen, 2002] J, K. et K, J. (2002). Cumulated gainbased evaluation of IR techniques. ACM Transactions on Information Systems (TOIS), 20(4) : cité page 37 [Kando et al., 1999] K, N., K, K., N, T., E, K., K, H. et H, S. (1999). Overview of IR tasks at the first NTCIR workshop. In Proceedings of the first NTCIR workshop on resear in Japanese text retrieval and term recognition, pages cité page 40 [Kekäläinen et Järvelin, 2002] K, J. et J, K. (2002). Using graded relevance assessments in ir evaluation. Journal of the American Society for Information Science and Te nology, 53(13) : cité page 231 [Kekäläinen et Järvelin, 2002] K, J. et J, K. (2002). Evaluating information retrieval systems under the challenges of interaction and multidimensional dynamic relevance. In Proceedings of the CoLIS, volume 4, pages citations : pages 21 et 47 [Kiryakov et al., 2004] K, A., P, B., T, I., M, D. et O, D. (2004). Semantic annotation, indexing, and retrieval. Web Semantics : Science, Services and Agents on the World Wide Web, 2(1) : citations : pages 61 et 71 [Kishida, 2005] K, K. (2005). Property of average precision and its generalization : An examination of evaluation indicator for information retrieval experiments. National Institute of Informatics. 2 citations : pages 37 et 41 [Kleene, 1956] K, S. C. (1956). Realization of events in nerve nets and finite automata. Automata Studies, Princeton University Press, pages cité page

331 RÉFÉRENCES BIBLIOGRAPHIQUES [Kleinberg, 1999] K, J. (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5) : citations : pages 44, 136 et 138 [Knuth et al., 1977] K, D., M J, J. et P, V. (1977). Fast pa ern matching in strings. SIAM journal on computing, 6 :323. cité page 94 [Kolmayer, 1997] K, E. (1997). Contribution à l analyse cognitive des processus mis en jeu dans l interrogation d une base de données documentaires. èse de doctorat, Université de Paris 5. cité page 53 [Kolmayer, 1998] K, E. (1998). Démarche d interrogation documentaire et navigation. Hypermédias et Apprentissages, 4(1998) : citations : pages 52 et 53 [Krishnan et Raj, 2006] K, V. et R, R. (2006). Web spam detection with antitrust rank. 2nd International Workshop on Adversarial Information Retrieval on the Web (AIRWeb). cité page 136 [Lamprier, 2008] L, S. (2008). Vers la conception de documents composites : extraction et organisation de l information pertinente. èse de doctorat, Université d Angers. cité page 41 [Landi et al., 1998] L, B., K, P., S, D. et S, L. (1998). Amaryllis : an evaluation experiment on search engines in a french-speaking context. In Proceeding of the First International Conference on Language Resources & Evaluation LREC, pages cité page 39 [Langacker, 1999] L, R. W. (1999). Grammar and conceptualization. Mouton de Gruyter. cité page 46 [Langville et Meyer, 2006] L, A. N. et M, C. D. (2006). Google s Pagerank and Beyond : e Science of Sear Engine Rankings. Princeton University Press. 3 citations : pages 20, 135 et 138 [Larsen, 2004] L, H. (2004). Efficient andness-directed importance weighted averaging operators. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 11 : cité page 30 [Le Priol et al., 2009] L P, F., B, M., B, A., D, J.-P. et D, B. (2009). Annotations automatiques et re er e d information, chapitre Annotation et 321

332 RÉFÉRENCES BIBLIOGRAPHIQUES indexation discursives, quelques réalisations. Hermes, Traité IC2 Cognition et Traitement de l information (éds. J.-P. Desclés et F. Le Priol). 2 citations : pages 104 et 106 [Le Priol et al., 2006] L P, F., B, A., D, J.-P., D, B., G F, J.,, G, G., J, A., N B, L. et S, B. (2006). Automatic annotation of localization and identification relations in platform excom. e 19th International FLAIRS Conference. 2 citations : pages 102 et 105 [Le Roux et al., 1994] L R, D., M, J.-L. et B, J. (1994). SERAPHIN project the industrial approach. In Cognitive science in industry. European conference, pages cité page 104 [Leacock et Chodorow, 1998] L, C. et C, M. (1998). Combining local context and wordnet similarity for word sense identification. WordNet : An electronic lexical database, 49(2) : cité page 175 [Lempel et Moran, 2000] L, R. et M, S. (2000). e stochastic approach for link-structure analysis (SALSA) and the TKC effect1. Computer Networks, 33(1-6) : cité page 45 [Levine et al., 1992] L, J., M, T. et B, D. (1992). Lex & Yacc. O Reilly. cité page 253 [Lewis et Jones, 1996] L, D. et J, K. (1996). Natural language processing for information retrieval. Communications of the ACM, 39(1) : cité page 61 [Liu et al., 2008] L, Y., G, B., L, T., Z, Y., M, Z., H, S. et L, H. (2008). Browserank : le ing web users vote for page importance. In Proceedings of the 31st annual international ACM SIGIR conference on Resear and development in information retrieval, pages citations : pages 139 et 140 [Losee, 1998] L, R. (1998). Text retrieval and filtering : analytic models of performance. Kluwer Academic Publishers. cité page 38 [Luhn, 1958] L, H. (1958). e automatic creation of literature abstracts. IBM Journal of resear and development, 2(2) : citations : pages 26, 27, 60 et 299 [Luhn, 1957] L, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM Journal of resear and development, 1(4) : cité page

333 RÉFÉRENCES BIBLIOGRAPHIQUES [Manning et al., 2008] M, C. D., R, P. et S, H. (2008). Introduction to Information Retrieval. Cambridge University Press. cité page 20 [Marchionini, 1992] M, G. (1992). Interfaces for end-user information seeking. Journal of the American society for information science, 43(2) : citations : pages 53 et 299 [Max et Zock, 2008] M, A. et Z, M. (2008). Looking up phrase rephrasings via a pivot language. In Proceedings of the workshop on Cognitive Aspects of the Lexicon, pages ACL. cité page 175 [McGill et Salton, 1983] M G, M. J. et S, G. (1983). Introduction to modern information retrieval. McGraw-Hill. cité page 25 [Mihalcea et Moldovan, 2000] M, R. et M, D. (2000). Semantic indexing using wordnet senses. In Proceedings of the ACL-2000 workshop on Recent advances in natural language processing and information retrieval : 38th Annual Meeting of the ACL-Volume 11, pages citations : pages 62 et 63 [Mizzaro, 1997] M, S. (1997). Relevance : e whole history. Journal of the American Society for Information Science, 48(9) : cité page 55 [Moens, 2006] M, M.-F. (2006). Information Extraction : Algorithms And Prospects in a Retrieval Context. Springer. 2 citations : pages 23 et 61 [Mooers, 1951] M, C. N. (1951). Zatocoding applied to mechanical organization of knowledge. American documentation, 2(1) : cité page 15 [Mourad, 1999] M, G. (1999). La segmentation de textes par l étude de la ponctuation. CIDE citations : pages 193 et 194 [Naït-Baha, 2004] N B, L. (2004). Les points de vue : vers une caractéristaion de la notion de besoins utilisateurs pour la collecte d informations sur le Web. Conception et réalisation du méta-moteur de re er e RAP. èse de doctorat, Université Paris- Sorbonne. cité page 189 [O Day et Jeffries, 1993] O D, V. L. et J, R. (1993). Orienteering in an information landscape : how information seekers get from here to there. In Proceedings of the INTERACT 93 and CHI 93 conference on Human factors in computing systems, page citations : pages 52 et

334 RÉFÉRENCES BIBLIOGRAPHIQUES [Olston et Chi, 2003] O, C. et C, E. (2003). ScentTrails : Integrating browsing and searching on the Web. ACM Transactions on Computer-Human Interaction (TOCHI), 10(3) :197. cité page 52 [Page et al., 1998] P, L., B, S., M, R. et W, T. (1998). e pagerank citation ranking : Bringing order to the web. Stanford InfoLab. 3 citations : pages 44, 136 et 137 [Pang et al., 2002] P, B., L, L. et V, S. (2002). umbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-volume 10, pages cité page 99 [Papadimitriou et al., 2000] P, C., R, P., T, H. et V, S. (2000). Latent semantic indexing : A probabilistic analysis. Journal of Computer and System Sciences, 61(2) : cité page 31 [Park, 1993] P, T. (1993). e nature of relevance in information retrieval : An empirical study. e library quarterly, pages citations : pages 55 et 56 [Paşca et Dienes, 2005] P, M. et D, P. (2005). Aligning needles in a haystack : Paraphrase acquisition across the web. Natural Language Processing IJCNLP 2005, pages cité page 175 [Patwardhan et al., 2003] P, S., B, S. et P, T. (2003). Using measures of semantic relatedness for word sense disambiguation. Computational Linguistics and Intelligent Text Processing, pages cité page 175 [Philpot et al., 2003] P, A., F, M. et H, E. (2003). Semi-automatic construction of a general purpose ontology. In Proceedings of the International Lisp Conference. New York. cité page 99 [Poibeau, 2003] P, T. (2003). Extraction automatique d information : du texte brut au web sémantique. Lavoisier. 2 citations : pages 73 et 74 [Poibeau, 2004] P, T. (2004). Automatic extraction of paraphrastic phrases from medium size corpora. In Proceedings of the 20th international conference on Computational Linguistics, page 638. ACL. cité page

335 RÉFÉRENCES BIBLIOGRAPHIQUES [Poibeau, 2011] P, T. (2011). Traitement automatique du contenu textuel. Lavoisier. cité page 245 [Ponte et Cro, 1998] P, J. et C, W. (1998). A language modeling approach to information retrieval. In Proceedings of the 21st annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page 32 [Popescu-Belis, 1999] P B, A. (1999). Evaluation of natural language processing systems : a model for coherence verification of quality measures. A Blueprint for a General Infrastructure for Natural Language Processing Systems Evaluation Using Semi-Automatic antitative Bla Box Approa in a Multilingual Environment. ELSE Project LE (Evaluation in Language and Spee Engineering), 1. cité page 72 [Popov et al., 2004] P, B., K, A., O, D., M, D. et K, A. (2004). Kim - a semantic platform for information extraction and retrieval. In Natural Language Engineering. Cambridge University Press. cité page 74 [Porter, 1993] P, M. (1993). An algorithm for suffix stripping. Program : electronic library and information systems, 14(3) : cité page 60 [Qiu et al., 2006] Q, L., K, M. et C, T. (2006). Paraphrase recognition via dissimilarity significance classification. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, pages ACL. cité page 175 [Rasmussen, 1992] R, E. (1992). Clustering algorithms. Information Retrieval, pages cité page 28 [Reeve et Han, 2005] R, L. et H, H. (2005). Survey of semantic annotation platforms. In Proceedings of the 2005 ACM symposium on Applied computing, page cité page 73 [Resnik, 1995] R, P. (1995). Using information content to evaluate semantic similarity in a taxonomy. Arxiv preprint cmp-lg/ cité page 175 [Richardson et Domingos, 2002] R, M. et D, P. (2002). e intelligent surfer : Probabilistic combination of link and content information in pagerank. Advances in neural information processing systems, 2 : cité page

336 RÉFÉRENCES BIBLIOGRAPHIQUES [Robertson, 1993] R, S. (1993). e probability ranking principle in IR. Journal of documentation, 33(4) : cité page 48 [Robertson et Jones, 1976] R, S. et J, K. (1976). Relevance weighting of search terms. Journal of the American society for Information Science, 27(3) : citations : pages 31 et 44 [Robertson et al., 1999] R, S., W, S. et B, M. (1999). Okapi at TREC-7 : automatic ad hoc, filtering, VLC and interactive track. NIST Special Publication, pages cité page 136 [Robertson et al., 1995] R, S., W, S., J, S., H B, M. et G, M. (1995). Okapi at trec-3. In Overview of the ird Text REtrieval Conference (TREC-3), pages NIST. cité page 135 [Robertson et al., 2004] R, S., Z, H. et T, M. (2004). Simple BM25 extension to multiple weighted fields. In Proceedings of the thirteenth ACM international conference on Information and knowledge management, pages cité page 136 [Rus et al., 2008] R, V., M C, P., L, M., M N, D. et G, A. (2008). Paraphrase identification with lexico-syntactic graph subsumption. In Proceedings of the 21st International Florida Artificial Intelligence Resear Society Conference, pages cité page 175 [Salton, 1971] S, G. (1971). automatic document processing. e SMART retrieval system - experiments in Prentice-Hall, Inc. Upper Saddle River, NJ, USA. 2 citations : pages 14 et 24 [Salton et Buckley, 1988] S, G. et B, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5) : cité page 26 [Salton et al., 1983] S, G., F, E. et W, H. (1983). Extended Boolean information retrieval. Communications of the ACM, 26(11) : citations : pages 28, 29, 30 et 299 [Samier et al., 2007] S, H., M, N. et F, P. (2007). Le phénomène de googelisation dans les recherches d informations sur internet. In VSST Marrake, Maroc. cité page

337 RÉFÉRENCES BIBLIOGRAPHIQUES [Sanderson et Zobel, 2005] S, M. et Z, J. (2005). Information retrieval system evaluation : effort, sensitivity, and reliability. In Proceedings of the 28th annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page 41 [Saracevic, 1970] S, T. (1970). e concept of relevance in information science : A historical review. Introduction to information science, pages cité page 55 [Saracevic, 1975] S, T. (1975). Relevance : A review of and a framework for the thinking on the notion in information science. Journal of American Society for Information Science, 6(26) : cité page 57 [Saracevic, 1996] S, T. (1996). Relevance reconsidered. In Proceedings of the 2nd Conference on Conceptions of Library and Information Science, pages cité page 55 [Saracevic, 2007] S, T. (2007). Relevance : A review of the literature and a framework for thinking on the notion in information science. Part II : nature and manifestations of relevance. Journal of the American Society for Information Science and Te nology, 58(13) : cité page 55 [Schamber et al., 1990] S, L., E, M. et N, M. (1990). A reexamination of relevance : toward a dynamic, situational definition. Information processing & management, 26(6) : cité page 57 [Schamber et Syracuse, 1991] S, L. et S, N. (1991). Users criteria for evaluation in a multimedia environment. In ASIS 91 : proceedings of the 54th ASIS annual meeting, pages cité page 58 [Shannon et Weaver, 1948] S, C. et W, W. (1948). A mathematical theory of communication. Bell Systems Te nical Journal, 27 : cité page 99 [Shen et al., 2006] S, R., V, N., F, W. et al. (2006). Exploring digital libraries : integrating browsing, searching, and visualization. In Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital libraries, page 10. cité page 52 [Shneiderman et al., 1998] S, B., B, D. et C, W. (1998). Sorting out searching : A user-interface framework for text searches. Communications of the ACM, 41(4) : cité page

338 RÉFÉRENCES BIBLIOGRAPHIQUES [Sidhom, 2002] S, S. (2002). Plate-forme d analyse morpho-syntaxique pour l indexation automatique et la re er e d information : de l écrit vers la gestion des connaissances. èse de doctorat, Université Claude Bernard - Lyon 1. cité page 61 [Signorini et Imielinski, 2009] S, A. et I, T. (2009). If you ask nicely, i will answer : Semantic search and today s search engines. In 2009 IEEE International Conference on Semantic Computing, pages citations : pages 46 et 64 [Silberstein, 1993] S, M. (1993). Le système INTEX, Dictionnaires électroniques et analyse automatique de textes. Paris, Masson. cité page 74 [Silverstein et al., 1998] S, C., H, M., M, H. et M, M. (1998). Analysis of a very large AltaVista query log. Rapport technique , Digital SRC. cité page 44 [Simonnot, 2002] S, B. (2002). De la pertinence à l utilité en recherche d information : le cas du Web. In Re er es récentes en sciences de l information : convergences et dynamiques, Actes du colloque Mics-Lerass, pages citations : pages 17 et 55 [Su on, 1994] S, S. (1994). e role of a orney mental models of law in case relevance determinations : an exploratory analysis. Journal of the American Society for Information Science, 45(3) : cité page 56 [Swets, 1969] S, J. (1969). Effectiveness of information retrieval methods. American Documentation, 20(1) : citations : pages 34 et 38 [Tamine et Bahsoun, 2006] T, L. et B, W. (2006). Définition d un profil multidimensionnel de l utilisateur : vers une technique basée sur l interaction entre dimensions. In Actes de la 3e Conférence en Re er e d informations et Applications CORIA. cité page 54 [Taube, 1965] T, M. (1965). A note on the pseudo-mathematics of relevance. American Documentation, 16(2) : cité page 56 [Teissedre et al., 2008] T, C., D, B. et D, J.-P. (2008). Automatic retrieval of definitions in texts, in accordance with a general linguistic ontology. In Proceedings of FLAIRS 08. cité page

339 RÉFÉRENCES BIBLIOGRAPHIQUES [Tomlin, 2003] T, J. (2003). A new paradigm for ranking pages on the world wide web. In Proceedings of the 12th international conference on World Wide Web, pages ACM. cité page 139 [Tricot, 1993] T, A. (1993). Ergonomie cognitive des systèmes hypermédia. In Actes du Colloque de prospective Re er es pour l Ergonomie, CNRS PIR Cognisciences, Toulouse, volume 1. Archive EduTice - CCSd - CNRS. cité page 53 [Tumer et al., 2009] T, D., S, M. et B, Y. (2009). An empirical evaluation on semantic search performance of keyword-based and semantic search engines : Google, yahoo, msn and hakia. In Internet Monitoring and Protection, ICIMP 09. Fourth International Conference on, pages cité page 64 [Uren et al., 2006] U, V., C, P., I, J., H, S., V V, M., M, E. et C, F. (2006). Semantic annotation for knowledge management : Requirements and a survey of the state of the art. Web Semantics : Science, Services and Agents on the World Wide Web, 4(1) : citations : pages 71, 72 et 73 [Usunier, 2006] U, N. (2006). Apprentissage de fonctions d ordonnancement : une étude théorique de la réduction à la classification et deux applications à la Re er e d Information. èse de doctorat, Université Paris-VI. cité page 141 [Vakkari, 2001] V, P. (2001). A theory of the task-based information retrieval process : a summary and generalisation of a longitudinal study. Journal of documentation, 57(1) : cité page 47 [van Rijsbergen, 1979] van R, C. J. (1979). Information Retrieval. Bu erworth- Heinemann Newton, MA, USA. cité page 20 [Vi aut et Gallinari, 2006] V, J. N. et G, P. (2006). Apprentissage d ordonnancements en recherche d information structurée. In Actes de la 3e Conférence en Re er e d informations et Applications CORIA, Lyon, France. cité page 141 [Volkovs et Zemel, 2009] V, M. et Z, R. (2009). Boltzrank : learning to maximize expected ranking gain. In Proceedings of the 26th Annual International Conference on Ma ine Learning, pages ACM. cité page 142 [Voorhees et al., 2005] V, E., H, D., of S, N. I. et (US), T. (2005). TREC : Experiment and evaluation in information retrieval. MIT press USA. cité page

340 RÉFÉRENCES BIBLIOGRAPHIQUES [Voorhees et Tice, 2000] V, E. et T, D. (2000). e trec-8 question answering track evaluation. NIST Special Publication, pages cité page 38 [Voorhees et Buckley, 2002] V, E. M. et B, C. (2002). e effect of topic set size on retrieval experiment error. In Proceedings of the 25th annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page 41 [Weideman, 2004] W, M. (2004). Ethical issues on content distribution to digital consumers via paid placement as opposed to website visibility in search engine results. In Proceedings of the 7th international conference Challenges for the citizen of the information society, pages , Grèce. cité page 45 [Wellisch, 1991] W, H. H. (1991). Indexing from A to Z. H. W. Wilson Co., New York. cité page 12 [Wilson, 1973] W, P. (1973). Situational relevance. Information storage and retrieval, 9(8) : cité page 57 [Wi, 2004] W, A. (2004). Multiple hierarchies : new aspects of an old solution. In Proceedings of Extreme Markup Languages. cité page 192 [Wi enburg et Sigman, 1997] W, K. et S, E. (1997). Integration of browsing, searching, and filtering in an applet for web information access. In CHI 97 extended abstracts on Human factors in computing systems : looking to the future, page 294. ACM. cité page 52 [Wolf et Gibson, 2005] W, F. et G, E. (2005). Representing discourse coherence : A corpus-based study. Computational Linguistics, 31(2) : cité page 192 [Wolfram et al., 2001] W, D., S, A., J, B., S, T. et al. (2001). Vox populi : the public searching of the web. Journal of the American Society of Information Science and Te nology, 52(12) : cité page 44 [Woods et al., 2000] W, W., B, L., H, A., K, R., M, P. et G, S. (2000). Linguistic knowledge can improve information retrieval. In Proceedings of the sixth conference on Applied natural language processing, pages ACL. cité page

341 RÉFÉRENCES BIBLIOGRAPHIQUES [Yarowsky, 1992] Y, D. (1992). Word-sense disambiguation using statistical models of roget s categories trained on large corpora. In Proceedings of the 14th conference on Computational linguistics, volume 2, pages ACL. cité page 62 [Zipf, 1949] Z, G. (1949). Human Behavior and the Principle of Least Effort. Addison- Wesley Press, Cambridge, Massachuse s. cité page 26 [Zobel, 1998] Z, J. (1998). How reliable are the results of large-scale information retrieval experiments? In Proceedings of the 21st annual international ACM SIGIR conference on Resear and development in information retrieval, pages cité page

342 Index A Amaryllis analyse sémantique latente , 63 ANNIC ANNIE annotation sémantique. 2, 67-75, , 197, 206, 207 ASIUM ASL.... voir analyse sémantique latente Average Sear Length B berrypi ing Bibliosémantique , 106 BioExcom , 106, 211 BrowseRank C carte sémantique... 80, 100, 120, 143, 197, 206 CLEF connecteurs contexte ContextO D Discounted Cumulative Gain37, 141, 235, 238 DocBook document secondaire , 124, 126 E évaluation , 15, 33, 225 campagnes de mesures de Excom , 3, 6, 104, 194 Expected Sear Length Exploration Contextuelle.. 2, , 193 F F-mesure fi e de synthèse , 126 fouille textuelle ,

343 INDEX points de vue de G GATE , 100 H Hakia HITS , 138 I IDEFICS , 109, 248 index , 59 inversé permuté sémantique indexation voir index indicateur faible fort INEX information retrieval information seeking informativité interaction homme-système INTEX J JAPE K Key Words In Context KIM L langage contextuel lemmatisation LSI..... voir analyse sémantique latente Lucene M Mean Average Precision , 42, 141 Mean Reciprocal Rank memex Mocxe modèle booléen booléen étendu du langage probabiliste vectoriel mots vides , 60 MSRPC MUC N navigation sémantique , 118, 121 interface de ndcg voir Discounted Cumulative Gain NTCIR O Okapi-BM ordonnancement , évaluation de ,

344 INDEX P PageRank , 137 paraphrases pertinence , 55 du système jugement de , 230 situationnelle thématique plein texte pondération pooling , 47 principe de compositionnalité précision , 42 moyenne , 37, 42, 234, 235, 238 R rappel , 42 re er e d informations , interface de , 206 modèles de , 53 par navigation système de , 17, 19-49, 115, 119 textuelles re er e de données re er e documentaire re er e textuelle représentation mentale requête , 20, 206, 224 ROMIP RPrec , 234, 235, 238 résumé automatique , 125 S sac de mots , 46, 47 SALSA SAPHIR score d annotation , 155 score de contenu , 135 scores d importance SEEK SERAPHIN similarité mesures de , 24, 29 SMART , 24 SRI voir re er e d informations système expert sémantique T terme d index , 59 terme de filtrage , 226, 244, 245, 247 tf-idf , 135 TIPSTER TrafficRank TREC , 33, 39 TrustRank W W3C , 69 Web sémantique , 63 WordNet

345

346 Exploitation informatique des annotations sémantiques automatiques d Excom pour la recherche d informations et la navigation Résumé : À partir du moteur d annotation sémantique Excom, nous avons élaboré un système de recherche d informations qui repose sur des catégories sémantiques issues d analyses linguistiques automatiques afin de proposer une approche de fouille textuelle innovante. Les annotations sont obtenues par la méthode d Exploration Contextuelle faisant appel à une modélisation des connaissances linguistiques sous forme de marqueurs et de règles. Le traitement des requêtes selon des points de vue de fouille se trouve au cœur de la stratégie de recherche d informations. Pour cela, notre approche s appuie sur des catégories d annotation organisées en ontologies linguistiques sous forme de graphes. Afin d offrir à l utilisateur des résultats pertinents, nous avons mis en place des algorithmes d ordonnancement des réponses et de gestion de la redondance. Ces algorithmes reposent principalement sur la structure des ontologies linguistiques utilisées pour l annotation. Nous avons proposé une évaluation de la pertinence des résultats en tenant compte de la spécificité de l approche. Les interfaces que nous avons développées perme ent la construction de nouveaux produits documentaires tels que les fiches de synthèse offrant une extraction d informations structurées selon des critères sémantiques. Ce e approche a également pour vocation de proposer des outils dédiés à la veille stratégique et à l intelligence économique. Mots clés : Recherche d informations, Annotation sémantique, Exploration Contextuelle, Extraction d informations, Ordonnancement des réponses Information Retrieval and Text Navigation through the Exploitation of the Automatic Semantic Annotation of the Excom Engine Abstract : Using the Excom engine for semantic annotation, we have constructed an Information Retrieval System based on semantic categories from automatic language analyses in order to propose a new approach to text search. e annotations are obtained by the Contextual Exploration method which is a knowledge based linguistic approach using markers and disambiguation rules. e queries are formulated according to search viewpoints which are at the heart of the Information Retrieval strategy. Our approach uses the annotation categories which are organised in linguistic ontologies structured as graphs. In order to provide relevant results to the user, we have designed algorithms for ranking and paraphrase identification. ese algorithms exploit principally the structure of the linguistic ontologies for the annotation. We have carried out an evaluation of the relevance of the system results taking into account the specificity of our approach. We have developed user interfaces allowing the construction of new information products such as structured text syntheses using information extraction according to semantic criteria. is approach also aims to offer tools in the field of economic intelligence. Keywords : Information Retrieval, Semantic Annotation, Contextual Exploration, Information Extraction, Ranking algorithm Discipline : Informatique Université Paris-Sorbonne École doctorale V «Concepts et Langages» Laboratoire LaLIC Maison de la Recherche 28 rue Serpente Paris

Montrer encore