Classification des réponses d un moteur de recherche et évaluation de leur pertinence

Transcription

1 Classification des réponses d un moteur de recherche et évaluation de leur pertinence Olfa Jenhani El Jed IRIT/ ILPL Institut de Recherche en Informatique de Toulouse 118 Route de Narbonne Toulouse Cedex 4 jenhani@irit.fr RÉSUMÉ Dans cet article, nous proposons une méthode d évaluation de la pertinence des pages Web. Ce travail s inscrit dans le cadre général de la recherche d information et plus précisément dans le but de la construction d un résumé automatique de type encyclopédique à partir des réponses d un moteur de recherche. Ce type de résumé offre une nouvelle approche de classification des réponses d un moteur de recherche. Dans cet article, nous présentons globalement notre approche de classification et nous détaillons notre méthode d évaluation de la pertinence des pages Web. Cette méthode se base sur des critères de forme permettant d évaluer la forme globale de la page, des critères statistiques vérifiant la correspondance entre les termes de la requête et le thème général des pages et des critères linguistiques assurant la bonne forme linguistique des pages. ABSTRACT. In this paper, we propose a method for evaluation of relevance in Web pages. This work joins in the general framework of Information Retrieval (IR) and more precisely, with the aim of constructing an automatic summary in encyclopaedic style. This summary type allows a new approach of Web page classification. In this paper, we present our classification approach and we detail our method for Web page relevance evaluation. This method is based on form criteria allowing to estimate the global form of the page and its capacity to produce a summary, statistical criteria verifying the correspondence between the request and the general topic of pages and linguistic criteria that guarantee a good linguistic form of pages. MOTS-CLÉS : pertinence. recherche d information, classification des pages Web, évaluation de la KEYWORDS: Information retrieval, Web page classification, relevance evaluation.

2 1. Introduction Les récentes avancées des technologies Web et la généralisation des outils de communication ont rendu la recherche d information sur le Web de plus en plus difficile. Les raisons profondes de ces difficultés proviennent essentiellement de l accroissement considérable du nombre de pages Web disponibles, la diversité de leurs structures et de leurs contenus ainsi que la présence d une importante quantité d informations inutiles comme les liens vers des pages inexistantes ou vides, les pages et les bannières publicitaires, etc. Une analyse, même rapide, des réponses d un moteur de recherche montre que l utilisateur est souvent confronté à diverses difficultés: Une masse d information peu structurée et parfois peu pertinente : beaucoup de publicité, plusieurs pages sans contenu informationnel, etc. ; Une structure complexe des pages Web : souvent les pages Web contiennent outre le texte, des images, des frames, des animations, etc. ; Aucune garantie d une bonne forme linguistique des pages : présence de phrases incomplètes, mal structurées comme le cas des forums de discussion par exemple ; Une variété de sujets : c est le problème des pages à plusieurs sujets comme c est le cas pour les portails, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de satisfaire ses besoins, un utilisateur doit procéder à un tri important, ce qui requiert un effort considérable de sa part et une perte de temps qui peut être importante. Il est important, à ce stade d avancement technologique, d automatiser cette lourde tâche de fouille à la recherche des réponses pertinentes et d offrir aux utilisateurs des outils permettant de faciliter la recherche d information sur le Web et d exploiter rapidement et efficacement les réponses fournies par les moteurs de recherche. Nos travaux de recherche s inscrivent dans cette problématique. Nous proposons une solution basée sur le résumé automatique des réponses des moteurs de recherche dans un style encyclopédique. Il s agit de permettre aux utilisateurs de récupérer, à partir des requêtes soumises au moteur de recherche, les réponses organisées sous différents aspects (liés à la requête) et classées par ordre de pertinence. Nous nous focalisons particulièrement dans cet article sur notre méthode d évaluation de la pertinence des pages Web. Cette méthode permet de : sélectionner les pages les plus pertinentes par rapport à une requête; vérifier leur contenu informationnel et leur forme linguistique;

3 classer les pages sélectionnées par ordre de pertinence suivant leur degré d informativité. L originalité de ce travail réside dans le fait que nous enrichissons notre méthode d évaluation par des critères nouveaux qui viennent compléter ceux traditionnellement utilisés par la plupart des systèmes actuels de recherche d information. Ces critères correspondent essentiellement à des critères linguistiques et des critères morphosyntaxiques qui sont détaillés dans la section 6. Cet article est organisé comme suit. Nous présentons dans la section 2 le cadre général de nos travaux. La section 3 présente un bref état de l état des différents travaux qui se sont intéressés à l évaluation de la pertinence des documents. La section 4 décrit la méthodologie adoptée pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Notre métrique d évaluation de la pertinence est détaillée dans la section 5. Enfin, nous présentons, avant de conclure, les résultats d une évaluation préliminaire de notre méthode. 2. Cadre de travail Ce travail s inscrit dans le cadre du projet de recherche WebSum. WebSum est un système de résumé automatique de pages Web dans un style encyclopédique. Ce système offre une nouvelle approche de classification de réponses d un moteur de recherche et permet une visualisation rapide et structurée de ces dernières. L objectif global de WebSum est de classer les réponses d un moteur de recherche suivant les différentes facettes de la requête utilisateur selon un ordre de pertinence déterminé par une métrique qui fait l objet de ce présent article. Nous considérons le terme «facettes» pour désigner tous les aspects liés à la requête utilisateur et permettant de structurer les informations relatives à cette dernière (Jenhani, 2005). Notre méthode d identification des facettes à partir de la requête utilisateur se base sur des techniques TAL (traitement automatique du langage) et plus précisément sur le Lexique Génératif (Pustejovsky, 1995). Afin de mieux expliquer le principe de notre système, nous illustrons son fonctionnement par l exemple qui suit. Suite à la requête «obésité enfant», WebSum fournit une représentation des réponses restituées par le moteur de recherche dans un style encyclopédique soulignant les principales facettes de la requête. Ces facettes peuvent être dans ce cas d exemple, la définition et les symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de sa prévention et de son traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque facette, une courte description de la facette considérée de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information.

4 La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et al., 2000), ou des critères plus linguistiques (Radev et al., 1998), (Barzilay et al., 1999), (Mani et al., 1999). Dans notre approche, nous mettons l accent sur l utilisation conjointe de techniques d extraction d information et de techniques de traitement automatique du langage basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction. Dans ce qui suit, nous donnons un aperçu global de WebSum afin de mieux expliquer l objectif de notre travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3. Aperçu général de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses restituées par un moteur de recherche à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (is-a, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. L objectif global de WebSum est de filtrer, parmi les réponses d un moteur de recherche, celles qui se rapportent aux facettes de la requête (étapes 1 et 2 de la figure 1) et de les organiser sous les rubriques adéquates (représentées par les différentes facettes). Ensuite, WebSum classe les réponses au sein d une même rubrique par ordre de pertinence et élimine celles de moindre importance (étape 3 de la figure 1). Les étapes de filtrage et de sélection sont assurées par une méthode d extraction d information basée sur des grammaires et des patrons d extraction. L étape de classement des pages Web par ordre de pertinence est assurée par une métrique que nous présentons dans la section 6.

5 Figure 1. Fonctionnement de WebSum Comme nous le voyons à la figure 1, la première étape de WebSum correspond à la soumission de la requête utilisateur au moteur de recherche. La deuxième étape correspond à la restitution des réponses adéquates avec les différentes facettes considérées. La dernière étape de WebSum (étape 3) correspond à la classification de ces réponses selon les différentes facettes de la requête puis, à leur classement à l intérieur de chaque facette par ordre de pertinence à l aide de la métrique que nous présentons dans ce qui suit. Cette métrique évalue les pages Web et les classe suivant leur pertinence par rapport à la requête utilisateur et la facette considérée. A partir d une petite expérimentation que nous avons effectuée sur le moteur de recherche Google, qui consiste à la soumission de la requête «sorbitol» en vue d avoir sa définition. Nous avons remarqué que pour trouver une réponse satisfaisante à nos besoins, nous étions amener à visiter au moins six pages avant de retenir la septième qui comporte la définition recherchée. En utilisant notre méthode d évaluation de la pertinence (en soumettant la même requête à WebSum), nous avons trouvé cette même page (contenant la définition de ce médicament) classée en première position dans la rubrique définition.

6 La métrique que nous présentons dans cet article a un intérêt majeur pour la recherche d information en général qui sera confirmé par les résultats des évaluations présentés à la fin de ce présent document. Dans la suite de cet article, nous présentons d abord les différents travaux qui se sont intéressés à la mesure de la pertinence d un document, puis nous décrivons notre méthodologie pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Ensuite, nous donnons une description détaillée de notre métrique avant de présenter les résultats de son évaluation. 4. Etat de l art La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi-documents. Dans ces travaux, la plupart des critères utilisés pour le repérage des fragments les plus pertinents pour la génération automatique de résumé sont des critères statistiques comme : La position de la phrase dans le document (Edmundson, 1969), (Sekine et al., 2001), (Radev et al., 2000) : cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson, 1969) et (Sekine et al., 2001) : les phrases inférieures à un certain seuil sont pénalisées. Les mots du titre (Sekine et al., 2001) : plus une phrase contient des mots utilisés dans le titre, plus elle est pertinente. Les mots repères (Edmundson, 1969), (Brandow et al., 1995), (Kupiec et al., 1995) : ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Dans le cadre de l évaluation de la pertinence des pages Web, nous citons les travaux de (Lawrence et al., 1998) et (Cho et al., 1999) qui se sont intéressés particulièrement aux réponses des moteurs de recherche dans le but d améliorer la recherche d information sur le Web. Dans (Lawrence et al., 1998), les auteurs présentent une approche d évaluation de l importance des pages Web. Ils évoquent le problème de la définition des critères permettant l évaluation de ces pages et proposent une technique qui repose sur une combinaison des critères suivants : La similarité avec une requête donnée (évaluation sémantique) ; Le décompte des liens pointant vers cette page ; La localisation des pages (la position dans l'arborescence). Dans (Cho et al., 1999) les auteurs présentent un méta moteur de recherche dont le but principal est d améliorer l efficacité et la précision de la recherche sur le Web.

7 Leur méthode se base sur le téléchargement puis l analyse de chaque document pour pouvoir, par la suite, présenter les pages contenant les termes de la recherche dans leur contexte. La phase d analyse repose sur une simple mesure de pertinence. Cette mesure considère le nombre des termes de la requête dans le document, la proximité entre les termes de la requête (en terme de nombre de caractères séparant les termes) et la fréquence des termes. Les travaux que nous venons de présenter s intéressent davantage au positionnement d une page par rapport aux autres (en terme de popularité, position dans l arborescence du moteur de recherche et certains autres critères statistiques) qu aux autres critères assurant son contenu linguistique. Notre approche diffère des dernières approches présentées par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la fois à la forme de la page (structure et forme linguistique) mais également à des critères statistiques habituellement utilisés. Dans notre travail, nous exploitons les réponses fournies par le moteur de recherche Google 1. Ce moteur de recherche classe ses réponses suivant les critères suivants : L occurrence d un mot de la requête dans le document ; La position d un mot de la requête dans le document (méta titre, titre, soustitre, etc.) ; La proximité des termes de la requête dans le document ; La présence de tous les termes de la requête dans la page ; La popularité du site en termes de nombre de liens pointant vers le site. Dans notre travail, nous nous basons dans un premier temps sur le même classement que celui de Google : de ce fait, nous considérons ces mêmes critères de classification. Puis, dans un second temps, nous effectuons une deuxième sélection en se basant sur notre métrique afin de ne garder que les pages qui satisfont le besoin de l utilisateur et les critères de résumé dans un cadre plus particulier. Dans la section suivante, nous présentons notre méthodologie pour l élaboration des critères de la métrique ; ensuite nous détaillons ses différents éléments. 5. Méthodologie Une bonne connaissance du comportement de l internaute suite à une interrogation d un moteur de recherche est nécessaire pour mieux comprendre ses attentes et comment il peut juger la pertinence d une page Web. 1

8 D après une étude publiée en septembre 2004 au Journal du référencement 2, il s est avéré que plus de 80% des internautes s arrêtent au premier niveau des pages Web lors de leur consultation des réponses d un moteur de recherche. Cette constatation nous confirme qu une analyse de ce premier niveau des pages sera utile pour l identification des critères permettant de mesurer la pertinence d une page. Il faut souligner qu on entend par une page pertinente toute page présentant à la fois une réponse directe et claire à la requête de l utilisateur et contenant des éléments qui peuvent être résumables. La figure 2 illustre un exemple de page que nous considérons comme pertinente à la requête «définition obésité» et la figure 3 présente une page non pertinente. Figure 2. Exemple de page pertinente (à gauche) et non pertinente (à droite) La méthode que nous adoptons pour la définition des différents critères de pertinence d une page Web se base sur l étude d un corpus de pages Web collectées à partir de réponses d un moteur de recherche (Google) à différentes requêtes (20 requêtes présentées en annexe). Ces requêtes représentent des recherches simples sur le Web effectuées autour de domaines grand public (santé, société et éducation). L analyse du contenu de ces différentes pages nous a permis de les partager en trois groupes constituant trois échantillons de 100 pages chacun. Un échantillon regroupant les pages jugées pertinentes, un deuxième contenant des pages de qualité moyenne et le troisième de pages non pertinentes. Nous avons analysé ces différents échantillons dans le but d observer les différents éléments qui permettent de faire la distinction entre une page pertinente, une page moyenne et une page non pertinente. Suite à cette analyse, nous avons identifié les caractéristiques illustrées dans le tableau

9 Caractéristiques d une page pertinente Caractéristiques d une page non pertinente Page contenant du texte. La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez importante. Page décrivant le sujet en question sans l avis personnel de l auteur (emploi de il(s), elle(s)) ; Emploi des termes de la requête ou de ses lexicalisations en tant que sujet des phrases Utilisation des termes de la recherche dans le titre et/ou le sous-titre ; Paragraphes pas trop longs (5 à 10 phrases). Page contenant une (des) image(s) sans signification ; Page contenant un menu ou une liste pointant vers différents thèmes similaires (du même type ontologique) à celui de la recherche ; Page ne contenant que des liens vers des documents (.doc,.pdf, etc.). La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez faible. Page décrivant le sujet en question en mettant l accent sur l avis personnel de l auteur (emploi de je, nous et on) ; Emploi des termes de la requête ou de ses lexicalisations en tant que complément ou autres fonctions ; Paragraphes très longs (supérieurs à 10 phrases). Tableau 1. Caractéristiques de la pertinence ou de la non pertinence d une page Web Le tableau 1 présente les principales différences entre une page pertinente et une page qui ne l est pas. D après cette étude et à partir des différentes caractéristiques identifiées, nous constatons que pour l évaluation de la pertinence d une page Web, il importe de vérifier, dans un premier temps, la forme globale de la page, ensuite son sujet général et sa correspondance avec les termes de la requête et enfin sa bonne forme linguistique et morphosyntaxique. Sur la base de ces différents critères, nous avons défini une métrique permettant de juger pertinente les pages groupant le maximum des caractéristiques identifiées dans la première colonne du tableau 1. Cette métrique ainsi que ses différentes composantes sont décrites dans la section suivante.

10 6. Mesure de la pertinence des pages Web A partir de l étude effectuée sur notre échantillon de 300 pages Web nous avons identifié différents critères permettant d assurer la pertinence d une page Web par rapport à nos besoins et sur la base desquels nous définissons notre métrique. Notre métrique se base sur trois critères différents que nous présentons dans ce que suit : Critère de forme : qui permet de vérifier si la page contient du texte ou pas. Ce critère que nous notons Cf est un facteur essentiel pour notre métrique car il permet de vérifier si le code source de la page est exploitable par le système ou pas. Ce critère est pris en compte afin de pouvoir gérer la structure des pages Web et de remédier au problème du Web invisible et des pages écrites en un langage de script, etc. Critère statistique : qui vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morphosyntaxique : qui vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept considéré constitue le sujet principal de la page). La formule générale de cette métrique est donnée par l équation [1]. Rdoc = Cf x (. Cstat +. Csynt) [1] Avec et des pondérations des critères statistiques (Cstat) et morphosyntaxique (Csynt). A l aide d une étude expérimentale, nous avons fixé la valeur de à 0.5 et celle de à 0.5. Ce choix est dû au fait qu une page ne peut être pertinente que si elle présente conjointement des critères statistiques acceptables mentionnant que le sujet général abordé dans cette page correspond à celui de la recherche ainsi que des critères morphosyntaxiques qui assurent une bonne forme linguistique de la page. Nous détaillons dans ce qui suit ces différents critères (Cf, Cstat et Csynt). Cf est un critère booléen qui vaut 1 si la page contient du texte et 0 sinon. Ce critère nous permet de vérifier d un point de vue pratique si la page est accessible par notre système ou non (si son code source est exploitable par le système ou pas). C est un critère primordial pour notre travail car si le code source

11 de la page est écrit en un langage de script qu on ne peut pas analyser, cette page devient sans intérêt pour nous. Cstat est un critère statistique calculant dans les pages, la fréquence d occurrence des termes de la requête et de ses lexicalisations. Pour le calcul de ce critère, on se base sur une version modifiée de la formule TF.iDF (Roberston, 1977) (cf. l équation [2]). Cstat = Tfreq. i Dfreq (T) [2] Tfreq représente le nombre d occurrences des termes de la requête et de toutes ses lexicalisations dans le document considéré. On entend par les termes de la requête, les termes porteurs d information dans la requête identifiés à l aide d une étude des relations entre les différents constituants de la requête. Dfreq (T) représente la fréquence totale d occurrence des termes de la requête et de toutes ses lexicalisations dans tous les documents modélisée par l équation [3]. [3] Avec : Nb Doc représentant le nombre total de documents considérés et Nb Doc (T) représentant le nombre de documents contenant le terme de la recherche et/ou une de ses lexicalisations. Csynt est un critère vérifiant des contraintes morphosyntaxiques et de position dans le document, il est défini par l équation [4]. Csynt = a Fs + b Fp + c Fl [4] Avec : Fs qui représente les facteurs liés aux sujets des phrases dans le document, Fp qui représente les pronoms de la troisième personne (singulier et/ou pluriel) employés dans la page et Fl qui représente la longueur des paragraphes. a, b et c correspondent aux corrélations respectives de Fs, Fp et Fl fixées par des expérimentations respectivement à 0.6, 0.2 et 0.2. Fs est défini comme le taux moyen d utilisation du terme de la recherche et de ses lexicalisations en tant que sujet dans le document, sa formule est donnée par l équation [5]. [5]

12 S (t, lex) : le nombre d occurrences du terme de la recherche et de ses lexicalisations en position de sujet dans les phrases (s il est positionné devant un verbe conjugué) ; Nb ph : le nombre total des phrases dans la page. Fp est défini comme le taux d utilisation des pronoms de la troisième personne dans la page et est calculé par l équation [6]. [6] Avec P 3 et P t représentant respectivement le nombre de pronoms de la troisième personne (il(s), elle(s)) dans la page et le nombre total des pronoms utilisés dans la page. Fl est défini comme étant la longueur moyenne des paragraphes dans la page considérée et est calculé par l équation [7]. [7] Avec Long p(j) la longueur du paragraphe j dans la page (en terme de nombre de phrases) et NTp le nombre total de paragraphes dans la page. Le résultat final de notre métrique est un score attribué à la page considérée permettant de la classer parmi les autres pages restituées par le moteur de recherche. Plus le score d une page est élevé, plus elle est considérée par notre système comme pertinente. L évaluation de la pertinence des pages constituant notre corpus de travail (présenté plus haut) à l aide de notre métrique nous a permis de fixer les différents seuils. Ces seuils nous permettent de juger, suivant le score obtenu pour une page donnée, si elle est pertinente ou pas (cf. figure 4). L échantillon des 100 pages non pertinentes a donné un score calculé par la métrique compris entre [0, Q 0 ], avec Q 0 = 0.2 ; le deuxième échantillon de pages de qualité moyenne a donné un score compris entre [Q 0 et Q 1 ], avec Q 1 = 0.6 ; et l échantillon de pages pertinentes a donné un score supérieur à Q 1.

13 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, Pertinente Moyenne Non pertinente Figure 3. Seuils de la métrique D après ces résultats et dans le cadre de WebSum, nous considérons que toute page ayant un score inférieur à Q0 comme non pertinente, les pages ayant un score supérieur à Q1 comme pertinentes et les pages ayant un score compris entre les deux comme pages de qualité moyenne. 7. Evaluation de la métrique Pour évaluer les performances de notre système, et plus précisément, les résultats de la classification des pages Web par la métrique décrite dans cet article, nous nous sommes basés sur deux mesures habituellement utilisées en classification : la précision et le rappel. Le rappel est le rapport du nombre de documents pertinents trouvés par le système au nombre de documents pertinents disponibles. Il s'agit de la proportion de documents bien classés pour la classe des documents pertinents. La précision est la proportion de documents pertinents parmi les documents sélectionnés. Cette quantité ne représente pas un taux d'exemples bien classés par rapport à une classe et n'est donc pas normalisée. Ces deux notions sont souvent utilisées car elles reflètent le point de vue de l'utilisateur : si la précision est faible, l'utilisateur sera insatisfait car il devra perdre du temps à lire des informations qui ne l'intéressent pas. Si le rappel est faible, l'utilisateur n'aura pas accès à une information qu'il souhaitait avoir. L évaluation de la pertinence de notre système WebSum est en cours d élaboration. Dans le cadre de cet article, nous avons mené des expérimentations préliminaires permettant de donner une idée approximative sur la qualité du classement des pages Web réalisé par notre métrique.

14 Afin de déterminer les valeurs du rappel et de la précision pour notre métrique, nous avons sélectionné 15 requêtes (différentes des précédentes) relevant du domaine grand public (médecine, éducation, société, religion). Pour chaque requête, nous avons récupéré les 100 premières pages fournies par Google et l ensemble des pages retenues par WebSum classées suivant l ordre déterminé par la métrique que nous avons ensuite fourni à des évaluateurs (10 sujets humains de formations différentes). Le rôle de ces sujets est de déterminer, dans un premier temps, parmi les réponses fournies par le moteur de recherche le nombre de pages qu ils jugent pertinentes par rapport à la requête. Dans un deuxième temps, ils doivent déterminer, parmi les pages retenues par notre métrique, celles qui sont pertinentes. En fonction des résultats donnés par les évaluateurs, nous avons calculé les valeurs de la précision et du rappel de notre système que nous illustrons par la figure ,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Rappel Précision Figure 4. Précision et rappel de la métrique La figure 5 présente, pour chaque requête (représenté sur l axe des abscisses) sa valeur de rappel représenté en pointillé sur la figure 5 et sa valeur de précision représenté en rouge sur la figure 6. D après les résultats de ces évaluations, nous constatons que les valeurs du rappel sont comprises entre 0,7 et 0,94 et que celles de la précision sont comprises entre 0,68 et 0,92. Ce qui donne une valeur moyenne pour le rappel de 0,85 et 0,8 pour la précision. Ces résultats donnent pour le moment des performances très acceptables pour notre méthode d évaluation des pages Web et montrent qu elle sélectionne des réponses très proches de celles sélectionnées par un sujet humain avec un gain de temps considérable. Cette méthode d évaluation n est pas suffisante pour évaluer la qualité du classement réalisé par notre métrique. Les valeurs de la précision et du rappel permettent de donner une idée sur la qualité des réponses sélectionnées par le

15 système mais n évaluent pas l ordre dans lequel ces réponses ont été classées. Pour compléter cette évaluation, nous nous sommes basés sur les techniques issues de la psychologie expérimentale. Nous avons mis en place un protocole d évaluation sous forme de questionnaires (envoyés par mail) pour recueillir des résultats de classements effectués par des sujets humains. Nous les comparons ensuite avec les résultats du classement de WebSum pour évaluer ses performances. Cette évaluation est en cours élaboration, nous sommes actuellement en phase de collecte des résultats. 8. Conclusion Dans cet article, nous avons présenté une méthode d évaluation de la pertinence des pages Web par rapport aux attentes de l utilisateur et par rapport aux besoins de la génération de résumé automatique. Cette méthode permet de vérifier, outre les critères standards (statistiques) utilisés par la majorité des moteurs de recherche, d autres critères liés à la forme linguistique de la page et à certains critères morphosyntaxiques. Les premiers résultats obtenus de notre métrique sont satisfaisants et ont montré son double apport. D abord, par rapport à la qualité d informations obtenues à partir d une requête utilisateur et ensuite, par rapport au gain considérable de temps réalisé pour la sélection des informations pertinentes. À ce jour, nous avons évalué la capacité de notre système à sélectionner des réponses pertinentes. Nous pensons qu une seconde expérimentation s avère nécessaire pour évaluer la capacité de notre métrique à classer les pages par ordre de pertinence. Nous adopterons pour ces prochaines évaluations une approche basée sur des techniques issues de la psychologie expérimentale. 9. Références Barzilay Regina, Mc Keown, Kathleen R., Elhadad Michael, «Information fusion in the context of multi-document summarization», Proceedings of the 37 th annual Meeting of the ACL, 1999, p Brandow, R., Mitze, K. et Rau, L. F., «Automatic condensation of electronic publications by sentence selection», Information Processing and Management, vol. 31, n 5, 1995, p Cho, J., Garcia-Molina, H., «The evolution of the web and implications for an incremental crawler», Proceedings of the 26 th International Conference on Very Large Database Systems, Cairo, Egypt, 2000, p Edmundson, H. P., «New methods in automatic abstracting», Journal of the ACM, vol.16, n 2, 1969, p

16 Jenhani El Jed, O., «Contribution of the Generative Lexicon to the Production of Encyclopaedic Summary», Generative lexicon conference, Genève, Mai 2005, p Kupiec, J., Pederson, J. et Chen, F., «A trainable document summarizer», Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, 1995, p Lawrence, S. et Lee Giles, C., «Context and page analysis for improved web search», IEEE Internet Computing, vol. 2, n 4, 1998, p Mani, Inderjeet, Bloedorn, Eric, «Summarizing similarities and differences among documents», Information Retrieval, Vol. 1, n 1, 1999, p Pustejovsky, J. The Generative Lexicon, MIT Press, Cambridge, Radev, D. R. et Fan, W., «Automatic summarization of search engine hit lists», Proceedings of ACL Workshop on Recent Advances in NLP and IR, Hong Kong, Octobre Radev, Dragomir R., McKeown, Kathleen R., «Generating natural language summaries from multiple on-line sources», Computational Linguistics, Vol. 24, n 3, 1998, p Rijsbergen, V., Information retrieval, 2nd edition, London, Butterworths, Roberston, S.E., «The probability ranking principle in IR», Journal of Documentation, vol. 33, 1977, p Sekine, S. et Nobata, C., «Sentence Extraction with Information Extraction technique», Proceedings of ACM SIGIR'01 Workshop on Text Summarization, New Orleans, Septembre Annexe Liste des requêtes Santé Société Informatique «Définition obésité» «Cause varice» «Traitement diabète» «Symptômes intoxication» «Alimentation bébé» «Prévention grippe» «Cause gastro-entérite» «Procédure divorce» «Prévention délinquance» «Conséquence alcoolisme» «Cause échec scolaire» «Risque tabagisme» «Protection animaux» «Violence mineur» «Rôle technologie communication» «Type réseaux locaux» «Caractéristique réseau sans fils» «Notion de base XML» «Définition système d exploitation» «Moyen protection Spam»