Méthode de classification des réponses d un moteur de recherche

Transcription

1 SETIT rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche Olfa Jenhani El Jed * * 118 Route de Narbonne Université Paul Sabatier Institut de Recherche en Informatique à Toulouse. [email protected] Résumé: Dans cet article, nous présentons une approche de résumé encyclopédique de pages Web. Cette approche offre à l utilisateur une meilleure visualisation des réponses récupérées par un moteur de recherche suite à une interrogation par mots clés et lui permet d évaluer rapidement la pertinence des pages par rapport à ses attentes. Cette approche combine des techniques d extraction d information avec des ressources de représentation de connaissances. Mots clés: ontologie, résumé encyclopédique, résumé de pages web, techniques d extraction d information, patrons d extraction. 1 Introduction Avec l explosion de la quantité d information disponible sur le web ces dernières années, la recherche d information sur Internet devient de plus en plus difficile et les outils de recherche sur Internet ont de plus en plus de mal à satisfaire les besoins d utilisateurs de plus en plus exigeants. Pour remédier à ce problème, la meilleure solution consiste à organiser cette masse d information de manière à la rendre la plus accessible aux utilisateurs. Il existe de plus en plus de moteurs de recherche qui se sont intéressés à ce problème en intégrant des techniques leur permettant de catégoriser une grande partie des pages Web suivant des thèmes organisés de manière hiérarchique (du plus générique au plus spécifique). Plusieurs hiérarchies sont utilisées par les différents moteurs de recherche comme Yahoo (yahoo, 2003), google (google), infoseek (infoseek, 2002), etc. Cette hiérarchisation reste trop générique et incomplète vu le nombre de thèmes considérés et le nombre de pages classées. Dans la hiérarchie de Google il y a seulement 14 thèmes racines et au maximum 3 niveaux de profondeur. Ceci veut dire que les thèmes les plus profonds dans la hiérarchie restent encore génériques et regroupent des pages liées à différents thèmes plus spécifiques. Par exemple, sous la catégorie Maladie: troubles de nutrition on trouve des pages qui parlent de la boulimie, d autres parlent de l obésité, d autres de l anorexie, etc. En plus, le nombre de pages classées sous les différentes catégories est à peu prés égal à 1.5 millions en mai 2003 alors que le nombre d URL (Uniform Resource Locator) indexées par ce même moteur de recherche est égal à deux milliards. Pour remédier à ce problème, plusieurs travaux de recherche se sont intéressés à cette problématique d organisation des pages Web et ont proposé différentes approches pour faciliter et accélérer la tâche de recherche d informations sur Internet aux utilisateurs. Dans ce qui suit, nous présentons les principaux travaux traitant cette problématique : Dans (Fujii, Ishikawa 2004) les auteurs décrivent une méthode de résumé automatique des descriptions encyclopédiques d un terme à partir du Web. Cette méthode produit un résumé décrivant un terme selon différents points de vue. Par exemple, pour le terme XML, cette méthode produit: Définition -> XML is an extensible markup language. Abbreviation -> an abbreviation for extensible Markup Language... History ->...was advised as a standard by W3C in Les auteurs ne décrivent pas la méthode leur permettant d attribuer les points de vues à chaque type de terme. En plus, l ensemble des points de vues varient en fonction du type du terme et ne sont pas du

2 même niveau conceptuel d un type à un autre. Par exemple pour les termes techniques, les auteurs attribuent la définition, le but, la fonction, etc, alors que pour les termes de type animaux, l ensemble des points de vue est la famille et l habitation. En conclusion, on peut dire que la définition des points de vue dans cette méthode reste très arbitraire et Ad Hoc. Dans (Couto & al 2002 ), les auteurs présentent le système RÉGAL (RÉsumé Guidé par les Attentes du Lecteur) permettant une visualisation rapide d un ensemble de documents selon un point de vue particulier. Les informations nécessaires à la visualisation dans RÉGAL sont extraites automatiquement des textes, sans présupposer l existence d une structure préalable ou d un formatage du texte. L objectif de ce système est de concevoir un modèle générique applicable à différents domaines sans avoir à modéliser de nouvelles connaissances. Le résumé produit est constitué d une liste de segments classés par ordre décroissant de leur valeur de similarité avec le profil. La seule critique qu on peut faire à ce système est la lourdeur de la phase de structuration du profil demandée à l utilisateur. Un profil n est autre qu un ensemble de points de vue auxquels sont attribués des marqueurs. Un utilisateur doit, avant de lancer sa requête, définir un ensemble de points de vue (par exemple le point de vue lié à la cause) et choisir parmi une liste de marqueurs ceux qu il veut que le système considère dans la phase de recherche. Dans ce présent article, nous proposons une approche de résumé encyclopédique de pages Web offrant à l utilisateur une classification des réponses d un moteur de recherche suivant les différentes facettes des termes de la requête. On appelle facettes les différents aspects d un terme. Ces facettes sont prédéfinies dans une ontologie pour chaque type de termes suivant la méthode décrite dans la section 5. Après une présentation de notre approche de résumé encyclopédique (section 2), nous donnons une vision globale de notre système WebSum en section 3, ce qui permet d avancer l objectif général de notre travail. La section 4 présente la méthode choisie pour l élaboration des points de vue que nous appelons dans la suite de cet article les facettes de la requête. La section 5 développe les problèmes liés au résumé automatique de pages Web et la solution que nous apportons. Dans la section 6, nous présenterons l architecture générale de WebSum et nous détaillerons ses différents modules. Enfin, la section 7 présente les évaluations de nos résultats et les améliorations à apporter à notre système avant de conclure (section 8). 2 Approche de résumé encyclopédique Un résumé encyclopédique est un résumé informatif (Mani 2001) qui vise à fournir une description thématique du terme ou du concept considéré. Cette description permet de regrouper le maximum d informations possible selon différents points de vue. La motivation principale de ce travail est née du fait que suite à une interrogation d un moteur de recherche par mots clés, l utilisateur est souvent confronté à une masse d informations peu structurées et parfois peu pertinentes et il lui est souvent difficile d en extraire l information pertinente. C est ainsi qu est née l idée globale de WebSum, qui est un projet de recherche visant à élaborer un résumé encyclopédique à partir d une requête utilisateur. Par définition, l'encyclopédie est l organisation, la sélection et la simplification de l information. Par analogie à cette définition, WebSum vise à organiser les réponses d un moteur de recherche par rapport à une requête utilisateur selon les différents aspects des termes constituant cette requête, sélectionner les réponses les plus pertinentes par rapport à chaque aspect traité et enfin simplifier la représentation de ces pages en fournissant un résumé par extraction des fragments les plus pertinents de chaque aspect. Suite à une requête utilisateur composée des termes obésité enfant, WebSum fournit une représentation des réponses retournées par le moteur de recherche suivant un style encyclopédique soulignant les principaux aspects de la requête qui sont: définition et symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de prévention et de traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque aspect, une courte description de l aspect considéré de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information. La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et Fan 2000), ou des critères plus linguistiques (Radev et McKeown 1999), (Brazilay et al. 1999), (Mani et Bloedorn 1999). Notre travail quant à lui met l accent sur l utilisation conjointe de techniques d extraction d information et de techniques NLP (Natural Language Processing) basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction.

3 Dans ce qui suit, nous donnons une vision globale de WebSum afin de mieux expliquer l objectif de ce travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3 Vision générale de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (isa, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. On entend par facettes, l ensemble des termes permettant de décrire un concept suivant ses différents aspects. Nous donnerons une explication plus approfondie de ces facettes dans la section suivante. L objectif global de WebSum, est de classer les réponses d un moteur de recherche sous les différentes facettes identifiées à partir de la requête utilisateur suivant un ordre de pertinence déterminé par une métrique que nous avons définie (eg section 6.2). Cette métrique permet d évaluer les pages web par rapport à leur aptitude à se prêter au résumé et par rapport à leur pertinence avec la requête de l utilisateur. Après la classification des réponses, WebSum produit un résumé de chaque facette en extrayant les fragments de texte à partir des pages classées. Dans la section suivante, nous expliquons en détail la notion de facettes ainsi que la méthode que nous adoptons pour l élaboration de ces dernières. 4 Elaboration des facettes Notre approche se base sur une ontologie conceptuelle du domaine constituée par des concepts (~900concepts) reliés entre eux par la relation d hyponymie (is-a, est-un). La figure 1 illustre un extrait de la branche maladie de cette ontologie. Appareil digestif, maladies Maladie Appareil respiratoires, maladies Facettes maladie Figure1. Extrait de la branche maladie de l ontologie On associe aux concepts les plus hauts (généraux) de l ontologie des facettes suivant la structure de Qualia du Lexique Génératif (Pustejovsky 1995). La structure de Qualia représente les différents aspects du sens d un mot, on distingue 4 aspects définis dans cette structure: Formel: regroupe lestermes qui permettent de distinguer un objet ou un terme d un autre. Agentif: représente les facteurs impliqués dans la création de l objet ou à la source de l existence du terme considéré. Constitutif: exprime la relation entre un objet et ses composants ou tout ce qui découle d un terme. Télique: il existe deux types de télique o Le télique direct: représente les activités et les actions qui peuvent être faites sur un concept, o Le télique fonctionnel: représente la fonction du concept. Pour pouvoir décrire les différentes facettes d un concept, nous avons utilisé les définitions des différents aspects de la structure de Qualia. La figure ci-dessous présente les facettes définies dans WebSum pour le concept maladie. Formel: Définition, Symptômes Agentif: Causes Constitutif: Conséquences Télique: Prévention, Figure 2. Facette du concept Maladie Ces facettes sont attribuées aux noeuds les plus généraux de l ontologie. Les concepts les plus spécifiques héritent des facettes de leur concept père. Tous les concepts fils du concept maladie ont les mêmes facettes que ce dernier. Donc chaque maladie a des symptômes, une définition, des causes, des conséquences et des techniques et des moyens de prévention et de traitement. Après avoir décrit en détail la méthode d élaboration des facettes et afin de pouvoir classer les pages Web retournées par le moteur de recherche sous ces différentes facettes, il importe d évaluer la pertinence de ces pages par rapport au résumé et à la requête de l utilisateur.

4 Nous présentons dans ce qui suit, les problèmes posés par le résumé de pages Web. Nous expliquerons également en quoi ce type de résumé est différent du résumé de texte et quelles sont les solutions que nous proposons. 5 Evaluation de la pertinence des pages Web Nous commençons dans cette section par évoquer la problématique liée au résumé de pages Web et proposer par la suite notre solution pour l évaluation et la sélection des pages les plus aptes au résumé. 5.1 Problèmes du résumé de pages Web Outre les problèmes spécifiques au résumé automatique de texte, le résumé des pages Web présente d autres types de problèmes liés à: La structure des pages: souvent les pages web contiennent outre le texte, des images, des frames, des animations, etc. La forme linguistique des pages: présence de phrases incomplètes, souvent les pages web ne présentent aucune garantie d une bonne forme linguistique, Page à plusieurs sujets: le cas des portails par exemple, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de résoudre ce problème lié à la complexité de la structure des pages Web, nous avons enrichi notre système d une métrique (cf 6.2) permettant d évaluer la pertinence des pages Web par rapport au résumé et à la requête de l utilisateur. Nous décrivons dans ce qui suit cette métrique ainsi que ses différents critères d évaluation. 5.2 Description de la métrique La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi documents. Dans ces travaux, la plupart des critères utilisés sont des critères statistiques comme par exemple: La position de la phrase dans le document (Edmundson 1969), (Sekine, Nobata, 2001), (Radev et Fan, 2000): cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson 1969) et (Sekine, Nobata, 2001): les phrases inférieures à un certain seuil sont pénalisées. Mots du titre (Sekine, Nobata, 2001): plus une phrase contient des mots utilisés dans le titre plus elle est pertinente. Mots repères (Edmundson 1969), (Brandow et al 1995), (Kupiec et al 1995): ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Notre approche diffère de ces dernières par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la forme de la page (structure et forme linguistique) et des critères statistiques. Dans ce qui suit, nous allons détailler les différents critères de notre métrique : Critère de forme: permet de vérifier si la page contient du texte ou pas. Ce critère (Cf) est un facteur booléen qui vaut 1 si la page contient du texte et 0 sinon. Critère statistique: vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morpho-syntaxique: vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept ou la facette considérée constitue le sujet principal de la page). Voici la formule générale de cette métrique: Rdoc = Cf x (α x Cstat + β x C synt) (1) Avec α et β des pondérations, Cstat : les critères statistique, Csynt : les critères morpho-syntaxique. A l aide d une étude expérimentale, nous avons constaté que le critère statistique est plus important que le critère morpho-syntaxique pour l évaluation de la page par rapport au thème de la requête et nous avons fixé leur pondération respective à 0.7 (α) et 0.3 (β). Jusqu à présent, nous avons présenté le processus d élaboration des facettes à partir d une requête utilisateur ainsi que la description de la métrique nous permettant de classer les pages Web sous les différentes facettes. Nous allons maintenant présenter l architecture générale de notre système et décrire son fonctionnement global.

5 6 Architecture de WebSum L architecture du système WebSum est décrite dans la figure ci-dessous. Figure 3. Architecture générale de WebSum Nous décrivons dans ce qui suit les différents modules de notre système: 6.1 Module d analyse de la requête Ce module identifie dans la requête utilisateur les termes autour desquels la classification ainsi que le résumé vont être élaborés. Cette identification s effectue à partir d une étude des relations entre les différents termes de la requête. On considère 3 types de relations entre deux termes (T1, T2), ce type de relation peut être étendu à trois termes ou plus: Un des termes, T1 représente une facette de T2 comme par exemple dans : cause diabète. Si T1 représente le rôle formel, constitutif ou agentif alors la classification s effectue sur la base de cette facette. Et si T1 représente le rôle télique de T2 alors la classification s effectue autour des modalités d élaboration de T1. Par exemple pour traitement obésité la classification s effectue sur la base des termes suivants: moyens de traitement, lieux de traitement, techniques de traitement,... Les deux termes T1 et T2 représentent des concepts de la même ontologie du domaine comme par exemple délinquance, criminalité, dans ce cas une étude de la similarité entre les deux concepts est élaborée. Si les deux concepts sont jugés similaires (sont situés au même niveau de l ontologie et ont un père en commun) alors les facettes du père vont être utilisées pour la classification, sinon (concepts non similaires) on considère que la requête appartient au 3ème cas, S il n y a aucune relation entre les termes T1 et T2, nous considérons que le terme en tête de la requête est le terme porteur d information et que la classification est effectuée sur la base des facettes de ce dernier. Nous avons tiré cette conclusion à partir d une étude effectuée sur les statistiques des requêtes sur le Web (overture 2004). Le tableau 1 illustre un exemple de requête (parmis un échantillon de 100 requêtes) que nous avons étudié («obésité enfant») et donne la répartition du nombre d occurrences des requêtes tapées en Février 2004 et qui comportent les deux termes constituant cette requête. Sur un échantillon de 1313 requêtes comportant ces deux mots clés, on remarque que seulement ~1% des internautes inversent l ordre des termes. Requêtes Nombre % d occurrence Obésité enfant % Obésité chez l enfant % Problématique obésité 114 9% enfant Obésité enfant france % Enfant obésité % Tableau 1. Répartition du nombre d occurrences des requêtes Une fois que le terme porteur d information a été identifié dans la requête, le module d analyse de la requête procède à l identification des facettes sur la base desquelles la classification est faite. 6.2 Module de recherche Ce module transmet la requête utilisateur au moteur de recherche (Google) et récupère les N premières réponses retournées par ce dernier. Nous avons fixé N à 100 réponses mais ce paramètre reste flexible. 6.3 Module de classification Ce module analyse les réponses récupérées du moteur de recherche pour les classer sous les facettes adéquates. Pour l élaboration de cette tâche, nous nous basons sur des techniques d extraction d information basées sur des patrons d extraction définis au niveau de chaque facette. Ces patrons vont nous permettre de repérer dans les pages Web les fragments de texte en rapport avec la facette considéré afin de classer ces pages par la suite sous cette facette. Pour la définition de ces patrons, nous avons décrit un formalisme permettant leur génération automatique. Ce formalisme est basé sur des classes sémantiques constituées par des verbes, des noms et des paraphrases, sur un lexique et une grammaire décrivant les patrons de chaque classe. Par exemple nous avons défini 9 classes sémantiques pour la facette définition (Auger, 1997), 3 pour la facette cause (Garcia, 1998), (Nazarenko, 2000) etc.

6 Voici un exemple d une classe sémantique de la facette définition ainsi que la grammaire décrivant les patrons appartenant à cette classe: Classe_caractérisation:{Verbe (caractériser, définir, déterminer, dénoter, désigner), Déverbaux (caractéristique, définition, détermination, dénotation)} Grammaire: <concept> [fct_gram = complément], <verbe, déverbal> [classe_caractérisation] Cette grammaire dit que le concept considéré dans la recherche est employé en tant que complément d objet de tout élément de la classe «caractérisation». Les patrons générés à partir de cette description sont les suivants: A partir des verbes : [caractériser] <concept>: caractéris* <concept> Exemple de phrase extraite par ce patron : décrit le diabète comme étant [définir] <concept>: défini* <concept> [déterminer] <concept>: détermin* <concept>,..etc. A partir des déverbaux : Définition * <concept>, Exemple de phrase extraite par ce patron : La définiton et l épidémiologie de l obésité caractéristique * <concept>, détermination * <concept>, dénotation * <concept>. Après la classification des pages sous les facettes adéquates, le système procède à la réorganisation de ces dernieres à l aide de la métrique décrite auparavant. Ainsi un score est attribué à chacune des pages et le classement final s effectue par ordre décroissant de ce score. Dans la section suivante, nous présentons la méthode d évaluation adoptée pour évaluer la méthode d élaboration des facettes et le résultat de notre classification. 7 Evaluations et résultats 7.1 Méthodologie Afin d évaluer la qualité des résumés produits par les systèmes de résumé automatique, il est important d avoir des méthodes d évaluation standards. Il existe deux méthodes d évaluation de systèmes de résumé automatique: la méthode intrinsèque et la méthode extrinsèque (Jones, 1995). La méthode intrinsèque permet de mesurer globalement la qualité du système et la méthode extrinsèque évalue la performance du système par rapport à certaines tâches spécifiques. Evaluation intrinsèque La plupart des évaluations des systèmes de résumé automatique utilisent la méthode intrinsèque ((Edmundson, 1969), (Paice, 1990), (Kupiec et al. 1995); (Marcu, 1997), (Salton et al, 1997), (ono, et al., 1994)). L'approche typique utilisée par la méthode d'évaluation intrinsèque consiste à effectuer des comparaisons du résumé automatique généré par le système avec un résumé dit "idéal" préparé à l'avance. Ce résumé est généré par des experts ou par différents sujets humains. La comparaison avec le résumé idéal est effectuée en terme de mesure de précision et de rappel. Le paramètre de précision peut être défini par la phrase suivante: "Donnez moi les informations significatives seulement". Cela veut dire que le résumé automatique ne peut contenir que des points qui ont été exprimés dans le résumé idéal. Le calcul de la précision est donné par l'équation suivante: Précision = Nombre de phrases correctes Nombre total des phrases Le paramètre de rappel est défini par la phrase suivante: "Donnez moi toutes les informations significatives". Le résumé automatique doit contenir tous les points exprimés dans le résumé idéal. Le calcul du paramètre de rappel d'un résumé est donné par l'équation suivante: Rappel = Nombre de phrases correctes Nombre total des phrases Correctes dans le résumé idéal Evaluation extrinsèque L'évaluation extrinsèque ou orientée tâches est conçue pour estimer la performance du système de résumé par rapport à certaines tâches particulières. La nature précise des tâches invoquées est largement dépendante avec l'intention du résumé à évaluer. Cependant, ce type d'évaluation invoque quelques formes de recherche d'information ou des tâches d'analyse. La difficulté de cette méthode d'évaluation se situe dans le fait que la performance du résumé est

7 directement influencée par les conditions expérimentales dans lesquelles se déroule l'évaluation (exemple : en terme de qualité de l'évaluateur). Pour évaluer les résultats de notre système, nous avons choisi d utiliser la méthode intrinsèque, cette évaluation a été effectuée par rapport à deux résultats qui sont le choix des facettes par rapport aux termes d une requête particulière et la classification des réponses du moteur de recherche sous les différentes facettes. 7.2 Evaluation des facettes Afin d évaluer la qualité des facettes attribuées à chaque requête, nous les avons comparées avec des thèmes relatifs à chaque terme dans des encyclopédies existantes. Nous avons choisi les encyclopédies 1 suivantes: Agora (1), Doctissimo (2), Encarta (3). Le tableau suivant (tableau 2) décrit les facettes que nous avons définies suivant la structure de Qualia du Lexique Génératif et les facettes utilisées par les encyclopédies considérées. Concept Facettes de WebSum Obésité Angines Hypertension Alcoolisme Aspirine Pénicilline Définition Causes Conséquences Prévention Présentation Composition Laboratoire Effets indésirables Facettes encyclopédies des (2) Définition Evaluation de l obésité selon l OMC Enjeux La guérison (2)Qu est ce que c est? Les signes de la maladie Causes et facteurs de risque consultation (2) Définition Symptôme Causes Complications (3) Présentation Développement Effets (3) Présentation Découverte Utilisation Effets indésirables et contre-indications (3) Présentation Mode d action Dosage Oraciline Céléstamine Divorce Criminalité Définition Causes Conséquences Prévention Action (2) Molécule Classe thérapeutique Laboratoire Indications Effets secondaires Contre-indications Précautions d'emploi (3) Forme Dosage Classement pharmaco thérapeutique Laboratoire (3) Présentation Histoire Législation actuelle Présentation Les statistiques criminelles Les chiffres de la délinquance Tableau 2. comparaison des facettes de WebSum avec celle des encyclopédies /index_encyclo_a.html 3 Le tableau 3 illustre le taux d utilisation des facettes définies dans WebSum par d autres encyclopédies:

8 les différentes facettes fournies avec chaque requête. Facettes de WebSum Concept Maladie Taux d utilisation Ensuite, nous avons comparé les résultats de la classification fournie par les évaluateurs avec celle de WebSum et nous avons obtenu les résultats suivants: Définition 100 % Causes 50 % Conséquences 100 % Taux de pages bien classées Prévention 25 % 100 % Concept drogues et agents divers Facettes Req1 Req2 Req3 Req4 Req5 Res_global Présentation 100 % Laboratoire 50 % Composition 50 % Effets indésirables 50 % Utilisation 25 % Mode d action 25 % Tableau 3. taux d utilisation des facettes de WebSum par d autres encyclopédies. Définition Causes Conséquences 75% 40% 66% 96% 58% 67% 66% 96% 96% 50% 75% 76.6 % 96% 96% 62% 100% 80% 86.8 % Pour synthétiser, nous pouvons dire que notre méthode de définition des facettes donne des résultats satisfaisants au niveau de l évaluation. En effet, cette méthode présente un taux de satisfaction pour le concept Maladie de 75% et 60% pour le concept Drogues et Agents Divers. Elle présente également un taux total de satisfaction de 62.3% défini à partir de l évaluation de 30 facettes relatives à 6 concepts généraux de l ontologie. Le faible taux d utilisation constaté pour quelques facettes s explique par le fait que certaines encyclopédies les considèrent dans leur description du terme alors que d autre ne les considèrent pas. De ce fait, nous pouvons dire que notre méthode couvre, dans la plupart des cas, la totalité des facettes définies dans les différentes encyclopédies. Ceci nous permet de dire que cette méthode permet de classer le maximum d information à partir des réponses du moteur de recherche et de couvrir le maximum des thèmes traités par les pages Web. 7.3 Evaluation de la classification Pour évaluer le résultat de la classification des pages Web de WebSum, nous avons sélectionné 5 requêtes du domaine médical et pour chaque requête nous avons fourni à des évaluateurs les 100 premières réponses retournées par Google. Le rôle de ces sujets est d effectuer la classification de ces réponses sous Prévention 100% 100% 93.3% 70% 86% % 80% 100% 80% 86.6% 75% % Tableau 4. Résultats de l évaluation de la classification Avec : Requête 1 : obésité enfant, Requête 2 : varice femme, Requête 3 : diabète adulte, Requête 4 : alcoolisme, Requête 5 : traumatisme sportif. D après les résultats de l évaluation, on remarque que notre système fournit une classification satisfaisante et un gain de temps considérable. En effet, la classification de 100 pages Web sous les différentes facettes définies dans notre système nécessite entre 20 et 30 minutes de temps de traitement pour un sujet humain, par contre WebSum effectue cette classification en quelques secondes. Par rapport aux résultats même de la classification, nous constatons que le plus faible taux de pages bien

9 classées reste pour la facette définition suivie de celle de cause. Afin d améliorer nos patrons d extraction, nous avons pu identifier quelques problèmes qui ont fait que certaines pages, bien qu elles traitent une facette particulière, ne sont pas classées sous cette dernière. Ces problèmes sont liés au fait que: Nous ne prenons pas en compte les synonymes d un concept. Par exemple pour le concept obésité, il faudra tenir compte de ses synonymes (surpoids, problèmes de poids, surcharge pondérale, etc.). Absence de quelques marqueurs pour exprimer certaines facettes. Certaines expressions ne sont pas prises en compte par les patrons bien qu elles permettent de définir un concept. Exemple : «A propos de < concept>», «sortes de < concept>» et «types de < concept>» expriment la facette définition et ne sont pas pris en compte dans nos patrons. Utilisation de la forme négative. Jusqu à maintenant nous ne tenons pas compte de la négation mais peut-être qu il faudrait envisager d utiliser quelques patrons dans la forme affirmative et négative. Exemple : «< concept> est NOM» et «<concept> n est pas NOM» peuvent signifier tous les deux une définition. 8 Conclusion Dans cet article, nous avons présenté la première version de WebSum qui consiste en la classification des réponses d un moteur de recherche sous les différentes facettes de la requête utilisateur. Cette première version est complètement implémentée en PERL et se base sur une ontologie décrite en XML comportant 900 concpets et 50 facettes. La deuxième version de WebSum, en cours d élaboration, consiste d abord à enrichir nos patrons d extraction pour prendre en compte les résultats de nos évaluations et à produire un résumé encyclopédique des pages Web à partir du résultat de la classification en se basant sur les facettes qui seront les éléments structurants du résumé. 9 Références (Auger, 1997) Auger, A., 1997, Repérage des énoncés d interêt définitoire dans les bases de données textuelles, Thèse de doctorat, Université de Neuchâtel. (Brandow, 1995) Brandow, R., Mitze, K. et Rau, L. F Automatic condensation of electronic publications by sentence selection. Information Processing and Management 31(5) : (Brazilay et al., 1999) Brazilay, R., McKeown, K. et Elhadad, M Information fusion in the context of multi-document summarization. In Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics. (Couto et al., 2004) Couto, J., Ferret, O., Grau, B., Hernandez, N., Jackiewicz, A., Minel, J., Porhiel, S Revue d'intelligence artificielle Vol 18/4. (Edmundson, 1969) Edmundson, H. P New methods in automatic abstracting. Journal of the ACM 16(2) : (Fujii et Ishikawa, 2004) Fujii, A. et Ishikawa, T Summarizing Encyclopedic term descriptions on the Web. COLING 04 -Volume1- p645. (Garcia, 1998) Garcia, D., 1998, Analyse automatique de textes pour l organisation causale des actions, Réalisation du système informatique COATIS. Thèse de doctorat, Paris Sorbonne. (Google) (Yahoo, 2003) Yahoo! Online guide for the internet (Infoseek, 2002) Internet directory and query service, hhtp:// (Jones, 1995) Jones, K.S., 1995, Towards better nlp system evaluation. Dans Proceedings of the Human Language Technology Workshop, San Francisco: ARPA. (Kupiec, 1995) Kupiec, J., Pederson, J. et Chen, F A trainable document summarizer. Dans SIGIR 95, (Mani, 2001) Mani, I., 2001, Automatic Summarization, Natural Language processing, John Benjamins Publishing Company, Amsterdam/Philadelphia. (Mani et Bloedorn, 2000) Mani, I. et Bloedorn, E., 2000, Summarizing similarities and differences among related documents, Information Retrieval, 1(1). (Marcu, 1997) Marcu, D From Discource structures to text summaries. In ACL/EACL-97 summarization workshop, (Nazarenko, 2000) Nazarenko, A., 2000, La cause et son expression en Français, Ophrys. (Overture, 2004) on/?mkt=fr (Ono et al., 1994) ono, K., Sumita, K. et Miike, S Abstract generation based on rhetorical structure extraction. COLING94, Volume1, (Paice, 1990) Paice, C.D Constructing literature abstracts by computer : techniques and Prospects. Information Processing and Management 26(1): (Pustejovsky, 1995) Pustejovsky, J., The Generative Lexicon Massachusetts Institute of Technology. (Radev et Fan, 2000) Radev, D. R. et Fan, W Automatic summarization of search engine hit lists. In Proceedings, ACL Workshop on Recent Advances in NLP and IR, Hong Kong. (Radev et McKeown, 1999) Radev, D. R. et McKeown, K. R Generating summaries of multiple news articles. In Inderjeet Mani and Mark Maybury, editors, Advances in Automatic Text Summarization. MIT Press.

10 (Salton et al., 1997) Salton, G., Singhal, A., Mitra, M. et Buckley, C Automatic text structuring and summarization. Information Processing and Management 33(2) : (Sekine et Nobata, 2001) Sekine, S. et Nobata, C Sentence Extraction with Information Extraction technique. In Proceedings of ACM SIGIR'01 Workshop on Text Summarization. New Orleans.

Montrer encore