Méthode de classification des réponses d un moteur de recherche

Dimension: px
Commencer à balayer dès la page:

Download "Méthode de classification des réponses d un moteur de recherche"

Transcription

1 SETIT rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche Olfa Jenhani El Jed * * 118 Route de Narbonne Université Paul Sabatier Institut de Recherche en Informatique à Toulouse. Résumé: Dans cet article, nous présentons une approche de résumé encyclopédique de pages Web. Cette approche offre à l utilisateur une meilleure visualisation des réponses récupérées par un moteur de recherche suite à une interrogation par mots clés et lui permet d évaluer rapidement la pertinence des pages par rapport à ses attentes. Cette approche combine des techniques d extraction d information avec des ressources de représentation de connaissances. Mots clés: ontologie, résumé encyclopédique, résumé de pages web, techniques d extraction d information, patrons d extraction. 1 Introduction Avec l explosion de la quantité d information disponible sur le web ces dernières années, la recherche d information sur Internet devient de plus en plus difficile et les outils de recherche sur Internet ont de plus en plus de mal à satisfaire les besoins d utilisateurs de plus en plus exigeants. Pour remédier à ce problème, la meilleure solution consiste à organiser cette masse d information de manière à la rendre la plus accessible aux utilisateurs. Il existe de plus en plus de moteurs de recherche qui se sont intéressés à ce problème en intégrant des techniques leur permettant de catégoriser une grande partie des pages Web suivant des thèmes organisés de manière hiérarchique (du plus générique au plus spécifique). Plusieurs hiérarchies sont utilisées par les différents moteurs de recherche comme Yahoo (yahoo, 2003), google (google), infoseek (infoseek, 2002), etc. Cette hiérarchisation reste trop générique et incomplète vu le nombre de thèmes considérés et le nombre de pages classées. Dans la hiérarchie de Google il y a seulement 14 thèmes racines et au maximum 3 niveaux de profondeur. Ceci veut dire que les thèmes les plus profonds dans la hiérarchie restent encore génériques et regroupent des pages liées à différents thèmes plus spécifiques. Par exemple, sous la catégorie Maladie: troubles de nutrition on trouve des pages qui parlent de la boulimie, d autres parlent de l obésité, d autres de l anorexie, etc. En plus, le nombre de pages classées sous les différentes catégories est à peu prés égal à 1.5 millions en mai 2003 alors que le nombre d URL (Uniform Resource Locator) indexées par ce même moteur de recherche est égal à deux milliards. Pour remédier à ce problème, plusieurs travaux de recherche se sont intéressés à cette problématique d organisation des pages Web et ont proposé différentes approches pour faciliter et accélérer la tâche de recherche d informations sur Internet aux utilisateurs. Dans ce qui suit, nous présentons les principaux travaux traitant cette problématique : Dans (Fujii, Ishikawa 2004) les auteurs décrivent une méthode de résumé automatique des descriptions encyclopédiques d un terme à partir du Web. Cette méthode produit un résumé décrivant un terme selon différents points de vue. Par exemple, pour le terme XML, cette méthode produit: Définition -> XML is an extensible markup language. Abbreviation -> an abbreviation for extensible Markup Language... History ->...was advised as a standard by W3C in Les auteurs ne décrivent pas la méthode leur permettant d attribuer les points de vues à chaque type de terme. En plus, l ensemble des points de vues varient en fonction du type du terme et ne sont pas du

2 même niveau conceptuel d un type à un autre. Par exemple pour les termes techniques, les auteurs attribuent la définition, le but, la fonction, etc, alors que pour les termes de type animaux, l ensemble des points de vue est la famille et l habitation. En conclusion, on peut dire que la définition des points de vue dans cette méthode reste très arbitraire et Ad Hoc. Dans (Couto & al 2002 ), les auteurs présentent le système RÉGAL (RÉsumé Guidé par les Attentes du Lecteur) permettant une visualisation rapide d un ensemble de documents selon un point de vue particulier. Les informations nécessaires à la visualisation dans RÉGAL sont extraites automatiquement des textes, sans présupposer l existence d une structure préalable ou d un formatage du texte. L objectif de ce système est de concevoir un modèle générique applicable à différents domaines sans avoir à modéliser de nouvelles connaissances. Le résumé produit est constitué d une liste de segments classés par ordre décroissant de leur valeur de similarité avec le profil. La seule critique qu on peut faire à ce système est la lourdeur de la phase de structuration du profil demandée à l utilisateur. Un profil n est autre qu un ensemble de points de vue auxquels sont attribués des marqueurs. Un utilisateur doit, avant de lancer sa requête, définir un ensemble de points de vue (par exemple le point de vue lié à la cause) et choisir parmi une liste de marqueurs ceux qu il veut que le système considère dans la phase de recherche. Dans ce présent article, nous proposons une approche de résumé encyclopédique de pages Web offrant à l utilisateur une classification des réponses d un moteur de recherche suivant les différentes facettes des termes de la requête. On appelle facettes les différents aspects d un terme. Ces facettes sont prédéfinies dans une ontologie pour chaque type de termes suivant la méthode décrite dans la section 5. Après une présentation de notre approche de résumé encyclopédique (section 2), nous donnons une vision globale de notre système WebSum en section 3, ce qui permet d avancer l objectif général de notre travail. La section 4 présente la méthode choisie pour l élaboration des points de vue que nous appelons dans la suite de cet article les facettes de la requête. La section 5 développe les problèmes liés au résumé automatique de pages Web et la solution que nous apportons. Dans la section 6, nous présenterons l architecture générale de WebSum et nous détaillerons ses différents modules. Enfin, la section 7 présente les évaluations de nos résultats et les améliorations à apporter à notre système avant de conclure (section 8). 2 Approche de résumé encyclopédique Un résumé encyclopédique est un résumé informatif (Mani 2001) qui vise à fournir une description thématique du terme ou du concept considéré. Cette description permet de regrouper le maximum d informations possible selon différents points de vue. La motivation principale de ce travail est née du fait que suite à une interrogation d un moteur de recherche par mots clés, l utilisateur est souvent confronté à une masse d informations peu structurées et parfois peu pertinentes et il lui est souvent difficile d en extraire l information pertinente. C est ainsi qu est née l idée globale de WebSum, qui est un projet de recherche visant à élaborer un résumé encyclopédique à partir d une requête utilisateur. Par définition, l'encyclopédie est l organisation, la sélection et la simplification de l information. Par analogie à cette définition, WebSum vise à organiser les réponses d un moteur de recherche par rapport à une requête utilisateur selon les différents aspects des termes constituant cette requête, sélectionner les réponses les plus pertinentes par rapport à chaque aspect traité et enfin simplifier la représentation de ces pages en fournissant un résumé par extraction des fragments les plus pertinents de chaque aspect. Suite à une requête utilisateur composée des termes obésité enfant, WebSum fournit une représentation des réponses retournées par le moteur de recherche suivant un style encyclopédique soulignant les principaux aspects de la requête qui sont: définition et symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de prévention et de traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque aspect, une courte description de l aspect considéré de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information. La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et Fan 2000), ou des critères plus linguistiques (Radev et McKeown 1999), (Brazilay et al. 1999), (Mani et Bloedorn 1999). Notre travail quant à lui met l accent sur l utilisation conjointe de techniques d extraction d information et de techniques NLP (Natural Language Processing) basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction.

3 Dans ce qui suit, nous donnons une vision globale de WebSum afin de mieux expliquer l objectif de ce travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3 Vision générale de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (isa, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. On entend par facettes, l ensemble des termes permettant de décrire un concept suivant ses différents aspects. Nous donnerons une explication plus approfondie de ces facettes dans la section suivante. L objectif global de WebSum, est de classer les réponses d un moteur de recherche sous les différentes facettes identifiées à partir de la requête utilisateur suivant un ordre de pertinence déterminé par une métrique que nous avons définie (eg section 6.2). Cette métrique permet d évaluer les pages web par rapport à leur aptitude à se prêter au résumé et par rapport à leur pertinence avec la requête de l utilisateur. Après la classification des réponses, WebSum produit un résumé de chaque facette en extrayant les fragments de texte à partir des pages classées. Dans la section suivante, nous expliquons en détail la notion de facettes ainsi que la méthode que nous adoptons pour l élaboration de ces dernières. 4 Elaboration des facettes Notre approche se base sur une ontologie conceptuelle du domaine constituée par des concepts (~900concepts) reliés entre eux par la relation d hyponymie (is-a, est-un). La figure 1 illustre un extrait de la branche maladie de cette ontologie. Appareil digestif, maladies Maladie Appareil respiratoires, maladies Facettes maladie Figure1. Extrait de la branche maladie de l ontologie On associe aux concepts les plus hauts (généraux) de l ontologie des facettes suivant la structure de Qualia du Lexique Génératif (Pustejovsky 1995). La structure de Qualia représente les différents aspects du sens d un mot, on distingue 4 aspects définis dans cette structure: Formel: regroupe lestermes qui permettent de distinguer un objet ou un terme d un autre. Agentif: représente les facteurs impliqués dans la création de l objet ou à la source de l existence du terme considéré. Constitutif: exprime la relation entre un objet et ses composants ou tout ce qui découle d un terme. Télique: il existe deux types de télique o Le télique direct: représente les activités et les actions qui peuvent être faites sur un concept, o Le télique fonctionnel: représente la fonction du concept. Pour pouvoir décrire les différentes facettes d un concept, nous avons utilisé les définitions des différents aspects de la structure de Qualia. La figure ci-dessous présente les facettes définies dans WebSum pour le concept maladie. Formel: Définition, Symptômes Agentif: Causes Constitutif: Conséquences Télique: Prévention, Figure 2. Facette du concept Maladie Ces facettes sont attribuées aux noeuds les plus généraux de l ontologie. Les concepts les plus spécifiques héritent des facettes de leur concept père. Tous les concepts fils du concept maladie ont les mêmes facettes que ce dernier. Donc chaque maladie a des symptômes, une définition, des causes, des conséquences et des techniques et des moyens de prévention et de traitement. Après avoir décrit en détail la méthode d élaboration des facettes et afin de pouvoir classer les pages Web retournées par le moteur de recherche sous ces différentes facettes, il importe d évaluer la pertinence de ces pages par rapport au résumé et à la requête de l utilisateur.

4 Nous présentons dans ce qui suit, les problèmes posés par le résumé de pages Web. Nous expliquerons également en quoi ce type de résumé est différent du résumé de texte et quelles sont les solutions que nous proposons. 5 Evaluation de la pertinence des pages Web Nous commençons dans cette section par évoquer la problématique liée au résumé de pages Web et proposer par la suite notre solution pour l évaluation et la sélection des pages les plus aptes au résumé. 5.1 Problèmes du résumé de pages Web Outre les problèmes spécifiques au résumé automatique de texte, le résumé des pages Web présente d autres types de problèmes liés à: La structure des pages: souvent les pages web contiennent outre le texte, des images, des frames, des animations, etc. La forme linguistique des pages: présence de phrases incomplètes, souvent les pages web ne présentent aucune garantie d une bonne forme linguistique, Page à plusieurs sujets: le cas des portails par exemple, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de résoudre ce problème lié à la complexité de la structure des pages Web, nous avons enrichi notre système d une métrique (cf 6.2) permettant d évaluer la pertinence des pages Web par rapport au résumé et à la requête de l utilisateur. Nous décrivons dans ce qui suit cette métrique ainsi que ses différents critères d évaluation. 5.2 Description de la métrique La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi documents. Dans ces travaux, la plupart des critères utilisés sont des critères statistiques comme par exemple: La position de la phrase dans le document (Edmundson 1969), (Sekine, Nobata, 2001), (Radev et Fan, 2000): cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson 1969) et (Sekine, Nobata, 2001): les phrases inférieures à un certain seuil sont pénalisées. Mots du titre (Sekine, Nobata, 2001): plus une phrase contient des mots utilisés dans le titre plus elle est pertinente. Mots repères (Edmundson 1969), (Brandow et al 1995), (Kupiec et al 1995): ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Notre approche diffère de ces dernières par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la forme de la page (structure et forme linguistique) et des critères statistiques. Dans ce qui suit, nous allons détailler les différents critères de notre métrique : Critère de forme: permet de vérifier si la page contient du texte ou pas. Ce critère (Cf) est un facteur booléen qui vaut 1 si la page contient du texte et 0 sinon. Critère statistique: vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morpho-syntaxique: vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept ou la facette considérée constitue le sujet principal de la page). Voici la formule générale de cette métrique: Rdoc = Cf x (α x Cstat + β x C synt) (1) Avec α et β des pondérations, Cstat : les critères statistique, Csynt : les critères morpho-syntaxique. A l aide d une étude expérimentale, nous avons constaté que le critère statistique est plus important que le critère morpho-syntaxique pour l évaluation de la page par rapport au thème de la requête et nous avons fixé leur pondération respective à 0.7 (α) et 0.3 (β). Jusqu à présent, nous avons présenté le processus d élaboration des facettes à partir d une requête utilisateur ainsi que la description de la métrique nous permettant de classer les pages Web sous les différentes facettes. Nous allons maintenant présenter l architecture générale de notre système et décrire son fonctionnement global.

5 6 Architecture de WebSum L architecture du système WebSum est décrite dans la figure ci-dessous. Figure 3. Architecture générale de WebSum Nous décrivons dans ce qui suit les différents modules de notre système: 6.1 Module d analyse de la requête Ce module identifie dans la requête utilisateur les termes autour desquels la classification ainsi que le résumé vont être élaborés. Cette identification s effectue à partir d une étude des relations entre les différents termes de la requête. On considère 3 types de relations entre deux termes (T1, T2), ce type de relation peut être étendu à trois termes ou plus: Un des termes, T1 représente une facette de T2 comme par exemple dans : cause diabète. Si T1 représente le rôle formel, constitutif ou agentif alors la classification s effectue sur la base de cette facette. Et si T1 représente le rôle télique de T2 alors la classification s effectue autour des modalités d élaboration de T1. Par exemple pour traitement obésité la classification s effectue sur la base des termes suivants: moyens de traitement, lieux de traitement, techniques de traitement,... Les deux termes T1 et T2 représentent des concepts de la même ontologie du domaine comme par exemple délinquance, criminalité, dans ce cas une étude de la similarité entre les deux concepts est élaborée. Si les deux concepts sont jugés similaires (sont situés au même niveau de l ontologie et ont un père en commun) alors les facettes du père vont être utilisées pour la classification, sinon (concepts non similaires) on considère que la requête appartient au 3ème cas, S il n y a aucune relation entre les termes T1 et T2, nous considérons que le terme en tête de la requête est le terme porteur d information et que la classification est effectuée sur la base des facettes de ce dernier. Nous avons tiré cette conclusion à partir d une étude effectuée sur les statistiques des requêtes sur le Web (overture 2004). Le tableau 1 illustre un exemple de requête (parmis un échantillon de 100 requêtes) que nous avons étudié («obésité enfant») et donne la répartition du nombre d occurrences des requêtes tapées en Février 2004 et qui comportent les deux termes constituant cette requête. Sur un échantillon de 1313 requêtes comportant ces deux mots clés, on remarque que seulement ~1% des internautes inversent l ordre des termes. Requêtes Nombre % d occurrence Obésité enfant % Obésité chez l enfant % Problématique obésité 114 9% enfant Obésité enfant france % Enfant obésité % Tableau 1. Répartition du nombre d occurrences des requêtes Une fois que le terme porteur d information a été identifié dans la requête, le module d analyse de la requête procède à l identification des facettes sur la base desquelles la classification est faite. 6.2 Module de recherche Ce module transmet la requête utilisateur au moteur de recherche (Google) et récupère les N premières réponses retournées par ce dernier. Nous avons fixé N à 100 réponses mais ce paramètre reste flexible. 6.3 Module de classification Ce module analyse les réponses récupérées du moteur de recherche pour les classer sous les facettes adéquates. Pour l élaboration de cette tâche, nous nous basons sur des techniques d extraction d information basées sur des patrons d extraction définis au niveau de chaque facette. Ces patrons vont nous permettre de repérer dans les pages Web les fragments de texte en rapport avec la facette considéré afin de classer ces pages par la suite sous cette facette. Pour la définition de ces patrons, nous avons décrit un formalisme permettant leur génération automatique. Ce formalisme est basé sur des classes sémantiques constituées par des verbes, des noms et des paraphrases, sur un lexique et une grammaire décrivant les patrons de chaque classe. Par exemple nous avons défini 9 classes sémantiques pour la facette définition (Auger, 1997), 3 pour la facette cause (Garcia, 1998), (Nazarenko, 2000) etc.

6 Voici un exemple d une classe sémantique de la facette définition ainsi que la grammaire décrivant les patrons appartenant à cette classe: Classe_caractérisation:{Verbe (caractériser, définir, déterminer, dénoter, désigner), Déverbaux (caractéristique, définition, détermination, dénotation)} Grammaire: <concept> [fct_gram = complément], <verbe, déverbal> [classe_caractérisation] Cette grammaire dit que le concept considéré dans la recherche est employé en tant que complément d objet de tout élément de la classe «caractérisation». Les patrons générés à partir de cette description sont les suivants: A partir des verbes : [caractériser] <concept>: caractéris* <concept> Exemple de phrase extraite par ce patron : décrit le diabète comme étant [définir] <concept>: défini* <concept> [déterminer] <concept>: détermin* <concept>,..etc. A partir des déverbaux : Définition * <concept>, Exemple de phrase extraite par ce patron : La définiton et l épidémiologie de l obésité caractéristique * <concept>, détermination * <concept>, dénotation * <concept>. Après la classification des pages sous les facettes adéquates, le système procède à la réorganisation de ces dernieres à l aide de la métrique décrite auparavant. Ainsi un score est attribué à chacune des pages et le classement final s effectue par ordre décroissant de ce score. Dans la section suivante, nous présentons la méthode d évaluation adoptée pour évaluer la méthode d élaboration des facettes et le résultat de notre classification. 7 Evaluations et résultats 7.1 Méthodologie Afin d évaluer la qualité des résumés produits par les systèmes de résumé automatique, il est important d avoir des méthodes d évaluation standards. Il existe deux méthodes d évaluation de systèmes de résumé automatique: la méthode intrinsèque et la méthode extrinsèque (Jones, 1995). La méthode intrinsèque permet de mesurer globalement la qualité du système et la méthode extrinsèque évalue la performance du système par rapport à certaines tâches spécifiques. Evaluation intrinsèque La plupart des évaluations des systèmes de résumé automatique utilisent la méthode intrinsèque ((Edmundson, 1969), (Paice, 1990), (Kupiec et al. 1995); (Marcu, 1997), (Salton et al, 1997), (ono, et al., 1994)). L'approche typique utilisée par la méthode d'évaluation intrinsèque consiste à effectuer des comparaisons du résumé automatique généré par le système avec un résumé dit "idéal" préparé à l'avance. Ce résumé est généré par des experts ou par différents sujets humains. La comparaison avec le résumé idéal est effectuée en terme de mesure de précision et de rappel. Le paramètre de précision peut être défini par la phrase suivante: "Donnez moi les informations significatives seulement". Cela veut dire que le résumé automatique ne peut contenir que des points qui ont été exprimés dans le résumé idéal. Le calcul de la précision est donné par l'équation suivante: Précision = Nombre de phrases correctes Nombre total des phrases Le paramètre de rappel est défini par la phrase suivante: "Donnez moi toutes les informations significatives". Le résumé automatique doit contenir tous les points exprimés dans le résumé idéal. Le calcul du paramètre de rappel d'un résumé est donné par l'équation suivante: Rappel = Nombre de phrases correctes Nombre total des phrases Correctes dans le résumé idéal Evaluation extrinsèque L'évaluation extrinsèque ou orientée tâches est conçue pour estimer la performance du système de résumé par rapport à certaines tâches particulières. La nature précise des tâches invoquées est largement dépendante avec l'intention du résumé à évaluer. Cependant, ce type d'évaluation invoque quelques formes de recherche d'information ou des tâches d'analyse. La difficulté de cette méthode d'évaluation se situe dans le fait que la performance du résumé est

7 directement influencée par les conditions expérimentales dans lesquelles se déroule l'évaluation (exemple : en terme de qualité de l'évaluateur). Pour évaluer les résultats de notre système, nous avons choisi d utiliser la méthode intrinsèque, cette évaluation a été effectuée par rapport à deux résultats qui sont le choix des facettes par rapport aux termes d une requête particulière et la classification des réponses du moteur de recherche sous les différentes facettes. 7.2 Evaluation des facettes Afin d évaluer la qualité des facettes attribuées à chaque requête, nous les avons comparées avec des thèmes relatifs à chaque terme dans des encyclopédies existantes. Nous avons choisi les encyclopédies 1 suivantes: Agora (1), Doctissimo (2), Encarta (3). Le tableau suivant (tableau 2) décrit les facettes que nous avons définies suivant la structure de Qualia du Lexique Génératif et les facettes utilisées par les encyclopédies considérées. Concept Facettes de WebSum Obésité Angines Hypertension Alcoolisme Aspirine Pénicilline Définition Causes Conséquences Prévention Présentation Composition Laboratoire Effets indésirables Facettes encyclopédies des (2) Définition Evaluation de l obésité selon l OMC Enjeux La guérison (2)Qu est ce que c est? Les signes de la maladie Causes et facteurs de risque consultation (2) Définition Symptôme Causes Complications (3) Présentation Développement Effets (3) Présentation Découverte Utilisation Effets indésirables et contre-indications (3) Présentation Mode d action Dosage Oraciline Céléstamine Divorce Criminalité Définition Causes Conséquences Prévention Action (2) Molécule Classe thérapeutique Laboratoire Indications Effets secondaires Contre-indications Précautions d'emploi (3) Forme Dosage Classement pharmaco thérapeutique Laboratoire (3) Présentation Histoire Législation actuelle Présentation Les statistiques criminelles Les chiffres de la délinquance Tableau 2. comparaison des facettes de WebSum avec celle des encyclopédies /index_encyclo_a.html 3 Le tableau 3 illustre le taux d utilisation des facettes définies dans WebSum par d autres encyclopédies:

8 les différentes facettes fournies avec chaque requête. Facettes de WebSum Concept Maladie Taux d utilisation Ensuite, nous avons comparé les résultats de la classification fournie par les évaluateurs avec celle de WebSum et nous avons obtenu les résultats suivants: Définition 100 % Causes 50 % Conséquences 100 % Taux de pages bien classées Prévention 25 % 100 % Concept drogues et agents divers Facettes Req1 Req2 Req3 Req4 Req5 Res_global Présentation 100 % Laboratoire 50 % Composition 50 % Effets indésirables 50 % Utilisation 25 % Mode d action 25 % Tableau 3. taux d utilisation des facettes de WebSum par d autres encyclopédies. Définition Causes Conséquences 75% 40% 66% 96% 58% 67% 66% 96% 96% 50% 75% 76.6 % 96% 96% 62% 100% 80% 86.8 % Pour synthétiser, nous pouvons dire que notre méthode de définition des facettes donne des résultats satisfaisants au niveau de l évaluation. En effet, cette méthode présente un taux de satisfaction pour le concept Maladie de 75% et 60% pour le concept Drogues et Agents Divers. Elle présente également un taux total de satisfaction de 62.3% défini à partir de l évaluation de 30 facettes relatives à 6 concepts généraux de l ontologie. Le faible taux d utilisation constaté pour quelques facettes s explique par le fait que certaines encyclopédies les considèrent dans leur description du terme alors que d autre ne les considèrent pas. De ce fait, nous pouvons dire que notre méthode couvre, dans la plupart des cas, la totalité des facettes définies dans les différentes encyclopédies. Ceci nous permet de dire que cette méthode permet de classer le maximum d information à partir des réponses du moteur de recherche et de couvrir le maximum des thèmes traités par les pages Web. 7.3 Evaluation de la classification Pour évaluer le résultat de la classification des pages Web de WebSum, nous avons sélectionné 5 requêtes du domaine médical et pour chaque requête nous avons fourni à des évaluateurs les 100 premières réponses retournées par Google. Le rôle de ces sujets est d effectuer la classification de ces réponses sous Prévention 100% 100% 93.3% 70% 86% % 80% 100% 80% 86.6% 75% % Tableau 4. Résultats de l évaluation de la classification Avec : Requête 1 : obésité enfant, Requête 2 : varice femme, Requête 3 : diabète adulte, Requête 4 : alcoolisme, Requête 5 : traumatisme sportif. D après les résultats de l évaluation, on remarque que notre système fournit une classification satisfaisante et un gain de temps considérable. En effet, la classification de 100 pages Web sous les différentes facettes définies dans notre système nécessite entre 20 et 30 minutes de temps de traitement pour un sujet humain, par contre WebSum effectue cette classification en quelques secondes. Par rapport aux résultats même de la classification, nous constatons que le plus faible taux de pages bien

9 classées reste pour la facette définition suivie de celle de cause. Afin d améliorer nos patrons d extraction, nous avons pu identifier quelques problèmes qui ont fait que certaines pages, bien qu elles traitent une facette particulière, ne sont pas classées sous cette dernière. Ces problèmes sont liés au fait que: Nous ne prenons pas en compte les synonymes d un concept. Par exemple pour le concept obésité, il faudra tenir compte de ses synonymes (surpoids, problèmes de poids, surcharge pondérale, etc.). Absence de quelques marqueurs pour exprimer certaines facettes. Certaines expressions ne sont pas prises en compte par les patrons bien qu elles permettent de définir un concept. Exemple : «A propos de < concept>», «sortes de < concept>» et «types de < concept>» expriment la facette définition et ne sont pas pris en compte dans nos patrons. Utilisation de la forme négative. Jusqu à maintenant nous ne tenons pas compte de la négation mais peut-être qu il faudrait envisager d utiliser quelques patrons dans la forme affirmative et négative. Exemple : «< concept> est NOM» et «<concept> n est pas NOM» peuvent signifier tous les deux une définition. 8 Conclusion Dans cet article, nous avons présenté la première version de WebSum qui consiste en la classification des réponses d un moteur de recherche sous les différentes facettes de la requête utilisateur. Cette première version est complètement implémentée en PERL et se base sur une ontologie décrite en XML comportant 900 concpets et 50 facettes. La deuxième version de WebSum, en cours d élaboration, consiste d abord à enrichir nos patrons d extraction pour prendre en compte les résultats de nos évaluations et à produire un résumé encyclopédique des pages Web à partir du résultat de la classification en se basant sur les facettes qui seront les éléments structurants du résumé. 9 Références (Auger, 1997) Auger, A., 1997, Repérage des énoncés d interêt définitoire dans les bases de données textuelles, Thèse de doctorat, Université de Neuchâtel. (Brandow, 1995) Brandow, R., Mitze, K. et Rau, L. F Automatic condensation of electronic publications by sentence selection. Information Processing and Management 31(5) : (Brazilay et al., 1999) Brazilay, R., McKeown, K. et Elhadad, M Information fusion in the context of multi-document summarization. In Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics. (Couto et al., 2004) Couto, J., Ferret, O., Grau, B., Hernandez, N., Jackiewicz, A., Minel, J., Porhiel, S Revue d'intelligence artificielle Vol 18/4. (Edmundson, 1969) Edmundson, H. P New methods in automatic abstracting. Journal of the ACM 16(2) : (Fujii et Ishikawa, 2004) Fujii, A. et Ishikawa, T Summarizing Encyclopedic term descriptions on the Web. COLING 04 -Volume1- p645. (Garcia, 1998) Garcia, D., 1998, Analyse automatique de textes pour l organisation causale des actions, Réalisation du système informatique COATIS. Thèse de doctorat, Paris Sorbonne. (Google) (Yahoo, 2003) Yahoo! Online guide for the internet (Infoseek, 2002) Internet directory and query service, hhtp://www.infoseek.com, (Jones, 1995) Jones, K.S., 1995, Towards better nlp system evaluation. Dans Proceedings of the Human Language Technology Workshop, San Francisco: ARPA. (Kupiec, 1995) Kupiec, J., Pederson, J. et Chen, F A trainable document summarizer. Dans SIGIR 95, (Mani, 2001) Mani, I., 2001, Automatic Summarization, Natural Language processing, John Benjamins Publishing Company, Amsterdam/Philadelphia. (Mani et Bloedorn, 2000) Mani, I. et Bloedorn, E., 2000, Summarizing similarities and differences among related documents, Information Retrieval, 1(1). (Marcu, 1997) Marcu, D From Discource structures to text summaries. In ACL/EACL-97 summarization workshop, (Nazarenko, 2000) Nazarenko, A., 2000, La cause et son expression en Français, Ophrys. (Overture, 2004) on/?mkt=fr (Ono et al., 1994) ono, K., Sumita, K. et Miike, S Abstract generation based on rhetorical structure extraction. COLING94, Volume1, (Paice, 1990) Paice, C.D Constructing literature abstracts by computer : techniques and Prospects. Information Processing and Management 26(1): (Pustejovsky, 1995) Pustejovsky, J., The Generative Lexicon Massachusetts Institute of Technology. (Radev et Fan, 2000) Radev, D. R. et Fan, W Automatic summarization of search engine hit lists. In Proceedings, ACL Workshop on Recent Advances in NLP and IR, Hong Kong. (Radev et McKeown, 1999) Radev, D. R. et McKeown, K. R Generating summaries of multiple news articles. In Inderjeet Mani and Mark Maybury, editors, Advances in Automatic Text Summarization. MIT Press.

10 (Salton et al., 1997) Salton, G., Singhal, A., Mitra, M. et Buckley, C Automatic text structuring and summarization. Information Processing and Management 33(2) : (Sekine et Nobata, 2001) Sekine, S. et Nobata, C Sentence Extraction with Information Extraction technique. In Proceedings of ACM SIGIR'01 Workshop on Text Summarization. New Orleans.

Classification des réponses d un moteur de recherche et évaluation de leur pertinence

Classification des réponses d un moteur de recherche et évaluation de leur pertinence Classification des réponses d un moteur de recherche et évaluation de leur pertinence Olfa Jenhani El Jed IRIT/ ILPL Institut de Recherche en Informatique de Toulouse 118 Route de Narbonne 31062 Toulouse

Plus en détail

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique I. Introduction C. Reynaud, G. Giraldo Université Paris-Sud, CNRS UMR 8623, INRIA-Futurs L.R.I., Bâtiment

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques 135 Schedae, 2006 Prépublication n 17 Fascicule n 1 Solutions de traitement du document textuel avec prise en charge de ressources linguistiques Abderrafih Lehmam Pertinence Mining SARL 82, avenue Jean

Plus en détail

Les typologies d information que le moteur est en mesure de rechercher sont :

Les typologies d information que le moteur est en mesure de rechercher sont : AIDE SUR LA BIBLIOTHEQUE VIRTUELLE Le système de recherche de la bibliothèque virtuelle permet l accès rapide aux informations qui intéressent les étudiants et qui sont disponibles dans le cyberespace

Plus en détail

Quelle plus-value linguistique pour la segmentation automatique de texte?

Quelle plus-value linguistique pour la segmentation automatique de texte? 85 Schedae, 2006 Prépublication n 11 Fascicule n 1 Quelle plus-value linguistique pour la segmentation automatique de texte? Christophe Pimm ERSS, Université de Toulouse-le-Mirail 5 Allées Antonio Machado

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Segmentation des fichiers logs

Segmentation des fichiers logs Segmentation des fichiers logs Hassan Saneifar,, Stéphane Bonniol, Pascal Poncelet, Mathieu Roche LIRMM, CNRS, Université Montpellier 2; Satin Technologies Résumé. Avec la méthode de segmentation appelée

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

INGÉNIERIE DES CONNAISSANCES BCT (3b)

INGÉNIERIE DES CONNAISSANCES BCT (3b) 08.12.1999 INGÉNIERIE DES CONNAISSANCES BCT (3b) Nathalie Aussenac-Gilles (IRIT) Jean Charlet (DSI/AP-HP) Ingénierie des connaissances BCT (N. Aussenac-Gilles, J. Charlet) BCT-1 PLAN La notion de BCT :

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Application de la logique floue à un modèle de recherche d information basé sur la proximité

Application de la logique floue à un modèle de recherche d information basé sur la proximité Application de la logique floue à un modèle de recherche d information basé sur la proximité Fuzzy set theory applied to a proximity model for information retrieval Michel BEIGBEDER 1 Annabelle MERCIER

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Système D Indexation et de Recherche d Images par le contenu

Système D Indexation et de Recherche d Images par le contenu Système D Indexation et de Recherche d Images par le contenu 1 Houaria ABED, 1 Lynda ZAOUI Laboratoire : Systèmes, Signaux, Données Département Informatique, Faculté des Sciences Université des Sciences

Plus en détail

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées :

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées : Université Paris IV-Sorbonne Ecole doctorale Concepts et Langages Thèse pour obtenir le grade de DOCTEUR DE L UNIVERSITE PARIS IV-SORBONNE Discipline : Informatique Spécialité : Informatique linguistique

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala

Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala Influence De La Taille Du Jeton Sur Les Performances De L algorithme D'exclusion Mutuelle De Ricart - Agrawala Sarah Benkouider, Souhila Labgaa 2, Mohamed Yagoubi 3 Université Amar Telidji Département

Plus en détail

Gestion de données complexes

Gestion de données complexes Master 2 Informatique Spécialité AIGLE Gestion de données complexes Amayas ABBOUTE Gilles ENTRINGER SOMMAIRE Sommaire i 1 - Introduction 1 2 - Technologies utilisées 2 2.1 API Jena........................................

Plus en détail

Quelques solutions. Panorama des outils (4) Pratiques et usages. Google (1) Google (2) Faire de la veille à moindre coût

Quelques solutions. Panorama des outils (4) Pratiques et usages. Google (1) Google (2) Faire de la veille à moindre coût Panorama des outils de veille Joumana Boustany Maître de conférences Université Paris 5 René Descartes Institut Universitaire de Technologie Aujourd hui Information abondante et diversifiée Le domaine

Plus en détail

Enrichissement des bases de données d images médicales via la recherche participative

Enrichissement des bases de données d images médicales via la recherche participative BOUANANI Zahra (Laboratoire LIPADE, Soutenance Université Parisde Descartes, stagefrance) pour l obtention 11 Septembre du diplôme 2014 de1 Mast / 22 Soutenance de stage pour l obtention du diplôme de

Plus en détail

Accès personnalisé multicritères à de multiples sources d informations.

Accès personnalisé multicritères à de multiples sources d informations. Lyon - France Accès personnalisé multicritères à de multiples sources d informations. Samir kechid Université des Sciences et de la Technologie Houari Boumediene. USTHB BP 32 El Alia Bab Ezzouar Alger

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

FlexIS: vers un système d intégration d information flexible

FlexIS: vers un système d intégration d information flexible FlexIS: vers un système d intégration d information flexible P. Colomb 1, et H. Jaudoin 2 1 LIMOS - CNRS UMR 6158, Université Blaise Pascal, France email: colomb@isima.fr LIMOS, 24 Avenue des Landais,

Plus en détail

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 1 UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 31 janvier 2012 Bordeaux Présentée par :Mme SABRI Aziza Encadrée par : Mme KJIRI Laila Plan 2 Contexte Problématique

Plus en détail

Web sémantique, données libres et liées, UNT

Web sémantique, données libres et liées, UNT Web sémantique, données libres et liées, UNT Yolaine Bourda September 20, 2012 Web sémantique De nombreux documents sont présents sur le Web. Pourtant il est parfois difficile d avoir des réponses à des

Plus en détail

Construction d'un entrepôt de métadonnées - LOM Application: E-learning

Construction d'un entrepôt de métadonnées - LOM Application: E-learning Construction d'un entrepôt de métadonnées - LOM Application: E-learning Nawel Iles, Azzeddine Chikh, Sidi Mohammed Chouiti Faculté des sciences de l ingénieur Université de Tlemcen Algérie (n_iles/ az_chikh

Plus en détail

Analyse de données symboliques et graphe de connaissances d un agent

Analyse de données symboliques et graphe de connaissances d un agent d un agent Philippe Caillou*, Edwin Diday** *LAMSADE - Université Paris Dauphine Place du maréchal de Lattre de Tassigny 7516 Paris caillou@lamsade.dauphine.fr **CEREMADE - Université Paris Dauphine Place

Plus en détail

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire

Plus en détail

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

GKR. Geological Knowledge Representation Base de connaissances métallogéniques GKR Geological Knowledge Representation Base de connaissances métallogéniques Objets Organiser un ensemble d informations complexes et hétérogènes pour orienter l exploration minière aux échelles tactiques

Plus en détail

Aide à la consultation de l archive numérique des Papiers de travail de Michel Foucault. 22 juillet 2015

Aide à la consultation de l archive numérique des Papiers de travail de Michel Foucault. 22 juillet 2015 Aide à la consultation de l archive numérique des Papiers de travail de Michel Foucault 22 juillet 2015 1 1 Caractéristiques de l instrument de recherche 1.1 Structure de l archive numérique L archive

Plus en détail

Gestion de Contenus Web (WCM)

Gestion de Contenus Web (WCM) Web Content Management 1 Gestion de Contenus Web (WCM) Bernd Amann Modelware : vers la modélisation et la sémantisation de l information École CEA-EDF-INRIA 16-27 juin 2003 Cours No 1 - Gestion de Contenus

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

10 techniques pour améliorer votre référencement naturel

10 techniques pour améliorer votre référencement naturel 10 techniques pour améliorer votre référencement naturel Sur quasiment 66 millions de personnes en France, 83% sont des internautes, et ils passent en moyenne 4h sur leur ordinateur à naviguer sur le web.

Plus en détail

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006 Rapport OUTILEX Laboratoire d'informatique de Paris 6 B. Piwowarski September 18, 2006 1 Introduction Les systèmes de Recherche d'information (RI), permettent de rechercher dans de grand corpus électronique

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

Conception des bases de données : Modèle Entité-Association

Conception des bases de données : Modèle Entité-Association Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir

Plus en détail

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Journée Résumé Automatique Multimédia 2011/03/17 Emilie Guimier De Neef Plan de la

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus

Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus Yann Mathet, Antoine Widlöcher Laboratoire GREYC - Université de Caen Ecole thématique «Annotation de données langagières» Biarritz,

Plus en détail

TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue

TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue Florian Boudin To cite this version: Florian Boudin. TALN Archives : une archive numérique

Plus en détail

DIVAS - Description détaillée de l'architecture logicielle du système complet. Livrable N 3.A.1. Responsable : Samer Ammoun

DIVAS - Description détaillée de l'architecture logicielle du système complet. Livrable N 3.A.1. Responsable : Samer Ammoun DIVAS - Description détaillée de l'architecture logicielle du système complet Livrable N 3.A.1 Date: Mai 2008 Version: 1.0 Partenaires: Auteur: Sujet: Volet: Diffusion: Nombre de pages:14 ARMINES LCPC

Plus en détail

L instrumentation dans la collecte des données

L instrumentation dans la collecte des données L instrumentation dans la collecte des données L étude des documents écrits par la méthode des traceurs Danielle Paquette INTRODUCTION La méthode des traceurs est une méthode qualitative utilisée en sciences

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Du texte brut au web sémantique

Du texte brut au web sémantique Du texte brut au web sémantique Thierry Poibeau LIPN, CNRS et Université Paris 13 Faciliter l accès au texte But : Améliorer l accès à l information (essentiellement textuelle) Moyen : Proposer de nouveaux

Plus en détail

La base de données MEDLINE

La base de données MEDLINE La base de données MEDLINE La base de données MEDLINE est produite par la National Library of Medicine (NLM) aux Etats-Unis. Elle couvre tous les domaines biomédicaux : médecine, biologie, toxicologie,

Plus en détail

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Mathieu Roche Équipe TAL, LIRMM, UMR 5506, Université Montpellier 2 mathieu.roche@lirmm.fr Résumé L acquisition

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

4. SERVICES WEB REST 46

4. SERVICES WEB REST 46 4. SERVICES WEB REST 46 REST REST acronyme de REpresentational State Transfert Concept introduit en 2000 dans la thèse de Roy FIELDING Est un style d architecture inspiré de l architecture WEB En 2010,

Plus en détail

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SEPTEMBRE 2008 TABLE DES MATIÈRES INTRODUCTION... 3 SONDAGE ET ÉCHANTILLONNAGE... 3 SONDAGE... 3 ÉCHANTILLONNAGE... 4 COMPILATION DES RÉSULTATS... 4

Plus en détail

Petite définition : Présentation :

Petite définition : Présentation : Petite définition : Le Web 2.0 est une technologie qui permet la création de réseaux sociaux, de communautés, via divers produits (des sites communautaires, des blogs, des forums, des wiki ), qui vise

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Formation BusinessObjects v.6.5. Contenu des Formations

Formation BusinessObjects v.6.5. Contenu des Formations Formation BusinessObjects v.6.5 des Formations TABLE DES MATIERES I. UTILISATEUR BO V.6.5 NIVEAU 1 & 2... 3 DESCRIPTION... 3 PREALABLE... 3 CONTENU... 3 II. INFOVIEW & WEBINTELLIGENCE V.6.5... 4 DESCRIPTION...

Plus en détail

Accès aux connaissances orales par le résumé automatique

Accès aux connaissances orales par le résumé automatique Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman Thales, Laboratoire MMP, 160 Bd de Valmy, 92700 Colombes, benoit.favre@fr.thalesgroup.com, francois.capman@fr.thalesgroup.com Université

Plus en détail

Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives

Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives Y. Es Saady, B. Bakkass, A. Rachidi, M. El Yassa, D. Mammass Laboratoire IRF-SIC, Université

Plus en détail

Classification automatique de textes basée sur des hiérarchies de concepts

Classification automatique de textes basée sur des hiérarchies de concepts Classification automatique de textes basée sur des hiérarchies de concepts Kurt Englmeier (**), G. Hubert (*), Josiane Mothe (*, ***) mothe@irit.fr, hubert@irit.fr, kurt@diwsysv.diw-berlin.de, (*) Institut

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

BAZIN Danil et PRIEZ Jean-Baptiste. LEX & YACC : Calculatrice Évoluée

BAZIN Danil et PRIEZ Jean-Baptiste. LEX & YACC : Calculatrice Évoluée BAZIN Danil et PRIEZ Jean-Baptiste LEX & YACC : Calculatrice Évoluée Table des matières 1 Introduction 3 2 Description 4 3 La grammaire utilisée 6 4 Lexèmes et FLEX 8 5 Analyse syntaxique et YACC 8 5.1

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

IRIT, Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 9, France

IRIT, Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 9, France VERS DES SERVICES WEB ADAPTES : COMMENT INTEGRER LE CONTEXTE DANS LES DIFFERENTES ARCHITECTURES DE SERVICES WEB? Bouchra SOUKKARIEH, Dana KUKHUN, Florence SEDES {sokarieh,kukhun,sedes}@irit.fr IRIT, Université

Plus en détail

EXTRACTION INFORMATIQUE DE DONNÉES SUR LE WEB

EXTRACTION INFORMATIQUE DE DONNÉES SUR LE WEB 195 EXTRACTION INFORMATIQUE DE DONNÉES SUR LE WEB Fabrice ISAAC, Thierry HAMON, Christophe FOUQUERÉ Université Paris 13 Lorne BOUCHARD, Louisette EMIRKANIAN 1 Université du Québec à Montréal Dans le cadre

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique

Plus en détail

Représentation des connaissances Cours 3. Ontologies

Représentation des connaissances Cours 3. Ontologies Représentation des connaissances Cours 3. Ontologies Applications Ontologies et recherche d'informations Éditer une ontologie Ontologies et moteurs d'inférence Cartes de thèmes Applications Recherche d'informations

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Valoriser et commercialiser les territoires touristiques sur Internet

Valoriser et commercialiser les territoires touristiques sur Internet 2e Rencontres des territoires numériques Agen 8 décembre 2004 Valoriser et commercialiser les territoires touristiques sur Internet ARDESI, Agence Régionale pour le Développement de la Société de l Information

Plus en détail

LA SÉMANTIQUE DE SCÈNES 3D

LA SÉMANTIQUE DE SCÈNES 3D LA SÉMANTIQUE DE SCÈNES 3D Une approche sémantique pour l adaptation et la réutilisation de scènes 3D par Ioan Marius Bilasco Laboratoire d Informatique fondamentale de Lille Bâtiment M3 Cité scientifique

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Un modèle de qualité de l information

Un modèle de qualité de l information Rami Harrathi*, Sylvie Calabretto* * * LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle, F-69621 Villeurbanne Cedex Rharrathi @yahoo.fr **LIRIS CNRS UMR 5205 - INSA de

Plus en détail

Master Fl&DL LMLGA118, Psycholinguistique

Master Fl&DL LMLGA118, Psycholinguistique Master Fl&DL LMLGA118, Psycholinguistique Caroline Bogliotti caroline.bogliotti@u-paris10.fr Anne Lacheret anne@lacheret.com ; www.lacheret.com Maria Kihlstedt maria.kihlstedt@u-paris10.fr Objectifs du

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples TALN 2008, Avignon, 9-13 juin 2008 Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples Fatma Kallel Jaoua (1),

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

CorpuSearch : présentation d un outil d extraction spécifique

CorpuSearch : présentation d un outil d extraction spécifique CorpuSearch : présentation d un outil d extraction spécifique Jean-Philippe Demoulin, Alda Mari, Romain Vinot ENST Département INFRES CNRS URA 820 46 rue Barrault - 75013 PARIS - +33(0)145817259 {demoulin,

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Gestionnaire de dialogue pour un système d informations à reconnaissance vocale

Gestionnaire de dialogue pour un système d informations à reconnaissance vocale TALN 2001, Tours, 2-5 juillet 2001 Gestionnaire de dialogue pour un système d informations à reconnaissance vocale Sophie Rosset, Lori Lamel LIMSI-CNRS, 91403 Orsay Cédex rosset,lamel@limsi.fr Résumé -

Plus en détail

Le problème C est le problème. Sommaire. Des problèmes Quels problèmes? 24/01/11 RÉSOUDRE UN PROBLÈME DE PHYSIQUE UN VRAI CASSE- TÊTE?

Le problème C est le problème. Sommaire. Des problèmes Quels problèmes? 24/01/11 RÉSOUDRE UN PROBLÈME DE PHYSIQUE UN VRAI CASSE- TÊTE? Le problème C est le problème 2 RÉSOUDRE UN PROBLÈME DE PHYSIQUE UN VRAI CASSE- TÊTE? «Ne me dite pas que ce problème est difficile. S il n était pas difficile, ce ne serait pas un problème!» Ferdinand

Plus en détail

«PRATIQUES DOCUMENTAIRES ET

«PRATIQUES DOCUMENTAIRES ET «PRATIQUES DOCUMENTAIRES ET NOUVEAUX MODES DE PUBLICATION» - Résultats de l enquête Centre de documentation LAAS-CNRS Juin 2006 1) PRESENTATION DE L ENQUETE a) Objectifs Dresser un état des lieux sur :

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Modélisation des données

Modélisation des données Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)

Plus en détail

Le ranking de Augure Influencers La méthodologie AIR en détails

Le ranking de Augure Influencers La méthodologie AIR en détails Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

Un langage pivot entre langue naturelle et langage informatique

Un langage pivot entre langue naturelle et langage informatique Un langage pivot entre langue naturelle et langage informatique Laurent Tromeur Ontomantics S.A.S. France laurent.tromeur@ontomantics.com GERFLINT Reçu le 17-03-2015 / Évalué le 24-04-2015 / Accepté le

Plus en détail

«La visualisation de l information au service de la veille, la recherche et la découverte d information sur le web»

«La visualisation de l information au service de la veille, la recherche et la découverte d information sur le web» «La visualisation de l information au service de la veille, la recherche et la découverte d information sur le web» Social Computing est spécialisé dans les domaines de l accès à l information, des réseaux

Plus en détail

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch)

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch) REPUBLIQUE ET CANTON DE GENEVE Département de l'intérieur et de la mobilité Service de la mensuration officielle 02.2012 Intégrer et gérer la temporalité dans le système d'information du territoire genevois

Plus en détail

Les cartes conceptuelles

Les cartes conceptuelles Les cartes conceptuelles Représentations spatiales des concepts Règle de base «le chercheur isole et choisit les concepts pertinents, les hiérarchise par niveaux ordonnés, puis il relie les concepts entre

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail