Méthode de classification des réponses d un moteur de recherche

Dimension: px
Commencer à balayer dès la page:

Download "Méthode de classification des réponses d un moteur de recherche"

Transcription

1 SETIT rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche Olfa Jenhani El Jed * * 118 Route de Narbonne Université Paul Sabatier Institut de Recherche en Informatique à Toulouse. Résumé: Dans cet article, nous présentons une approche de résumé encyclopédique de pages Web. Cette approche offre à l utilisateur une meilleure visualisation des réponses récupérées par un moteur de recherche suite à une interrogation par mots clés et lui permet d évaluer rapidement la pertinence des pages par rapport à ses attentes. Cette approche combine des techniques d extraction d information avec des ressources de représentation de connaissances. Mots clés: ontologie, résumé encyclopédique, résumé de pages web, techniques d extraction d information, patrons d extraction. 1 Introduction Avec l explosion de la quantité d information disponible sur le web ces dernières années, la recherche d information sur Internet devient de plus en plus difficile et les outils de recherche sur Internet ont de plus en plus de mal à satisfaire les besoins d utilisateurs de plus en plus exigeants. Pour remédier à ce problème, la meilleure solution consiste à organiser cette masse d information de manière à la rendre la plus accessible aux utilisateurs. Il existe de plus en plus de moteurs de recherche qui se sont intéressés à ce problème en intégrant des techniques leur permettant de catégoriser une grande partie des pages Web suivant des thèmes organisés de manière hiérarchique (du plus générique au plus spécifique). Plusieurs hiérarchies sont utilisées par les différents moteurs de recherche comme Yahoo (yahoo, 2003), google (google), infoseek (infoseek, 2002), etc. Cette hiérarchisation reste trop générique et incomplète vu le nombre de thèmes considérés et le nombre de pages classées. Dans la hiérarchie de Google il y a seulement 14 thèmes racines et au maximum 3 niveaux de profondeur. Ceci veut dire que les thèmes les plus profonds dans la hiérarchie restent encore génériques et regroupent des pages liées à différents thèmes plus spécifiques. Par exemple, sous la catégorie Maladie: troubles de nutrition on trouve des pages qui parlent de la boulimie, d autres parlent de l obésité, d autres de l anorexie, etc. En plus, le nombre de pages classées sous les différentes catégories est à peu prés égal à 1.5 millions en mai 2003 alors que le nombre d URL (Uniform Resource Locator) indexées par ce même moteur de recherche est égal à deux milliards. Pour remédier à ce problème, plusieurs travaux de recherche se sont intéressés à cette problématique d organisation des pages Web et ont proposé différentes approches pour faciliter et accélérer la tâche de recherche d informations sur Internet aux utilisateurs. Dans ce qui suit, nous présentons les principaux travaux traitant cette problématique : Dans (Fujii, Ishikawa 2004) les auteurs décrivent une méthode de résumé automatique des descriptions encyclopédiques d un terme à partir du Web. Cette méthode produit un résumé décrivant un terme selon différents points de vue. Par exemple, pour le terme XML, cette méthode produit: Définition -> XML is an extensible markup language. Abbreviation -> an abbreviation for extensible Markup Language... History ->...was advised as a standard by W3C in Les auteurs ne décrivent pas la méthode leur permettant d attribuer les points de vues à chaque type de terme. En plus, l ensemble des points de vues varient en fonction du type du terme et ne sont pas du

2 même niveau conceptuel d un type à un autre. Par exemple pour les termes techniques, les auteurs attribuent la définition, le but, la fonction, etc, alors que pour les termes de type animaux, l ensemble des points de vue est la famille et l habitation. En conclusion, on peut dire que la définition des points de vue dans cette méthode reste très arbitraire et Ad Hoc. Dans (Couto & al 2002 ), les auteurs présentent le système RÉGAL (RÉsumé Guidé par les Attentes du Lecteur) permettant une visualisation rapide d un ensemble de documents selon un point de vue particulier. Les informations nécessaires à la visualisation dans RÉGAL sont extraites automatiquement des textes, sans présupposer l existence d une structure préalable ou d un formatage du texte. L objectif de ce système est de concevoir un modèle générique applicable à différents domaines sans avoir à modéliser de nouvelles connaissances. Le résumé produit est constitué d une liste de segments classés par ordre décroissant de leur valeur de similarité avec le profil. La seule critique qu on peut faire à ce système est la lourdeur de la phase de structuration du profil demandée à l utilisateur. Un profil n est autre qu un ensemble de points de vue auxquels sont attribués des marqueurs. Un utilisateur doit, avant de lancer sa requête, définir un ensemble de points de vue (par exemple le point de vue lié à la cause) et choisir parmi une liste de marqueurs ceux qu il veut que le système considère dans la phase de recherche. Dans ce présent article, nous proposons une approche de résumé encyclopédique de pages Web offrant à l utilisateur une classification des réponses d un moteur de recherche suivant les différentes facettes des termes de la requête. On appelle facettes les différents aspects d un terme. Ces facettes sont prédéfinies dans une ontologie pour chaque type de termes suivant la méthode décrite dans la section 5. Après une présentation de notre approche de résumé encyclopédique (section 2), nous donnons une vision globale de notre système WebSum en section 3, ce qui permet d avancer l objectif général de notre travail. La section 4 présente la méthode choisie pour l élaboration des points de vue que nous appelons dans la suite de cet article les facettes de la requête. La section 5 développe les problèmes liés au résumé automatique de pages Web et la solution que nous apportons. Dans la section 6, nous présenterons l architecture générale de WebSum et nous détaillerons ses différents modules. Enfin, la section 7 présente les évaluations de nos résultats et les améliorations à apporter à notre système avant de conclure (section 8). 2 Approche de résumé encyclopédique Un résumé encyclopédique est un résumé informatif (Mani 2001) qui vise à fournir une description thématique du terme ou du concept considéré. Cette description permet de regrouper le maximum d informations possible selon différents points de vue. La motivation principale de ce travail est née du fait que suite à une interrogation d un moteur de recherche par mots clés, l utilisateur est souvent confronté à une masse d informations peu structurées et parfois peu pertinentes et il lui est souvent difficile d en extraire l information pertinente. C est ainsi qu est née l idée globale de WebSum, qui est un projet de recherche visant à élaborer un résumé encyclopédique à partir d une requête utilisateur. Par définition, l'encyclopédie est l organisation, la sélection et la simplification de l information. Par analogie à cette définition, WebSum vise à organiser les réponses d un moteur de recherche par rapport à une requête utilisateur selon les différents aspects des termes constituant cette requête, sélectionner les réponses les plus pertinentes par rapport à chaque aspect traité et enfin simplifier la représentation de ces pages en fournissant un résumé par extraction des fragments les plus pertinents de chaque aspect. Suite à une requête utilisateur composée des termes obésité enfant, WebSum fournit une représentation des réponses retournées par le moteur de recherche suivant un style encyclopédique soulignant les principaux aspects de la requête qui sont: définition et symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de prévention et de traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque aspect, une courte description de l aspect considéré de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information. La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et Fan 2000), ou des critères plus linguistiques (Radev et McKeown 1999), (Brazilay et al. 1999), (Mani et Bloedorn 1999). Notre travail quant à lui met l accent sur l utilisation conjointe de techniques d extraction d information et de techniques NLP (Natural Language Processing) basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction.

3 Dans ce qui suit, nous donnons une vision globale de WebSum afin de mieux expliquer l objectif de ce travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3 Vision générale de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (isa, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. On entend par facettes, l ensemble des termes permettant de décrire un concept suivant ses différents aspects. Nous donnerons une explication plus approfondie de ces facettes dans la section suivante. L objectif global de WebSum, est de classer les réponses d un moteur de recherche sous les différentes facettes identifiées à partir de la requête utilisateur suivant un ordre de pertinence déterminé par une métrique que nous avons définie (eg section 6.2). Cette métrique permet d évaluer les pages web par rapport à leur aptitude à se prêter au résumé et par rapport à leur pertinence avec la requête de l utilisateur. Après la classification des réponses, WebSum produit un résumé de chaque facette en extrayant les fragments de texte à partir des pages classées. Dans la section suivante, nous expliquons en détail la notion de facettes ainsi que la méthode que nous adoptons pour l élaboration de ces dernières. 4 Elaboration des facettes Notre approche se base sur une ontologie conceptuelle du domaine constituée par des concepts (~900concepts) reliés entre eux par la relation d hyponymie (is-a, est-un). La figure 1 illustre un extrait de la branche maladie de cette ontologie. Appareil digestif, maladies Maladie Appareil respiratoires, maladies Facettes maladie Figure1. Extrait de la branche maladie de l ontologie On associe aux concepts les plus hauts (généraux) de l ontologie des facettes suivant la structure de Qualia du Lexique Génératif (Pustejovsky 1995). La structure de Qualia représente les différents aspects du sens d un mot, on distingue 4 aspects définis dans cette structure: Formel: regroupe lestermes qui permettent de distinguer un objet ou un terme d un autre. Agentif: représente les facteurs impliqués dans la création de l objet ou à la source de l existence du terme considéré. Constitutif: exprime la relation entre un objet et ses composants ou tout ce qui découle d un terme. Télique: il existe deux types de télique o Le télique direct: représente les activités et les actions qui peuvent être faites sur un concept, o Le télique fonctionnel: représente la fonction du concept. Pour pouvoir décrire les différentes facettes d un concept, nous avons utilisé les définitions des différents aspects de la structure de Qualia. La figure ci-dessous présente les facettes définies dans WebSum pour le concept maladie. Formel: Définition, Symptômes Agentif: Causes Constitutif: Conséquences Télique: Prévention, Figure 2. Facette du concept Maladie Ces facettes sont attribuées aux noeuds les plus généraux de l ontologie. Les concepts les plus spécifiques héritent des facettes de leur concept père. Tous les concepts fils du concept maladie ont les mêmes facettes que ce dernier. Donc chaque maladie a des symptômes, une définition, des causes, des conséquences et des techniques et des moyens de prévention et de traitement. Après avoir décrit en détail la méthode d élaboration des facettes et afin de pouvoir classer les pages Web retournées par le moteur de recherche sous ces différentes facettes, il importe d évaluer la pertinence de ces pages par rapport au résumé et à la requête de l utilisateur.

4 Nous présentons dans ce qui suit, les problèmes posés par le résumé de pages Web. Nous expliquerons également en quoi ce type de résumé est différent du résumé de texte et quelles sont les solutions que nous proposons. 5 Evaluation de la pertinence des pages Web Nous commençons dans cette section par évoquer la problématique liée au résumé de pages Web et proposer par la suite notre solution pour l évaluation et la sélection des pages les plus aptes au résumé. 5.1 Problèmes du résumé de pages Web Outre les problèmes spécifiques au résumé automatique de texte, le résumé des pages Web présente d autres types de problèmes liés à: La structure des pages: souvent les pages web contiennent outre le texte, des images, des frames, des animations, etc. La forme linguistique des pages: présence de phrases incomplètes, souvent les pages web ne présentent aucune garantie d une bonne forme linguistique, Page à plusieurs sujets: le cas des portails par exemple, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de résoudre ce problème lié à la complexité de la structure des pages Web, nous avons enrichi notre système d une métrique (cf 6.2) permettant d évaluer la pertinence des pages Web par rapport au résumé et à la requête de l utilisateur. Nous décrivons dans ce qui suit cette métrique ainsi que ses différents critères d évaluation. 5.2 Description de la métrique La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi documents. Dans ces travaux, la plupart des critères utilisés sont des critères statistiques comme par exemple: La position de la phrase dans le document (Edmundson 1969), (Sekine, Nobata, 2001), (Radev et Fan, 2000): cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson 1969) et (Sekine, Nobata, 2001): les phrases inférieures à un certain seuil sont pénalisées. Mots du titre (Sekine, Nobata, 2001): plus une phrase contient des mots utilisés dans le titre plus elle est pertinente. Mots repères (Edmundson 1969), (Brandow et al 1995), (Kupiec et al 1995): ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Notre approche diffère de ces dernières par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la forme de la page (structure et forme linguistique) et des critères statistiques. Dans ce qui suit, nous allons détailler les différents critères de notre métrique : Critère de forme: permet de vérifier si la page contient du texte ou pas. Ce critère (Cf) est un facteur booléen qui vaut 1 si la page contient du texte et 0 sinon. Critère statistique: vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morpho-syntaxique: vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept ou la facette considérée constitue le sujet principal de la page). Voici la formule générale de cette métrique: Rdoc = Cf x (α x Cstat + β x C synt) (1) Avec α et β des pondérations, Cstat : les critères statistique, Csynt : les critères morpho-syntaxique. A l aide d une étude expérimentale, nous avons constaté que le critère statistique est plus important que le critère morpho-syntaxique pour l évaluation de la page par rapport au thème de la requête et nous avons fixé leur pondération respective à 0.7 (α) et 0.3 (β). Jusqu à présent, nous avons présenté le processus d élaboration des facettes à partir d une requête utilisateur ainsi que la description de la métrique nous permettant de classer les pages Web sous les différentes facettes. Nous allons maintenant présenter l architecture générale de notre système et décrire son fonctionnement global.

5 6 Architecture de WebSum L architecture du système WebSum est décrite dans la figure ci-dessous. Figure 3. Architecture générale de WebSum Nous décrivons dans ce qui suit les différents modules de notre système: 6.1 Module d analyse de la requête Ce module identifie dans la requête utilisateur les termes autour desquels la classification ainsi que le résumé vont être élaborés. Cette identification s effectue à partir d une étude des relations entre les différents termes de la requête. On considère 3 types de relations entre deux termes (T1, T2), ce type de relation peut être étendu à trois termes ou plus: Un des termes, T1 représente une facette de T2 comme par exemple dans : cause diabète. Si T1 représente le rôle formel, constitutif ou agentif alors la classification s effectue sur la base de cette facette. Et si T1 représente le rôle télique de T2 alors la classification s effectue autour des modalités d élaboration de T1. Par exemple pour traitement obésité la classification s effectue sur la base des termes suivants: moyens de traitement, lieux de traitement, techniques de traitement,... Les deux termes T1 et T2 représentent des concepts de la même ontologie du domaine comme par exemple délinquance, criminalité, dans ce cas une étude de la similarité entre les deux concepts est élaborée. Si les deux concepts sont jugés similaires (sont situés au même niveau de l ontologie et ont un père en commun) alors les facettes du père vont être utilisées pour la classification, sinon (concepts non similaires) on considère que la requête appartient au 3ème cas, S il n y a aucune relation entre les termes T1 et T2, nous considérons que le terme en tête de la requête est le terme porteur d information et que la classification est effectuée sur la base des facettes de ce dernier. Nous avons tiré cette conclusion à partir d une étude effectuée sur les statistiques des requêtes sur le Web (overture 2004). Le tableau 1 illustre un exemple de requête (parmis un échantillon de 100 requêtes) que nous avons étudié («obésité enfant») et donne la répartition du nombre d occurrences des requêtes tapées en Février 2004 et qui comportent les deux termes constituant cette requête. Sur un échantillon de 1313 requêtes comportant ces deux mots clés, on remarque que seulement ~1% des internautes inversent l ordre des termes. Requêtes Nombre % d occurrence Obésité enfant % Obésité chez l enfant % Problématique obésité 114 9% enfant Obésité enfant france % Enfant obésité % Tableau 1. Répartition du nombre d occurrences des requêtes Une fois que le terme porteur d information a été identifié dans la requête, le module d analyse de la requête procède à l identification des facettes sur la base desquelles la classification est faite. 6.2 Module de recherche Ce module transmet la requête utilisateur au moteur de recherche (Google) et récupère les N premières réponses retournées par ce dernier. Nous avons fixé N à 100 réponses mais ce paramètre reste flexible. 6.3 Module de classification Ce module analyse les réponses récupérées du moteur de recherche pour les classer sous les facettes adéquates. Pour l élaboration de cette tâche, nous nous basons sur des techniques d extraction d information basées sur des patrons d extraction définis au niveau de chaque facette. Ces patrons vont nous permettre de repérer dans les pages Web les fragments de texte en rapport avec la facette considéré afin de classer ces pages par la suite sous cette facette. Pour la définition de ces patrons, nous avons décrit un formalisme permettant leur génération automatique. Ce formalisme est basé sur des classes sémantiques constituées par des verbes, des noms et des paraphrases, sur un lexique et une grammaire décrivant les patrons de chaque classe. Par exemple nous avons défini 9 classes sémantiques pour la facette définition (Auger, 1997), 3 pour la facette cause (Garcia, 1998), (Nazarenko, 2000) etc.

6 Voici un exemple d une classe sémantique de la facette définition ainsi que la grammaire décrivant les patrons appartenant à cette classe: Classe_caractérisation:{Verbe (caractériser, définir, déterminer, dénoter, désigner), Déverbaux (caractéristique, définition, détermination, dénotation)} Grammaire: <concept> [fct_gram = complément], <verbe, déverbal> [classe_caractérisation] Cette grammaire dit que le concept considéré dans la recherche est employé en tant que complément d objet de tout élément de la classe «caractérisation». Les patrons générés à partir de cette description sont les suivants: A partir des verbes : [caractériser] <concept>: caractéris* <concept> Exemple de phrase extraite par ce patron : décrit le diabète comme étant [définir] <concept>: défini* <concept> [déterminer] <concept>: détermin* <concept>,..etc. A partir des déverbaux : Définition * <concept>, Exemple de phrase extraite par ce patron : La définiton et l épidémiologie de l obésité caractéristique * <concept>, détermination * <concept>, dénotation * <concept>. Après la classification des pages sous les facettes adéquates, le système procède à la réorganisation de ces dernieres à l aide de la métrique décrite auparavant. Ainsi un score est attribué à chacune des pages et le classement final s effectue par ordre décroissant de ce score. Dans la section suivante, nous présentons la méthode d évaluation adoptée pour évaluer la méthode d élaboration des facettes et le résultat de notre classification. 7 Evaluations et résultats 7.1 Méthodologie Afin d évaluer la qualité des résumés produits par les systèmes de résumé automatique, il est important d avoir des méthodes d évaluation standards. Il existe deux méthodes d évaluation de systèmes de résumé automatique: la méthode intrinsèque et la méthode extrinsèque (Jones, 1995). La méthode intrinsèque permet de mesurer globalement la qualité du système et la méthode extrinsèque évalue la performance du système par rapport à certaines tâches spécifiques. Evaluation intrinsèque La plupart des évaluations des systèmes de résumé automatique utilisent la méthode intrinsèque ((Edmundson, 1969), (Paice, 1990), (Kupiec et al. 1995); (Marcu, 1997), (Salton et al, 1997), (ono, et al., 1994)). L'approche typique utilisée par la méthode d'évaluation intrinsèque consiste à effectuer des comparaisons du résumé automatique généré par le système avec un résumé dit "idéal" préparé à l'avance. Ce résumé est généré par des experts ou par différents sujets humains. La comparaison avec le résumé idéal est effectuée en terme de mesure de précision et de rappel. Le paramètre de précision peut être défini par la phrase suivante: "Donnez moi les informations significatives seulement". Cela veut dire que le résumé automatique ne peut contenir que des points qui ont été exprimés dans le résumé idéal. Le calcul de la précision est donné par l'équation suivante: Précision = Nombre de phrases correctes Nombre total des phrases Le paramètre de rappel est défini par la phrase suivante: "Donnez moi toutes les informations significatives". Le résumé automatique doit contenir tous les points exprimés dans le résumé idéal. Le calcul du paramètre de rappel d'un résumé est donné par l'équation suivante: Rappel = Nombre de phrases correctes Nombre total des phrases Correctes dans le résumé idéal Evaluation extrinsèque L'évaluation extrinsèque ou orientée tâches est conçue pour estimer la performance du système de résumé par rapport à certaines tâches particulières. La nature précise des tâches invoquées est largement dépendante avec l'intention du résumé à évaluer. Cependant, ce type d'évaluation invoque quelques formes de recherche d'information ou des tâches d'analyse. La difficulté de cette méthode d'évaluation se situe dans le fait que la performance du résumé est

7 directement influencée par les conditions expérimentales dans lesquelles se déroule l'évaluation (exemple : en terme de qualité de l'évaluateur). Pour évaluer les résultats de notre système, nous avons choisi d utiliser la méthode intrinsèque, cette évaluation a été effectuée par rapport à deux résultats qui sont le choix des facettes par rapport aux termes d une requête particulière et la classification des réponses du moteur de recherche sous les différentes facettes. 7.2 Evaluation des facettes Afin d évaluer la qualité des facettes attribuées à chaque requête, nous les avons comparées avec des thèmes relatifs à chaque terme dans des encyclopédies existantes. Nous avons choisi les encyclopédies 1 suivantes: Agora (1), Doctissimo (2), Encarta (3). Le tableau suivant (tableau 2) décrit les facettes que nous avons définies suivant la structure de Qualia du Lexique Génératif et les facettes utilisées par les encyclopédies considérées. Concept Facettes de WebSum Obésité Angines Hypertension Alcoolisme Aspirine Pénicilline Définition Causes Conséquences Prévention Présentation Composition Laboratoire Effets indésirables Facettes encyclopédies des (2) Définition Evaluation de l obésité selon l OMC Enjeux La guérison (2)Qu est ce que c est? Les signes de la maladie Causes et facteurs de risque consultation (2) Définition Symptôme Causes Complications (3) Présentation Développement Effets (3) Présentation Découverte Utilisation Effets indésirables et contre-indications (3) Présentation Mode d action Dosage Oraciline Céléstamine Divorce Criminalité Définition Causes Conséquences Prévention Action (2) Molécule Classe thérapeutique Laboratoire Indications Effets secondaires Contre-indications Précautions d'emploi (3) Forme Dosage Classement pharmaco thérapeutique Laboratoire (3) Présentation Histoire Législation actuelle Présentation Les statistiques criminelles Les chiffres de la délinquance Tableau 2. comparaison des facettes de WebSum avec celle des encyclopédies /index_encyclo_a.html 3 Le tableau 3 illustre le taux d utilisation des facettes définies dans WebSum par d autres encyclopédies:

8 les différentes facettes fournies avec chaque requête. Facettes de WebSum Concept Maladie Taux d utilisation Ensuite, nous avons comparé les résultats de la classification fournie par les évaluateurs avec celle de WebSum et nous avons obtenu les résultats suivants: Définition 100 % Causes 50 % Conséquences 100 % Taux de pages bien classées Prévention 25 % 100 % Concept drogues et agents divers Facettes Req1 Req2 Req3 Req4 Req5 Res_global Présentation 100 % Laboratoire 50 % Composition 50 % Effets indésirables 50 % Utilisation 25 % Mode d action 25 % Tableau 3. taux d utilisation des facettes de WebSum par d autres encyclopédies. Définition Causes Conséquences 75% 40% 66% 96% 58% 67% 66% 96% 96% 50% 75% 76.6 % 96% 96% 62% 100% 80% 86.8 % Pour synthétiser, nous pouvons dire que notre méthode de définition des facettes donne des résultats satisfaisants au niveau de l évaluation. En effet, cette méthode présente un taux de satisfaction pour le concept Maladie de 75% et 60% pour le concept Drogues et Agents Divers. Elle présente également un taux total de satisfaction de 62.3% défini à partir de l évaluation de 30 facettes relatives à 6 concepts généraux de l ontologie. Le faible taux d utilisation constaté pour quelques facettes s explique par le fait que certaines encyclopédies les considèrent dans leur description du terme alors que d autre ne les considèrent pas. De ce fait, nous pouvons dire que notre méthode couvre, dans la plupart des cas, la totalité des facettes définies dans les différentes encyclopédies. Ceci nous permet de dire que cette méthode permet de classer le maximum d information à partir des réponses du moteur de recherche et de couvrir le maximum des thèmes traités par les pages Web. 7.3 Evaluation de la classification Pour évaluer le résultat de la classification des pages Web de WebSum, nous avons sélectionné 5 requêtes du domaine médical et pour chaque requête nous avons fourni à des évaluateurs les 100 premières réponses retournées par Google. Le rôle de ces sujets est d effectuer la classification de ces réponses sous Prévention 100% 100% 93.3% 70% 86% % 80% 100% 80% 86.6% 75% % Tableau 4. Résultats de l évaluation de la classification Avec : Requête 1 : obésité enfant, Requête 2 : varice femme, Requête 3 : diabète adulte, Requête 4 : alcoolisme, Requête 5 : traumatisme sportif. D après les résultats de l évaluation, on remarque que notre système fournit une classification satisfaisante et un gain de temps considérable. En effet, la classification de 100 pages Web sous les différentes facettes définies dans notre système nécessite entre 20 et 30 minutes de temps de traitement pour un sujet humain, par contre WebSum effectue cette classification en quelques secondes. Par rapport aux résultats même de la classification, nous constatons que le plus faible taux de pages bien

9 classées reste pour la facette définition suivie de celle de cause. Afin d améliorer nos patrons d extraction, nous avons pu identifier quelques problèmes qui ont fait que certaines pages, bien qu elles traitent une facette particulière, ne sont pas classées sous cette dernière. Ces problèmes sont liés au fait que: Nous ne prenons pas en compte les synonymes d un concept. Par exemple pour le concept obésité, il faudra tenir compte de ses synonymes (surpoids, problèmes de poids, surcharge pondérale, etc.). Absence de quelques marqueurs pour exprimer certaines facettes. Certaines expressions ne sont pas prises en compte par les patrons bien qu elles permettent de définir un concept. Exemple : «A propos de < concept>», «sortes de < concept>» et «types de < concept>» expriment la facette définition et ne sont pas pris en compte dans nos patrons. Utilisation de la forme négative. Jusqu à maintenant nous ne tenons pas compte de la négation mais peut-être qu il faudrait envisager d utiliser quelques patrons dans la forme affirmative et négative. Exemple : «< concept> est NOM» et «<concept> n est pas NOM» peuvent signifier tous les deux une définition. 8 Conclusion Dans cet article, nous avons présenté la première version de WebSum qui consiste en la classification des réponses d un moteur de recherche sous les différentes facettes de la requête utilisateur. Cette première version est complètement implémentée en PERL et se base sur une ontologie décrite en XML comportant 900 concpets et 50 facettes. La deuxième version de WebSum, en cours d élaboration, consiste d abord à enrichir nos patrons d extraction pour prendre en compte les résultats de nos évaluations et à produire un résumé encyclopédique des pages Web à partir du résultat de la classification en se basant sur les facettes qui seront les éléments structurants du résumé. 9 Références (Auger, 1997) Auger, A., 1997, Repérage des énoncés d interêt définitoire dans les bases de données textuelles, Thèse de doctorat, Université de Neuchâtel. (Brandow, 1995) Brandow, R., Mitze, K. et Rau, L. F Automatic condensation of electronic publications by sentence selection. Information Processing and Management 31(5) : (Brazilay et al., 1999) Brazilay, R., McKeown, K. et Elhadad, M Information fusion in the context of multi-document summarization. In Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics. (Couto et al., 2004) Couto, J., Ferret, O., Grau, B., Hernandez, N., Jackiewicz, A., Minel, J., Porhiel, S Revue d'intelligence artificielle Vol 18/4. (Edmundson, 1969) Edmundson, H. P New methods in automatic abstracting. Journal of the ACM 16(2) : (Fujii et Ishikawa, 2004) Fujii, A. et Ishikawa, T Summarizing Encyclopedic term descriptions on the Web. COLING 04 -Volume1- p645. (Garcia, 1998) Garcia, D., 1998, Analyse automatique de textes pour l organisation causale des actions, Réalisation du système informatique COATIS. Thèse de doctorat, Paris Sorbonne. (Google) (Yahoo, 2003) Yahoo! Online guide for the internet (Infoseek, 2002) Internet directory and query service, hhtp://www.infoseek.com, (Jones, 1995) Jones, K.S., 1995, Towards better nlp system evaluation. Dans Proceedings of the Human Language Technology Workshop, San Francisco: ARPA. (Kupiec, 1995) Kupiec, J., Pederson, J. et Chen, F A trainable document summarizer. Dans SIGIR 95, (Mani, 2001) Mani, I., 2001, Automatic Summarization, Natural Language processing, John Benjamins Publishing Company, Amsterdam/Philadelphia. (Mani et Bloedorn, 2000) Mani, I. et Bloedorn, E., 2000, Summarizing similarities and differences among related documents, Information Retrieval, 1(1). (Marcu, 1997) Marcu, D From Discource structures to text summaries. In ACL/EACL-97 summarization workshop, (Nazarenko, 2000) Nazarenko, A., 2000, La cause et son expression en Français, Ophrys. (Overture, 2004) on/?mkt=fr (Ono et al., 1994) ono, K., Sumita, K. et Miike, S Abstract generation based on rhetorical structure extraction. COLING94, Volume1, (Paice, 1990) Paice, C.D Constructing literature abstracts by computer : techniques and Prospects. Information Processing and Management 26(1): (Pustejovsky, 1995) Pustejovsky, J., The Generative Lexicon Massachusetts Institute of Technology. (Radev et Fan, 2000) Radev, D. R. et Fan, W Automatic summarization of search engine hit lists. In Proceedings, ACL Workshop on Recent Advances in NLP and IR, Hong Kong. (Radev et McKeown, 1999) Radev, D. R. et McKeown, K. R Generating summaries of multiple news articles. In Inderjeet Mani and Mark Maybury, editors, Advances in Automatic Text Summarization. MIT Press.

10 (Salton et al., 1997) Salton, G., Singhal, A., Mitra, M. et Buckley, C Automatic text structuring and summarization. Information Processing and Management 33(2) : (Sekine et Nobata, 2001) Sekine, S. et Nobata, C Sentence Extraction with Information Extraction technique. In Proceedings of ACM SIGIR'01 Workshop on Text Summarization. New Orleans.

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Accès personnalisé multicritères à de multiples sources d informations.

Accès personnalisé multicritères à de multiples sources d informations. Lyon - France Accès personnalisé multicritères à de multiples sources d informations. Samir kechid Université des Sciences et de la Technologie Houari Boumediene. USTHB BP 32 El Alia Bab Ezzouar Alger

Plus en détail

Construction d'un entrepôt de métadonnées - LOM Application: E-learning

Construction d'un entrepôt de métadonnées - LOM Application: E-learning Construction d'un entrepôt de métadonnées - LOM Application: E-learning Nawel Iles, Azzeddine Chikh, Sidi Mohammed Chouiti Faculté des sciences de l ingénieur Université de Tlemcen Algérie (n_iles/ az_chikh

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

IRIT, Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 9, France

IRIT, Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex 9, France VERS DES SERVICES WEB ADAPTES : COMMENT INTEGRER LE CONTEXTE DANS LES DIFFERENTES ARCHITECTURES DE SERVICES WEB? Bouchra SOUKKARIEH, Dana KUKHUN, Florence SEDES {sokarieh,kukhun,sedes}@irit.fr IRIT, Université

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

BAZIN Danil et PRIEZ Jean-Baptiste. LEX & YACC : Calculatrice Évoluée

BAZIN Danil et PRIEZ Jean-Baptiste. LEX & YACC : Calculatrice Évoluée BAZIN Danil et PRIEZ Jean-Baptiste LEX & YACC : Calculatrice Évoluée Table des matières 1 Introduction 3 2 Description 4 3 La grammaire utilisée 6 4 Lexèmes et FLEX 8 5 Analyse syntaxique et YACC 8 5.1

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

GKR. Geological Knowledge Representation Base de connaissances métallogéniques GKR Geological Knowledge Representation Base de connaissances métallogéniques Objets Organiser un ensemble d informations complexes et hétérogènes pour orienter l exploration minière aux échelles tactiques

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples TALN 2008, Avignon, 9-13 juin 2008 Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples Fatma Kallel Jaoua (1),

Plus en détail

Petite définition : Présentation :

Petite définition : Présentation : Petite définition : Le Web 2.0 est une technologie qui permet la création de réseaux sociaux, de communautés, via divers produits (des sites communautaires, des blogs, des forums, des wiki ), qui vise

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

Accès aux connaissances orales par le résumé automatique

Accès aux connaissances orales par le résumé automatique Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman Thales, Laboratoire MMP, 160 Bd de Valmy, 92700 Colombes, benoit.favre@fr.thalesgroup.com, francois.capman@fr.thalesgroup.com Université

Plus en détail

Laboratoire d'infochimie, ULP, Strasbourg - INTERNET - Version multi-utilisateurs de SXD in house Partie 1: Concept. Partie 2: Description du logiciel

Laboratoire d'infochimie, ULP, Strasbourg - INTERNET - Version multi-utilisateurs de SXD in house Partie 1: Concept. Partie 2: Description du logiciel Version multi-utilisateurs de SXD in house Partie 1: Concept a. Présentation de SXD Internet b. Architecture c. Caractéristiques d. Formats supportés e. Niveaux d utilisation Partie 2: Description du logiciel

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 1 UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 31 janvier 2012 Bordeaux Présentée par :Mme SABRI Aziza Encadrée par : Mme KJIRI Laila Plan 2 Contexte Problématique

Plus en détail

Modélisation des données

Modélisation des données Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Journée Résumé Automatique Multimédia 2011/03/17 Emilie Guimier De Neef Plan de la

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes 303 Schedae, 2007 Prépublication n 46 Fascicule n 2 Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes Samya Sagar, Mohamed Ben Ahmed Laboratoire

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus Thibault ROY 1 et Pierre BEUST 1 1 GREYC- ISLanD CNRS UMR 6072 Université de Caen 14032 Caen Cedex France thibault.roy@etu.info.unicaen.fr,

Plus en détail

COMMISSION EUROPÉENNE EuropeAid Office de Coopération Affaires générales Evaluation. Manuel. Gestion du Cycle de Projet. Programmation.

COMMISSION EUROPÉENNE EuropeAid Office de Coopération Affaires générales Evaluation. Manuel. Gestion du Cycle de Projet. Programmation. COMMISSION EUROPÉENNE EuropeAid Office de Coopération Affaires générales Evaluation Manuel Gestion du Cycle de Projet Programmation Evaluation Identification Mise en œuvre Instruction Financement Mars

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3)

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3) Organisation de la présentation Reconnaissance automatique des langues RMITS 28 http://www.irit.fr/~jerome.farinas/rmits28/ Jérôme Farinas jerome.farinas@irit.fr Équipe SAMOVA (Structuration, Analyse et

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr Adaptabilité d un MOOC aux styles d apprentissage Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr Agenda 1. Contexte : l apprentissage dans le projet PLACIS 2. Choix du

Plus en détail

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

4. SERVICES WEB REST 46

4. SERVICES WEB REST 46 4. SERVICES WEB REST 46 REST REST acronyme de REpresentational State Transfert Concept introduit en 2000 dans la thèse de Roy FIELDING Est un style d architecture inspiré de l architecture WEB En 2010,

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET Les Ressources d'internet Le web? Système hypermédia d accès à l information sous diverses formes, texte, son, image disponible sur Internet

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Projet : site web de gestion d itinéraires de voyage

Projet : site web de gestion d itinéraires de voyage Projet : site web de gestion d itinéraires de voyage Partie 1 (modélisation et architecture du site) UCBL - Département Informatique de Lyon 1 LIF4 - automne 2014 1 Description générale du projet Le projet

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE

SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SONDAGE DES MEMBRES DE L APIGQ RÉSULTATS ET ANALYSE SEPTEMBRE 2008 TABLE DES MATIÈRES INTRODUCTION... 3 SONDAGE ET ÉCHANTILLONNAGE... 3 SONDAGE... 3 ÉCHANTILLONNAGE... 4 COMPILATION DES RÉSULTATS... 4

Plus en détail

Le ranking de Augure Influencers La méthodologie AIR en détails

Le ranking de Augure Influencers La méthodologie AIR en détails Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau

Plus en détail

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales D 1.3.2 Rapport d analyse Auteurs: Johann Luethi, Laurent Opprecht, Patrick Roth

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Plan Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Bernard ESPINASSE Université d!aix-marseille 2010 Rappels sur les agents logiciels Problématique de la RI sur le

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Lire pour préparer un travail

Lire pour préparer un travail Leçon LA LECTURE 5 Choisir ses sources documentaires 1 EFFICACE Lire pour préparer un travail Leçon 5 Choisir ses sources documentaires Avertissement Dans la présente leçon, on se préoccupe du choix adéquat

Plus en détail

Une plate-forme open-source de recherche d information sémantique

Une plate-forme open-source de recherche d information sémantique Une plate-forme open-source de recherche d information sémantique Ines Bannour, Haïfa Zargayouna Laboratoire d Informatique de l université Paris-Nord (LIPN) - UMR 7030 Université Paris 13 - CNRS 99, avenue

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Navigation et appariement d objets géographiques dans une ontologie

Navigation et appariement d objets géographiques dans une ontologie Navigation et appariement d objets géographiques dans une ontologie Rémy Brisson, Omar Boussaïd Pierre Gançarski, Anne Puissant, Nicolas Durand ERIC EA 3083, Université Lumière Lyon 2, 5 avenue Pierre

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Conception des bases de données : Modèle Entité-Association

Conception des bases de données : Modèle Entité-Association Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir

Plus en détail

Vérification Formelle des Aspects de Cohérence d un Workflow net

Vérification Formelle des Aspects de Cohérence d un Workflow net Vérification Formelle des Aspects de Cohérence d un Workflow net Abdallah Missaoui Ecole Nationale d Ingénieurs de Tunis BP. 37 Le Belvédère, 1002 Tunis, Tunisia abdallah.missaoui@enit.rnu.tn Zohra Sbaï

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011 Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011 Aurélie-Aimée Bablon Online Media Associate GAO 1 Sommaire de la présentation Comment Optimiser : 1. Structure du compte 2. Mots clés

Plus en détail

Projet : Recherche et Extraction

Projet : Recherche et Extraction M2 AIC Recherche et Extraction d Information Projet : Recherche et Extraction d Information Table des matières 1 Introduction 2 2 Le corpus 2 3 Tronc commun : moteur de recherche 4 3.1 Contraintes matérielles......................................

Plus en détail

Internet et ses moteurs de recherche

Internet et ses moteurs de recherche Internet et ses moteurs de recherche Un moteur est un logiciel nommé robot permettant une navigation en permanence sur le Web, sur les forums de discussion et dans les archivent des pages web qui se retrouvent

Plus en détail

Méthodologie de conduite de projet web

Méthodologie de conduite de projet web Méthodologie de conduite de projet web SOMMAIRE On commet souvent l erreur de ne pas considérer la mise en place d un site web comme un projet à part entière. Or, comme toute application informatique,

Plus en détail

Une approche pour l extraction automatique de structures sémantiques de documents XML

Une approche pour l extraction automatique de structures sémantiques de documents XML Une approche pour l extraction automatique de structures sémantiques de documents XML Salma Ben Mefteh*,**, Kaïs Khrouf*, Jamel Feki*, Maha Ben Kraiem*, Chantal Soulé-Dupuy** * Laboratoire MIR@CL, Université

Plus en détail

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >>

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >> Access MD Online Vue d ensemble Access MD Online fournit aux organisations un accès en temps réel à leurs programmes de carte commerciale au sein d un environnement sécurisé, n importe où et n importe

Plus en détail

Conversion des requêtes en langage naturel vers nrql

Conversion des requêtes en langage naturel vers nrql Conversion des requêtes en langage naturel vers nrql Hasna Boumechaal 1, Sofiane Allioua 2, Zizette Boufaida 3 1 Université Mentouri, Constantine, Algérie boumechaal.h@gmail.com 2 Laboratoire LIRE, Université

Plus en détail

SECTION 5 BANQUE DE PROJETS

SECTION 5 BANQUE DE PROJETS SECTION 5 BANQUE DE PROJETS INF 4018 BANQUE DE PROJETS - 1 - Banque de projets PROJET 2.1 : APPLICATION LOGICIELLE... 3 PROJET 2.2 : SITE WEB SÉMANTIQUE AVEC XML... 5 PROJET 2.3 : E-LEARNING ET FORMATION

Plus en détail

1 La visualisation des logs au CNES

1 La visualisation des logs au CNES 1 La visualisation des logs au CNES 1.1 Historique Depuis près de 2 ans maintenant, le CNES a mis en place une «cellule d analyse de logs». Son rôle est multiple : Cette cellule est chargée d analyser

Plus en détail

COURS MGL 804 SUJET : ÉVALUATION DE LA MAINTENABILITÉ DES PRODUITS LOGICIELS DU CCI RAPPORT FINAL. Franklin Kamsong

COURS MGL 804 SUJET : ÉVALUATION DE LA MAINTENABILITÉ DES PRODUITS LOGICIELS DU CCI RAPPORT FINAL. Franklin Kamsong COURS MGL 804 SUJET : ÉVALUATION DE LA MAINTENABILITÉ DES PRODUITS LOGICIELS DU CCI RAPPORT FINAL Franklin Kamsong ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC MONTRÉAL HIVER 2012 TABLE DES MATIÈRES

Plus en détail

Modélisation des processus métiers et standardisation

Modélisation des processus métiers et standardisation Modélisation des processus métiers et standardisation Octobre 2004 Table des matières Introduction... 3 Processus métier : un même mot, plusieurs domaines d application... 4 Les critères pour un standard

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

Méthode universitaire du commentaire de texte

Méthode universitaire du commentaire de texte Méthode universitaire du commentaire de texte Baptiste Mélès Novembre 2014 L objectif du commentaire de texte est de décrire la structure argumentative et de mettre au jour les concepts qui permettent

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch)

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch) REPUBLIQUE ET CANTON DE GENEVE Département de l'intérieur et de la mobilité Service de la mensuration officielle 02.2012 Intégrer et gérer la temporalité dans le système d'information du territoire genevois

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE RÉSUMÉ Depuis des années, les responsables de la sécurité de l information et les responsables opérationnels

Plus en détail

Aide à la conception de Système d Information Collaboratif, support de l interopérabilité des entreprises

Aide à la conception de Système d Information Collaboratif, support de l interopérabilité des entreprises Aide à la conception de Système d Information Collaboratif, support de l interopérabilité des entreprises Jihed Touzi, Frédérick Bénaben, Hervé Pingaud Thèse soutenue au Centre de Génie Industriel - 9

Plus en détail

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Les organisations doivent aujourd hui s'adapter de plus en plus vite aux évolutions stratégiques, organisationnelles

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information Visualisation automatique du contenu d une base de documents textuels via les hypercartes d information Motsclés Abdenour Mokrane, Pascal Poncelet, Gérard Dray Email : {abdenour.mokrane, pascal.poncelet,

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail