Méthode de classification des réponses d un moteur de recherche

Dimension: px
Commencer à balayer dès la page:

Download "Méthode de classification des réponses d un moteur de recherche"

Transcription

1 SETIT rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche Olfa Jenhani El Jed * * 118 Route de Narbonne Université Paul Sabatier Institut de Recherche en Informatique à Toulouse. jenhani@irit.fr Résumé: Dans cet article, nous présentons une approche de résumé encyclopédique de pages Web. Cette approche offre à l utilisateur une meilleure visualisation des réponses récupérées par un moteur de recherche suite à une interrogation par mots clés et lui permet d évaluer rapidement la pertinence des pages par rapport à ses attentes. Cette approche combine des techniques d extraction d information avec des ressources de représentation de connaissances. Mots clés: ontologie, résumé encyclopédique, résumé de pages web, techniques d extraction d information, patrons d extraction. 1 Introduction Avec l explosion de la quantité d information disponible sur le web ces dernières années, la recherche d information sur Internet devient de plus en plus difficile et les outils de recherche sur Internet ont de plus en plus de mal à satisfaire les besoins d utilisateurs de plus en plus exigeants. Pour remédier à ce problème, la meilleure solution consiste à organiser cette masse d information de manière à la rendre la plus accessible aux utilisateurs. Il existe de plus en plus de moteurs de recherche qui se sont intéressés à ce problème en intégrant des techniques leur permettant de catégoriser une grande partie des pages Web suivant des thèmes organisés de manière hiérarchique (du plus générique au plus spécifique). Plusieurs hiérarchies sont utilisées par les différents moteurs de recherche comme Yahoo (yahoo, 2003), google (google), infoseek (infoseek, 2002), etc. Cette hiérarchisation reste trop générique et incomplète vu le nombre de thèmes considérés et le nombre de pages classées. Dans la hiérarchie de Google il y a seulement 14 thèmes racines et au maximum 3 niveaux de profondeur. Ceci veut dire que les thèmes les plus profonds dans la hiérarchie restent encore génériques et regroupent des pages liées à différents thèmes plus spécifiques. Par exemple, sous la catégorie Maladie: troubles de nutrition on trouve des pages qui parlent de la boulimie, d autres parlent de l obésité, d autres de l anorexie, etc. En plus, le nombre de pages classées sous les différentes catégories est à peu prés égal à 1.5 millions en mai 2003 alors que le nombre d URL (Uniform Resource Locator) indexées par ce même moteur de recherche est égal à deux milliards. Pour remédier à ce problème, plusieurs travaux de recherche se sont intéressés à cette problématique d organisation des pages Web et ont proposé différentes approches pour faciliter et accélérer la tâche de recherche d informations sur Internet aux utilisateurs. Dans ce qui suit, nous présentons les principaux travaux traitant cette problématique : Dans (Fujii, Ishikawa 2004) les auteurs décrivent une méthode de résumé automatique des descriptions encyclopédiques d un terme à partir du Web. Cette méthode produit un résumé décrivant un terme selon différents points de vue. Par exemple, pour le terme XML, cette méthode produit: Définition -> XML is an extensible markup language. Abbreviation -> an abbreviation for extensible Markup Language... History ->...was advised as a standard by W3C in Les auteurs ne décrivent pas la méthode leur permettant d attribuer les points de vues à chaque type de terme. En plus, l ensemble des points de vues varient en fonction du type du terme et ne sont pas du

2 même niveau conceptuel d un type à un autre. Par exemple pour les termes techniques, les auteurs attribuent la définition, le but, la fonction, etc, alors que pour les termes de type animaux, l ensemble des points de vue est la famille et l habitation. En conclusion, on peut dire que la définition des points de vue dans cette méthode reste très arbitraire et Ad Hoc. Dans (Couto & al 2002 ), les auteurs présentent le système RÉGAL (RÉsumé Guidé par les Attentes du Lecteur) permettant une visualisation rapide d un ensemble de documents selon un point de vue particulier. Les informations nécessaires à la visualisation dans RÉGAL sont extraites automatiquement des textes, sans présupposer l existence d une structure préalable ou d un formatage du texte. L objectif de ce système est de concevoir un modèle générique applicable à différents domaines sans avoir à modéliser de nouvelles connaissances. Le résumé produit est constitué d une liste de segments classés par ordre décroissant de leur valeur de similarité avec le profil. La seule critique qu on peut faire à ce système est la lourdeur de la phase de structuration du profil demandée à l utilisateur. Un profil n est autre qu un ensemble de points de vue auxquels sont attribués des marqueurs. Un utilisateur doit, avant de lancer sa requête, définir un ensemble de points de vue (par exemple le point de vue lié à la cause) et choisir parmi une liste de marqueurs ceux qu il veut que le système considère dans la phase de recherche. Dans ce présent article, nous proposons une approche de résumé encyclopédique de pages Web offrant à l utilisateur une classification des réponses d un moteur de recherche suivant les différentes facettes des termes de la requête. On appelle facettes les différents aspects d un terme. Ces facettes sont prédéfinies dans une ontologie pour chaque type de termes suivant la méthode décrite dans la section 5. Après une présentation de notre approche de résumé encyclopédique (section 2), nous donnons une vision globale de notre système WebSum en section 3, ce qui permet d avancer l objectif général de notre travail. La section 4 présente la méthode choisie pour l élaboration des points de vue que nous appelons dans la suite de cet article les facettes de la requête. La section 5 développe les problèmes liés au résumé automatique de pages Web et la solution que nous apportons. Dans la section 6, nous présenterons l architecture générale de WebSum et nous détaillerons ses différents modules. Enfin, la section 7 présente les évaluations de nos résultats et les améliorations à apporter à notre système avant de conclure (section 8). 2 Approche de résumé encyclopédique Un résumé encyclopédique est un résumé informatif (Mani 2001) qui vise à fournir une description thématique du terme ou du concept considéré. Cette description permet de regrouper le maximum d informations possible selon différents points de vue. La motivation principale de ce travail est née du fait que suite à une interrogation d un moteur de recherche par mots clés, l utilisateur est souvent confronté à une masse d informations peu structurées et parfois peu pertinentes et il lui est souvent difficile d en extraire l information pertinente. C est ainsi qu est née l idée globale de WebSum, qui est un projet de recherche visant à élaborer un résumé encyclopédique à partir d une requête utilisateur. Par définition, l'encyclopédie est l organisation, la sélection et la simplification de l information. Par analogie à cette définition, WebSum vise à organiser les réponses d un moteur de recherche par rapport à une requête utilisateur selon les différents aspects des termes constituant cette requête, sélectionner les réponses les plus pertinentes par rapport à chaque aspect traité et enfin simplifier la représentation de ces pages en fournissant un résumé par extraction des fragments les plus pertinents de chaque aspect. Suite à une requête utilisateur composée des termes obésité enfant, WebSum fournit une représentation des réponses retournées par le moteur de recherche suivant un style encyclopédique soulignant les principaux aspects de la requête qui sont: définition et symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de prévention et de traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque aspect, une courte description de l aspect considéré de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information. La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et Fan 2000), ou des critères plus linguistiques (Radev et McKeown 1999), (Brazilay et al. 1999), (Mani et Bloedorn 1999). Notre travail quant à lui met l accent sur l utilisation conjointe de techniques d extraction d information et de techniques NLP (Natural Language Processing) basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction.

3 Dans ce qui suit, nous donnons une vision globale de WebSum afin de mieux expliquer l objectif de ce travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3 Vision générale de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (isa, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. On entend par facettes, l ensemble des termes permettant de décrire un concept suivant ses différents aspects. Nous donnerons une explication plus approfondie de ces facettes dans la section suivante. L objectif global de WebSum, est de classer les réponses d un moteur de recherche sous les différentes facettes identifiées à partir de la requête utilisateur suivant un ordre de pertinence déterminé par une métrique que nous avons définie (eg section 6.2). Cette métrique permet d évaluer les pages web par rapport à leur aptitude à se prêter au résumé et par rapport à leur pertinence avec la requête de l utilisateur. Après la classification des réponses, WebSum produit un résumé de chaque facette en extrayant les fragments de texte à partir des pages classées. Dans la section suivante, nous expliquons en détail la notion de facettes ainsi que la méthode que nous adoptons pour l élaboration de ces dernières. 4 Elaboration des facettes Notre approche se base sur une ontologie conceptuelle du domaine constituée par des concepts (~900concepts) reliés entre eux par la relation d hyponymie (is-a, est-un). La figure 1 illustre un extrait de la branche maladie de cette ontologie. Appareil digestif, maladies Maladie Appareil respiratoires, maladies Facettes maladie Figure1. Extrait de la branche maladie de l ontologie On associe aux concepts les plus hauts (généraux) de l ontologie des facettes suivant la structure de Qualia du Lexique Génératif (Pustejovsky 1995). La structure de Qualia représente les différents aspects du sens d un mot, on distingue 4 aspects définis dans cette structure: Formel: regroupe lestermes qui permettent de distinguer un objet ou un terme d un autre. Agentif: représente les facteurs impliqués dans la création de l objet ou à la source de l existence du terme considéré. Constitutif: exprime la relation entre un objet et ses composants ou tout ce qui découle d un terme. Télique: il existe deux types de télique o Le télique direct: représente les activités et les actions qui peuvent être faites sur un concept, o Le télique fonctionnel: représente la fonction du concept. Pour pouvoir décrire les différentes facettes d un concept, nous avons utilisé les définitions des différents aspects de la structure de Qualia. La figure ci-dessous présente les facettes définies dans WebSum pour le concept maladie. Formel: Définition, Symptômes Agentif: Causes Constitutif: Conséquences Télique: Prévention, Figure 2. Facette du concept Maladie Ces facettes sont attribuées aux noeuds les plus généraux de l ontologie. Les concepts les plus spécifiques héritent des facettes de leur concept père. Tous les concepts fils du concept maladie ont les mêmes facettes que ce dernier. Donc chaque maladie a des symptômes, une définition, des causes, des conséquences et des techniques et des moyens de prévention et de traitement. Après avoir décrit en détail la méthode d élaboration des facettes et afin de pouvoir classer les pages Web retournées par le moteur de recherche sous ces différentes facettes, il importe d évaluer la pertinence de ces pages par rapport au résumé et à la requête de l utilisateur.

4 Nous présentons dans ce qui suit, les problèmes posés par le résumé de pages Web. Nous expliquerons également en quoi ce type de résumé est différent du résumé de texte et quelles sont les solutions que nous proposons. 5 Evaluation de la pertinence des pages Web Nous commençons dans cette section par évoquer la problématique liée au résumé de pages Web et proposer par la suite notre solution pour l évaluation et la sélection des pages les plus aptes au résumé. 5.1 Problèmes du résumé de pages Web Outre les problèmes spécifiques au résumé automatique de texte, le résumé des pages Web présente d autres types de problèmes liés à: La structure des pages: souvent les pages web contiennent outre le texte, des images, des frames, des animations, etc. La forme linguistique des pages: présence de phrases incomplètes, souvent les pages web ne présentent aucune garantie d une bonne forme linguistique, Page à plusieurs sujets: le cas des portails par exemple, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de résoudre ce problème lié à la complexité de la structure des pages Web, nous avons enrichi notre système d une métrique (cf 6.2) permettant d évaluer la pertinence des pages Web par rapport au résumé et à la requête de l utilisateur. Nous décrivons dans ce qui suit cette métrique ainsi que ses différents critères d évaluation. 5.2 Description de la métrique La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi documents. Dans ces travaux, la plupart des critères utilisés sont des critères statistiques comme par exemple: La position de la phrase dans le document (Edmundson 1969), (Sekine, Nobata, 2001), (Radev et Fan, 2000): cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson 1969) et (Sekine, Nobata, 2001): les phrases inférieures à un certain seuil sont pénalisées. Mots du titre (Sekine, Nobata, 2001): plus une phrase contient des mots utilisés dans le titre plus elle est pertinente. Mots repères (Edmundson 1969), (Brandow et al 1995), (Kupiec et al 1995): ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Notre approche diffère de ces dernières par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la forme de la page (structure et forme linguistique) et des critères statistiques. Dans ce qui suit, nous allons détailler les différents critères de notre métrique : Critère de forme: permet de vérifier si la page contient du texte ou pas. Ce critère (Cf) est un facteur booléen qui vaut 1 si la page contient du texte et 0 sinon. Critère statistique: vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morpho-syntaxique: vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept ou la facette considérée constitue le sujet principal de la page). Voici la formule générale de cette métrique: Rdoc = Cf x (α x Cstat + β x C synt) (1) Avec α et β des pondérations, Cstat : les critères statistique, Csynt : les critères morpho-syntaxique. A l aide d une étude expérimentale, nous avons constaté que le critère statistique est plus important que le critère morpho-syntaxique pour l évaluation de la page par rapport au thème de la requête et nous avons fixé leur pondération respective à 0.7 (α) et 0.3 (β). Jusqu à présent, nous avons présenté le processus d élaboration des facettes à partir d une requête utilisateur ainsi que la description de la métrique nous permettant de classer les pages Web sous les différentes facettes. Nous allons maintenant présenter l architecture générale de notre système et décrire son fonctionnement global.

5 6 Architecture de WebSum L architecture du système WebSum est décrite dans la figure ci-dessous. Figure 3. Architecture générale de WebSum Nous décrivons dans ce qui suit les différents modules de notre système: 6.1 Module d analyse de la requête Ce module identifie dans la requête utilisateur les termes autour desquels la classification ainsi que le résumé vont être élaborés. Cette identification s effectue à partir d une étude des relations entre les différents termes de la requête. On considère 3 types de relations entre deux termes (T1, T2), ce type de relation peut être étendu à trois termes ou plus: Un des termes, T1 représente une facette de T2 comme par exemple dans : cause diabète. Si T1 représente le rôle formel, constitutif ou agentif alors la classification s effectue sur la base de cette facette. Et si T1 représente le rôle télique de T2 alors la classification s effectue autour des modalités d élaboration de T1. Par exemple pour traitement obésité la classification s effectue sur la base des termes suivants: moyens de traitement, lieux de traitement, techniques de traitement,... Les deux termes T1 et T2 représentent des concepts de la même ontologie du domaine comme par exemple délinquance, criminalité, dans ce cas une étude de la similarité entre les deux concepts est élaborée. Si les deux concepts sont jugés similaires (sont situés au même niveau de l ontologie et ont un père en commun) alors les facettes du père vont être utilisées pour la classification, sinon (concepts non similaires) on considère que la requête appartient au 3ème cas, S il n y a aucune relation entre les termes T1 et T2, nous considérons que le terme en tête de la requête est le terme porteur d information et que la classification est effectuée sur la base des facettes de ce dernier. Nous avons tiré cette conclusion à partir d une étude effectuée sur les statistiques des requêtes sur le Web (overture 2004). Le tableau 1 illustre un exemple de requête (parmis un échantillon de 100 requêtes) que nous avons étudié («obésité enfant») et donne la répartition du nombre d occurrences des requêtes tapées en Février 2004 et qui comportent les deux termes constituant cette requête. Sur un échantillon de 1313 requêtes comportant ces deux mots clés, on remarque que seulement ~1% des internautes inversent l ordre des termes. Requêtes Nombre % d occurrence Obésité enfant % Obésité chez l enfant % Problématique obésité 114 9% enfant Obésité enfant france % Enfant obésité % Tableau 1. Répartition du nombre d occurrences des requêtes Une fois que le terme porteur d information a été identifié dans la requête, le module d analyse de la requête procède à l identification des facettes sur la base desquelles la classification est faite. 6.2 Module de recherche Ce module transmet la requête utilisateur au moteur de recherche (Google) et récupère les N premières réponses retournées par ce dernier. Nous avons fixé N à 100 réponses mais ce paramètre reste flexible. 6.3 Module de classification Ce module analyse les réponses récupérées du moteur de recherche pour les classer sous les facettes adéquates. Pour l élaboration de cette tâche, nous nous basons sur des techniques d extraction d information basées sur des patrons d extraction définis au niveau de chaque facette. Ces patrons vont nous permettre de repérer dans les pages Web les fragments de texte en rapport avec la facette considéré afin de classer ces pages par la suite sous cette facette. Pour la définition de ces patrons, nous avons décrit un formalisme permettant leur génération automatique. Ce formalisme est basé sur des classes sémantiques constituées par des verbes, des noms et des paraphrases, sur un lexique et une grammaire décrivant les patrons de chaque classe. Par exemple nous avons défini 9 classes sémantiques pour la facette définition (Auger, 1997), 3 pour la facette cause (Garcia, 1998), (Nazarenko, 2000) etc.

6 Voici un exemple d une classe sémantique de la facette définition ainsi que la grammaire décrivant les patrons appartenant à cette classe: Classe_caractérisation:{Verbe (caractériser, définir, déterminer, dénoter, désigner), Déverbaux (caractéristique, définition, détermination, dénotation)} Grammaire: <concept> [fct_gram = complément], <verbe, déverbal> [classe_caractérisation] Cette grammaire dit que le concept considéré dans la recherche est employé en tant que complément d objet de tout élément de la classe «caractérisation». Les patrons générés à partir de cette description sont les suivants: A partir des verbes : [caractériser] <concept>: caractéris* <concept> Exemple de phrase extraite par ce patron : décrit le diabète comme étant [définir] <concept>: défini* <concept> [déterminer] <concept>: détermin* <concept>,..etc. A partir des déverbaux : Définition * <concept>, Exemple de phrase extraite par ce patron : La définiton et l épidémiologie de l obésité caractéristique * <concept>, détermination * <concept>, dénotation * <concept>. Après la classification des pages sous les facettes adéquates, le système procède à la réorganisation de ces dernieres à l aide de la métrique décrite auparavant. Ainsi un score est attribué à chacune des pages et le classement final s effectue par ordre décroissant de ce score. Dans la section suivante, nous présentons la méthode d évaluation adoptée pour évaluer la méthode d élaboration des facettes et le résultat de notre classification. 7 Evaluations et résultats 7.1 Méthodologie Afin d évaluer la qualité des résumés produits par les systèmes de résumé automatique, il est important d avoir des méthodes d évaluation standards. Il existe deux méthodes d évaluation de systèmes de résumé automatique: la méthode intrinsèque et la méthode extrinsèque (Jones, 1995). La méthode intrinsèque permet de mesurer globalement la qualité du système et la méthode extrinsèque évalue la performance du système par rapport à certaines tâches spécifiques. Evaluation intrinsèque La plupart des évaluations des systèmes de résumé automatique utilisent la méthode intrinsèque ((Edmundson, 1969), (Paice, 1990), (Kupiec et al. 1995); (Marcu, 1997), (Salton et al, 1997), (ono, et al., 1994)). L'approche typique utilisée par la méthode d'évaluation intrinsèque consiste à effectuer des comparaisons du résumé automatique généré par le système avec un résumé dit "idéal" préparé à l'avance. Ce résumé est généré par des experts ou par différents sujets humains. La comparaison avec le résumé idéal est effectuée en terme de mesure de précision et de rappel. Le paramètre de précision peut être défini par la phrase suivante: "Donnez moi les informations significatives seulement". Cela veut dire que le résumé automatique ne peut contenir que des points qui ont été exprimés dans le résumé idéal. Le calcul de la précision est donné par l'équation suivante: Précision = Nombre de phrases correctes Nombre total des phrases Le paramètre de rappel est défini par la phrase suivante: "Donnez moi toutes les informations significatives". Le résumé automatique doit contenir tous les points exprimés dans le résumé idéal. Le calcul du paramètre de rappel d'un résumé est donné par l'équation suivante: Rappel = Nombre de phrases correctes Nombre total des phrases Correctes dans le résumé idéal Evaluation extrinsèque L'évaluation extrinsèque ou orientée tâches est conçue pour estimer la performance du système de résumé par rapport à certaines tâches particulières. La nature précise des tâches invoquées est largement dépendante avec l'intention du résumé à évaluer. Cependant, ce type d'évaluation invoque quelques formes de recherche d'information ou des tâches d'analyse. La difficulté de cette méthode d'évaluation se situe dans le fait que la performance du résumé est

7 directement influencée par les conditions expérimentales dans lesquelles se déroule l'évaluation (exemple : en terme de qualité de l'évaluateur). Pour évaluer les résultats de notre système, nous avons choisi d utiliser la méthode intrinsèque, cette évaluation a été effectuée par rapport à deux résultats qui sont le choix des facettes par rapport aux termes d une requête particulière et la classification des réponses du moteur de recherche sous les différentes facettes. 7.2 Evaluation des facettes Afin d évaluer la qualité des facettes attribuées à chaque requête, nous les avons comparées avec des thèmes relatifs à chaque terme dans des encyclopédies existantes. Nous avons choisi les encyclopédies 1 suivantes: Agora (1), Doctissimo (2), Encarta (3). Le tableau suivant (tableau 2) décrit les facettes que nous avons définies suivant la structure de Qualia du Lexique Génératif et les facettes utilisées par les encyclopédies considérées. Concept Facettes de WebSum Obésité Angines Hypertension Alcoolisme Aspirine Pénicilline Définition Causes Conséquences Prévention Présentation Composition Laboratoire Effets indésirables Facettes encyclopédies des (2) Définition Evaluation de l obésité selon l OMC Enjeux La guérison (2)Qu est ce que c est? Les signes de la maladie Causes et facteurs de risque consultation (2) Définition Symptôme Causes Complications (3) Présentation Développement Effets (3) Présentation Découverte Utilisation Effets indésirables et contre-indications (3) Présentation Mode d action Dosage Oraciline Céléstamine Divorce Criminalité Définition Causes Conséquences Prévention Action (2) Molécule Classe thérapeutique Laboratoire Indications Effets secondaires Contre-indications Précautions d'emploi (3) Forme Dosage Classement pharmaco thérapeutique Laboratoire (3) Présentation Histoire Législation actuelle Présentation Les statistiques criminelles Les chiffres de la délinquance Tableau 2. comparaison des facettes de WebSum avec celle des encyclopédies /index_encyclo_a.html 3 Le tableau 3 illustre le taux d utilisation des facettes définies dans WebSum par d autres encyclopédies:

8 les différentes facettes fournies avec chaque requête. Facettes de WebSum Concept Maladie Taux d utilisation Ensuite, nous avons comparé les résultats de la classification fournie par les évaluateurs avec celle de WebSum et nous avons obtenu les résultats suivants: Définition 100 % Causes 50 % Conséquences 100 % Taux de pages bien classées Prévention 25 % 100 % Concept drogues et agents divers Facettes Req1 Req2 Req3 Req4 Req5 Res_global Présentation 100 % Laboratoire 50 % Composition 50 % Effets indésirables 50 % Utilisation 25 % Mode d action 25 % Tableau 3. taux d utilisation des facettes de WebSum par d autres encyclopédies. Définition Causes Conséquences 75% 40% 66% 96% 58% 67% 66% 96% 96% 50% 75% 76.6 % 96% 96% 62% 100% 80% 86.8 % Pour synthétiser, nous pouvons dire que notre méthode de définition des facettes donne des résultats satisfaisants au niveau de l évaluation. En effet, cette méthode présente un taux de satisfaction pour le concept Maladie de 75% et 60% pour le concept Drogues et Agents Divers. Elle présente également un taux total de satisfaction de 62.3% défini à partir de l évaluation de 30 facettes relatives à 6 concepts généraux de l ontologie. Le faible taux d utilisation constaté pour quelques facettes s explique par le fait que certaines encyclopédies les considèrent dans leur description du terme alors que d autre ne les considèrent pas. De ce fait, nous pouvons dire que notre méthode couvre, dans la plupart des cas, la totalité des facettes définies dans les différentes encyclopédies. Ceci nous permet de dire que cette méthode permet de classer le maximum d information à partir des réponses du moteur de recherche et de couvrir le maximum des thèmes traités par les pages Web. 7.3 Evaluation de la classification Pour évaluer le résultat de la classification des pages Web de WebSum, nous avons sélectionné 5 requêtes du domaine médical et pour chaque requête nous avons fourni à des évaluateurs les 100 premières réponses retournées par Google. Le rôle de ces sujets est d effectuer la classification de ces réponses sous Prévention 100% 100% 93.3% 70% 86% % 80% 100% 80% 86.6% 75% % Tableau 4. Résultats de l évaluation de la classification Avec : Requête 1 : obésité enfant, Requête 2 : varice femme, Requête 3 : diabète adulte, Requête 4 : alcoolisme, Requête 5 : traumatisme sportif. D après les résultats de l évaluation, on remarque que notre système fournit une classification satisfaisante et un gain de temps considérable. En effet, la classification de 100 pages Web sous les différentes facettes définies dans notre système nécessite entre 20 et 30 minutes de temps de traitement pour un sujet humain, par contre WebSum effectue cette classification en quelques secondes. Par rapport aux résultats même de la classification, nous constatons que le plus faible taux de pages bien

9 classées reste pour la facette définition suivie de celle de cause. Afin d améliorer nos patrons d extraction, nous avons pu identifier quelques problèmes qui ont fait que certaines pages, bien qu elles traitent une facette particulière, ne sont pas classées sous cette dernière. Ces problèmes sont liés au fait que: Nous ne prenons pas en compte les synonymes d un concept. Par exemple pour le concept obésité, il faudra tenir compte de ses synonymes (surpoids, problèmes de poids, surcharge pondérale, etc.). Absence de quelques marqueurs pour exprimer certaines facettes. Certaines expressions ne sont pas prises en compte par les patrons bien qu elles permettent de définir un concept. Exemple : «A propos de < concept>», «sortes de < concept>» et «types de < concept>» expriment la facette définition et ne sont pas pris en compte dans nos patrons. Utilisation de la forme négative. Jusqu à maintenant nous ne tenons pas compte de la négation mais peut-être qu il faudrait envisager d utiliser quelques patrons dans la forme affirmative et négative. Exemple : «< concept> est NOM» et «<concept> n est pas NOM» peuvent signifier tous les deux une définition. 8 Conclusion Dans cet article, nous avons présenté la première version de WebSum qui consiste en la classification des réponses d un moteur de recherche sous les différentes facettes de la requête utilisateur. Cette première version est complètement implémentée en PERL et se base sur une ontologie décrite en XML comportant 900 concpets et 50 facettes. La deuxième version de WebSum, en cours d élaboration, consiste d abord à enrichir nos patrons d extraction pour prendre en compte les résultats de nos évaluations et à produire un résumé encyclopédique des pages Web à partir du résultat de la classification en se basant sur les facettes qui seront les éléments structurants du résumé. 9 Références (Auger, 1997) Auger, A., 1997, Repérage des énoncés d interêt définitoire dans les bases de données textuelles, Thèse de doctorat, Université de Neuchâtel. (Brandow, 1995) Brandow, R., Mitze, K. et Rau, L. F Automatic condensation of electronic publications by sentence selection. Information Processing and Management 31(5) : (Brazilay et al., 1999) Brazilay, R., McKeown, K. et Elhadad, M Information fusion in the context of multi-document summarization. In Proceedings of the 37th Annual Meeting of the Association of Computational Linguistics. (Couto et al., 2004) Couto, J., Ferret, O., Grau, B., Hernandez, N., Jackiewicz, A., Minel, J., Porhiel, S Revue d'intelligence artificielle Vol 18/4. (Edmundson, 1969) Edmundson, H. P New methods in automatic abstracting. Journal of the ACM 16(2) : (Fujii et Ishikawa, 2004) Fujii, A. et Ishikawa, T Summarizing Encyclopedic term descriptions on the Web. COLING 04 -Volume1- p645. (Garcia, 1998) Garcia, D., 1998, Analyse automatique de textes pour l organisation causale des actions, Réalisation du système informatique COATIS. Thèse de doctorat, Paris Sorbonne. (Google) (Yahoo, 2003) Yahoo! Online guide for the internet (Infoseek, 2002) Internet directory and query service, hhtp:// (Jones, 1995) Jones, K.S., 1995, Towards better nlp system evaluation. Dans Proceedings of the Human Language Technology Workshop, San Francisco: ARPA. (Kupiec, 1995) Kupiec, J., Pederson, J. et Chen, F A trainable document summarizer. Dans SIGIR 95, (Mani, 2001) Mani, I., 2001, Automatic Summarization, Natural Language processing, John Benjamins Publishing Company, Amsterdam/Philadelphia. (Mani et Bloedorn, 2000) Mani, I. et Bloedorn, E., 2000, Summarizing similarities and differences among related documents, Information Retrieval, 1(1). (Marcu, 1997) Marcu, D From Discource structures to text summaries. In ACL/EACL-97 summarization workshop, (Nazarenko, 2000) Nazarenko, A., 2000, La cause et son expression en Français, Ophrys. (Overture, 2004) on/?mkt=fr (Ono et al., 1994) ono, K., Sumita, K. et Miike, S Abstract generation based on rhetorical structure extraction. COLING94, Volume1, (Paice, 1990) Paice, C.D Constructing literature abstracts by computer : techniques and Prospects. Information Processing and Management 26(1): (Pustejovsky, 1995) Pustejovsky, J., The Generative Lexicon Massachusetts Institute of Technology. (Radev et Fan, 2000) Radev, D. R. et Fan, W Automatic summarization of search engine hit lists. In Proceedings, ACL Workshop on Recent Advances in NLP and IR, Hong Kong. (Radev et McKeown, 1999) Radev, D. R. et McKeown, K. R Generating summaries of multiple news articles. In Inderjeet Mani and Mark Maybury, editors, Advances in Automatic Text Summarization. MIT Press.

10 (Salton et al., 1997) Salton, G., Singhal, A., Mitra, M. et Buckley, C Automatic text structuring and summarization. Information Processing and Management 33(2) : (Sekine et Nobata, 2001) Sekine, S. et Nobata, C Sentence Extraction with Information Extraction technique. In Proceedings of ACM SIGIR'01 Workshop on Text Summarization. New Orleans.

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples TALN 2008, Avignon, 9-13 juin 2008 Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples Fatma Kallel Jaoua (1),

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

GKR. Geological Knowledge Representation Base de connaissances métallogéniques GKR Geological Knowledge Representation Base de connaissances métallogéniques Objets Organiser un ensemble d informations complexes et hétérogènes pour orienter l exploration minière aux échelles tactiques

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

Petite définition : Présentation :

Petite définition : Présentation : Petite définition : Le Web 2.0 est une technologie qui permet la création de réseaux sociaux, de communautés, via divers produits (des sites communautaires, des blogs, des forums, des wiki ), qui vise

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Modélisation des données

Modélisation des données Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes 303 Schedae, 2007 Prépublication n 46 Fascicule n 2 Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes Samya Sagar, Mohamed Ben Ahmed Laboratoire

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Une plate-forme open-source de recherche d information sémantique

Une plate-forme open-source de recherche d information sémantique Une plate-forme open-source de recherche d information sémantique Ines Bannour, Haïfa Zargayouna Laboratoire d Informatique de l université Paris-Nord (LIPN) - UMR 7030 Université Paris 13 - CNRS 99, avenue

Plus en détail

4. SERVICES WEB REST 46

4. SERVICES WEB REST 46 4. SERVICES WEB REST 46 REST REST acronyme de REpresentational State Transfert Concept introduit en 2000 dans la thèse de Roy FIELDING Est un style d architecture inspiré de l architecture WEB En 2010,

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr Adaptabilité d un MOOC aux styles d apprentissage Hubert Kadima Directeur de Recherche LARIS/EISTI Email : hubert.kadima@eisti.fr Agenda 1. Contexte : l apprentissage dans le projet PLACIS 2. Choix du

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET Les Ressources d'internet Le web? Système hypermédia d accès à l information sous diverses formes, texte, son, image disponible sur Internet

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Le ranking de Augure Influencers La méthodologie AIR en détails

Le ranking de Augure Influencers La méthodologie AIR en détails Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales D 1.3.2 Rapport d analyse Auteurs: Johann Luethi, Laurent Opprecht, Patrick Roth

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >>

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >> Access MD Online Vue d ensemble Access MD Online fournit aux organisations un accès en temps réel à leurs programmes de carte commerciale au sein d un environnement sécurisé, n importe où et n importe

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Conception des bases de données : Modèle Entité-Association

Conception des bases de données : Modèle Entité-Association Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir

Plus en détail

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011 Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011 Aurélie-Aimée Bablon Online Media Associate GAO 1 Sommaire de la présentation Comment Optimiser : 1. Structure du compte 2. Mots clés

Plus en détail

Une approche pour l extraction automatique de structures sémantiques de documents XML

Une approche pour l extraction automatique de structures sémantiques de documents XML Une approche pour l extraction automatique de structures sémantiques de documents XML Salma Ben Mefteh*,**, Kaïs Khrouf*, Jamel Feki*, Maha Ben Kraiem*, Chantal Soulé-Dupuy** * Laboratoire MIR@CL, Université

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

SECTION 5 BANQUE DE PROJETS

SECTION 5 BANQUE DE PROJETS SECTION 5 BANQUE DE PROJETS INF 4018 BANQUE DE PROJETS - 1 - Banque de projets PROJET 2.1 : APPLICATION LOGICIELLE... 3 PROJET 2.2 : SITE WEB SÉMANTIQUE AVEC XML... 5 PROJET 2.3 : E-LEARNING ET FORMATION

Plus en détail

1 La visualisation des logs au CNES

1 La visualisation des logs au CNES 1 La visualisation des logs au CNES 1.1 Historique Depuis près de 2 ans maintenant, le CNES a mis en place une «cellule d analyse de logs». Son rôle est multiple : Cette cellule est chargée d analyser

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE RÉSUMÉ Depuis des années, les responsables de la sécurité de l information et les responsables opérationnels

Plus en détail

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Plan Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Bernard ESPINASSE Université d!aix-marseille 2010 Rappels sur les agents logiciels Problématique de la RI sur le

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Modernisation et gestion de portefeuilles d applications bancaires

Modernisation et gestion de portefeuilles d applications bancaires Modernisation et gestion de portefeuilles d applications bancaires Principaux défis et facteurs de réussite Dans le cadre de leurs plans stratégiques à long terme, les banques cherchent à tirer profit

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Pour une entreprise plus performante

Pour une entreprise plus performante Pour une entreprise plus performante Smart Technology Services Raison Sociale - Smart Technology Services llc Pôle d activités - Service et conseil dans la technologie de l information Pôle d activités

Plus en détail

INTERNET, C'EST QUOI?

INTERNET, C'EST QUOI? INTERNET, C'EST QUOI? Internet, c'est quoi? «Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS Nazih Selmoune (*), Zaia Alimazighi (*) Selmoune@lsi-usthb.dz, Alimazighi@wissal.dz (*) Laboratoire des systèmes

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Document de synthèse. Étude comparative du coût total des systèmes de vidéosurveillance IP et analogiques

Document de synthèse. Étude comparative du coût total des systèmes de vidéosurveillance IP et analogiques Document de synthèse Étude comparative du coût total des systèmes de vidéosurveillance IP et analogiques Table des matières 1. Introduction 3 2. Méthode de recherche 3 3. Coût total de possession (TCO)

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

TEXT MINING Tour d Horizon

TEXT MINING Tour d Horizon TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Méthode universitaire du commentaire de texte

Méthode universitaire du commentaire de texte Méthode universitaire du commentaire de texte Baptiste Mélès Novembre 2014 L objectif du commentaire de texte est de décrire la structure argumentative et de mettre au jour les concepts qui permettent

Plus en détail

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 Direction

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information SCI6052 (Automne 2014) cours 6 1/32 SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information Cours 6 Systèmes de gestion de bases de données (SGBD) textuels

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Que va-t-on mesurer? Définir ses objectifs. Google Mobile App Analytics

Que va-t-on mesurer? Définir ses objectifs. Google Mobile App Analytics 3 Analyser les statistiques 61 Google Mobile App Analytics Télécharger le SDK pour Android : http://goo.gl/ervtn 2 Télécharger le SDK pour ios : http://goo.gl/csizv 3 Pour en savoir plus sur Google Mobile

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION OBJECTIFS GÉNÉRAUX DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION Découvrir les principales fonctionnalités des outils de

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Comment bien référencer mes sites internet? Les 100 SECRETS EN VIDÉO

Comment bien référencer mes sites internet? Les 100 SECRETS EN VIDÉO Comment bien référencer mes sites internet? Les 100 SECRETS EN VIDÉO éditions Page 2/14 A propos de l auteur... Souvent défini comme «sérial-créateur», Jean-Marie PÉRON est à l origine depuis 1992 d entreprises

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière

Plus en détail

Master Informatique Aix-Marseille Université

Master Informatique Aix-Marseille Université Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes

Plus en détail

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus.. WordPress - CMS open-source Permet de créer simplement des sites internet ou de blogs. D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Bien architecturer une application REST

Bien architecturer une application REST Olivier Gutknecht Bien architecturer une application REST Avec la contribution de Jean Zundel Ce livre traite exactement du sujet suivant : comment faire pour que les services web et les programmes qui

Plus en détail

IFT2255 : Génie logiciel

IFT2255 : Génie logiciel IFT2255 : Génie logiciel Chapitre 6 - Analyse orientée objets Section 1. Introduction à UML Julie Vachon et Houari Sahraoui 6.1. Introduction à UML 1. Vers une approche orientée objet 2. Introduction ti

Plus en détail

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin

Plus en détail

Guide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique

Guide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique DIRECTION GENERALE DES AFFAIRES POLITIQUES DIRECTION DES INSTITUTIONS DEMOCRATIQUES Projet «BONNE GOUVERNANCE DANS LA SOCIETE DE L INFORMATION» CAHDE (2009) 2F Strasbourg, 20 janvier 2009 Guide No.2 de

Plus en détail

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits 2.0 Interprétation des cotes d évaluation des risques relatifs aux produits L interprétation des cotes attribuées dans le cadre des évaluations des risques relatifs aux produits décrite plus loin repose

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1 La Geo-Business Intelligence selon GALIGEO avec ESRI 2005 session «Décisionnel» 26/10/2005 1 La Business Intelligence : Une Définition La Business intelligence permet l utilisation des données opérationnelles

Plus en détail

Le référencement naturel

Le référencement naturel Le référencement naturel Phases essentielles Choix des mots-clés Où se référencer : moteurs, annuaires Indexation des pages du site dans les moteurs Positionnement et trafic généré Optimisation des pages

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail