Classification des réponses d un moteur de recherche et évaluation de leur pertinence
|
|
- Salomé Audet
- il y a 8 ans
- Total affichages :
Transcription
1 Classification des réponses d un moteur de recherche et évaluation de leur pertinence Olfa Jenhani El Jed IRIT/ ILPL Institut de Recherche en Informatique de Toulouse 118 Route de Narbonne Toulouse Cedex 4 jenhani@irit.fr RÉSUMÉ Dans cet article, nous proposons une méthode d évaluation de la pertinence des pages Web. Ce travail s inscrit dans le cadre général de la recherche d information et plus précisément dans le but de la construction d un résumé automatique de type encyclopédique à partir des réponses d un moteur de recherche. Ce type de résumé offre une nouvelle approche de classification des réponses d un moteur de recherche. Dans cet article, nous présentons globalement notre approche de classification et nous détaillons notre méthode d évaluation de la pertinence des pages Web. Cette méthode se base sur des critères de forme permettant d évaluer la forme globale de la page, des critères statistiques vérifiant la correspondance entre les termes de la requête et le thème général des pages et des critères linguistiques assurant la bonne forme linguistique des pages. ABSTRACT. In this paper, we propose a method for evaluation of relevance in Web pages. This work joins in the general framework of Information Retrieval (IR) and more precisely, with the aim of constructing an automatic summary in encyclopaedic style. This summary type allows a new approach of Web page classification. In this paper, we present our classification approach and we detail our method for Web page relevance evaluation. This method is based on form criteria allowing to estimate the global form of the page and its capacity to produce a summary, statistical criteria verifying the correspondence between the request and the general topic of pages and linguistic criteria that guarantee a good linguistic form of pages. MOTS-CLÉS : pertinence. recherche d information, classification des pages Web, évaluation de la KEYWORDS: Information retrieval, Web page classification, relevance evaluation.
2 1. Introduction Les récentes avancées des technologies Web et la généralisation des outils de communication ont rendu la recherche d information sur le Web de plus en plus difficile. Les raisons profondes de ces difficultés proviennent essentiellement de l accroissement considérable du nombre de pages Web disponibles, la diversité de leurs structures et de leurs contenus ainsi que la présence d une importante quantité d informations inutiles comme les liens vers des pages inexistantes ou vides, les pages et les bannières publicitaires, etc. Une analyse, même rapide, des réponses d un moteur de recherche montre que l utilisateur est souvent confronté à diverses difficultés: Une masse d information peu structurée et parfois peu pertinente : beaucoup de publicité, plusieurs pages sans contenu informationnel, etc. ; Une structure complexe des pages Web : souvent les pages Web contiennent outre le texte, des images, des frames, des animations, etc. ; Aucune garantie d une bonne forme linguistique des pages : présence de phrases incomplètes, mal structurées comme le cas des forums de discussion par exemple ; Une variété de sujets : c est le problème des pages à plusieurs sujets comme c est le cas pour les portails, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de satisfaire ses besoins, un utilisateur doit procéder à un tri important, ce qui requiert un effort considérable de sa part et une perte de temps qui peut être importante. Il est important, à ce stade d avancement technologique, d automatiser cette lourde tâche de fouille à la recherche des réponses pertinentes et d offrir aux utilisateurs des outils permettant de faciliter la recherche d information sur le Web et d exploiter rapidement et efficacement les réponses fournies par les moteurs de recherche. Nos travaux de recherche s inscrivent dans cette problématique. Nous proposons une solution basée sur le résumé automatique des réponses des moteurs de recherche dans un style encyclopédique. Il s agit de permettre aux utilisateurs de récupérer, à partir des requêtes soumises au moteur de recherche, les réponses organisées sous différents aspects (liés à la requête) et classées par ordre de pertinence. Nous nous focalisons particulièrement dans cet article sur notre méthode d évaluation de la pertinence des pages Web. Cette méthode permet de : sélectionner les pages les plus pertinentes par rapport à une requête; vérifier leur contenu informationnel et leur forme linguistique;
3 classer les pages sélectionnées par ordre de pertinence suivant leur degré d informativité. L originalité de ce travail réside dans le fait que nous enrichissons notre méthode d évaluation par des critères nouveaux qui viennent compléter ceux traditionnellement utilisés par la plupart des systèmes actuels de recherche d information. Ces critères correspondent essentiellement à des critères linguistiques et des critères morphosyntaxiques qui sont détaillés dans la section 6. Cet article est organisé comme suit. Nous présentons dans la section 2 le cadre général de nos travaux. La section 3 présente un bref état de l état des différents travaux qui se sont intéressés à l évaluation de la pertinence des documents. La section 4 décrit la méthodologie adoptée pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Notre métrique d évaluation de la pertinence est détaillée dans la section 5. Enfin, nous présentons, avant de conclure, les résultats d une évaluation préliminaire de notre méthode. 2. Cadre de travail Ce travail s inscrit dans le cadre du projet de recherche WebSum. WebSum est un système de résumé automatique de pages Web dans un style encyclopédique. Ce système offre une nouvelle approche de classification de réponses d un moteur de recherche et permet une visualisation rapide et structurée de ces dernières. L objectif global de WebSum est de classer les réponses d un moteur de recherche suivant les différentes facettes de la requête utilisateur selon un ordre de pertinence déterminé par une métrique qui fait l objet de ce présent article. Nous considérons le terme «facettes» pour désigner tous les aspects liés à la requête utilisateur et permettant de structurer les informations relatives à cette dernière (Jenhani, 2005). Notre méthode d identification des facettes à partir de la requête utilisateur se base sur des techniques TAL (traitement automatique du langage) et plus précisément sur le Lexique Génératif (Pustejovsky, 1995). Afin de mieux expliquer le principe de notre système, nous illustrons son fonctionnement par l exemple qui suit. Suite à la requête «obésité enfant», WebSum fournit une représentation des réponses restituées par le moteur de recherche dans un style encyclopédique soulignant les principales facettes de la requête. Ces facettes peuvent être dans ce cas d exemple, la définition et les symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de sa prévention et de son traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque facette, une courte description de la facette considérée de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information.
4 La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et al., 2000), ou des critères plus linguistiques (Radev et al., 1998), (Barzilay et al., 1999), (Mani et al., 1999). Dans notre approche, nous mettons l accent sur l utilisation conjointe de techniques d extraction d information et de techniques de traitement automatique du langage basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction. Dans ce qui suit, nous donnons un aperçu global de WebSum afin de mieux expliquer l objectif de notre travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3. Aperçu général de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses restituées par un moteur de recherche à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (is-a, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. L objectif global de WebSum est de filtrer, parmi les réponses d un moteur de recherche, celles qui se rapportent aux facettes de la requête (étapes 1 et 2 de la figure 1) et de les organiser sous les rubriques adéquates (représentées par les différentes facettes). Ensuite, WebSum classe les réponses au sein d une même rubrique par ordre de pertinence et élimine celles de moindre importance (étape 3 de la figure 1). Les étapes de filtrage et de sélection sont assurées par une méthode d extraction d information basée sur des grammaires et des patrons d extraction. L étape de classement des pages Web par ordre de pertinence est assurée par une métrique que nous présentons dans la section 6.
5 Figure 1. Fonctionnement de WebSum Comme nous le voyons à la figure 1, la première étape de WebSum correspond à la soumission de la requête utilisateur au moteur de recherche. La deuxième étape correspond à la restitution des réponses adéquates avec les différentes facettes considérées. La dernière étape de WebSum (étape 3) correspond à la classification de ces réponses selon les différentes facettes de la requête puis, à leur classement à l intérieur de chaque facette par ordre de pertinence à l aide de la métrique que nous présentons dans ce qui suit. Cette métrique évalue les pages Web et les classe suivant leur pertinence par rapport à la requête utilisateur et la facette considérée. A partir d une petite expérimentation que nous avons effectuée sur le moteur de recherche Google, qui consiste à la soumission de la requête «sorbitol» en vue d avoir sa définition. Nous avons remarqué que pour trouver une réponse satisfaisante à nos besoins, nous étions amener à visiter au moins six pages avant de retenir la septième qui comporte la définition recherchée. En utilisant notre méthode d évaluation de la pertinence (en soumettant la même requête à WebSum), nous avons trouvé cette même page (contenant la définition de ce médicament) classée en première position dans la rubrique définition.
6 La métrique que nous présentons dans cet article a un intérêt majeur pour la recherche d information en général qui sera confirmé par les résultats des évaluations présentés à la fin de ce présent document. Dans la suite de cet article, nous présentons d abord les différents travaux qui se sont intéressés à la mesure de la pertinence d un document, puis nous décrivons notre méthodologie pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Ensuite, nous donnons une description détaillée de notre métrique avant de présenter les résultats de son évaluation. 4. Etat de l art La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi-documents. Dans ces travaux, la plupart des critères utilisés pour le repérage des fragments les plus pertinents pour la génération automatique de résumé sont des critères statistiques comme : La position de la phrase dans le document (Edmundson, 1969), (Sekine et al., 2001), (Radev et al., 2000) : cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson, 1969) et (Sekine et al., 2001) : les phrases inférieures à un certain seuil sont pénalisées. Les mots du titre (Sekine et al., 2001) : plus une phrase contient des mots utilisés dans le titre, plus elle est pertinente. Les mots repères (Edmundson, 1969), (Brandow et al., 1995), (Kupiec et al., 1995) : ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Dans le cadre de l évaluation de la pertinence des pages Web, nous citons les travaux de (Lawrence et al., 1998) et (Cho et al., 1999) qui se sont intéressés particulièrement aux réponses des moteurs de recherche dans le but d améliorer la recherche d information sur le Web. Dans (Lawrence et al., 1998), les auteurs présentent une approche d évaluation de l importance des pages Web. Ils évoquent le problème de la définition des critères permettant l évaluation de ces pages et proposent une technique qui repose sur une combinaison des critères suivants : La similarité avec une requête donnée (évaluation sémantique) ; Le décompte des liens pointant vers cette page ; La localisation des pages (la position dans l'arborescence). Dans (Cho et al., 1999) les auteurs présentent un méta moteur de recherche dont le but principal est d améliorer l efficacité et la précision de la recherche sur le Web.
7 Leur méthode se base sur le téléchargement puis l analyse de chaque document pour pouvoir, par la suite, présenter les pages contenant les termes de la recherche dans leur contexte. La phase d analyse repose sur une simple mesure de pertinence. Cette mesure considère le nombre des termes de la requête dans le document, la proximité entre les termes de la requête (en terme de nombre de caractères séparant les termes) et la fréquence des termes. Les travaux que nous venons de présenter s intéressent davantage au positionnement d une page par rapport aux autres (en terme de popularité, position dans l arborescence du moteur de recherche et certains autres critères statistiques) qu aux autres critères assurant son contenu linguistique. Notre approche diffère des dernières approches présentées par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la fois à la forme de la page (structure et forme linguistique) mais également à des critères statistiques habituellement utilisés. Dans notre travail, nous exploitons les réponses fournies par le moteur de recherche Google 1. Ce moteur de recherche classe ses réponses suivant les critères suivants : L occurrence d un mot de la requête dans le document ; La position d un mot de la requête dans le document (méta titre, titre, soustitre, etc.) ; La proximité des termes de la requête dans le document ; La présence de tous les termes de la requête dans la page ; La popularité du site en termes de nombre de liens pointant vers le site. Dans notre travail, nous nous basons dans un premier temps sur le même classement que celui de Google : de ce fait, nous considérons ces mêmes critères de classification. Puis, dans un second temps, nous effectuons une deuxième sélection en se basant sur notre métrique afin de ne garder que les pages qui satisfont le besoin de l utilisateur et les critères de résumé dans un cadre plus particulier. Dans la section suivante, nous présentons notre méthodologie pour l élaboration des critères de la métrique ; ensuite nous détaillons ses différents éléments. 5. Méthodologie Une bonne connaissance du comportement de l internaute suite à une interrogation d un moteur de recherche est nécessaire pour mieux comprendre ses attentes et comment il peut juger la pertinence d une page Web. 1
8 D après une étude publiée en septembre 2004 au Journal du référencement 2, il s est avéré que plus de 80% des internautes s arrêtent au premier niveau des pages Web lors de leur consultation des réponses d un moteur de recherche. Cette constatation nous confirme qu une analyse de ce premier niveau des pages sera utile pour l identification des critères permettant de mesurer la pertinence d une page. Il faut souligner qu on entend par une page pertinente toute page présentant à la fois une réponse directe et claire à la requête de l utilisateur et contenant des éléments qui peuvent être résumables. La figure 2 illustre un exemple de page que nous considérons comme pertinente à la requête «définition obésité» et la figure 3 présente une page non pertinente. Figure 2. Exemple de page pertinente (à gauche) et non pertinente (à droite) La méthode que nous adoptons pour la définition des différents critères de pertinence d une page Web se base sur l étude d un corpus de pages Web collectées à partir de réponses d un moteur de recherche (Google) à différentes requêtes (20 requêtes présentées en annexe). Ces requêtes représentent des recherches simples sur le Web effectuées autour de domaines grand public (santé, société et éducation). L analyse du contenu de ces différentes pages nous a permis de les partager en trois groupes constituant trois échantillons de 100 pages chacun. Un échantillon regroupant les pages jugées pertinentes, un deuxième contenant des pages de qualité moyenne et le troisième de pages non pertinentes. Nous avons analysé ces différents échantillons dans le but d observer les différents éléments qui permettent de faire la distinction entre une page pertinente, une page moyenne et une page non pertinente. Suite à cette analyse, nous avons identifié les caractéristiques illustrées dans le tableau
9 Caractéristiques d une page pertinente Caractéristiques d une page non pertinente Page contenant du texte. La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez importante. Page décrivant le sujet en question sans l avis personnel de l auteur (emploi de il(s), elle(s)) ; Emploi des termes de la requête ou de ses lexicalisations en tant que sujet des phrases Utilisation des termes de la recherche dans le titre et/ou le sous-titre ; Paragraphes pas trop longs (5 à 10 phrases). Page contenant une (des) image(s) sans signification ; Page contenant un menu ou une liste pointant vers différents thèmes similaires (du même type ontologique) à celui de la recherche ; Page ne contenant que des liens vers des documents (.doc,.pdf, etc.). La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez faible. Page décrivant le sujet en question en mettant l accent sur l avis personnel de l auteur (emploi de je, nous et on) ; Emploi des termes de la requête ou de ses lexicalisations en tant que complément ou autres fonctions ; Paragraphes très longs (supérieurs à 10 phrases). Tableau 1. Caractéristiques de la pertinence ou de la non pertinence d une page Web Le tableau 1 présente les principales différences entre une page pertinente et une page qui ne l est pas. D après cette étude et à partir des différentes caractéristiques identifiées, nous constatons que pour l évaluation de la pertinence d une page Web, il importe de vérifier, dans un premier temps, la forme globale de la page, ensuite son sujet général et sa correspondance avec les termes de la requête et enfin sa bonne forme linguistique et morphosyntaxique. Sur la base de ces différents critères, nous avons défini une métrique permettant de juger pertinente les pages groupant le maximum des caractéristiques identifiées dans la première colonne du tableau 1. Cette métrique ainsi que ses différentes composantes sont décrites dans la section suivante.
10 6. Mesure de la pertinence des pages Web A partir de l étude effectuée sur notre échantillon de 300 pages Web nous avons identifié différents critères permettant d assurer la pertinence d une page Web par rapport à nos besoins et sur la base desquels nous définissons notre métrique. Notre métrique se base sur trois critères différents que nous présentons dans ce que suit : Critère de forme : qui permet de vérifier si la page contient du texte ou pas. Ce critère que nous notons Cf est un facteur essentiel pour notre métrique car il permet de vérifier si le code source de la page est exploitable par le système ou pas. Ce critère est pris en compte afin de pouvoir gérer la structure des pages Web et de remédier au problème du Web invisible et des pages écrites en un langage de script, etc. Critère statistique : qui vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morphosyntaxique : qui vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept considéré constitue le sujet principal de la page). La formule générale de cette métrique est donnée par l équation [1]. Rdoc = Cf x (. Cstat +. Csynt) [1] Avec et des pondérations des critères statistiques (Cstat) et morphosyntaxique (Csynt). A l aide d une étude expérimentale, nous avons fixé la valeur de à 0.5 et celle de à 0.5. Ce choix est dû au fait qu une page ne peut être pertinente que si elle présente conjointement des critères statistiques acceptables mentionnant que le sujet général abordé dans cette page correspond à celui de la recherche ainsi que des critères morphosyntaxiques qui assurent une bonne forme linguistique de la page. Nous détaillons dans ce qui suit ces différents critères (Cf, Cstat et Csynt). Cf est un critère booléen qui vaut 1 si la page contient du texte et 0 sinon. Ce critère nous permet de vérifier d un point de vue pratique si la page est accessible par notre système ou non (si son code source est exploitable par le système ou pas). C est un critère primordial pour notre travail car si le code source
11 de la page est écrit en un langage de script qu on ne peut pas analyser, cette page devient sans intérêt pour nous. Cstat est un critère statistique calculant dans les pages, la fréquence d occurrence des termes de la requête et de ses lexicalisations. Pour le calcul de ce critère, on se base sur une version modifiée de la formule TF.iDF (Roberston, 1977) (cf. l équation [2]). Cstat = Tfreq. i Dfreq (T) [2] Tfreq représente le nombre d occurrences des termes de la requête et de toutes ses lexicalisations dans le document considéré. On entend par les termes de la requête, les termes porteurs d information dans la requête identifiés à l aide d une étude des relations entre les différents constituants de la requête. Dfreq (T) représente la fréquence totale d occurrence des termes de la requête et de toutes ses lexicalisations dans tous les documents modélisée par l équation [3]. [3] Avec : Nb Doc représentant le nombre total de documents considérés et Nb Doc (T) représentant le nombre de documents contenant le terme de la recherche et/ou une de ses lexicalisations. Csynt est un critère vérifiant des contraintes morphosyntaxiques et de position dans le document, il est défini par l équation [4]. Csynt = a Fs + b Fp + c Fl [4] Avec : Fs qui représente les facteurs liés aux sujets des phrases dans le document, Fp qui représente les pronoms de la troisième personne (singulier et/ou pluriel) employés dans la page et Fl qui représente la longueur des paragraphes. a, b et c correspondent aux corrélations respectives de Fs, Fp et Fl fixées par des expérimentations respectivement à 0.6, 0.2 et 0.2. Fs est défini comme le taux moyen d utilisation du terme de la recherche et de ses lexicalisations en tant que sujet dans le document, sa formule est donnée par l équation [5]. [5]
12 S (t, lex) : le nombre d occurrences du terme de la recherche et de ses lexicalisations en position de sujet dans les phrases (s il est positionné devant un verbe conjugué) ; Nb ph : le nombre total des phrases dans la page. Fp est défini comme le taux d utilisation des pronoms de la troisième personne dans la page et est calculé par l équation [6]. [6] Avec P 3 et P t représentant respectivement le nombre de pronoms de la troisième personne (il(s), elle(s)) dans la page et le nombre total des pronoms utilisés dans la page. Fl est défini comme étant la longueur moyenne des paragraphes dans la page considérée et est calculé par l équation [7]. [7] Avec Long p(j) la longueur du paragraphe j dans la page (en terme de nombre de phrases) et NTp le nombre total de paragraphes dans la page. Le résultat final de notre métrique est un score attribué à la page considérée permettant de la classer parmi les autres pages restituées par le moteur de recherche. Plus le score d une page est élevé, plus elle est considérée par notre système comme pertinente. L évaluation de la pertinence des pages constituant notre corpus de travail (présenté plus haut) à l aide de notre métrique nous a permis de fixer les différents seuils. Ces seuils nous permettent de juger, suivant le score obtenu pour une page donnée, si elle est pertinente ou pas (cf. figure 4). L échantillon des 100 pages non pertinentes a donné un score calculé par la métrique compris entre [0, Q 0 ], avec Q 0 = 0.2 ; le deuxième échantillon de pages de qualité moyenne a donné un score compris entre [Q 0 et Q 1 ], avec Q 1 = 0.6 ; et l échantillon de pages pertinentes a donné un score supérieur à Q 1.
13 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, Pertinente Moyenne Non pertinente Figure 3. Seuils de la métrique D après ces résultats et dans le cadre de WebSum, nous considérons que toute page ayant un score inférieur à Q0 comme non pertinente, les pages ayant un score supérieur à Q1 comme pertinentes et les pages ayant un score compris entre les deux comme pages de qualité moyenne. 7. Evaluation de la métrique Pour évaluer les performances de notre système, et plus précisément, les résultats de la classification des pages Web par la métrique décrite dans cet article, nous nous sommes basés sur deux mesures habituellement utilisées en classification : la précision et le rappel. Le rappel est le rapport du nombre de documents pertinents trouvés par le système au nombre de documents pertinents disponibles. Il s'agit de la proportion de documents bien classés pour la classe des documents pertinents. La précision est la proportion de documents pertinents parmi les documents sélectionnés. Cette quantité ne représente pas un taux d'exemples bien classés par rapport à une classe et n'est donc pas normalisée. Ces deux notions sont souvent utilisées car elles reflètent le point de vue de l'utilisateur : si la précision est faible, l'utilisateur sera insatisfait car il devra perdre du temps à lire des informations qui ne l'intéressent pas. Si le rappel est faible, l'utilisateur n'aura pas accès à une information qu'il souhaitait avoir. L évaluation de la pertinence de notre système WebSum est en cours d élaboration. Dans le cadre de cet article, nous avons mené des expérimentations préliminaires permettant de donner une idée approximative sur la qualité du classement des pages Web réalisé par notre métrique.
14 Afin de déterminer les valeurs du rappel et de la précision pour notre métrique, nous avons sélectionné 15 requêtes (différentes des précédentes) relevant du domaine grand public (médecine, éducation, société, religion). Pour chaque requête, nous avons récupéré les 100 premières pages fournies par Google et l ensemble des pages retenues par WebSum classées suivant l ordre déterminé par la métrique que nous avons ensuite fourni à des évaluateurs (10 sujets humains de formations différentes). Le rôle de ces sujets est de déterminer, dans un premier temps, parmi les réponses fournies par le moteur de recherche le nombre de pages qu ils jugent pertinentes par rapport à la requête. Dans un deuxième temps, ils doivent déterminer, parmi les pages retenues par notre métrique, celles qui sont pertinentes. En fonction des résultats donnés par les évaluateurs, nous avons calculé les valeurs de la précision et du rappel de notre système que nous illustrons par la figure ,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Rappel Précision Figure 4. Précision et rappel de la métrique La figure 5 présente, pour chaque requête (représenté sur l axe des abscisses) sa valeur de rappel représenté en pointillé sur la figure 5 et sa valeur de précision représenté en rouge sur la figure 6. D après les résultats de ces évaluations, nous constatons que les valeurs du rappel sont comprises entre 0,7 et 0,94 et que celles de la précision sont comprises entre 0,68 et 0,92. Ce qui donne une valeur moyenne pour le rappel de 0,85 et 0,8 pour la précision. Ces résultats donnent pour le moment des performances très acceptables pour notre méthode d évaluation des pages Web et montrent qu elle sélectionne des réponses très proches de celles sélectionnées par un sujet humain avec un gain de temps considérable. Cette méthode d évaluation n est pas suffisante pour évaluer la qualité du classement réalisé par notre métrique. Les valeurs de la précision et du rappel permettent de donner une idée sur la qualité des réponses sélectionnées par le
15 système mais n évaluent pas l ordre dans lequel ces réponses ont été classées. Pour compléter cette évaluation, nous nous sommes basés sur les techniques issues de la psychologie expérimentale. Nous avons mis en place un protocole d évaluation sous forme de questionnaires (envoyés par mail) pour recueillir des résultats de classements effectués par des sujets humains. Nous les comparons ensuite avec les résultats du classement de WebSum pour évaluer ses performances. Cette évaluation est en cours élaboration, nous sommes actuellement en phase de collecte des résultats. 8. Conclusion Dans cet article, nous avons présenté une méthode d évaluation de la pertinence des pages Web par rapport aux attentes de l utilisateur et par rapport aux besoins de la génération de résumé automatique. Cette méthode permet de vérifier, outre les critères standards (statistiques) utilisés par la majorité des moteurs de recherche, d autres critères liés à la forme linguistique de la page et à certains critères morphosyntaxiques. Les premiers résultats obtenus de notre métrique sont satisfaisants et ont montré son double apport. D abord, par rapport à la qualité d informations obtenues à partir d une requête utilisateur et ensuite, par rapport au gain considérable de temps réalisé pour la sélection des informations pertinentes. À ce jour, nous avons évalué la capacité de notre système à sélectionner des réponses pertinentes. Nous pensons qu une seconde expérimentation s avère nécessaire pour évaluer la capacité de notre métrique à classer les pages par ordre de pertinence. Nous adopterons pour ces prochaines évaluations une approche basée sur des techniques issues de la psychologie expérimentale. 9. Références Barzilay Regina, Mc Keown, Kathleen R., Elhadad Michael, «Information fusion in the context of multi-document summarization», Proceedings of the 37 th annual Meeting of the ACL, 1999, p Brandow, R., Mitze, K. et Rau, L. F., «Automatic condensation of electronic publications by sentence selection», Information Processing and Management, vol. 31, n 5, 1995, p Cho, J., Garcia-Molina, H., «The evolution of the web and implications for an incremental crawler», Proceedings of the 26 th International Conference on Very Large Database Systems, Cairo, Egypt, 2000, p Edmundson, H. P., «New methods in automatic abstracting», Journal of the ACM, vol.16, n 2, 1969, p
16 Jenhani El Jed, O., «Contribution of the Generative Lexicon to the Production of Encyclopaedic Summary», Generative lexicon conference, Genève, Mai 2005, p Kupiec, J., Pederson, J. et Chen, F., «A trainable document summarizer», Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, 1995, p Lawrence, S. et Lee Giles, C., «Context and page analysis for improved web search», IEEE Internet Computing, vol. 2, n 4, 1998, p Mani, Inderjeet, Bloedorn, Eric, «Summarizing similarities and differences among documents», Information Retrieval, Vol. 1, n 1, 1999, p Pustejovsky, J. The Generative Lexicon, MIT Press, Cambridge, Radev, D. R. et Fan, W., «Automatic summarization of search engine hit lists», Proceedings of ACL Workshop on Recent Advances in NLP and IR, Hong Kong, Octobre Radev, Dragomir R., McKeown, Kathleen R., «Generating natural language summaries from multiple on-line sources», Computational Linguistics, Vol. 24, n 3, 1998, p Rijsbergen, V., Information retrieval, 2nd edition, London, Butterworths, Roberston, S.E., «The probability ranking principle in IR», Journal of Documentation, vol. 33, 1977, p Sekine, S. et Nobata, C., «Sentence Extraction with Information Extraction technique», Proceedings of ACM SIGIR'01 Workshop on Text Summarization, New Orleans, Septembre Annexe Liste des requêtes Santé Société Informatique «Définition obésité» «Cause varice» «Traitement diabète» «Symptômes intoxication» «Alimentation bébé» «Prévention grippe» «Cause gastro-entérite» «Procédure divorce» «Prévention délinquance» «Conséquence alcoolisme» «Cause échec scolaire» «Risque tabagisme» «Protection animaux» «Violence mineur» «Rôle technologie communication» «Type réseaux locaux» «Caractéristique réseau sans fils» «Notion de base XML» «Définition système d exploitation» «Moyen protection Spam»
Méthode de classification des réponses d un moteur de recherche
SETIT 2005 3 rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche
Plus en détailClassification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Plus en détailStructuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,
Plus en détailUne méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailRI sociale : intégration de propriétés sociales dans un modèle de recherche
RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détailEntreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Plus en détailGuide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques
Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailIntégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples
TALN 2008, Avignon, 9-13 juin 2008 Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples Fatma Kallel Jaoua (1),
Plus en détailNom de l application
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique
Plus en détailRédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web
Rédiger pour le web Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web Sommaire 1. Rédiger des contenus... 2 Lire à l écran : une lecture contraignante... 2 Ecrire des phrases
Plus en détailUn dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus
JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,
Plus en détailRessources lexicales au service de recherche et d indexation des images
RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailFormation à la recherche documentaire sur le web
Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches
Plus en détailCognit Ive Cas d utilisation
Cognit Ive Cas d utilisation 96-98, rue de Montreuil - 75011 Paris _ opicot@ _ + 33 (0)1 40 09 71 55 Sommaire Présentation de la plateforme Cognit Ive SemanticMail : Traitement sémantique des mails Projets
Plus en détailRéussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN : 978-2-212-12264-0
Réussir son référencement web Olivier Andrieu Groupe Eyrolles, 2008, ISBN : 978-2-212-12264-0 Table des matières CHAPITRE 1 Le référencement aujourd hui : généralités, définitions......................................
Plus en détailLA RECHERCHE DOCUMENTAIRE
LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur
Plus en détailProposition des cadres d évaluation adaptés à un système de RI personnalisé
Proposition des cadres d évaluation adaptés à un système de RI personnalisé Mariam Daoud, Lynda Tamine-Lechani Laboratoire IRIT, Université Paul Sabatier 118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9
Plus en détail10 points clés pour bien démarrer votre projet web
10 points clés pour bien démarrer votre projet web Un cahier des charges pour cerner votre projet Afin de vous aider dans la réflexion de votre futur site Internet, ADVEO a conçu une check-list avec les
Plus en détailTechniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete
Plus en détailCONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un
Plus en détail1 Description générale. Résumé
Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,
Plus en détailOFFRE DE SERVICE. www.votreentreprise.com
2011 NOM ENTREPRISE OFFRE DE SERVICE CONCEPTION, REALISATION ET HEBERGEMENT SITE WEB www.votreentreprise.com AFConsulting Web Services Page 1 sur 19 SOMMAIRE Lettre, offre de services --------------------------------------------
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailWEBSEMINAIRE INTRODUCTION AU REFERENCEMENT
WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du
Plus en détailInitiation à la recherche documentaire
Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailRecherche bibliographique
Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailRecherche d information textuelle
Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents
Plus en détailRecherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus
1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à
Plus en détailCatalogue des formations. www.benin.campusfrance.org
Mon Guide illustré : Catalogue des formations www.benin.campusfrance.org 2 SOMMAIRE INTRODUCTION.4 I. COMMENT ACCEDER AU CATALOGUE..4 II. COMMENT EFFECTUER SES RECHERCHES...8 III. COMMENT LIRE ET EXPLOITER
Plus en détailRéférencement Naturel ou SEO Search Engine Optimization
Agence Référencement R & WebMarketing www.1ere-position.fr Référencement Naturel ou SEO Search Engine Optimization 24 avril 2009 - SNPAR 1ère Position S.A. (siège social) Savoie Technolac - Alouette II
Plus en détailHervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailTHOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système
Plus en détailLamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Plus en détailREMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE
Plus en détailiil est désormais courant de trouver sur Internet un document
Matériels et systèmes L Acrobat qui cherche dans les PDF Michel NARCY - Formateur TICE et Médialog Bulletin officiel, programmes d enseignement, articles de quotidiens ou de revues scientifiques... De
Plus en détailBUSINESS INTELLIGENCE
GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailTRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Plus en détailCAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE
PREMIER MINISTRE SECRÉTARIAT GÉNÉRAL DU GOUVERNEMENT CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE SUR LES SITES INTERNET GÉRÉS PAR LA DOCUMENTATION
Plus en détailÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE
ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca
Plus en détailCONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A
CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A ONUSIDA/CCP (36)/15.12 Date de publication : 24 juin 2015 TRENTE-SIXIÈME RÉUNION Date : 30 juin - 2 juillet 2015 Lieu : Salle du conseil exécutif,
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailTEXT MINING. 10.6.2003 1 von 7
TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailGuide utilisateur i-milo >> Décisionnel
Guide utilisateur i-milo >> Décisionnel Suivi des changements Version Date Chapitres impactés Opération effectuées sur le document 01 28/02/2014 Tous Initialisation du document pour les utilisateurs Contact
Plus en détailA l Aise Web - Liens sponsorisés
Référencement Web Analytique Webmarketing A l Aise Web - Liens sponsorisés Etudes & veille Comment éviter les pièges du référencement payant? Formations Mediaveille Une offre bâtie autour de 5 expertises
Plus en détailPlan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal
Plan de cours ADM 992C Page 1 École des sciences de la gestion Département de management et technologie Université du Québec à Montréal ADM-992C LES TECHNOLOGIES D'AIDE À LA PRISE DE DÉCISION DANS LES
Plus en détailRédiger et administrer un questionnaire
Rédiger et administrer un questionnaire Ce document constitue une adaptation, en traduction libre, de deux brochures distinctes : l une produite par l American Statistical Association (Designing a Questionnaire),
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailVERS UN SYSTÈME COLLABORATIF POUR LA MISE À JOUR DE RÉFÉRENTIELS GÉOGRAPHIQUE
CO-153 VERS UN SYSTÈME COLLABORATIF POUR LA MISE À JOUR DE RÉFÉRENTIELS GÉOGRAPHIQUE VIGLINO J.M. IGN-F, SAINT-MANDÉ, FRANCE RESUME La vulgarisation des technologies de communication actuels tels que les
Plus en détailEXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailMANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE. Documentation utilisateur Octobre 2005
MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE Documentation utilisateur Octobre 2005 I. Principes 1.1 - Généralités Les personnes autorisées à intervenir sur le site sont enregistrées par
Plus en détailNOS SERVICES NOTRE METHODOLOGIE
1 1 NOS SERVICES Nous vous proposons nos services pour renforcer et optimiser votre trafic sur internet et augmenter votre chiffre d affaires Search Engine Marketing * REFERENCEMENT NATUREL (SEO) * REFERENCEMENT
Plus en détailGuide Utilisateur simplifié Proofpoint
Guide Utilisateur simplifié Proofpoint Ce guide utilisateur simplifié Proofpoint vous permet de mieux comprendre comment utiliser l interface de gestion de votre quarantaine de courriers indésirables.
Plus en détailACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES
ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique
Plus en détailPréparer un état de l art
Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux
Plus en détailChef de file dans le développement de solutions de gestion de contenu
Chef de file dans le développement de solutions de gestion de contenu Depuis 1997, Groupe EBI s est donné comme mission de proposer des solutions de gestion du patrimoine informationnel des organisations
Plus en détailOSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR
OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR HISTORIQUE DES VERSIONS Vers. Date Rédacteur Objet de la modification 1.00 Juillet 2007 GTBO_AGRI Création du document 1.01 Février 2009 SAMOA
Plus en détailForthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
Plus en détailMEGA ITSM Accelerator. Guide de Démarrage
MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune
Plus en détailwww.habefast.ch contact@habefast.ch Agence web en Suisse romande CH-1260 Nyon 022 362 25 70
1 By Agence web en Suisse romande 2 Qu est ce qu est le SEO? Le référencement naturel ou SEO (Search Engine Optimisation) est une pratique qui, comme son nom l indique, permet d optimiser un site web pour
Plus en détailDES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION
OBJECTIFS GÉNÉRAUX DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION Découvrir les principales fonctionnalités des outils de
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailwww.breizhconsulting.fr Centre de formation digital et communication : www. Komelya.fr
«Optimiser une campagne google adwords» Merci de mettre votre portable en mode silencieux Mais vous pouvez twitter C est au programme Comment ça fonctionne? À quoi devez-vous faire attention? Comment trouver
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailSearch Engine Marketing. Impact des campagnes marketing
Search Engine Marketing Impact des campagnes marketing Etude réalisée du 01/10/2006 au 31/10/2006 sur un périmètre de 822 sites web audités par XiTi ayant déclaré des campagnes marketing, cf méthodologie
Plus en détailLa base de données dans ArtemiS SUITE
08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et
Plus en détailCours Base de données relationnelles. M. Boughanem, IUP STRI
Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),
Plus en détailDe la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues
De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox
Plus en détailProblématiques de recherche. Figure Research Agenda for service-oriented computing
Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements
Plus en détailBibliothèque Esparron en livres. www.esparron-en-livres.com
Les réseaux sociaux Chapitre 1 : Les réseaux sociaux Chapitre 2 : 14 moyens pour être plus visible sur Facebook Chapitre 3 : Comment créer un compte Facebook Chapitre 4 : Statistiques en France Les réseaux
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailRecherche. Instructions d utilisation de ce Tutoriel. Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce.
Instructions d utilisation de ce Tutoriel Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce. Le SNDL propose à ses usagers deux modes de recherche: Recherche
Plus en détailPremier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) 28-29 mai 2008
Premier colloque international sur la veille stratégique multilingue Université de Genève (ETI, Suisse) 28-29 mai 2008 La Veille multilingue : défense et illustration de la traduction stratégique Mathieu
Plus en détailAGROBASE : un système de gestion de données expérimentales
AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.
Plus en détailRéférencement naturel
Référencement naturel 1er novembre 2011 Pour optimiser votre positionnement dans les moteurs de recherche, renforcer votre visibilité en ligne et améliorer le contenu de votre site web pour le référencement
Plus en détailService On Line : Gestion des Incidents
Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée
Plus en détailEstimer et mesurer la performance des projets agiles avec les points de fonction
Estimer et mesurer la performance des projets agiles avec les points de fonction Radenko Corovic, MBA radenko.corovic@rsmtechno.ca 1. Introduction Les méthodes agiles de développement des systèmes ont
Plus en détailExpériences de formalisation d un guide d annotation : vers l annotation agile assistée
Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de
Plus en détailJeudi 30 avril 2009. L art de bien référencer son site Internet
Jeudi 30 avril 2009 L art de bien référencer son site Internet Quelques chiffres 1.2 milliard d internautes dans le monde. 343 millions d internautes en Europe. (InternetworldStats, November 2007) 250
Plus en détailGoogle Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller.
Google Documents Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller. Phase préliminaire: Pensez à identifier le public que vous souhaitez cibler Pensez
Plus en détailAnalyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein
Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs
Plus en détailLES TOUT PREMIERS PAS
DESMODO, un logiciel de gestion d idées http://www.desmodo.net/ LES TOUT PREMIERS PAS Desmodo est un logiciel (libre) qui permet, entre autre, de visualiser et de synthétiser, de manière organisée, sous
Plus en détailÉvaluation des logiciels et autres réalisations
DOCUMENT D ANALYSE DE LA COMMISSION D ÉVALUATION DE L INRIA Évaluation des logiciels et autres réalisations Préparé par David Margery, Jean-Pierre Merlet, Cordelia Schmid, Agnès Sulem, Paul Zimmermann
Plus en détailUTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence
Plus en détailChapitre 4 Évaluation des performances d'un filtre
Chapitre 4 : Evaluation des performances d'un filtre 33 Chapitre 4 Évaluation des performances d'un filtre Pour comparer les différents systèmes de filtrage, il faut définir une mesure pour évaluer leurs
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailEtude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011
Etude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011 SOMMAIRE Synthèse et Conclusion... 1 Introduction... 4 1. La description
Plus en détailSUGARCRM MODULE RAPPORTS
SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur
Plus en détail