Classification des réponses d un moteur de recherche et évaluation de leur pertinence

Dimension: px
Commencer à balayer dès la page:

Download "Classification des réponses d un moteur de recherche et évaluation de leur pertinence"

Transcription

1 Classification des réponses d un moteur de recherche et évaluation de leur pertinence Olfa Jenhani El Jed IRIT/ ILPL Institut de Recherche en Informatique de Toulouse 118 Route de Narbonne Toulouse Cedex 4 jenhani@irit.fr RÉSUMÉ Dans cet article, nous proposons une méthode d évaluation de la pertinence des pages Web. Ce travail s inscrit dans le cadre général de la recherche d information et plus précisément dans le but de la construction d un résumé automatique de type encyclopédique à partir des réponses d un moteur de recherche. Ce type de résumé offre une nouvelle approche de classification des réponses d un moteur de recherche. Dans cet article, nous présentons globalement notre approche de classification et nous détaillons notre méthode d évaluation de la pertinence des pages Web. Cette méthode se base sur des critères de forme permettant d évaluer la forme globale de la page, des critères statistiques vérifiant la correspondance entre les termes de la requête et le thème général des pages et des critères linguistiques assurant la bonne forme linguistique des pages. ABSTRACT. In this paper, we propose a method for evaluation of relevance in Web pages. This work joins in the general framework of Information Retrieval (IR) and more precisely, with the aim of constructing an automatic summary in encyclopaedic style. This summary type allows a new approach of Web page classification. In this paper, we present our classification approach and we detail our method for Web page relevance evaluation. This method is based on form criteria allowing to estimate the global form of the page and its capacity to produce a summary, statistical criteria verifying the correspondence between the request and the general topic of pages and linguistic criteria that guarantee a good linguistic form of pages. MOTS-CLÉS : pertinence. recherche d information, classification des pages Web, évaluation de la KEYWORDS: Information retrieval, Web page classification, relevance evaluation.

2 1. Introduction Les récentes avancées des technologies Web et la généralisation des outils de communication ont rendu la recherche d information sur le Web de plus en plus difficile. Les raisons profondes de ces difficultés proviennent essentiellement de l accroissement considérable du nombre de pages Web disponibles, la diversité de leurs structures et de leurs contenus ainsi que la présence d une importante quantité d informations inutiles comme les liens vers des pages inexistantes ou vides, les pages et les bannières publicitaires, etc. Une analyse, même rapide, des réponses d un moteur de recherche montre que l utilisateur est souvent confronté à diverses difficultés: Une masse d information peu structurée et parfois peu pertinente : beaucoup de publicité, plusieurs pages sans contenu informationnel, etc. ; Une structure complexe des pages Web : souvent les pages Web contiennent outre le texte, des images, des frames, des animations, etc. ; Aucune garantie d une bonne forme linguistique des pages : présence de phrases incomplètes, mal structurées comme le cas des forums de discussion par exemple ; Une variété de sujets : c est le problème des pages à plusieurs sujets comme c est le cas pour les portails, d où une difficulté de repérage de la partie qui intéresse l utilisateur. Afin de satisfaire ses besoins, un utilisateur doit procéder à un tri important, ce qui requiert un effort considérable de sa part et une perte de temps qui peut être importante. Il est important, à ce stade d avancement technologique, d automatiser cette lourde tâche de fouille à la recherche des réponses pertinentes et d offrir aux utilisateurs des outils permettant de faciliter la recherche d information sur le Web et d exploiter rapidement et efficacement les réponses fournies par les moteurs de recherche. Nos travaux de recherche s inscrivent dans cette problématique. Nous proposons une solution basée sur le résumé automatique des réponses des moteurs de recherche dans un style encyclopédique. Il s agit de permettre aux utilisateurs de récupérer, à partir des requêtes soumises au moteur de recherche, les réponses organisées sous différents aspects (liés à la requête) et classées par ordre de pertinence. Nous nous focalisons particulièrement dans cet article sur notre méthode d évaluation de la pertinence des pages Web. Cette méthode permet de : sélectionner les pages les plus pertinentes par rapport à une requête; vérifier leur contenu informationnel et leur forme linguistique;

3 classer les pages sélectionnées par ordre de pertinence suivant leur degré d informativité. L originalité de ce travail réside dans le fait que nous enrichissons notre méthode d évaluation par des critères nouveaux qui viennent compléter ceux traditionnellement utilisés par la plupart des systèmes actuels de recherche d information. Ces critères correspondent essentiellement à des critères linguistiques et des critères morphosyntaxiques qui sont détaillés dans la section 6. Cet article est organisé comme suit. Nous présentons dans la section 2 le cadre général de nos travaux. La section 3 présente un bref état de l état des différents travaux qui se sont intéressés à l évaluation de la pertinence des documents. La section 4 décrit la méthodologie adoptée pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Notre métrique d évaluation de la pertinence est détaillée dans la section 5. Enfin, nous présentons, avant de conclure, les résultats d une évaluation préliminaire de notre méthode. 2. Cadre de travail Ce travail s inscrit dans le cadre du projet de recherche WebSum. WebSum est un système de résumé automatique de pages Web dans un style encyclopédique. Ce système offre une nouvelle approche de classification de réponses d un moteur de recherche et permet une visualisation rapide et structurée de ces dernières. L objectif global de WebSum est de classer les réponses d un moteur de recherche suivant les différentes facettes de la requête utilisateur selon un ordre de pertinence déterminé par une métrique qui fait l objet de ce présent article. Nous considérons le terme «facettes» pour désigner tous les aspects liés à la requête utilisateur et permettant de structurer les informations relatives à cette dernière (Jenhani, 2005). Notre méthode d identification des facettes à partir de la requête utilisateur se base sur des techniques TAL (traitement automatique du langage) et plus précisément sur le Lexique Génératif (Pustejovsky, 1995). Afin de mieux expliquer le principe de notre système, nous illustrons son fonctionnement par l exemple qui suit. Suite à la requête «obésité enfant», WebSum fournit une représentation des réponses restituées par le moteur de recherche dans un style encyclopédique soulignant les principales facettes de la requête. Ces facettes peuvent être dans ce cas d exemple, la définition et les symptômes de l obésité, les causes de cette maladie ainsi que ses conséquences et les moyens de sa prévention et de son traitement. L objectif de notre approche est de fournir à l utilisateur, sous chaque facette, une courte description de la facette considérée de la requête ainsi que les différents liens Web en rapport avec ce dernier. La problématique de notre travail rejoint celle du résumé des pages Web et la gestion et l organisation de l information.

4 La plupart des systèmes de résumé automatique fonctionnent en effet par extraction de passages ou de phrases, que leur approche soit fondée sur des critères essentiellement statistiques, comme par exemple (Radev et al., 2000), ou des critères plus linguistiques (Radev et al., 1998), (Barzilay et al., 1999), (Mani et al., 1999). Dans notre approche, nous mettons l accent sur l utilisation conjointe de techniques d extraction d information et de techniques de traitement automatique du langage basées sur des ressources de représentation de connaissances et des méthodes de description des patrons d extraction. Dans ce qui suit, nous donnons un aperçu global de WebSum afin de mieux expliquer l objectif de notre travail ainsi que les techniques et les ressources utilisées pour son élaboration. 3. Aperçu général de WebSum WebSum est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses restituées par un moteur de recherche à une requête utilisateur. Notre système s appuie sur une ontologie conceptuelle du domaine constituée par des concepts reliés entre eux à l aide de la relation d hyponymie (is-a, est-un) et des facettes attribuées aux concepts les plus généraux de cette ontologie. L objectif global de WebSum est de filtrer, parmi les réponses d un moteur de recherche, celles qui se rapportent aux facettes de la requête (étapes 1 et 2 de la figure 1) et de les organiser sous les rubriques adéquates (représentées par les différentes facettes). Ensuite, WebSum classe les réponses au sein d une même rubrique par ordre de pertinence et élimine celles de moindre importance (étape 3 de la figure 1). Les étapes de filtrage et de sélection sont assurées par une méthode d extraction d information basée sur des grammaires et des patrons d extraction. L étape de classement des pages Web par ordre de pertinence est assurée par une métrique que nous présentons dans la section 6.

5 Figure 1. Fonctionnement de WebSum Comme nous le voyons à la figure 1, la première étape de WebSum correspond à la soumission de la requête utilisateur au moteur de recherche. La deuxième étape correspond à la restitution des réponses adéquates avec les différentes facettes considérées. La dernière étape de WebSum (étape 3) correspond à la classification de ces réponses selon les différentes facettes de la requête puis, à leur classement à l intérieur de chaque facette par ordre de pertinence à l aide de la métrique que nous présentons dans ce qui suit. Cette métrique évalue les pages Web et les classe suivant leur pertinence par rapport à la requête utilisateur et la facette considérée. A partir d une petite expérimentation que nous avons effectuée sur le moteur de recherche Google, qui consiste à la soumission de la requête «sorbitol» en vue d avoir sa définition. Nous avons remarqué que pour trouver une réponse satisfaisante à nos besoins, nous étions amener à visiter au moins six pages avant de retenir la septième qui comporte la définition recherchée. En utilisant notre méthode d évaluation de la pertinence (en soumettant la même requête à WebSum), nous avons trouvé cette même page (contenant la définition de ce médicament) classée en première position dans la rubrique définition.

6 La métrique que nous présentons dans cet article a un intérêt majeur pour la recherche d information en général qui sera confirmé par les résultats des évaluations présentés à la fin de ce présent document. Dans la suite de cet article, nous présentons d abord les différents travaux qui se sont intéressés à la mesure de la pertinence d un document, puis nous décrivons notre méthodologie pour la définition des différents critères de pertinence d une page Web par rapport à nos besoins. Ensuite, nous donnons une description détaillée de notre métrique avant de présenter les résultats de son évaluation. 4. Etat de l art La plupart des travaux de résumé automatique se sont intéressés à l évaluation d une phrase par rapport aux autres phrases d un même document ou d un autre document dans le cas de résumé multi-documents. Dans ces travaux, la plupart des critères utilisés pour le repérage des fragments les plus pertinents pour la génération automatique de résumé sont des critères statistiques comme : La position de la phrase dans le document (Edmundson, 1969), (Sekine et al., 2001), (Radev et al., 2000) : cette méthode privilégie les phrases situées au début d un paragraphe aux phrases situées à la fin. La longueur de la phrase (Edmundson, 1969) et (Sekine et al., 2001) : les phrases inférieures à un certain seuil sont pénalisées. Les mots du titre (Sekine et al., 2001) : plus une phrase contient des mots utilisés dans le titre, plus elle est pertinente. Les mots repères (Edmundson, 1969), (Brandow et al., 1995), (Kupiec et al., 1995) : ce critère est basé sur l hypothèse que la pertinence des phrases est affectée par la présence de certains mots repères prédéfinis auparavant. Dans le cadre de l évaluation de la pertinence des pages Web, nous citons les travaux de (Lawrence et al., 1998) et (Cho et al., 1999) qui se sont intéressés particulièrement aux réponses des moteurs de recherche dans le but d améliorer la recherche d information sur le Web. Dans (Lawrence et al., 1998), les auteurs présentent une approche d évaluation de l importance des pages Web. Ils évoquent le problème de la définition des critères permettant l évaluation de ces pages et proposent une technique qui repose sur une combinaison des critères suivants : La similarité avec une requête donnée (évaluation sémantique) ; Le décompte des liens pointant vers cette page ; La localisation des pages (la position dans l'arborescence). Dans (Cho et al., 1999) les auteurs présentent un méta moteur de recherche dont le but principal est d améliorer l efficacité et la précision de la recherche sur le Web.

7 Leur méthode se base sur le téléchargement puis l analyse de chaque document pour pouvoir, par la suite, présenter les pages contenant les termes de la recherche dans leur contexte. La phase d analyse repose sur une simple mesure de pertinence. Cette mesure considère le nombre des termes de la requête dans le document, la proximité entre les termes de la requête (en terme de nombre de caractères séparant les termes) et la fréquence des termes. Les travaux que nous venons de présenter s intéressent davantage au positionnement d une page par rapport aux autres (en terme de popularité, position dans l arborescence du moteur de recherche et certains autres critères statistiques) qu aux autres critères assurant son contenu linguistique. Notre approche diffère des dernières approches présentées par la prise en compte de la structure de la page Web et propose une solution basée sur des critères liés à la fois à la forme de la page (structure et forme linguistique) mais également à des critères statistiques habituellement utilisés. Dans notre travail, nous exploitons les réponses fournies par le moteur de recherche Google 1. Ce moteur de recherche classe ses réponses suivant les critères suivants : L occurrence d un mot de la requête dans le document ; La position d un mot de la requête dans le document (méta titre, titre, soustitre, etc.) ; La proximité des termes de la requête dans le document ; La présence de tous les termes de la requête dans la page ; La popularité du site en termes de nombre de liens pointant vers le site. Dans notre travail, nous nous basons dans un premier temps sur le même classement que celui de Google : de ce fait, nous considérons ces mêmes critères de classification. Puis, dans un second temps, nous effectuons une deuxième sélection en se basant sur notre métrique afin de ne garder que les pages qui satisfont le besoin de l utilisateur et les critères de résumé dans un cadre plus particulier. Dans la section suivante, nous présentons notre méthodologie pour l élaboration des critères de la métrique ; ensuite nous détaillons ses différents éléments. 5. Méthodologie Une bonne connaissance du comportement de l internaute suite à une interrogation d un moteur de recherche est nécessaire pour mieux comprendre ses attentes et comment il peut juger la pertinence d une page Web. 1

8 D après une étude publiée en septembre 2004 au Journal du référencement 2, il s est avéré que plus de 80% des internautes s arrêtent au premier niveau des pages Web lors de leur consultation des réponses d un moteur de recherche. Cette constatation nous confirme qu une analyse de ce premier niveau des pages sera utile pour l identification des critères permettant de mesurer la pertinence d une page. Il faut souligner qu on entend par une page pertinente toute page présentant à la fois une réponse directe et claire à la requête de l utilisateur et contenant des éléments qui peuvent être résumables. La figure 2 illustre un exemple de page que nous considérons comme pertinente à la requête «définition obésité» et la figure 3 présente une page non pertinente. Figure 2. Exemple de page pertinente (à gauche) et non pertinente (à droite) La méthode que nous adoptons pour la définition des différents critères de pertinence d une page Web se base sur l étude d un corpus de pages Web collectées à partir de réponses d un moteur de recherche (Google) à différentes requêtes (20 requêtes présentées en annexe). Ces requêtes représentent des recherches simples sur le Web effectuées autour de domaines grand public (santé, société et éducation). L analyse du contenu de ces différentes pages nous a permis de les partager en trois groupes constituant trois échantillons de 100 pages chacun. Un échantillon regroupant les pages jugées pertinentes, un deuxième contenant des pages de qualité moyenne et le troisième de pages non pertinentes. Nous avons analysé ces différents échantillons dans le but d observer les différents éléments qui permettent de faire la distinction entre une page pertinente, une page moyenne et une page non pertinente. Suite à cette analyse, nous avons identifié les caractéristiques illustrées dans le tableau

9 Caractéristiques d une page pertinente Caractéristiques d une page non pertinente Page contenant du texte. La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez importante. Page décrivant le sujet en question sans l avis personnel de l auteur (emploi de il(s), elle(s)) ; Emploi des termes de la requête ou de ses lexicalisations en tant que sujet des phrases Utilisation des termes de la recherche dans le titre et/ou le sous-titre ; Paragraphes pas trop longs (5 à 10 phrases). Page contenant une (des) image(s) sans signification ; Page contenant un menu ou une liste pointant vers différents thèmes similaires (du même type ontologique) à celui de la recherche ; Page ne contenant que des liens vers des documents (.doc,.pdf, etc.). La fréquence d occurrence du terme de la recherche et/ou ses lexicalisations est assez faible. Page décrivant le sujet en question en mettant l accent sur l avis personnel de l auteur (emploi de je, nous et on) ; Emploi des termes de la requête ou de ses lexicalisations en tant que complément ou autres fonctions ; Paragraphes très longs (supérieurs à 10 phrases). Tableau 1. Caractéristiques de la pertinence ou de la non pertinence d une page Web Le tableau 1 présente les principales différences entre une page pertinente et une page qui ne l est pas. D après cette étude et à partir des différentes caractéristiques identifiées, nous constatons que pour l évaluation de la pertinence d une page Web, il importe de vérifier, dans un premier temps, la forme globale de la page, ensuite son sujet général et sa correspondance avec les termes de la requête et enfin sa bonne forme linguistique et morphosyntaxique. Sur la base de ces différents critères, nous avons défini une métrique permettant de juger pertinente les pages groupant le maximum des caractéristiques identifiées dans la première colonne du tableau 1. Cette métrique ainsi que ses différentes composantes sont décrites dans la section suivante.

10 6. Mesure de la pertinence des pages Web A partir de l étude effectuée sur notre échantillon de 300 pages Web nous avons identifié différents critères permettant d assurer la pertinence d une page Web par rapport à nos besoins et sur la base desquels nous définissons notre métrique. Notre métrique se base sur trois critères différents que nous présentons dans ce que suit : Critère de forme : qui permet de vérifier si la page contient du texte ou pas. Ce critère que nous notons Cf est un facteur essentiel pour notre métrique car il permet de vérifier si le code source de la page est exploitable par le système ou pas. Ce critère est pris en compte afin de pouvoir gérer la structure des pages Web et de remédier au problème du Web invisible et des pages écrites en un langage de script, etc. Critère statistique : qui vérifie que la page est pertinente par rapport au sujet traité et à la facette considérée. Ce critère se base sur la fréquence d occurrence de la facette et de ses lexicalisations dans la page, la fréquence d occurrence des termes de la requête dans la page et la longueur moyenne des paragraphes dans la page. Critère morphosyntaxique : qui vérifie la bonne forme linguistique du document et sa généricité. Ce critère privilégie l emploi du temps présent par rapport au passé ou au futur, l emploi de la troisième personne du singulier ou du pluriel par rapport aux autres pronoms comme je ou nous et l emploi de la facette ou du concept en tant que sujet des phrases (ceci nous permet de conclure que le concept considéré constitue le sujet principal de la page). La formule générale de cette métrique est donnée par l équation [1]. Rdoc = Cf x (. Cstat +. Csynt) [1] Avec et des pondérations des critères statistiques (Cstat) et morphosyntaxique (Csynt). A l aide d une étude expérimentale, nous avons fixé la valeur de à 0.5 et celle de à 0.5. Ce choix est dû au fait qu une page ne peut être pertinente que si elle présente conjointement des critères statistiques acceptables mentionnant que le sujet général abordé dans cette page correspond à celui de la recherche ainsi que des critères morphosyntaxiques qui assurent une bonne forme linguistique de la page. Nous détaillons dans ce qui suit ces différents critères (Cf, Cstat et Csynt). Cf est un critère booléen qui vaut 1 si la page contient du texte et 0 sinon. Ce critère nous permet de vérifier d un point de vue pratique si la page est accessible par notre système ou non (si son code source est exploitable par le système ou pas). C est un critère primordial pour notre travail car si le code source

11 de la page est écrit en un langage de script qu on ne peut pas analyser, cette page devient sans intérêt pour nous. Cstat est un critère statistique calculant dans les pages, la fréquence d occurrence des termes de la requête et de ses lexicalisations. Pour le calcul de ce critère, on se base sur une version modifiée de la formule TF.iDF (Roberston, 1977) (cf. l équation [2]). Cstat = Tfreq. i Dfreq (T) [2] Tfreq représente le nombre d occurrences des termes de la requête et de toutes ses lexicalisations dans le document considéré. On entend par les termes de la requête, les termes porteurs d information dans la requête identifiés à l aide d une étude des relations entre les différents constituants de la requête. Dfreq (T) représente la fréquence totale d occurrence des termes de la requête et de toutes ses lexicalisations dans tous les documents modélisée par l équation [3]. [3] Avec : Nb Doc représentant le nombre total de documents considérés et Nb Doc (T) représentant le nombre de documents contenant le terme de la recherche et/ou une de ses lexicalisations. Csynt est un critère vérifiant des contraintes morphosyntaxiques et de position dans le document, il est défini par l équation [4]. Csynt = a Fs + b Fp + c Fl [4] Avec : Fs qui représente les facteurs liés aux sujets des phrases dans le document, Fp qui représente les pronoms de la troisième personne (singulier et/ou pluriel) employés dans la page et Fl qui représente la longueur des paragraphes. a, b et c correspondent aux corrélations respectives de Fs, Fp et Fl fixées par des expérimentations respectivement à 0.6, 0.2 et 0.2. Fs est défini comme le taux moyen d utilisation du terme de la recherche et de ses lexicalisations en tant que sujet dans le document, sa formule est donnée par l équation [5]. [5]

12 S (t, lex) : le nombre d occurrences du terme de la recherche et de ses lexicalisations en position de sujet dans les phrases (s il est positionné devant un verbe conjugué) ; Nb ph : le nombre total des phrases dans la page. Fp est défini comme le taux d utilisation des pronoms de la troisième personne dans la page et est calculé par l équation [6]. [6] Avec P 3 et P t représentant respectivement le nombre de pronoms de la troisième personne (il(s), elle(s)) dans la page et le nombre total des pronoms utilisés dans la page. Fl est défini comme étant la longueur moyenne des paragraphes dans la page considérée et est calculé par l équation [7]. [7] Avec Long p(j) la longueur du paragraphe j dans la page (en terme de nombre de phrases) et NTp le nombre total de paragraphes dans la page. Le résultat final de notre métrique est un score attribué à la page considérée permettant de la classer parmi les autres pages restituées par le moteur de recherche. Plus le score d une page est élevé, plus elle est considérée par notre système comme pertinente. L évaluation de la pertinence des pages constituant notre corpus de travail (présenté plus haut) à l aide de notre métrique nous a permis de fixer les différents seuils. Ces seuils nous permettent de juger, suivant le score obtenu pour une page donnée, si elle est pertinente ou pas (cf. figure 4). L échantillon des 100 pages non pertinentes a donné un score calculé par la métrique compris entre [0, Q 0 ], avec Q 0 = 0.2 ; le deuxième échantillon de pages de qualité moyenne a donné un score compris entre [Q 0 et Q 1 ], avec Q 1 = 0.6 ; et l échantillon de pages pertinentes a donné un score supérieur à Q 1.

13 1,5 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, Pertinente Moyenne Non pertinente Figure 3. Seuils de la métrique D après ces résultats et dans le cadre de WebSum, nous considérons que toute page ayant un score inférieur à Q0 comme non pertinente, les pages ayant un score supérieur à Q1 comme pertinentes et les pages ayant un score compris entre les deux comme pages de qualité moyenne. 7. Evaluation de la métrique Pour évaluer les performances de notre système, et plus précisément, les résultats de la classification des pages Web par la métrique décrite dans cet article, nous nous sommes basés sur deux mesures habituellement utilisées en classification : la précision et le rappel. Le rappel est le rapport du nombre de documents pertinents trouvés par le système au nombre de documents pertinents disponibles. Il s'agit de la proportion de documents bien classés pour la classe des documents pertinents. La précision est la proportion de documents pertinents parmi les documents sélectionnés. Cette quantité ne représente pas un taux d'exemples bien classés par rapport à une classe et n'est donc pas normalisée. Ces deux notions sont souvent utilisées car elles reflètent le point de vue de l'utilisateur : si la précision est faible, l'utilisateur sera insatisfait car il devra perdre du temps à lire des informations qui ne l'intéressent pas. Si le rappel est faible, l'utilisateur n'aura pas accès à une information qu'il souhaitait avoir. L évaluation de la pertinence de notre système WebSum est en cours d élaboration. Dans le cadre de cet article, nous avons mené des expérimentations préliminaires permettant de donner une idée approximative sur la qualité du classement des pages Web réalisé par notre métrique.

14 Afin de déterminer les valeurs du rappel et de la précision pour notre métrique, nous avons sélectionné 15 requêtes (différentes des précédentes) relevant du domaine grand public (médecine, éducation, société, religion). Pour chaque requête, nous avons récupéré les 100 premières pages fournies par Google et l ensemble des pages retenues par WebSum classées suivant l ordre déterminé par la métrique que nous avons ensuite fourni à des évaluateurs (10 sujets humains de formations différentes). Le rôle de ces sujets est de déterminer, dans un premier temps, parmi les réponses fournies par le moteur de recherche le nombre de pages qu ils jugent pertinentes par rapport à la requête. Dans un deuxième temps, ils doivent déterminer, parmi les pages retenues par notre métrique, celles qui sont pertinentes. En fonction des résultats donnés par les évaluateurs, nous avons calculé les valeurs de la précision et du rappel de notre système que nous illustrons par la figure ,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Rappel Précision Figure 4. Précision et rappel de la métrique La figure 5 présente, pour chaque requête (représenté sur l axe des abscisses) sa valeur de rappel représenté en pointillé sur la figure 5 et sa valeur de précision représenté en rouge sur la figure 6. D après les résultats de ces évaluations, nous constatons que les valeurs du rappel sont comprises entre 0,7 et 0,94 et que celles de la précision sont comprises entre 0,68 et 0,92. Ce qui donne une valeur moyenne pour le rappel de 0,85 et 0,8 pour la précision. Ces résultats donnent pour le moment des performances très acceptables pour notre méthode d évaluation des pages Web et montrent qu elle sélectionne des réponses très proches de celles sélectionnées par un sujet humain avec un gain de temps considérable. Cette méthode d évaluation n est pas suffisante pour évaluer la qualité du classement réalisé par notre métrique. Les valeurs de la précision et du rappel permettent de donner une idée sur la qualité des réponses sélectionnées par le

15 système mais n évaluent pas l ordre dans lequel ces réponses ont été classées. Pour compléter cette évaluation, nous nous sommes basés sur les techniques issues de la psychologie expérimentale. Nous avons mis en place un protocole d évaluation sous forme de questionnaires (envoyés par mail) pour recueillir des résultats de classements effectués par des sujets humains. Nous les comparons ensuite avec les résultats du classement de WebSum pour évaluer ses performances. Cette évaluation est en cours élaboration, nous sommes actuellement en phase de collecte des résultats. 8. Conclusion Dans cet article, nous avons présenté une méthode d évaluation de la pertinence des pages Web par rapport aux attentes de l utilisateur et par rapport aux besoins de la génération de résumé automatique. Cette méthode permet de vérifier, outre les critères standards (statistiques) utilisés par la majorité des moteurs de recherche, d autres critères liés à la forme linguistique de la page et à certains critères morphosyntaxiques. Les premiers résultats obtenus de notre métrique sont satisfaisants et ont montré son double apport. D abord, par rapport à la qualité d informations obtenues à partir d une requête utilisateur et ensuite, par rapport au gain considérable de temps réalisé pour la sélection des informations pertinentes. À ce jour, nous avons évalué la capacité de notre système à sélectionner des réponses pertinentes. Nous pensons qu une seconde expérimentation s avère nécessaire pour évaluer la capacité de notre métrique à classer les pages par ordre de pertinence. Nous adopterons pour ces prochaines évaluations une approche basée sur des techniques issues de la psychologie expérimentale. 9. Références Barzilay Regina, Mc Keown, Kathleen R., Elhadad Michael, «Information fusion in the context of multi-document summarization», Proceedings of the 37 th annual Meeting of the ACL, 1999, p Brandow, R., Mitze, K. et Rau, L. F., «Automatic condensation of electronic publications by sentence selection», Information Processing and Management, vol. 31, n 5, 1995, p Cho, J., Garcia-Molina, H., «The evolution of the web and implications for an incremental crawler», Proceedings of the 26 th International Conference on Very Large Database Systems, Cairo, Egypt, 2000, p Edmundson, H. P., «New methods in automatic abstracting», Journal of the ACM, vol.16, n 2, 1969, p

16 Jenhani El Jed, O., «Contribution of the Generative Lexicon to the Production of Encyclopaedic Summary», Generative lexicon conference, Genève, Mai 2005, p Kupiec, J., Pederson, J. et Chen, F., «A trainable document summarizer», Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, 1995, p Lawrence, S. et Lee Giles, C., «Context and page analysis for improved web search», IEEE Internet Computing, vol. 2, n 4, 1998, p Mani, Inderjeet, Bloedorn, Eric, «Summarizing similarities and differences among documents», Information Retrieval, Vol. 1, n 1, 1999, p Pustejovsky, J. The Generative Lexicon, MIT Press, Cambridge, Radev, D. R. et Fan, W., «Automatic summarization of search engine hit lists», Proceedings of ACL Workshop on Recent Advances in NLP and IR, Hong Kong, Octobre Radev, Dragomir R., McKeown, Kathleen R., «Generating natural language summaries from multiple on-line sources», Computational Linguistics, Vol. 24, n 3, 1998, p Rijsbergen, V., Information retrieval, 2nd edition, London, Butterworths, Roberston, S.E., «The probability ranking principle in IR», Journal of Documentation, vol. 33, 1977, p Sekine, S. et Nobata, C., «Sentence Extraction with Information Extraction technique», Proceedings of ACM SIGIR'01 Workshop on Text Summarization, New Orleans, Septembre Annexe Liste des requêtes Santé Société Informatique «Définition obésité» «Cause varice» «Traitement diabète» «Symptômes intoxication» «Alimentation bébé» «Prévention grippe» «Cause gastro-entérite» «Procédure divorce» «Prévention délinquance» «Conséquence alcoolisme» «Cause échec scolaire» «Risque tabagisme» «Protection animaux» «Violence mineur» «Rôle technologie communication» «Type réseaux locaux» «Caractéristique réseau sans fils» «Notion de base XML» «Définition système d exploitation» «Moyen protection Spam»

Méthode de classification des réponses d un moteur de recherche

Méthode de classification des réponses d un moteur de recherche SETIT 2005 3 rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Méthode de classification des réponses d un moteur de recherche

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples TALN 2008, Avignon, 9-13 juin 2008 Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples Fatma Kallel Jaoua (1),

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web Rédiger pour le web Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web Sommaire 1. Rédiger des contenus... 2 Lire à l écran : une lecture contraignante... 2 Ecrire des phrases

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Formation à la recherche documentaire sur le web

Formation à la recherche documentaire sur le web Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches

Plus en détail

Cognit Ive Cas d utilisation

Cognit Ive Cas d utilisation Cognit Ive Cas d utilisation 96-98, rue de Montreuil - 75011 Paris _ opicot@ _ + 33 (0)1 40 09 71 55 Sommaire Présentation de la plateforme Cognit Ive SemanticMail : Traitement sémantique des mails Projets

Plus en détail

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN : 978-2-212-12264-0

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN : 978-2-212-12264-0 Réussir son référencement web Olivier Andrieu Groupe Eyrolles, 2008, ISBN : 978-2-212-12264-0 Table des matières CHAPITRE 1 Le référencement aujourd hui : généralités, définitions......................................

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

Proposition des cadres d évaluation adaptés à un système de RI personnalisé Proposition des cadres d évaluation adaptés à un système de RI personnalisé Mariam Daoud, Lynda Tamine-Lechani Laboratoire IRIT, Université Paul Sabatier 118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9

Plus en détail

10 points clés pour bien démarrer votre projet web

10 points clés pour bien démarrer votre projet web 10 points clés pour bien démarrer votre projet web Un cahier des charges pour cerner votre projet Afin de vous aider dans la réflexion de votre futur site Internet, ADVEO a conçu une check-list avec les

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

OFFRE DE SERVICE. www.votreentreprise.com

OFFRE DE SERVICE. www.votreentreprise.com 2011 NOM ENTREPRISE OFFRE DE SERVICE CONCEPTION, REALISATION ET HEBERGEMENT SITE WEB www.votreentreprise.com AFConsulting Web Services Page 1 sur 19 SOMMAIRE Lettre, offre de services --------------------------------------------

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents

Plus en détail

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus 1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à

Plus en détail

Catalogue des formations. www.benin.campusfrance.org

Catalogue des formations. www.benin.campusfrance.org Mon Guide illustré : Catalogue des formations www.benin.campusfrance.org 2 SOMMAIRE INTRODUCTION.4 I. COMMENT ACCEDER AU CATALOGUE..4 II. COMMENT EFFECTUER SES RECHERCHES...8 III. COMMENT LIRE ET EXPLOITER

Plus en détail

Référencement Naturel ou SEO Search Engine Optimization

Référencement Naturel ou SEO Search Engine Optimization Agence Référencement R & WebMarketing www.1ere-position.fr Référencement Naturel ou SEO Search Engine Optimization 24 avril 2009 - SNPAR 1ère Position S.A. (siège social) Savoie Technolac - Alouette II

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

iil est désormais courant de trouver sur Internet un document

iil est désormais courant de trouver sur Internet un document Matériels et systèmes L Acrobat qui cherche dans les PDF Michel NARCY - Formateur TICE et Médialog Bulletin officiel, programmes d enseignement, articles de quotidiens ou de revues scientifiques... De

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE PREMIER MINISTRE SECRÉTARIAT GÉNÉRAL DU GOUVERNEMENT CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE SUR LES SITES INTERNET GÉRÉS PAR LA DOCUMENTATION

Plus en détail

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca

Plus en détail

CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A

CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A ONUSIDA/CCP (36)/15.12 Date de publication : 24 juin 2015 TRENTE-SIXIÈME RÉUNION Date : 30 juin - 2 juillet 2015 Lieu : Salle du conseil exécutif,

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Guide utilisateur i-milo >> Décisionnel

Guide utilisateur i-milo >> Décisionnel Guide utilisateur i-milo >> Décisionnel Suivi des changements Version Date Chapitres impactés Opération effectuées sur le document 01 28/02/2014 Tous Initialisation du document pour les utilisateurs Contact

Plus en détail

A l Aise Web - Liens sponsorisés

A l Aise Web - Liens sponsorisés Référencement Web Analytique Webmarketing A l Aise Web - Liens sponsorisés Etudes & veille Comment éviter les pièges du référencement payant? Formations Mediaveille Une offre bâtie autour de 5 expertises

Plus en détail

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal Plan de cours ADM 992C Page 1 École des sciences de la gestion Département de management et technologie Université du Québec à Montréal ADM-992C LES TECHNOLOGIES D'AIDE À LA PRISE DE DÉCISION DANS LES

Plus en détail

Rédiger et administrer un questionnaire

Rédiger et administrer un questionnaire Rédiger et administrer un questionnaire Ce document constitue une adaptation, en traduction libre, de deux brochures distinctes : l une produite par l American Statistical Association (Designing a Questionnaire),

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

VERS UN SYSTÈME COLLABORATIF POUR LA MISE À JOUR DE RÉFÉRENTIELS GÉOGRAPHIQUE

VERS UN SYSTÈME COLLABORATIF POUR LA MISE À JOUR DE RÉFÉRENTIELS GÉOGRAPHIQUE CO-153 VERS UN SYSTÈME COLLABORATIF POUR LA MISE À JOUR DE RÉFÉRENTIELS GÉOGRAPHIQUE VIGLINO J.M. IGN-F, SAINT-MANDÉ, FRANCE RESUME La vulgarisation des technologies de communication actuels tels que les

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE. Documentation utilisateur Octobre 2005

MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE. Documentation utilisateur Octobre 2005 MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE Documentation utilisateur Octobre 2005 I. Principes 1.1 - Généralités Les personnes autorisées à intervenir sur le site sont enregistrées par

Plus en détail

NOS SERVICES NOTRE METHODOLOGIE

NOS SERVICES NOTRE METHODOLOGIE 1 1 NOS SERVICES Nous vous proposons nos services pour renforcer et optimiser votre trafic sur internet et augmenter votre chiffre d affaires Search Engine Marketing * REFERENCEMENT NATUREL (SEO) * REFERENCEMENT

Plus en détail

Guide Utilisateur simplifié Proofpoint

Guide Utilisateur simplifié Proofpoint Guide Utilisateur simplifié Proofpoint Ce guide utilisateur simplifié Proofpoint vous permet de mieux comprendre comment utiliser l interface de gestion de votre quarantaine de courriers indésirables.

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Préparer un état de l art

Préparer un état de l art Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux

Plus en détail

Chef de file dans le développement de solutions de gestion de contenu

Chef de file dans le développement de solutions de gestion de contenu Chef de file dans le développement de solutions de gestion de contenu Depuis 1997, Groupe EBI s est donné comme mission de proposer des solutions de gestion du patrimoine informationnel des organisations

Plus en détail

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR HISTORIQUE DES VERSIONS Vers. Date Rédacteur Objet de la modification 1.00 Juillet 2007 GTBO_AGRI Création du document 1.01 Février 2009 SAMOA

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

MEGA ITSM Accelerator. Guide de Démarrage

MEGA ITSM Accelerator. Guide de Démarrage MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune

Plus en détail

www.habefast.ch contact@habefast.ch Agence web en Suisse romande CH-1260 Nyon 022 362 25 70

www.habefast.ch contact@habefast.ch Agence web en Suisse romande CH-1260 Nyon 022 362 25 70 1 By Agence web en Suisse romande 2 Qu est ce qu est le SEO? Le référencement naturel ou SEO (Search Engine Optimisation) est une pratique qui, comme son nom l indique, permet d optimiser un site web pour

Plus en détail

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION OBJECTIFS GÉNÉRAUX DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION Découvrir les principales fonctionnalités des outils de

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

www.breizhconsulting.fr Centre de formation digital et communication : www. Komelya.fr

www.breizhconsulting.fr Centre de formation digital et communication : www. Komelya.fr «Optimiser une campagne google adwords» Merci de mettre votre portable en mode silencieux Mais vous pouvez twitter C est au programme Comment ça fonctionne? À quoi devez-vous faire attention? Comment trouver

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Search Engine Marketing. Impact des campagnes marketing

Search Engine Marketing. Impact des campagnes marketing Search Engine Marketing Impact des campagnes marketing Etude réalisée du 01/10/2006 au 31/10/2006 sur un périmètre de 822 sites web audités par XiTi ayant déclaré des campagnes marketing, cf méthodologie

Plus en détail

La base de données dans ArtemiS SUITE

La base de données dans ArtemiS SUITE 08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

Bibliothèque Esparron en livres. www.esparron-en-livres.com

Bibliothèque Esparron en livres. www.esparron-en-livres.com Les réseaux sociaux Chapitre 1 : Les réseaux sociaux Chapitre 2 : 14 moyens pour être plus visible sur Facebook Chapitre 3 : Comment créer un compte Facebook Chapitre 4 : Statistiques en France Les réseaux

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Recherche. Instructions d utilisation de ce Tutoriel. Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce.

Recherche. Instructions d utilisation de ce Tutoriel. Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce. Instructions d utilisation de ce Tutoriel Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce. Le SNDL propose à ses usagers deux modes de recherche: Recherche

Plus en détail

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) 28-29 mai 2008

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) 28-29 mai 2008 Premier colloque international sur la veille stratégique multilingue Université de Genève (ETI, Suisse) 28-29 mai 2008 La Veille multilingue : défense et illustration de la traduction stratégique Mathieu

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Référencement naturel

Référencement naturel Référencement naturel 1er novembre 2011 Pour optimiser votre positionnement dans les moteurs de recherche, renforcer votre visibilité en ligne et améliorer le contenu de votre site web pour le référencement

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

Estimer et mesurer la performance des projets agiles avec les points de fonction

Estimer et mesurer la performance des projets agiles avec les points de fonction Estimer et mesurer la performance des projets agiles avec les points de fonction Radenko Corovic, MBA radenko.corovic@rsmtechno.ca 1. Introduction Les méthodes agiles de développement des systèmes ont

Plus en détail

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de

Plus en détail

Jeudi 30 avril 2009. L art de bien référencer son site Internet

Jeudi 30 avril 2009. L art de bien référencer son site Internet Jeudi 30 avril 2009 L art de bien référencer son site Internet Quelques chiffres 1.2 milliard d internautes dans le monde. 343 millions d internautes en Europe. (InternetworldStats, November 2007) 250

Plus en détail

Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller.

Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller. Google Documents Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller. Phase préliminaire: Pensez à identifier le public que vous souhaitez cibler Pensez

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

LES TOUT PREMIERS PAS

LES TOUT PREMIERS PAS DESMODO, un logiciel de gestion d idées http://www.desmodo.net/ LES TOUT PREMIERS PAS Desmodo est un logiciel (libre) qui permet, entre autre, de visualiser et de synthétiser, de manière organisée, sous

Plus en détail

Évaluation des logiciels et autres réalisations

Évaluation des logiciels et autres réalisations DOCUMENT D ANALYSE DE LA COMMISSION D ÉVALUATION DE L INRIA Évaluation des logiciels et autres réalisations Préparé par David Margery, Jean-Pierre Merlet, Cordelia Schmid, Agnès Sulem, Paul Zimmermann

Plus en détail

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence

Plus en détail

Chapitre 4 Évaluation des performances d'un filtre

Chapitre 4 Évaluation des performances d'un filtre Chapitre 4 : Evaluation des performances d'un filtre 33 Chapitre 4 Évaluation des performances d'un filtre Pour comparer les différents systèmes de filtrage, il faut définir une mesure pour évaluer leurs

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Etude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011

Etude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011 Etude relative aux rapports des présidents sur les procédures de contrôle interne et de gestion des risques pour l exercice 2011 SOMMAIRE Synthèse et Conclusion... 1 Introduction... 4 1. La description

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail