Faculté des Sciences Diplômes TIC Recherche documentaire



Documents pareils
Recherche d'information dans Internet Introduction

Formation à la recherche documentaire sur le web

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Répondre à un courrier - Transférer un courrier 20

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Introduction. Internet : Moteur de recherche : Google, Yahoo, Forum

Recherche bibliographique

Table des matières. Préface...5. Introduction...9

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

Guide de création de site web optimisé

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

RECHERCHER L'INFORMATION SUR INTERNET

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

INTERNET, C'EST QUOI?

Guide et conseils généraux pour optimiser le référencement d un site internet

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

Fiche de l'awt Promotion d'un site web

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

La recherche d'information sur Internet

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Référencement Vendredi 4 Juillet Ile Degaby

TEXT MINING von 7

Éditeur Koninklijke Brill Langue(s) Multilingue

Web invisible : Une nouvelle technologie pour découvrir et exploiter le web profond pour la veille stratégique

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Formation Site Web. Menu du jour. Le web comment ça marche? Créer un site web Une solution proposée pour débuter La suite?

COMMENT AMELIORER LA VISIBILITE DE SON SITE WEB?

Optimiser son référencement naturel avec e-majine

Gestion de références bibliographiques

Internet personnel. Auteur: Guillaume GUAY La Clé Informatique Université de Sherbrooke, mars 2006

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

Memento de la recherche documentaire en santé

LA RECHERCHE DOCUMENTAIRE

Logiciels de référencement

Référencement naturel

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

COMMENT OPTIMISER MA VISIBILITÉ SUR LE WEB? AMÉLIORER MON RÉFÉRENCEMENT

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Synodiance. 10 tendances SEO & SEA 19/02/2014

Créer et gérer des catégories sur votre site Magento

ZOTERO Un outil gratuit de gestion de bibliographies

Utiliser Access ou Excel pour gérer vos données

20 techniques et bonnes pratiques d un positionnement visible gratuit et durable sur Internet

Les outils de création de sites web

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

Préparation d un serveur Apache pour Zend Framework

Tutoriel : utilisation de l outil de veille TaDaweb

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : URGENTE NON URGENTE TEMPORAIRE DEFINITIVE

Le référencement naturel

Premiers pas sur e-lyco

Concevoir sa stratégie de recherche d information

REFERENCEMENT D'UN SITE SOUS JOOMLA. Joomla 2.5. Sommaire

FTP : File TRansfer Protocol => permets d envoyer des gros fichiers sur un serveur (ou de télécharger depuis le serveur)

Banque d outils d aide à l évaluation diagnostique

Panorama des CMS open sources. Sylvain Ferrand, CMAP École Polytechnique Journées Mathrice, Poitiers, 19 mars 2008

Recherche d information textuelle

Base de données relationnelle et requêtes SQL

Les premières étapes d une présence adéquate sur le Web

«Un site non référencé est un site qui n existe pas» «Faire un site c est bien, mais s il n apparaît pas en première page, ca ne sert à rien!

LE REFERENCEMENT NATUREL D UN SITE WEB1

Caruso33 : une association à votre service

Mesurer le retour sur investissement

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

1.1 Des concepts et termes techniques à maîtriser La formule magique du référencement Tricher ou non en référencement

Le courrier électronique

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

E-TRANSACTIONS. Guide du programmeur API Plug-in. Version 1.1

Référencement & Positionnement

Référencement & Positionnement sur le WEB

Androïd Manuel d installation MB PRO LIGHT Préalable. Définitions

INFORMATIONS DECISIONS ACTIONS. Entreprises Informations Décisions Actions État des ventes Prévisions Comportement consommateur. Augmenter 20 % le CA

Rokhaya BARRY Fondatrice de ROKBARRY CREATIONS & services@rokbarry.com. Documents Propriétaire : RokBarry

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

RAPPORT AUDIT SEO. Élaboré à l'attention de : Monsieur Greber Élaboré par : Cédric Peinado

Installation de la visionneuse de fichiers PDF, Adobe Reader (si ce n'est pas déjà fait)

Jeudi 30 avril L art de bien référencer son site Internet

10 astuces pratiques pour obtenir un bon positionnement dans les moteurs de recherche

La recherche d information

Joomla! Création et administration d'un site web - Version numérique

En quoi consiste le REFERENCEMENT de votre site?

Gestion collaborative de documents

1 LE L S S ERV R EURS Si 5

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

MODE D'EMPLOI DU CONTRIBUTEUR WEB UAPV "CONTRIBUER DANS UNE RUBRIQUE DU SITE WEB"

Débuter avec OOo Base

AdWords Guide de survie

Evaluation et analyse de la fréquentation d un site

LISTES DE DISTRIBUTION GÉRÉES PAR SYMPA DOCUMENT EXPLICATIF DE L'INTERFACE WEB À L'INTENTION DES ABONNÉS

DUT GEA. Informatique D après le document de Laurent GILI / Lycée Prévert

RAPPORT D'OPTIMISATION DU SITE INTERNET

Transcription:

Attention :: toutes les informations délivrées ici sont valables à la mi-octobre 2001 ; le domaine des outils de recherche évolue très rapidement et il est possible qu au delà de la période spécifiée, bon nombre d informations ou de liens ne soient plus valables ; consultez alors les urls de référence. Dernières infos : Des métamoteurs prometteurs : EO : http://eo.st/index_eo_net.htm, Surfwax : http://www.surfwax.com/ Fiche 1 :: savoir définir ce que l on recherche et savoir définir une stratégie de recherche # savoir traduire et décomposer les éléments recherchés # savoir localiser les sources # connaître les outils du web et rester informé de son évolution Fiche 2 :: savoir utiliser les outils de recherche # savoir choisir les outils de recherche # maitriser l interrogation des moteurs de recherche # comprendre le fonctionnement des outils # maitriser les outils logiciels, les agents Fiche 3 :: savoir interprêter les résultats # vérifier les sources, recouper les résultats # évaluer la qualité d une information Fiche 4 :: savoir péréniser la recherche # les fonctions de veille Cédric Peyronnet 10-2001 - 1 -

Fiche 1 :: savoir définir ce que l on recherche et savoir définir une stratégie de recherche Savoir traduire et décomposer les éléments recherchés Savoir localiser les sources et les interroger Définir une stratégie de recherche Connaître le web et rester informé de son évolution Internet est composé, entre autres, du web : c est à dire ce que l on a l habitude d appeler les " sites internet " soit un véritable gouffre sans fond, car il se créé près de 7 millions de pages web tous les jours ; même les meilleurs moteurs de recherche, qui indexent chaque jour des milliers de page n'en répertorient qu'environ 1,4 milliard sur les 550 milliards qui existeraient, soit moins de 1% du web mondial (Cf Abeille du Web). Comment faire alors pour y trouver l information que l on cherche? Principes de base de l interrogation Notions de base, applicables à la majorité des moteurs de recherche Recherche de phrases Lors d'une recherche à partir d'une suite de mots, vous pouvez placer ces derniers entre guillemets. De cette façon, le moteur de recherche n'extrait que les documents contenant tous les mots dans l'ordre indiqué. Considérez l'exemple suivant : si vous recherchez des informations sur le traitement de surface, la saisie " traitement de surface " élimine des résultats tous les documents contenant les mots traitement et surface dans un ordre différent de celui spécifié. Ces mots apparaissent vraisemblablement dans des paragraphes différents, et traitent peut-être d'un tout autre sujet. Distinction entre majuscules et minuscules Si un mot-clé est en majuscules, le moteur de recherche n'extrait que les documents contenant ce mot en majuscules. Imaginons que vous soyez intéressé par les documents traitant de la Chine. La saisie de ce mot en majuscules dans un moteur qui les reconnaît, élimine de la recherche les données relatives à la vaisselle en vieux chine par exemple. Notez cependant qu'il est souvent préférable de laisser les mots-clés en minuscules afin de permettre au moteur de recherche d'extraire les documents contenant ces mots-clés en minuscules et en majuscules. Troncature Si vous recherchez des informations sur la piézoélectricité, vous pouvez utiliser ce terme comme mot-clé. Pour élargir le résultat insufffisant d'une recherche, il est possible de conserver la racine du mot et de lui ajouter un astérisque (piézo*). Le moteur de recherche extrait alors les documents contenant les mots piézoélectrique, piézoélectricité, piézomètre Logique booléenne (support des opérateurs booléens) Voir Fonctionnalités sans doute les plus utiles à la définition de critères de recherche, les opérateurs booléens vous permettent de gérer de façon optimale la logique du moteur de recherche. A bien des égards, les opérateurs AND, OR, NOT (or, AND, NOT dans certains moteurs de recherche), NEAR et parenthèses s'apparentent aux opérateurs mathématiques tant leurs façons d'organiser une équation complexe se ressemblent. Les sections suivantes vous présentent l'utilité des opérateurs booléens : AND Cédric Peyronnet 10-2001 - 2 -

Si vous cherchez un document devant contenir deux mots-clés, séparez ces derniers par le terme AND en majuscules. Le moteur de recherche n'extrait que les documents contenant les deux mots OR Si vous souhaitez élargir votre recherche aux documents contenant l'un ou l'autre des motsclés, utilisez l'opérateur OR pour séparer ces deux mots. Cet opérateur est très utile lors de la recherche de termes susceptibles d'apparaître sous une forme synonymique dans un document NEAR Cet opérateur constitue une forme plus spécifique de l'opérateur AND. Il garantit que le document contient les deux termes et que ces derniers se suivent. Dans nombre de documents volumineux, l'opérateur AND n'est pas assez efficace, car les deux mots-clés peuvent figurer à distance l'un de l'autre, sans qu'il y ait de rapport entre eux. NOT ou AND NOT Cet opérateur se place devant un terme, et permet d'éliminer de la recherche tous les documents qui le contiennent. A quelle occasion l'utilise-t-on? Si vous cherchez des informations sur Nicolas Anelka, mais que vous ne souhaitez pas recevoir de documents traitant du Paris Saint- Germain, saisissez " Anelka " AND NOT PSG, par exemple. Autres signes Parenthèses Les opérateurs AND, NEAR, OR et AND NOT sont tous très efficaces, mais combinés aux parenthèses, ils permettent de gérer avec plus de finesse la logique de recherche du moteur. Ils s'utilisent de la même façon que dans les équations mathématiques, par délimitation et hiérarchisation des relations entre les variables. En voici un exemple : si vous recherchez un didacticiel Internet basé sur le Web, vous pouvez utiliser le critère de recherche Internet AND (didacticiel OR cours). Les documents extraits doivent contenir à la fois les mots Internet et didacticiel ou Internet et cours. Les parenthèses suivent essentiellement le même principe que les propriétés de distribution en mathématique, c'est à dire que le mot-clé Internet est distribué aux deux mots de la parenthèse séparés par " OR ". Cet outil s'utilise principalement pour rassembler deux mots séparés par un opérateur OR, puis les associer à un autre critère de recherche à l'aide de AND. Cependant, il existe certains cas où effectuer l'opération inverse se révèle tout aussi efficace. Si par exemple, vous cherchez des informations sur le contrôle des armes, il vous est possible de saisir " contrôle des armes " OR Cédric Peyronnet 10-2001 - 3 -

(législation AND arme) de façon à extraire les documents contenant les mots " contrôle des armes " (voir la section sur la recherche de phrases) ou ceux contenant les mots arme et législation. Vous pouvez encore affiner votre recherche. Etant donné que le mot loi est un synonyme de législation, vous pouvez même imbriquer un jeu de parenthèses dans un autre afin d'associer arme à législation ou à loi. Profitez-en également pour tronquer loi avec un astérisque afin d'associer arme à une possible variation en lois. Voici comment l'ensemble s'organise : " contrôle des armes " OR (arme AND (loi* OR législation )). Remarquez que l'expression booléenne doit disposer du même nombre de parenthèses ouvrantes et fermantes, sous peine d'invalider la recherche. Restrictions de recherche Certains moteurs comportent une variante des opérateurs AND et NOT. Un symbole + devant un nom (sans espace intermédiaire) signifie que les documents trouvés doivent contenir ce mot. Un symbole - placé devant un mot-clé, exclut des résultats les documents comportant ce mot. Notez par ailleurs que tous les mots devant être placés dans le document doivent être précédés d'un signe +, même le premier. Considérez l'exemple suivant : +fraude +élection garantit la présence de fraude dans les documents trouvés. Restriction des recherches à certaines parties des documents Certains moteurs conduisent des recherches limitées à certaines zones, dont les plus courantes sont : le titre et l'url. Ci-contre l'exemple d'une recherche de titre. Si vous cherchez des informations sur la médecine alternative, et pensez qu'un grand nombre de pages Web consacrées à ce sujet contiennent ces mots-clés dans leur titre, vous pouvez utiliser la syntaxe suivante : titre: médecine AND alternative. Un autre exemple, conduit cette fois à partir d'un URL, consiste à rechercher les pages Web du constructeur automobile Ford. Vous pouvez utiliser la syntaxe suivante : url: Ford, laquelle vous permettra sans doute de trouver les pages Web créées par le constructeur automobile Ford (et d'autres également). Syntaxe : particularités des différents outils Chaque outil ayant sa propre syntaxe il est difficile d'en faire un faire un tableau cumulatif ; vous trouverez des élements d'apprentissage. Toutefois ces outils étant en évolution permanente la seule information réellement pertinente quant aux procédures d'interrogation, se trouvera toujours directement sur le site en question. Des sites spécialisés dans l'étude des moteurs de recherche comme Abondance ou encore Search engines watch permettent de rester informé de l'évolution de la syntaxe et comportent d'ailleurs des tableaux comparatifs fréquements mis à jour Comparatifs et référentiels de syntaxe http://pages.infinit.net/duvalm/dossiers/operateurs_booleens.html AllHtml [http://www.allhtml.com/analysemoteurs/index.php] propose un comparatif des moteurs et annuaires en tenant compte de la syntaxe Cédric Peyronnet 10-2001 - 4 -

Les stratégies de recherche de l information Stratégie globale Analyser le sujet Première chose à faire : ne pas aller de suite sur le web mais prendre plutot un papier et y inscrire les éléments de sa recherche. Définir des mots clefs Mots clefs primaires (larges) ; rechercher des synonymes et termes proches Mots clefs secondaires (profonds) Mots clefs interdits : les mots qui ne doivent pas apparaître dans la recherche et qui vont donc permettre de l affiner dès le départ. Outils d'aide à la définition des mots-clef : Générateur de mots clefs : http://abondance.com/audit/motscled.htm Voir aussi : http://www.guidebeam.com, sorte de thésaurus en ligne Lorsque les concepts sont précisement identifiés : combiner des mots-clefs avec les opérateurs NEAR, AND, OR... Utiliser les troncatures * ; on utilisera plutot alors un moteur de recherche permettant des recherches avancées comme Altavista http://fr.altavista.com/s?spage=searchadv.htm (recherche avancée sur la partie française) Choix des outils de recherche Information ou source d information? Est- ce que je recherche une source d information ou une information précise? Les annuaires identifient les sources d information Les moteurs sont plus précis (cf : je recherche un produit) mais génèrent plus de bruit Un utilitaire d'aide au choix d'outil : http://www.teleport.com/~lensman/sb/index.html Autres pistes : Lancer plusieurs recherches simultanées : ouvrir plusieurs fenêtres à partir d'une même page ; à partir d'une page de résultats nous pouvons donc explorer simultanément plusieurs pistes différentes. Identifier les sites clefs et consulter leurs pages de liens : presque chaque site possède une page de liens ; cette page est à consulter en priorité car elle contient forcément des liens vers des sites pertinents (puisque sélectionnés à priori par un spécialiste) Reformuler ou réadapter la requête : si la requête ne permet pas d'obtenir des résultats intéressants : il conviendra de la reformuler, la tronçonner.. Autres stratégies Méthode "rapid find " Rechercher une partie de la phrase dans le titre du document et / ou de l url Utiliser uniquement les moteurs de recherche qui le permettent Cédric Peyronnet 10-2001 - 5 -

Méthode " detect find " Rechercher l expression du besoin et le mot "bookmark" dans l URL (bookmark, link, hotlist, ressource) Utiliser seulement les moteurs de recherche qui le permettent Il est également possible d'utiliser les sites proposant des bookmark partagés sur Internet comme http://www.mybookmarks.com/ ou http://www.itlist.com/. Exemple dans AltaVista : veille and url:www.mybookmarks.com Méthode " all find " = RapidFind + DetectFind Valider les requêtes Utiliser les méta-moteurs et sites thématiques Méthode «Reverse psychology» Utilsation des moteurs de recherche Trouver la catégorie dans laquelle la page pertinente a été référencée Yahoo est un bon outil pour ce type de recherche Utilisation des commandes avancées des moteurs de recherche Méthode «Raisonnement tactique» Etudier de façon logique et méthodique tous les facteurs et conditions dont il faut tenir compte avant d amorcer un processus de veille Etablir un plan prévoyant les ressources à mettre en œuvre Rester informé de l évolution des outils Liens importants : Tableau des opérateurs logiques des principaux moteurs de recherche : http://pages.infinit.net/duvalm/dossiers/operateurs_booleens.html Techniques de base de la recherche documentaire : http://www.lib.berkeley.edu/teachinglib/guides/internet/findinfo.htmlet http://www.sc.edu/beaufort/library/ Abondance [http://www.abondance.com] Decisionnel.net [http://www.decisionnel.net/internet/index.htm] Cyber-Documentaliste [www.cyber-documentaliste.com] Liens de moindre importance Captain-doc [www.captaindoc.com] CyberVigie [www.cybervigie.com] Cédric Peyronnet 10-2001 - 6 -

Fiche 2 :: savoir utiliser les outils de recherche # connaître et savoir choisir les outils de recherche # maitriser l interrogation des moteurs de recherche # comprendre le fonctionnement des outils # maitriser les outils logiciels, les agents Il existerait plus de 2500 moteurs et annuaires! Pour s y retrouver il existe même des moteurs de moteurs [www.beaucoup.com, par exemple]. Pour connaître les meilleurs outils du moment consultez fréquement http://www.zdnet.com/searchiq/, une véritable bible en la matière! Moteur de recherche, annuaire, métamoteur Un annuaire (ou répertoire) est un outil de recherche qui recense un certain nombre de sites au travers de fiches descriptives comprenant, en règle générale, le titre, l'adresse (l'url) et un bref descriptif d'une longueur allant le plus souvent de 15 à 25 mots au maximum. Chaque site est inscrit dans une ou plusieurs catégorie(s) - on parle également de rubrique(s) -. Ces outils peuvent ainsi être considérés comme les pages jaunes du Web (lorsque l on met en ligne un site que l on désire voir apparaître dans un annuaire il faut donc s y inscrire) ; le travail d indexation y est souvent manuel, et fait par des spécialistes du domaine concerné, sous le couvert d une équipe éditoriale, ce qui est un gage de qualité. Par contre, l intégralité des documents n est pas toujours indexée, et la mise à jour des index est souvent lente. Lorsqu'un mot-clé est saisi dans le formulaire proposé, l'annuaire effectue une recherche sur les occurrences de ce terme dans ses fiches descriptives de site, et non pas dans le contenu des pages du site en question. Quelques annuaires : Yahoo [http://www.yahoo.com] Webbrain [www.webbrain.com] Open Directory - Dmoz [http://dmoz.org/].. ou sa représentation graphique Maps Of the Web [http://maps.map.net/start] Voilà [http://themes-search.voila.fr/] Google Directory [http://directory.google.com/] Un moteur de recherche est basé sur un robot (spider ou crawler) qui parcours le web de lien en lien, tout en sauvegardant et en indexant au fur et à mesure les différents informations et média «rencontrés». Les délais de passage du robot sont plus ou moins long selon le logiciel utilisé ; côté concepteur on peut toutefois «forcer» ce passage en faisant une inscription auprès du moteur lié au robot. Les index ainsi constitués de façon automatique contiennent des centaines de millions de pages. Le moteur classe les pages par ordre de pertinence, selon un ordre et un algorithme (basé sur certains critères de tri) qui lui est spécifique. Les mots-clefs y sont la base de la recherche, et il est souvent nécessaire de connaître le langage d interrogation (souvent malheureusement spécifique à chaque outil et quelquefois complexe..). Cédric Peyronnet 10-2001 - 7 -

Le moteur de recherche effectue donc ses recherches sur des pages Web, alors que l'annuaire vous proposera des sites Web. Là est toute la différence qui explique qu'il est absolument impossible de comparer les résultats fournis par les deux types d'outils. Sur quoi s appuient les moteurs de recherche pour indexer un site? Tout d abord n oublions pas qu ils s appuient sur ce qu ils «voient» c est à dire, les pages web et les éléments spécifiques à l indexation soient dans une page de type html les balises : title [exemple : <title>plasturgie : le site de tous les plastiques</title> ; le titre visible sera donc «Plasturgie : le site de tous les plastiques» Description [exemple : <meta name=»description» content= «plasturgie.com, le site qui traite de l actualité des plastiques»> ; soit une phrase censée décrire le mieux possible les sujets traités par le site Keywords [exemple : <meta name= «keywords» content= «plastiques, plastique, platurgie, plastic»> ; soient les mots clefs caractérisant le mieux possible le site certains moteurs s appuient uniquement sur ces keywords pour réaliser l indexation. Pour le concepteur de sites, il est donc essentiel de bien prendre en compte ces éléments. Si vous travaillez plus particulièrement sur le référencement de sites consultez cette FAQ : http://www.abondance.com/docs/faq_promo.html Petite récréation : allez voir les mots clef les plus recherchés par les internautes : http://www.abondance.com/docs/top10.html La particularité des formats dynamiques, tels l asp, les jsp, le php, ou les sites tournant sous Coldfusion, est que leur contenu peut être difficilement voire totalement impossible à indexer par les moteurs de recherche, car sans cesse chngeant en raison de leur interfacage avec une base de données. Quelques moteurs : Altavista [http://www.altavista.com] Google [www.google.com] Excite [www.excite.com] Fast [www.alltheweb.com] Northern light [www.northernlight.com] Voilà [www.voila.fr] WiseNut [www.wisenut.com] L actualité des moteurs de recherche : http://www.zdnet.com/searchiq/subjects/index.html www.abondance.com/outils/moteurs.html www.chasseurs-de-moteurs.net www.chez.com/jcharron/motrech/présentation.html - liste de discussion consacrée aux moteurs de recherche www.searchenginewatch.com Cédric Peyronnet 10-2001 - 8 -

Les métamoteurs (ou metacrawlers) sont des moteurs qui effectuent leurs interrogations sur les index des autres moteurs ou annuaires. On pourrait les classer grossièrement en deux catégories : les outils en ligne et les outils logiciels. Pour suivre leur actualité consultez fréquement http://www.zdnet.com/searchiq/directory/multi.html et regardez les indices d efficacité! Le principal inconvénient de ce genre d outil reste que les réponses obtenues sont souvent les plus «rapides» et non les plus pertinentes ; de plus tout dépend de la qualité des moteurs et annuaires sur lesquels le metamoteur s appuie De plus la multiplicité et la simultaniété des requêtes peut entrainer la mobilisation de resssources réseaux trop importantes. Mais une recherche avec ce type d outil permet d obtenir des réponses rapides, et un panorama global de la recherche. Il peut donc être pertinent de commencer une recherche complexe avec un métamoteur. Quelques outils en ligne Vivísimo [http://vivisimo.com] un des meilleurs outils actuel! IxQuick [http://ixquick.com] Profusion [http://www.profusion.com] offre des fonctions de «tracking» Kartoo [http://www.kartoo.com] un outil français graphique assez intéressant Metacrawler [http://www.metacrawler.com]. Quelques outils logiciels Copernic [www.copernic.com] le plus connu ; ses fonctions les plus intéressantes résident sans doute dans ses capacités à résumer les documents, à en extraire l information et à en assurer le suivi BullsEye [www.intelliseek.com/prod/bullseye/bullseye.htm] LexiBot [www.lexibot.com] de nombreuses fonctions d affinage de la recherche Les moteurs et index spécialisés : ce sont des moteurs ou des annuaires, spécialisés dans des domaines spécifiques et bien ciblés ; leur contenu est donc forcément très très pertinent. Ils sont souvent associés à des portails ayant le même champ d action. Ce sont souvent avec ces outils que l on trouve l information la plus pertinente et la plus à jour. Ils peuvent être aussi spécialisés dans la recherche d un média en particulier. 1901.net, par exemple est un moteur de recherche dédié aux associations loi de 1901 Elotel.com est un moteur de recherche des évènements européens Quelques outils : Decisionnel.net [http://www.decisionnel.net/internet/support.htm] About «the human internet» [http://www.miningco.com] http://www.thebighub.com - recherche de données scientifiques http://www.theses.org - recherche de thèses.. Pour rechercher ces outils : http://www.zdnet.com/searchiq/hotlist/ Enfin [www.enfin.fr] Bonweb [www.bonweb.com] BigSearchEngine [www.search-engine-index.co.uk] Cédric Peyronnet 10-2001 - 9 -

Les bases de données en ligne ne sont pas à proprement parler des composantes du web, puisque souvent accessibles en Telnet (Dialog, Questel ) depuis déjà longtemps (le web ne sert alors que d interface) ; on les fait souvent entrer dans la catégorie du web invisible, ce qui n est pas forcément, conceptuellement parlant, exact. Comment les localiser? CompletePlanet [http://www.completeplanet.com] lié au logiciel LexiBot InvisibleWeb [http://www.invisibleweb.com/] efficacité à vérifier http://uncweb.carl.org/. Le web invisible : qu est ce que c est? Les experts appellent cette masse de données cachées le "web invisible" ou plutôt le "web profond," mais au lieu d'en attribuer la responsabilité à la croissance d'internet, ils l'expliquent par une mutation technologique du web, survenue il y a quelques années : le passage des «pages statiques» aux «pages dynamiques». Pour plus d informations : http://www.lib.berkeley.edu/teachinglib/guides/internet/invisibleweb.html Les outils liés au groupware ; il est important de pouvoir effectuer des recherches au sein des forums, des listes de diffusion, des listes de discussion et des newsgroups, car l information qui s y trouve est très très pertinente. La majorité des moteurs de recherche indexent des informations en provenance de ces outils ; toutefois pour des recherches spécifiques il vaut mieux utiliser des moteurs ou annuaires spécialisés. Quelques outils : Google Groups [http://www.google.com/grphp] permet une recherche au sein des newsgroups (Usenet) http://www.liszt.com/ Francolistes [www.francolistes.com] Les agents intelligents Les particularités d'un agent sont : D'être autonome : fonctionnement automatique. De communiquer : échanger des informations avec d'autres programmes ou des hommes. D'apprendre : capables de réagir avec un environnement, de s'adapter aux circonstances, de prendre une décision ou d'enrichir eux-mêmes leur propre comportement, sur la base d'observations qu'ils effectuent. Cédric Peyronnet 10-2001 - 10 -

Dans une démarche de veille ils permettent de : diminuer les problèmes liés à la grande quantité d'information à laquelle le veilleur est confronté ; d être le plus exhaustif possible et en même temps le plus pertinent possible ; d économiser du temps pour le balayage des serveurs ; de fabriquer des bases de données thématiques consultables "off line". Les différentes familles d agents Recherche d'information off line (ceux qui nous intéressent!) Rechercher sur plusieurs moteurs les réponses à une requête Rapatrier les pages en local Classer et gérer les informations Indexer les pages en local Eliminer les doublons Créer des résumés à la volée Organiser les résultats par thème Surveiller les modifications des sites avec une périodicité paramétrable Mise en évidence des pages nouvelles par rapport à la dernière recherche WebSeeker Un outil très puissant qui permet, par exemple, d'effectuer des recherches sur les moteurs francophones. Web Ferret A essayer, et en plus il est gratuit! (cependant il n'est pas capable d'éliminer les doublons) Retrieve It Un outil pour Mac OS Copernic Un agent de recherche en un sens. Plus de 30 sources d'information (module de base) regroupées en trois domaines: le web, groupes de discussion et adresses de courrier Strategic Finder La version gratuite permet d'interroger plus de 200 moteurs de recherches sur Internet. La version payante permet en plus d'ajouter de nombreuses sources professionnels sous forme de plugin. Le logiciel est réalisé par la société Digimind. Inforian Quest 99 With a single query request, Inforian Quest 98 will access hundreds search engines and information systems simultaneously. After bypassing graphics and ads, prioritizing the results, and removing duplicates, Inforian Quest 98 will then display an organized list of links which users can use to access the information. Lexibot - Le logiciel intègre les références de plus de 600 outils. BullsEye 2 - BullsEye propose un historique des recherches. Il existe de même des agents dans n importe quelle catégorie de recherche d information, de média ou de données. Quelques adresses pour vous en convaincre : BotSpot [www.botspot.com] AgentLand [www.agentland.fr] A consulter absolument! Cédric Peyronnet 10-2001 - 11 -

Fiche 3 :: savoir interprêter les résultats # vérifier les sources, recouper les résultats # évaluer la qualité d une information Attention l information trouvée n est pas forcément pertinente! De plus, il faut maintenant composer avec une tendance actuelle du web, à savoir la non-gratuité de l information Exemple parlant : à côté de ses 320 millions de pages web indexées, le site Northern Light (http://www.northernlight.com) propose une sélection payante de plus de 40 millions de pages spécialisées, surtout composée d'articles de journaux scientifiques et financiers dont les auteurs sont rémunérés par le site... Validité de l information sur Internet Données générales La qualité des documents est très variable Tout le monde peut émettre des opinions et les diffuser Les auteurs / émetteurs sont parfois très difficiles à identifier L objectif réel des sites peut rester très vague Les enjeux économiques influencent les contenus Démarche à suivre Rester méfiant et critique, recouper les sources pour valider les informations Procéder par étapes (évaluation) Les critères d évaluation Eléments à surveiller Sources et crédibilité : Identification des auteurs, qualité de la langue, publicité Balise author <meta name= «author» content= «jean Dupont»>, indique que Jean Dupont est l auteur des pages Il faudra donc souvent aller voir le source d une page pour en vérifier l origine Contenu : Citations des sources originales, structuration des informations, distinction nette entre contenu et publicité, mise à jour A surveiller : la date de mise à jour [des outils qui s intègrent au navigateurs facilitent la vérification de ce type de données ; un exemple les bookmarklets http://www.bookmarklets.com], la signature Liens hypertexte : Pertinence des liens, qualité, validité Design et navigation : Lisibilité du texte, facilité de navigation, rapidité de chargement, plug-ins nécessaires Dans un site sans plan de navigation, un outil comme SiteMapper http://www.trellian.com/mapper/ peut se révèler très utile. Accessibilité : Présence dans les moteurs et annuaires Confidentialité et interactivité : Protection des données personnelles, rétroactions Cédric Peyronnet 10-2001 - 12 -

Outils Net Scoring L'objectif de Net Scoring est de fournir un ensemble de critères qui peuvent être utilisées pour évaluer la qualité de l'information de santé sur l'internet. Grille santé La production de cette grille est une initiative d'un groupe de spécialistes en information du réseau de la santé et des services sociaux de la région de Montréal-Centre. Elle peut servir de base à d autres évaluations. e-qualite.com - E-qualite.com propose notamment un annuaire, des articles de fond sur les outils et méthodes d'évaluation, une plate-forme de tests, et un forum de discussion. Projet Sapristi!. - Cette page présente quelques uns des critères à prendre en compte pour valider un document issu d'internet. UCLA College Library - Thinking Critically about World Wide Web Resources - Esther Grassian, UCLA College Library. Wolfgram Memorial Library - Evaluating Web Resources by Jan Alexander and Marsha Ann Tate - Widener University. Commission du français et de l'informatique de la FESeC - Comment évaluer de manière critique les ressources issues de l'internet? Outils d analyse et de synthèse textuelle Logiciel Tropes http://www.acetic.fr Copernic [www.copernic.com] Agents de recherche avancée Leur but est de trouver "toutes" les pages contenant la requête, l enrichir, l analyser et filtrer les pages trouvées pour rapatrier uniquement les bonnes pages Quelques agents : DigOut4U Un agents spécialisé dans l'analyse textuelle. Il est capable de détecter des signaux faibles. Umap Examine les convergences de liens et détecte les sites fédérateurs. Convient pour l'analyse de technologies connues. Net Attache pro This award-winning Web Search Agent includes refined filtering and data packaging. Cédric Peyronnet 10-2001 - 13 -

Fiche 4 :: savoir péréniser la recherche Le temps est le principal facteur limitant de la validité de l information ; il faut donc trouver des moyens de suivre l information «sur la longueur». Le monitoring de sites / tracking Comment surveiller les modifications sur un site web? suivre la concurrence? automatiser la recherche d informations On peut utiliser les outils en ligne gratuits que sont les trackers : on lui donne une ou plusieurs adresses à surveiller et il va, à intervalles définis, nous prévenir des changements (les paramètres peuvent se définir) intervenus sur la page, ou le site, " tracké " Il peut exécuter des requêtes sur des outils de recherches, à partir de mots clefs donnés, et avertir des résultats, renvoyer de nouvelles url. Des outils : Mind-it / QuickAdd / QuickMinds de Netmind (http://mindit.netmind.com/ Spyonit http://www.spyonit.com/ http://www.tracerlock.com/ Profusion [www.profusion.com] C4U (logiciel) surveillance de pages http://www.c-4-u.com/ Ressources : http://www.decisionnel.net Agents intelligents, veille, actualité du net, actualité des outils de recherche http://www.asktibbs.com/ Cédric Peyronnet 10-2001 - 14 -