Préface......................................................5 Introduction..................................................9 Chapitre 1 Diversité des besoins, diversité des contenus........................13 1. L internet, un univers complexe............................13 1.1 L abondance de l information...........................13 1.2 L hétérogénéité de l information et son degré de fragmentation...15 1.3 Le manque de structuration............................16 1.4 Le renouvellement continuel...........................17 1.5 Le multilinguisme...................................17 1.6 La question cruciale de la fiabilité.......................18 1.7 Internet et le web ce n est pas la même chose!............18 2. La nouvelle physionomie du web............................19 2.1 Les trois âges du web................................19 2.2 Les blogs: pionniers du web social.......................20 2.3 Les fils RSS.......................................23 2.4 La convergence des outils et des sources..................24 3. Une grande diversité de besoins............................25 3.1 De la recherche documentaire à la veille stratégique..........25 3.2 Différents modèles de recherche........................27 4. Moteurs de recherche web: des arbres qui cachent la forêt?........28 4.1 La recherche par navigation arborescente : «du général au particulier»........................................29 4.2 La recherche exploratoire : «des sources connues aux territoires inconnus»................................29 POUR MIEUX TROUVER L INFORMATION UTILE 309
4.3 La recherche dans les métadonnées......................30 4.4 La navigation sociale.................................30 5. Les dix règles d or de la recherche d information sur Internet.......31 Chapitre 2 La recherche par mots-clés: les moteurs sacrés rois des outils...........35 1. La lame de fond de l approche mots-clés......................35 1.1 L approche mots-clés: «du mot à la chose»................35 1.2 Des effets pervers...................................36 1.3 Un nouveau paradigme de recherche.....................37 2. Les moteurs de recherche : principes et idées reçues.............38 2.1 Les moteurs: des outils automatiques.....................39 2.2 La collecte au cœur du système.........................40 2.3 Quelle est la part du web indexée par les moteurs?...........42 2.4 Le tri de pertinence, élément clé de la compétitivité des moteurs..43 Une grande variété de critères...........................43 Du PageRank de Google, toujours d actualité, au TrustRank......44 Le Browse Rank, un nouvel algorithme pour Microsoft?.........46 Du référencement au spamdexing........................46 2.5 Un modèle économique basé sur la publicité...............46 2.6 Quelques idées reçues sur les moteurs....................47 3. Les principaux moteurs français et internationaux...............49 3.1 Quatre générations de moteurs..........................49 3.2 Disparitions et regroupements: un rapide historique..........50 3.3 Le «top ten»......................................50 Ask..............................................51 Cuil..............................................52 Exalead...........................................53 Gigablast..........................................54 Google............................................54 Live Search........................................55 Voila / Le Moteur / Orange..............................56 Wikia Search.......................................56 310 NET RECHERCHE 2009 : LE GUIDE PRATIQUE
Yahoo!............................................57 3.4 Google toujours loin devant............................58 3.5 Une tendance à la normalisation des fonctionnalités..........59 Le cache..........................................59 Les suggestions de mot-clé.............................59 La page d accueil personnalisable........................60 Importance de Wikipédia dans les premiers résultats...........60 Syntaxes d interrogation: constantes et spécificités............60 Comparaison des fonctionnalités avancées de recherche........61 4. Les moteurs spécialisés, verticaux et personnalisables............64 4.1 Technologies et marché...............................64 Différentes technologies en œuvre........................64 Des avantages non négligeables..........................66 Des acteurs de plus en plus nombreux.....................66 4.2 Des moteurs verticaux pour tous les besoins................67 Des répertoires peu satisfaisants.........................67 Des perspectives pour le sourcing?.......................68 4.3 Créer son propre moteur..............................68 5. L exploration du web invisible : les moteurs gagnent du terrain......69 5.1 Une réalité technique, un parfum de mystère...............69 5.2 De plus en plus de documents indexés....................71 5.3 Pages issues de formulaires: un enjeu de poids pour les moteurs...71 5.4 Rechercher sur le web invisible.........................76 6. Les métamoteurs: innover ou mourir.........................77 6.1 Des stratégies innovantes.............................77 6.2 Les métamoteurs parmi les plus représentatifs du web.........78 Le leader mondial: Dogpile.............................78 Le meilleur protecteur de la vie privée : Ixquick...............79 Le champion du «clustering» : Clusty.....................79 Le plus universel: All+................................80 L interface graphique la plus connue : Kartoo................81 Le comparateur le plus «simplement utile» : Twingine.........82 Le plus studieux sur l étude des résultats: Surfwax............82 POUR MIEUX TROUVER L INFORMATION UTILE 311
Le plus solidaire : VeoSearch............................82 6.3 Exemples de métamoteurs spécialisés....................83 7. Évolution des moteurs de recherche : dix tendances actuelles.......83 7.1 Simplifier la syntaxe et aider l utilisateur..................83 7.2 Permettre une recherche «universelle»...................85 7.3 Personnaliser son moteur de recherche....................87 7.4 Exploiter les technologies de clustering....................89 7.5 Cartographier les résultats d une recherche.................91 7.6 Rechercher en langage naturel..........................93 7.7 Rechercher dans les fichiers audio et vidéo.................95 7.8 Rechercher depuis des terminaux «nomades»..............97 7.9 S ouvrir au collaboratif...............................97 7.10 «Fabriquer, pour l indexer, l information qui n existe pas encore».............................................98 Chapitre 3 Pour une recherche thématique : des annuaires généralistes aux portails spécialisés........................................101 1. La recherche thématique : l information à la source.............101 1.1 L approche thématique : du mot-clé au concept.............101 1.2 Le déclin des annuaires généralistes.....................101 1.3 Les principes clés pour bien chercher à la source...........103 2. La grande famille des annuaires de recherche.................104 2.1 Les répertoires généralistes «contributifs» ou «ouverts».....104 Les annuaires alimentés par des bénévoles.................104 Les annuaires alimentés par des experts...................105 Les annuaires alimentés par des centres spécialisés..........105 2.2 Les sélections effectuées par des professionnels de l information-documentation...........................106 2.3 Les répertoires spécialisés ou «portails» thématiques........108 2.4 Les répertoires d outils de recherche....................110 Répertoires «classiques».............................110 Répertoires de portails nationaux et régionaux..............110 312 NET RECHERCHE 2009 : LE GUIDE PRATIQUE
Répertoires de portails plus orientés vers le monde de l entreprise.....................................110 2.5 Le bookmarking social, renouveau des annuaires?...........111 3. Rechercher l information économique et financière.............112 3.1 Bien engager sa recherche............................112 3.2 S informer sur un secteur d activité.....................113 3.3 Trouver des données statistiques.......................115 3.4 S informer sur les entreprises..........................116 3.5 Repérer des indicateurs économiques concernant des pays ou régions..........................................117 4. Rechercher l information scientifique et technique..............117 4.1 Bien engager sa recherche............................118 4.2 Exploiter des sites de prépublications scientifiques, des archives ouvertes..................................118 4.3 Découvrir des brevets français et internationaux............119 Chapitre 4 L apport du web social à la recherche d informations..................121 1. Une nouvelle approche du web pour un nouvel appétit d échanges et d action....................................121 1.1 Les principes du web 2.0............................121 1.2 Personnalisation versus mutualisation?...................123 1.3 Du thésaurus au tag................................124 1.4 Flux RSS: un renouveau du modèle push.................125 1.5 Les mashups: le lego du web 2.0......................125 2. Le partage de liens nouvelle génération......................127 2.1 Les gestionnaires «classiques» en ligne.................127 2.2 De nouveaux espaces proposés par les grands moteurs........127 2.3 Partage de liens et navigation «sociale».................128 3. Outils de blogs et recherches dans la «tagosphère»............130 3.1 Des moteurs, métamoteurs et annuaires dédiés aux blogs......130 Technorati........................................131 Google Blog Search.................................132 Blogpulse........................................132 3.2 Le phénomène du microblogging et du livestream...........134 POUR MIEUX TROUVER L INFORMATION UTILE 313
3.3 Blogs et wikis ne pas confondre!.....................135 4. Réseaux sociaux: des millions d amis.......................136 4.1 Les principales plates-formes de réseaux sociaux............137 4.2 Comment effectuer des recherches au sein de ces réseaux?....138 Quels critères de recherche?...........................138 Quel classement de pertinence?........................139 D autres services et expérimentations.....................139 4.3 Réseaux sociaux et traçabilité de l information.............140 5. Une méthodologie de recherche «2.0»?....................141 5.1 L appel à la communauté.............................142 5.2 La recherche à partir d «individus-pivots»................142 5.3 La recherche à partir d outils collaboratifs................143 5.4 De nouvelles voies pour le sourcing.....................145 5.5 Les nouveaux médias «sociaux».......................146 Wikio : un agrégateur à la mode «2.0»...................146 De Scoopeo à Agoravox...............................146 5.6 1 % de producteurs pour 89 % de simples consommateurs?...147 6. Du web 2.0 au web 3..................................148 Chapitre 5 Net veille, la recherche automatisée..............................151 1. Les outils de surveillance du web..........................151 1.1 De Copernic à Google Alertes..........................151 1.2 Un cadre méthodologique clair.........................152 1.3 Quelle panoplie d outils adopter?.......................153 1.4 Logiciels ou services en ligne..........................153 2. L importance croissante des flux RSS.......................154 2.1 Formats, identification, éditeurs........................155 2.2 Les différents moyens d accès.........................157 Quel outil pour quel besoin?...........................157 Logiciels de messagerie..............................158 Navigateurs web....................................158 Les agrégateurs (ou lecteurs) de flux RSS.................159 314 NET RECHERCHE 2009 : LE GUIDE PRATIQUE
Les agrégateurs en ligne............................159 Les logiciels monopostes...........................162 2.3 Trouver des flux RSS................................163 Identification en cours de navigation.....................163 Utilisation des moteurs généralistes......................163 Listes thématiques / Fichiers OPML......................163 Utilisation d outils RSS...............................164 2.4 Création de flux RSS pour la veille......................165 Création de flux à partir de pages qui n en disposent pas......165 Générer un flux à partir de plusieurs flux..................165 Génération d un flux à partir d articles sélectionnés parmi plusieurs flux.................................167 2.5 Une sélection réfléchie des «meilleurs» flux..............167 2.6 Les limites de RSS.................................168 3. Les agents de surveillance...............................169 3.1 Principes et utilisation..............................169 3.2 Les logiciels à installer..............................171 Website Watcher: un logiciel à part......................172 3.3 Les services en ligne................................173 3.4 Agrégateurs RSS et agents de surveillance : concurrents ou complémentaires?..................................174 4. Les services de monitoring mots-clés.......................175 4.1 Les métamoteurs «clients» : très peu d acteurs............176 4.2 Recherche automatisée sur Google......................177 4.3 Recherche automatisée sur Yahoo! et Live Search...........178 4.4 Recherche automatisée sur les «médias sociaux» : moteurs de blogs, de fils RSS ou de tags, agrégateurs de news.....178 4.5 Les agents de surveillance : de bons auxiliaires.............180 Chapitre 6 Commentaires de la méthode : les exemples de recherche..............181 1. Les deux principales approches méthodologiques...............181 1.1 L approche mots-clés: «du mot à la chose»...............182 1.2 L approche «sources et exploration»....................182 POUR MIEUX TROUVER L INFORMATION UTILE 315
2. Exemples de recherches détaillées pas à pas..................183 2.1 Recherche de fabricants de produits cosmétiques aux Émirats Arabes Unis................................183 2.2 Trouver des spécialistes en géodésie et effectuer une bibliographie d ouvrages et d articles sur le sujet............184 2.3 Date et lieu de la première exposition de Picasso à Paris......185 2.4 Étude complète sur la réforme de la taxe professionnelle......186 2.5 Recherche d un résumé du film Poliorka..................187 3. Exemples de recherches «rapides»........................187 Chapitre 7 Questions-réponses...........................................189 1. Comment choisir ses mots-clés?...........................191 Quand?..........................................191 Quel type de mots-clés?..............................191 Dans quelles langues?...............................191 Un ou plusieurs mots-clés?............................191 Pour ou contre le SAUF?.............................192 Majuscules, minuscules, accents?.......................192 Troncatures?......................................192 Et les synonymes?..................................193 Astuces pour identifier des synonymes ou mots associés.....193 Outils de suggestions de mots-clés....................194 Mots-clés ou tags?..................................195 2. Quels sont les opérateurs de recherche indispensables?..........196 1 Les guillemets pour manipuler les expressions........196 2 Le + pour imposer un mot ; le pour l exclure.........196 3 intitle: pour chercher dans le titre....................197 4 site: pour cibler un domaine........................197 5 filetype: pour trouver les documents directement dans le bon format..................................197 3. Où trouver des encyclopédies et dictionnaires?................199 Encyclopédies «classiques»...........................199 Encyclopédies «ouvertes»............................200 316 NET RECHERCHE 2009 : LE GUIDE PRATIQUE
Dictionnaires de définitions............................202 Dictionnaires multilingues..........................202 Portails de dictionnaires............................203 4. Comment effectuer un «sourcing» de qualité?................204 Trouver des sites portails verticaux ou des sites fédérateurs.....204 Trouver des listes de liens (bookmarks, favoris) déjà constitués..205 Trouver des sites «pointant» vers une source déjà connue.....206 Trouver des sites «similaires» à une source déjà connue......207 5. Peut-on chercher en texte intégral sur des ensembles homogènes de sources?...........................................208 Utiliser les TLD (Top level domains = domaines de premier niveau)..................................208 Utiliser les sous-domaines harmonisés....................209 Utiliser les moteurs spécialisés.........................210 Une astuce sur Live Search: l opérateur linkfromdomain.......210 6. Comment trouver des bases de données spécialisées?...........211 Bases bibliographiques...............................212 Bases en texte intégral...............................212 Banques d images..................................212 Agrégateurs et serveurs de bases de données...............212 Répertoires de bases de données........................213 7. Comment trouver des articles de presse?....................214 Les sites de presse quotidienne générale et régionale.........215 La presse professionnelle.............................215 Les revues universitaires...........................216 Bases bibliographiques............................217 Sites des chercheurs..............................217 Portails de revues universitaires......................217 Moteurs de recherche spécialisés.....................218 Les revues électroniques ou newsletters.................218 Les agrégateurs de presse et bases de données d articles....219 Les fils RSS....................................220 Les archives ouvertes et sites de prépublications..........221 8. Comment trouver des images ou des vidéos?..................223 POUR MIEUX TROUVER L INFORMATION UTILE 317
Les options de recherche d images ou vidéos des moteurs classiques........................................223 Les moteurs de recherche d images ou vidéos...............223 La recherche dans les banques d images..................224 La recherche par tags dans les plates-formes de mutualisation...224 La reconnaissance graphique automatique.................225 9. Comment trouver des ouvrages en texte intégral, des documents dans différents formats?..................................227 10. Comment comparer les moteurs? Où trouver des statistiques sur les moteurs?........................................230 En comparant les moteurs choisis selon différents critères......230 En utilisant un métamoteur dédié.......................231 En étudiant les statistiques sur les moteurs................232 11. Comment créer des moteurs personnalisés?.................233 Google Custom Search: un bon compromis simplicité/professionnalisme...........................234 Yahoo! Boss: à réserver aux développeurs..................235 12. Peut-on effectuer des traductions de textes sur le web?.........237 Traduire des mots, des pages web.......................237 Vers des requêtes multilingues?........................238 13. Peut-on garder un historique des recherches? Retrouver des pages disparues?....................................240 Où trouver des pages disparues ou modifiées?..............241 14. Comment évaluer un site web?..........................242 Les critères d évaluation..............................242 Les grilles d évaluation existantes.......................243 Astuces pour l évaluation des pages en cours de navigation.....243 Le cas particulier des blogs............................244 15. Peut-on faire une recherche par date?.....................246 Les filtres des moteurs généralistes......................246 Les pages web «classiques»........................247 Les articles, messages, notes et commentaires divers.......247 La recherche d événements par année....................247 16. Outils de capture : comment récupérer les données sur le web?...249 Les logiciels.......................................250 318 NET RECHERCHE 2009 : LE GUIDE PRATIQUE
Les extensions Firefox................................250 Les solutions en ligne................................250 Bien utiliser les outils de capture.......................251 17. Les forums et listes de diffusion: complémentaires des blogs et des fils RSS?........................................253 Les forums Usenet: les «ancêtres» de l internet............253 Les «web forums» : une administration simplifiée sur le web...254 Les listes de diffusion: utiles mais vite chronophages.........254 18. Où trouver l information sur des personnes?.................257 La recherche classique par mots-clés.....................257 La recherche sur les réseaux sociaux.....................258 Les biographies de célébrités..........................258 Wikipédia........................................259 19. Comment ne pas laisser de traces sur Internet?...............261 Données sur le poste utilisateur.........................261 Données sur l environnement informatique et le parcours suivi...262 Données disponibles publiquement sur le web..............263 Données chez les moteurs.............................263 20. Comment suivre l actualité des outils de recherche web?........265 En guise de conclusion........................................269 Google, toujours et partout, mais jusqu à quand?..............269 La recherche universelle mise en scène dynamiquement.........270 Quel moteur idéal pour les utilisateurs?.....................271 Le web sémantique pour renforcer l «intelligence» des machines.....272 Un web 3.0 déjà en route, un avenir très ouvert...............273 Annexes...................................................275 Tout sur Google.........................................277 1. Présentation générale................................277 2. Fonctionnalités de recherche du moteur Google..............278 3. Résultats: précisions.................................281 4. Recherches spécifiques...............................283 5. Services et applications associés (sélection)................285 POUR MIEUX TROUVER L INFORMATION UTILE 319
6. Sites «exploitant» Google (sélection)....................288 7. Aller plus loin sur Google (en ligne)......................289 Adresses des sites et blogs cités dans cet ouvrage................291 Index des outils cités.....................................293 Index thématique.......................................305 320 NET RECHERCHE 2009 : LE GUIDE PRATIQUE