Recherche éveillée sur Internet : Trucs et astuces pour des recherches efficaces dans le domaine de la santé 25 èmes Journées du RNDH 18 octobre 2012 Béatrice Foenix-Riou
Béatrice Foenix-Riou? depuis + 20 ans : rédactrice en chef des deux lettres publiées par Bases Publications : BASES (lancée il y a 27 ans!) et NETSOURCES (16 ans déjà) depuis + 3 ans : directrice de BFR Consultants, (cabinet conseil spécialisé dans la recherche et la veille sur Internet : formation ) depuis + 2 an : membre du CA de l ADBS (Association des professionnels de l information) 2 depuis + 1 an: - animatrice du secteur «Veille et recherche sur Internet» de l ADBS - auteure de «Recherche éveillée sur Internet : mode d emploi» (co-édition Bases Publications - Lavoisier) et du Blog de Recherche-eveillee.com
«Trucs et astuces pour des recherches efficaces dans le domaine de la santé» Ou Comment tirer parti de toute la puissance de Google en étant conscient de ses limites et en restant attentif aux alternatives qui se présentent 3
En guise d introduction En France, en août 2012, Près de 90 % des internautes utilisant un outil de recherche ont interrogé Google! Mais la plupart : -> Se contentent des premiers résultats (les 3 premières réponses génèrent 80% des clics http://bit.ly/qgnxzw) -> Pensent interroger la totalité du Web -> Ne connaissent pas les fonctions avancées de Google -> Ne sont pas conscients du mode de fonctionnement du moteur 4
MOTEURS DE RECHERCHE = WEB VISIBLE Les moteurs (Google ) sont composés de trois éléments : un robot : logiciel qui parcourt le Web de liens en liens et qui «copie» le contenu de toutes les pages qu il rencontre un index : qui indexe tous les mots de toutes les pages rapatriées par le robot une interface Web : qui permet à l utilisateur de lancer une recherche sur l index CONSEQUENCES -> aucun moteur n a la même couverture du Web (ni le même classement) -> la recherche se fait sur l index du moteur -> sur la copie des pages telles qu elles étaient lorsqu il les a copiées -> les moteurs ignorent le Web invisible 5
6
7
WEB VISIBLE Tout ce qui peut être indexé par un moteur -> Croissance exponentielle Entre septembre 1998 et septembre 2005, l index de Google a été multiplié par 1000! (de 24 millions à 24 milliards de pages!). Dernière communication sur la taille de son index en sept. 2005. Juillet 2008 : Cuil.com : 120 milliards de pages Juillet 2008 : Google annonce que son système a identifié (mais pas indexé) mille milliards d URLs! D après Netcraft : + 550 millions de sites web au 01.2012 Tenter d estimer la «taille du Web» n a plus de sens, d autant que la recherche ne se fait que sur une partie de l index des moteurs En
En BFR Consultants - 2011
WEB INVISIBLE La partie immergée de l iceberg Appartiennent au Web invisible : Banques de données = pages dynamiques Sites avec identification Serveurs classiques Formats spécifiques [no robot] Gisement mal couvert par les moteurs Mais frontières de plus en plus «perméables» 11
GOOGLE : PRINCIPES DE FORMULATION L utilisateur saisit un ou plusieurs mots-clés dans le formulaire La requête est lancée sur le texte intégral des pages enregistrées par le moteur (plusieurs dizaines de milliards, contenues dans son index) La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s) mot(s)-clé(s) (à la date de l indexation) Un clic sur le titre affiche la page aujourd hui sur le Web 12
GOOGLE : RECHERCHE SIMPLE 1. Utiliser des mots aussi PRECIS que possible, dans la langue des documents que l on recherche (se demander quels mots doivent être présents dans le document recherché) 2. UTILISER «LES GUILLEMETS» pour rechercher «tel quel» : une personnalité («prénom nom»), un mot-composé ou une expression/citation (titre d un ouvrage ) MAIS ATTENTION Penser dans ce cas à «élargir» la recherche (ex.: «prénom nom» OR «nom prénom» OR «initiale prénom nom», ou encore «mot composé» OR «mots composés») CONSEIL : 1 ère recherche sans guillemets, en affichant 100 résultats/page ; évaluer les résultats puis modifier la requête en conséquence. 13
GOOGLE : RECHERCHE SIMPLE 3. ECRIRE DE PREFERENCE LES MOTS AVEC LEURS ACCENTS (théoriquement non pris en compte par Google) MAIS ATTENTION : -> incohérences quelquefois lorsque le mot est «entre guillemets» exemple : «a parts egales» : 323 000 résultats ; «a parts égales» : 51 500 résultats ; «à parts égales» : 3 070 000 résultats sur Google! recherche dans ce cas sur l occurrence exacte du mot (avec ou sans accents) -> bug lorsque la recherche est limitée au titre recherche systématique sur l occurrence exacte du mot (avec ou sans accents) Vérifier la façon dont Google a pris en compte la requête, et en tenir compte. 14 Pour forcer la recherche sur un mot accentué : mot (ex.: marché, pour avoir «marché» et non «marche»)
GOOGLE : RECHERCHE SIMPLE 4. COMPARER LES FORMES PLURIELS ET SINGULIERS (ex. pluriel OR singulier) 15 MAIS ATTENTION : - l utilisateur ne peut exiger la troncature sur Google (contrairement à Exalead) ; - Google applique une troncature implicite «quand il le juge utile»!!!, et pas seulement sur les pluriels/singuliers (recherche également de mots «proches». Ex.: bibliographie jean racine recherche biographie jean racine) CONSEILS -> vérifier la façon dont Google a pris en compte les mots -> utiliser le cas échéant les guillemets ( bibliographie jean racine) ou l option «Mot à Mot» de la colonne d outils -> sur Google, le * est un opérateur «de proximité» («bibliothèque* numérique*» recherche «bibliothèque mondiale numérique» )
GOOGLE : FONCTIONS AVANCEES Si le nombre de réponses est trop important : limiter la recherche (ou certains mots) aux titres des pages (ex.: intitle:alzheimer soins palliatifs) Pour identifier des documents spécifiques (publications, chiffres ) : limiter à un type de fichier ex.: cancer prostate filetype:pdf (ou doc, ppt, xls) Pour restreindre à certains types de sites : limiter selon le nom de domaine ex.: obésité adolescents site:gouv.fr (ou site:sante.gouv.fr) Si besoin : limiter à l URL (alzheimer inurl:univ) 16 -> Ne pas hésiter à combiner les critères, mais en étant très rigoureux dans la construction de la requête
ASTUCES Fonctions En cache de Google (cache:www.url) dans l aperçu, colonne de droite : -> retrouver une page disparue -> repérer les extraits pertinents Fonction Pages similaires (related:url sur Google) dans l aperçu, colonne de droite -> identifier des sites de même type (ex.: related:www.rndh.fr) Utiliser l opérateur OR (en majuscules), pour étendre aux mots de forme voisine, aux synonymes (ex. souffrance OR douleur psychique ) Utiliser les guillemets pour rechercher un mot tel qu il est écrit et -mot pour exclure un mot 17
ASTUCES Fonctions define: de Google (ex.: define:alzheimer) -> trouver des définitions (mais il faut vérifier la source) Fonction conversion de Google (ex.: 18 dollars en euro ; devise du Brésil en monnaie mexicaine) Fonction numrange: de Google (ex.: obésité adolescents site:gouv.fr 2015..2100) -> trouver des pages contenant un chiffre compris entre deux fourchettes ; utile pour données prospectives Opérateur de proximité AROUND(n) (ex. George AROUND(3) Bush) 18
LA «COLONNE D'OUTILS» DE GOOGLE Nouvelles fonctionnalités de Google, depuis la page de résultats : Lien «Plus d outils» (interface Google Jazz, lancée en mai 2010) -> Sources : sélection par type de résultats (images, vidéos, actualités, blogs, discussions...) ; -> Date de publication (résultats récents, moins de 24h, une semaine, un mois, un an ) ou Période personnalisée : possibilité de retrouver des documents indexés à une date donnée ou une période donnée (équivalent daterange:date1-date2) -> Pages en langue étrangères traduites : Google va traduire la requête dans une autre langue, interroger le web dans cette langue et retraduire les résultats en français 19
20
Google : trucs et astuces pour les pros de l infodoc 21 BFR Consultants - 2011
IDENTIFIER DES PAGES DE LIENS Lorsque l on souhaite identifier une liste de sites web sur un sujet, et que la requête amène trop de résultats -> rechercher spécifiquement des pages de liens Pages contenant le mot-clé + le mot liens (ou le mot sites) dans le titre ou dans l URL Exemple : identifier une liste de ressources concernant la gérontologie - gérontologie : 1 490 000 pages sur Google - gérontologie intitle:liens sites OR inurl:liens sites : 10 900 pages sur Google 22
Google : trucs et astuces pour les pros de l infodoc 23 BFR Consultants - 2011
PENSER A GOOGLE IMAGES Pour identifier par exemple des statistiques sur la rougeole en Bourgogne 24
GOOGLE IMAGES : NOUVELLES FONCTIONNALITES Depuis quelques mois : possibilité d identifier, pour une image donnée, les pages qui contiennent une image identique sur le web (symbole de l appareil photo, dans la zone de saisie de Google Images) 25 BFR Consultants - 2011
GOOGLE : EVOLUTION DE SON ALGORITHME -> 1998 : PageRank : une innovation majeure dans le classement des résultats A l origine : classement selon la «popularité» des pages (backlinks) -> 2008 : De «donnez moi ce que je dis» à «donnez moi ce que je veux» - comprendre le contenu de la page (aujout de concepts) - Comprendre la requête de l internaute - Comprendre l internaute (localisation, personnalisation) -> 2012 : Recommandations (Search Plus Your World) et Web sémantique Du moteur d information au moteur de savoir L utilisateur au cœur de l information 26
27
28
CONCLUSIONS L interrogation de Google reste un excellent point de départ pour démarrer une recherche à la condition toutefois de bien formuler sa requête et de tirer parti des fonctions avancées du moteur Mais il est impératif d être conscient : -> que Google «interprète» la requête et que son classement n est pas «neutre» ; 29 -> qu il existe d autres familles d outils notamment des annuaires généralistes, sélectifs ou thématiques qui seront plus pertinents dès lors qu il s agit d identifier une liste de sites (dans un pays, un domaine) ou une liste d entreprises.
POUR ALLER PLUS LOIN Blogs - http://www.abondance.com - http://blog.recherche-eveillee.com Lettre bimestrielle NETSOURCES (articles de plus d un an en libre accès sur www.bases-netsources.com) «Recherche éveillée sur Internet : mode d emploi - Outils et méthodes pour explorer le Web» (www.recherche-eveillee.com) 30
31 N 296 Septembre 2012 S O M M A I R E Web social Veille et recherche scientifique 2.0 : au-delà des ressources classiques, pp.1-6 Actualités Chemical abstracts disparaît de Dialog, p.6 Edition 2012 du Online de Londres, p.8 STN regroupe 25 bases de données de CSA, p.9 Web invisible Fridoc : 90 000 références dans tous les domaines du froid, pp.10-11 Agenda Le moteur de recherche interne, élément clé de l accès à l information dans l entreprise, p.8 Web visible, Web invisible, Web 2.0, p.9 Veille sur le Net, p.9 Veille et recherche scientifique 2.0 : au-delà des ressources classiques Carole Tisserand-Barthole Avec l avènement du Web 2.0, on a vu se développer de nouvelles ressources précieuses pour les professionnels de l information (réseaux sociaux, blogs, sites de microblogging ). Si, au départ, ces nouveaux services ne proposaient que très peu de contenu pertinent dans le domaine des sciences dites «dures», le constat est aujourd hui très différent. N ous avons voulu dans cet article faire le point sur les ressources du Web 2.0 pour la veille et la recherche d informations dans le domaine scientifique (ressources généralistes du Web 2.0 et outils spécialisés dans le scientifique et technique). Leur nombre étant très important et en augmentation constante, nous avons choisi de présenter une sélection d outils tous gratuits appartenant à des familles différentes, pour illustrer la diversité des services existant. Tous droits réservés BASES PUBLICATIONS 2012 Les outils généralistes du Web 2.0 L ajout de contenu scientifique sur les outils classiques du Web 2.0 comme Twitter, LinkedIn ou encore Viadeo n a pas été immédiat. Mais il serait pour autant dommage de les négliger car on peut aujourd hui trouver des ressources intéressantes comme des partages de liens vers des articles scientifiques, la retransmission d un congrès en temps réel, les dates et programmes de prochains congrès, les actualités et projets d un organisme technologique Seul inconvénient, ces informations peuvent être noyées au milieu d un flot de données pas spécifiquement scientifiques et surtout pas forcément professionnelles. Voici donc un rapide tour d horizon des outils généralistes pouvant présenter un intérêt pour les professionnels de l information. OUTILS DE VEILLE Béatrice Foenix-Riou Afin de favoriser le partage d informations entre leurs adhérents, les trois secteurs «Veille et recherche sur Internet», «Coopération Développement» et «Education Enseignement» de l ADBS ont organisé en juin dernier une matinée sur le thème «Quels outils de veille pour quelles pratiques?». Centrée sur les retours d expérience, cette matinée avait pour objectif de permettre à des professionnels de l information appartenant à des domaines divers, d expliquer leur démarche dans la mise en place de leur veille et dans le choix des outils, et de présenter les atouts et limites des solutions choisies. N Veille : outils gratuits vs plateformes payantes Confrontation des usages dans cinq organisations ous tenterons dans cet article de mettre en avant le fonctionnement des différentes cellules de veille, tel qu il est apparu dans les témoignages, et de confronter ce qui peut être fait ou non avec des outils de veille gratuits (agrégateurs de flux RSS comme Google Reader, outil de partage de signets comme Diigo...) et avec des plateformes payantes (AMI, Digimind, KB Crawl...). Du lecteur de flux RSS à la plateforme de veille AMI EI 6.0 Mathilde Fourquet, Arkema S i Mathilde Fourquet occupe depuis peu le poste de Responsable Actionnariat individuel et information financière, auprès de la Direction Communication Financière d Arkema, c est de son expérience de chargée de veille stratégique et concurrentielle qu elle était venue parler, poste qu elle a occupé pendant plus de dix ans au sein du service InfoDoc d Atofina d abord puis, après la fermeture du service InfoDoc en 2007, auprès de la Direction Stratégie d Arkema. Depuis la fermeture du service InfoDoc, la fonction Veille chez Arkema est assurée par le réseau des professionnels de l information.... tous droits réservés BASES PUBLICATIONS 2012 N 98 Mai / Juin 2012 N 98 Mai / Juin 2012 S O M M A I R E Outils de veille Veille : outils gratuits vs plateformes payantes. Confrontation des usages dans cinq organisations, pp.1-6 Actualités «Googlienne» Google intègre la sémantique à ses algorithmes avec Knowledge Graph, pp.10-11 Google Play : la bibliothèque numérique de Google accessible en France, pp.11-12 Web social Topsy.com : un moteur de recherche temps réel gratuit et performant, pp.14-15 Surf sur le Net GFII : Livre blanc «Nouveaux usages de la veille», p.8 Veille et Recherche : la veille, la recherche et la curation, p.8 Digimind : Baromètre des pratiques de veille, p.9 Créer un flux RSS pour un tag de Google Reader, p.9 Agenda IES 2012, p.12
Pour tous renseignements Béatrice Foenix-Riou BFR Consultants www.bfr-consultants.com www.recherche-eveillee.com bfoenix@bfr-consultants.com @Bfoenix sur Twitter +BFoenix sur Google+ 32