Le Web, source d information

Transcription

1 5èmes rencontres doctorales autour de l informa3on scien3fique et technique Bibliothèque de Paris, 15 et 16 janvier 2013 Le Web, source d information Emilie Brunet Responsable Forma3on Bibliothèques MINES ParisTech emilie.brunet@mines- paristech.fr

2 Objectifs Ø Cerner un paysage documentaire et informationnel complexe pour mieux repérer et trier l information pertinente Ø Saisir ce que sont le web et les moteurs pour en avoir un usage maitrisé Ø Comprendre pourquoi Google est insuffisant et inadapté pour la recherche d information scientifique et technique (IST) Ø Connaître les autres outils de recherche 2

3 Plan Ø Quelques définitions Ø Web, moteurs, web visible et invisible, web 2.0, web sémantique, web de données Ø Quelques chiffres Ø Quelques moteurs en accès libre Ø Quelques pratiques Ø Quelques références bibliographiques 3

4 Le web, ce n est pas internet Historique et définition ü Quand? ü Qui? Tim Berners-Lee et Roger Caillau au CERN (Conseil européen de recherche nucléaire, Genève) ü Quoi? Un système d information hypertexte ü Pourquoi? Permettre l échange de fichiers entre chercheurs ü Comment? Fondé sur l Internet (INTERconnected Networks), un système mondial d interconnexions de machines reposant sur des standards et des protocoles. «Le World Wide Web, ou toile d araignée à l échelle mondiale, est un système ( ) qui permet de consulter des pages hébergées sur des sites et de passer de l une à l autre via des liens hypertextes. Mais le web ne représente que l un des services offerts par cet immense réseau informatique qu est Internet, au même titre que le courrier électronique, la messagerie instantanée ou le partage de fichiers en peer-to-peer. Pour autant, il est vrai que la recherche d information via Internet passe par la plupart du temps par l utilisation du web plutôt que des autres services» (Mesguich et Thomas, 2010, p. 18). 4

5 Des navigateurs et des moteurs Pour accéder au web «L accès aux documents [du texte, des images statiques, des sons, des images animées, des liens] se fait en utilisant un logiciel de consultation (browser, aussi appelé navigateur) qui gère l interface graphique de l utilisateur et les liens permettant par un simple clic de la souris d accéder au document ainsi désigné» (Martin, 2005). Top 5 des navigateurs les plus utilisés en Europe (août 2013) : 1 Google Chrome : 27,2% des visites 2 Internet Explorer : 26,4% 3 Mozilla Firefox : 21,3 % 4 Safari : 17,8 % 5 Navigateurs mobiles intégrés (Samsung, Blackberry ) : 3,5 % France, même ordre : 28,1%, 25,2%, 23,1%, 17,1%, 0,6% 5

6 Qu est-ce qu un moteur? Trois éléments : 1. Un robot (ou bot, crawler, spider ), programme de navigation qui parcourt le Web et collecte (crawl) des pages qu il stocke sur un serveur. Il teste tous les liens hypertexte, copie les pages web qu il visite et les revisite périodiquement. Les fréquences de mise à jour varient considérablement d un moteur à l autre (de tous les jours à plusieurs mois). 2. Un index qui contient tous les mots de toutes les pages rapatriées par le robot et qui relie ceux-ci à l URL des pages dont ils proviennent. Aujourd hui, les moteurs intègrent des traitements d analyse du texte (fautes d orthographe, synonymes, formes voisines ) 3. Une interface web qui propose à l internaute de lancer les requêtes pas mots et affiche les résultats. Des moteurs différents, donc des résultats différents Ø Pas les mêmes couvertures, index, algorithmes de classement Cf. PageRank de Google basé sur la popularité 6

7 Les moteurs en quelques chiffres Au total, plus de 99 % du trafic généré par les moteurs Ø En septembre 2013, 39,2 millions d internautes se sont connectés sur au moins un moteur de recherche, soit 84,5% des internautes actifs. Les modalités de recherche simple souvent préférées (1 ou 2 termes juxtaposés), parfois par ignorance des modes d interrogations avancées. Dans 95 % des requêtes, seuls les résultats de la première page de résultats sont consultés. Top 5 des moteurs les plus utilisés en France (septembre 2013) : 1 Google : 73,1%, soit 33,9 millions de visiteurs uniques, 40 min. / mois (en 2012 : 83%, 36,3 millions de personnes, 51 min. / mois) 2 Google images : 44,1%, 20,5 millions, 7 min. / mois 3 Ask : 19,2%, 8,9 millions, 5 min. / mois 4 Bing (Microsoft) : 13,7%, 6,4 millions, 9 min. / mois 5 Yahoo : 11%, 5,1 millions, 7 min. /mois) 7

8 Web invisible Dit aussi web profond ou caché Ensemble des pages non localisables et/ou indexables par les moteurs : Pages dynamiques générées après requête (contenu des bases de données), Pages avec accès soumis à authentification (Intranet, ressources payantes), Pages orphelines (pas de référencement, pas de liens vers elles ) Pages de sites volumineux non crawlés en entier par les moteurs Pages «interdites» volontairement par les webmasters Ø Volume plus important que le web visible mais impossible de les estimer en nombre de pages. 8

9 Web 2.0 Dit aussi web de seconde génération, web social, web de conversations Après le «web de documents» (jusqu en 2004), le web 2.0 se caractérise par «une implication plus importante des internautes dans la création, l enrichissements, la description et la diffusion des contenus. Simplicité d accès, partage, mutualisation, individualisation, réutilisation des contenus : toutes ces caractéristiques du web 2.0 ( ) participent d une même conception de l accès à l information dans un contexte de liberté et de créativité. Ce web social permet à des consommacteurs de l information de créer non seulement des contenus électroniques, mais de les enrichir collectivement et d en assurer la diffusion» (Mesguish et Thomas, 2010, p. 19). Ø blogs, microblogging, wikis, réseaux sociaux, tagging/ folksonomie (indexation par des non-spécialistes) 9

10 Web sémantique Web de données (1) Après les documents, les données brutes lisibles par les internautes et les machines Principe majeur : structurer l information contenue sur le web et lier les données directement entres elles. Comment? en ajoutant un niveau de description explicite des ressources et des liens (métadonnées, annotations sémantiques). Le web sémantique obéit au modèle de graphe RDF (Resource data framework) qui permet des représentations sous forme de triplets sujet-propriété-objet. Toutes les ressources sont identifiées par une URI (Uniform resource identifier) qui a un rôle d identification et d adressage : par ex., l ISBN pour un livre : /isbn/ , la référence Geonames pour un lieu géographique : Le niveau de description s appuie sur des ontologies qui permettent d ajouter des relations entre les ressources et de qualifier ses relations. 10

11 Web sémantique Web de données (2) «Des machines pourraient ainsi extraire des informations, en se basant sur des métadonnées depuis des grands réservoirs d information, et les agréger de façon à fournir à l utilisateur, non pas une longue liste de documents, mais des données correspondant à sa requête» (Mesguich et Thomas, 2010, p. 157). Google évolue dans ce sens et devient un moteur d information. (Cf. réponses fournies à droite de la liste de résultats) Exemples de réalisations :

12 Autres moteurs de recherche Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013) Moteurs de recherche "verticaux", spécialisés sur la littérature scientifique (multidisciplinaire / multiressources) Indexent spécifiquement la littérature scientifique et académique, dans tous les domaines : sites universitaires, archives ouvertes, mais aussi banques de données reconnues (Refdoc...). Accès aux références bibliographiques en accès libre ; document primaire gratuit ou payant selon les sources. Scirus : Créé en 2001, va être abandonné en janvier 2014 par Elsevier Google Scholar : Créé en Opacité de la couverture, antériorité, volume Microsoft Academic Search : : lancé en 2009 par Microsoft. 12

13 Autres moteurs de recherche Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013) Portails scientifiques multidisciplinaires : recherche fédérée sur des bases de données et des portails (métamoteurs) Visualisation des références en accès libre. Selon les sources interrogées : accès au document primaire en ligne ou non (ou via paiement) Science.gov : Lancé en 2002 par Science.gov Alliance (organisations scientifiques américaines). Portail d'accès aux ressources scientifiques officielles américaines. ScienceResearch.com : Moteur de recherche libre lancé par Deep Web Technologies en Interroge plus de 400 "collections" de sources dans le domaine des sciences et technologies (PubMed, IngentaConnect, Cochrane Library...) ainsi que des portails de recherche sur la science, comme Science.gov, Mednar.com, WorldWideScience.org. WorldWideScience : Portail mondial et multilingue d'accès à l'information scientifique, crée en 2007 par la WorldWideScience Alliance ; permet d'interroger simultanément +80 bdd et portails scientifiques de différentes langues dans +70 pays, grâce à sa recherche fédérée (Deep Web Technologies) et sa technologie de traduction (Microsoft). 13

14 Autres moteurs de recherche Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013) Moteurs de recherche multidisciplinaires sur les ressources en open access moteurs personnalisables (réalisés avec Google Custom Search Engine) : OpenDOAR (Directory of Open Access Repositories) : Annuaire des serveurs d'archives ouvertes dans le monde (+2 200) ROAR (Registry of Open Access Repositories) : Annuaire également FreeFullPDF : Interroge plus de 80 millions de documents PDF issus de sources scientifiques (sciences de la vie, sciences physiques...). "moissonneurs OAI", indexation des bibliothèques numériques utilisant le protocole OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting) : BASE (BielefeldAcademicSearchEngine) : OAISTER : DOAJ (Directory of Open Access Journals) : SOAJ (Science Open Access Journal) : Interroge simultanément des sources comme Biomed Central, Europe PubMed Central, DOAJ, Scientific Electronic Library Online... 14

15 Autres moteurs de recherche Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013) Moteurs de recherche spécialisés sur un domaine : QUERTLE : Moteur biomedical en accès libre lancé en 2009, utilisant la sémantique dans ses algorithmes pour une meilleure pertinence ; a crée sa propre bdd avec 300 millions de relations entre les sujets. ECONBIZ : Développe par la German National Library of Economics (ZBW) et l'university and City Library of Cologne. Moteur de recherche interrogeant des banques de données allemandes et internationales dans le domaine de l'économie, avec accès au texte intégral des documents. Parmi les bases interrogées : ECONIS (+4 millions d'ouvrages), RePEc (research papers), section économique de BASE, etc. 15

16 Autres moteurs de recherche Alternatives à Google en accès libre Moteurs de recherche spécialisés sur un type de documents : THESES : Moteur de recherche des thèses de doctorat français LARA : Accès au texte intégral de rapports scientifiques et techniques français. Site fédérateur et multidisciplinaire réalise par l'inist ; alimenté par différents laboratoires, instituts, centres de recherche (Certu, Cnam, Inrs, Inserm...). A pour vocation de valoriser la littérature grise scientifique et technique, et notamment les rapports, techniques, de recherche, d'activite, institutionnels... ESP@CENET : Bdd gérée par l'oeb. Accès gratuit à plus de 80 millions de documents brevets du monde entier, contenant des informations sur les inventions et les évolutions techniques de 1836 à nos jours. 16

17 Pratiques informationnelles des chercheurs Encore quelques chiffres pour finir Ø Part de la documentation numérique : 75 % Ø 95 % utilisent Google Ø 70 % ont recours à Wikipédia dont 47% dans le cadre académique Ø 45 % utilisent Google Scholar 17

18 Discussion Ø Et vous? Quelles sont vos pratiques? Que Google? Google Scholar? Mode avancé? Commandes (intitle:, related:, site:, filetype:, etc.)? Wikipédia, une ressource dans le contexte académique? Quels autres outils? Les ressources de la bibliothèque? 18

19 Pour aller plus loin (1) Sources et conseils de lecture ANDRIEU Olivier, 10 mai 2011, «Moteurs de recherche web : Google, Bing et leurs challengers», dans : Techniques de l ingénieur, Base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf. h7240, 17 p, [consulté le 11/12/2013], disponible à l'adresse : AT INTERNET, 1er oct. 2013, «Google Chrome s empare de la 1ère place en Europe : Août Baromètre des navigateurs», [en ligne], site de AT Internet Online Intelligence Solutions [consulté le 11/12/2013], disponible à l'adresse : CCM Benchmark cité par FILIPPONE Dominique, 4 oct. 2013, «Chrome fait toujours la course en tête» [en ligne], Journal du net [consulté le 11/12/2013], disponible à l'adresse : FOENIX-RIOU Béatrice, 2011, Recherche éveillée sur Internet : mode d emploi, Paris : Lavoisier Bases Publications. FOENIX-RIOU Béatrice, 10 déc. 2013, «Recherches sur Internet : Y a-t-il une vie sans Google? - Compte-rendu de l'atelier du secteur Veille de l'adbs» [en ligne], Le blog de Recherche-eveillee.com [consulté le 11/12/2013], disponible à l'adresse : - GALLEZOT Gabriel, 4 mars 2011, «Enquête sur les Pratiques Informationnelles des Chercheurs : Quelques Résultats» [en ligne], URFIST info [blog] [consulté le 11/12/2013], disponible à l'adresse : MARTIN Bernard, 10 nov. 2005, «Introduction au World Wide Web : concepts de base», dans : Techniques de l ingénieur, Base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf. h7240, 21 p, [consulté le 11/12/2013], disponible à l'adresse : MESGUICH Véronique et THOMAS Armelle, 2010, Net recherche 2010 : le guide pratique pour mieux trouver l information utile et surveiller le web, Paris : ADBS [Nouvelle édition à paraître en décembre 2013 : coédition ADBS De Boeck]. 19

20 Pour aller plus loin (2) Sources et conseils de lecture LAUBLET Philippe, 10 mai 2010, «Web sémantique : principes, représentations sémantiques et ontologies», dans : Techniques de l ingénieur, base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf. h7240, 9 p, [consulté le 11/12/2013], disponible à l'adresse : Office québécois de la langue française, Grand dictionnaire terminologique (GDT) [consulté le 11/12/2013] : - Fiche terminologique «Internet», 2007, disponible à l'adresse : - Fiche terminologique «Web», 2009, disponible à l'adresse : - Fiche terminologique «Web 2.0», 2013, disponible à l'adresse : - Fiche terminologique «Web invisible», 2006, disponible à l'adresse : POMPIDOR Pierre, 10 fév. 2009, «Évolutions récentes des technologies web du côté client : le Web 2.0 au service des applications riches», dans : Techniques de l ingénieur, base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf. h7240, 13 p, [consulté le 11/12/2013], disponible à l'adresse : SIMMONOT Brigitte et GALLEZOT Gabriel (dir.), 2009, L'entonnoir : Google sous la loupe des sciences de l'information et de la communication. Caen : C & F Éditions. Rédaction du Journal du net, 26 novembre 2013, «Le Top 5 des moteurs de recherche en France» [en ligne], Journal du net [consulté le 11/12/2013], disponible à l'adresse : WASSNER Hubert, 25 fév. 2011, «L algorithme PageRank : comment ça marche?», dans : Techniques de l ingénieur, Actualité : Informatique - Electronique Télécoms [base de données en ligne], Paris : Editions T.I., [consulté le 11/12/2013], disponible à l'adresse : 20