Google Livres et les bibliothèques numériques

Documents pareils
Recherche bibliographique

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Constituer et gérer une bibliographie avec le logiciel zotero. Support de cours et liens utiles

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

GUIDE DE RECHERCHE DOCUMENTAIRE. Bibliothèque du Centre collégial de Mont-Laurier

findit.lu Les guides d utilisation Leçon 17

Formation à la recherche documentaire sur le web

Présentation générale du projet data.bnf.fr

Les nouveaux sites documentaires de l IRD

Catalogue des formations Médecine et paramédical

Initiation à la recherche documentaire

Les documents primaires / Les documents secondaires

Concevoir sa stratégie de recherche d information

Panorama des contenus

La recherche avec l interface COLLEGE

Memento de la recherche documentaire en santé

A LA DÉCOUVERTE DE ZOTERO 4.0

La biblio vient à vous : la veille avec les fils RSS

Recherche et veille documentaire scientifique

MASTER 1 INFORMATIQUE Recherche bibliographique 1 ère session : Rechercher et localiser de la documentation en informatique niveau 1

Base de données bibliographiques Pubmed-Medline

Vers une convergence. Plateforme en ligne Mathrice

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Recherche d information en Sciences exactes et appliquées

La recherche d information

Repérer et utiliser différents types de documents

Table des matières. Préface...5. Introduction...9

PRÉSENTATION DE LOGICIELS DE GESTION DE RÉFÉRENCES BIBLIOGRAPHIQUES

GERER SES REFERENCES BIBLIOGRAPHIQUES AVEC ZOTERO

ISTEX, vers des services innovants d accès à la connaissance

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

Politique d acquisition et de développement des collections de la Bibliothèque de l EPFL

Twitter et Netvibes pour la veille

METHODOLOGIE DOCUMENTAIRE

Bibliothèque numérique de l enssib

Quels apprentissages info-documentaires au collège?

Les répertoires de formats

Projet de Portail des thèses. SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010

Solution documentaire globale. Présentation du 14 janvier 2010

Manuel d utilisation de Zotero

MENER UNE RECHERCHE D INFORMATION

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Un outil didactique clé sur porte pour une initiation à la recherche documentaire. avec vos élèves du secondaire

Un outil open source de gestion de bibliographies

LA RECHERCHE DOCUMENTAIRE

SpringerLink La Connaissance est importante. Choisissez SpringerLink.

Atelier 3 Gestion bibliographique - niveau 1. Principes de la bibliographie et prise en main de Zotero

Une organisation internationale au cœur des enjeux de contenus et d accès à l information scientifique: L IFLA

Zotero Gérer ses références bibliographiques

Initiation à la recherche documentaire

Intégrer des notices de MoCCAM-en-ligne dans BCDI abonnement

Aide méthodologique pour votre recherche documentaire

Les formats MARC. Françoise Leresche Bibliothèque nationale de France, Agence bibliographique nationale, Bureau de normalisation documentaire

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Réussir sa recherche d information en SHS (1ère partie) 18 mars 2015

Groupe Archimed. Qui mieux que le SCD peut gérer vos documents? Olivier WALBECQ Eric Délot Groupe Archimed

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

Comment utiliser le catalogue?

Harmatheque.com. Votre service de prêt numérique

Les archives ouvertes

Rencontre avec les correspondants-formation des services communs de la documentation. Jeudi 27 septembre 2012 URFIST de Paris

Éditeur Elsevier Langue(s) Multilingue

Le travail de recherche documentaire

ATELIER : Ressources juridiques. Formations doctorales BU

La recherche documentaire en français

Savoir mener une recherche documentaire et dresser une bibliographie

Les ressources informatiques et la mise en ligne des documents numérisés Enquête DLL juin-décembre 2008

Journée des bibliothécaires

La recherche documentaire

Science Direct - Cell Press

SERVICE RÉFÉRENCE et FORMATION DES PUBLICS

INITIATION AUX OUTILS DE RECHERCHE DOCUMENTAIRE AUTOMNE 2012

Les 3 erreurs fréquentes qui font qu'un site e-commerce ne marche pas. Livret offert par Kiro créateur de la formation Astuce E-commerce

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

Marketing territorial et veille

La politique du livre face au défi du numérique

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Recherche. Instructions d utilisation de ce Tutoriel. Suite d une action. Explication d un exemple, information supplémentaire. Avertissement. Astuce.

Journée Swets. Garantir l accès durable aux revues électroniques et e-books, est-ce possible?

Comment rédiger r une bibliographie? BULCO-Méthodologie documentaire-bibliographie-2010

3 logiciels «gratuits» pour gérer sa bibliographie

GESTION D UNE BASE BIBLIOGRAPHIQUE

LOGICIELS DE RÉFÉRENCES BIBLIOGRAPHIQUES CHOISIR LE BON OUTIL

Information et communication

L informatique en nuage comme nouvel espace documentaire

Se connecter, analyser et optimiser ses ventes : 3 étapes gagnantes pour les e-commerces

Table des matières détaillée

Veille Internet avec les flux RSS, recherche et veille sur les réseaux sociaux

Le choix stratégique des canaux de communication

Manuel d utilisation

ZOTERO Un outil gratuit de gestion de bibliographies

La recherche en soins infirmiers

d un site web universitas friburgensis Objectifs de l atelier

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Transcription:

Google Livres et les bibliothèques numériques Mediadix Paris / 8 octobre 2010 Alain Jacquesson Vers.1.00

Origine des fonds des bibliothèques numériques Documents numériques natifs Bibliothèque numérique Documents papier numérisés 2

Petit rappel concernant Google Livres 3

Les cinq premières bibliothèques Stanford 9,2 mio Michigan 9,2 mio Oxford Bodleian 9 mio New York Public Library 16 de 50 mio Harvard 16 mio

Et trois bibliothèques francophones Stanford 9,2 mio Gand Madrid Michigan 9,2 mio Munich Vienne Harvard 16 mio Oxford Bodleian 9 mio Rome Florence New York Public Library 16 de 50 mio Lyon 2 mio Lausanne 2 mio

Les différentes opérations Numérisation Images Affichage Transformation en mode texte Index Interrogation 6

Co-Inventeur : Ingénieur français François-Marie Lefévère Polytechnique Promo 1998 Jacquesson / 2-2010

Numérisé à Oxford le 5 juillet 2006

La controverse juridique

Deux options juridiques Opt Out Je numérise d abord tous les livres et je retire les œuvres si vous me le demandez Opt In Je demande d abord si je peux numériser et j inclus les œuvres en cas de réponse positive 10

Résultat En principe le résultat est le même Les éditeurs qui ne le veulent pas ne sont pas présents dans Google Livres Mais il y a un gros problème 11

Les œuvres orphelines Ayants droit identifiés Sous droit Œuvres orphelines Domaine public 12 millions de livres numérisés Domaine public 2,5 millions Domaine public 2,5 millions Sous droit 9,5 millions Epuisés 2,5 millions Œuvres orphelines 2,5 millions Ayants droit identifiés 7 millions 12

Conséquences «Les œuvres orphelines ont désormais un père, il s appelle Google» C est un hold-up magnifique A la colère de Microsoft, Amazon, etc.

Les limites du domaine public Etats-Unis 1923 Reste du monde 1868 Dépend du lieu d interrogation et non de la date de publication de l ouvrage

Trois controverses juridiques Monopole et / ou position dominante Procès aux USA Captation des œuvres orphelines Droit d auteur Procès en France 15

Loi fédérale Loi fédérale sur le droit d auteur et les droits sur le droit d auteur et les voisins (Juillet 2008) droits voisins (Juillet 2008) (Loi sur le droit d auteur, LDA) (Loi sur le droit d auteur, LDA) Ouvrage récent Ouvrage récent publié en Suisse publié en Suisse Acquis conservé Acquis etetconservé dansdans une bibliothèque bibliothèque US US une Consultation en Allemagne Urheberechtsgesetzes Numérisation des ouvrages Numérisation des ouvrages (Opt-Out) par Google (Opt-Out) par Google Consultation en France Code de la propriété intellectuelle Google / Jacquesson / Septembre 2010 16

Conséquences Google est accusé de violation du droit d auteur (essentiellement les éditeurs européens) d accaparer illégitimement les œuvres orphelines (essentiellement ses concurrents : Microsoft, Amazon, etc.) Enorme procès en cours à New York Procès perdu par Google à Paris 17

Les index de Google Livres 18

Les index de Google Livres Google a donc indexé plus de 12 millions de livres Ces index peuvent être sélectionnés par langue (46 langues différentes en août 2010) Dans des graphies variées (latin, cyrilique, japonais, chinois, taï, grec, etc.). 19

Quelques chiffres RERO Google Livres BnF Bibliothèque du Congrès WorldCat d OCLC 5 millions 12 millions 14 millions (notices) (livres) (notices) 32 millions (notices) 169 millions (notices) 20

Chiffres exacts d une bibliothèque participant à Google Livres (Michigan) Après la numérisation de 1 million de livres (janvier 2008) 25,8 680 361 70 000 428 135 000 kilomètres linéaires tonnes millions de pages millions d occurrences de mots Langues Sujets (LCSH) 21

Extrapolations à court terme (En février 2010 Google a numérisé 12 millions de livres) 22

Ajouts aux index de Google Hypothèse : 15 millions de livres numérisés 1 050 000 millions d occurrences (1 billion) Mots non-significatifs 80 % Mots significatifs 20 % 210 000 millions d occurrences de mots 23

Loi de Zipf (Loi du moindre effort vers 1920)) Une des 3 lois fondamentales de la bibliométrie La fréquence d un mot est inversement proportionnelle à son rang 24

Distribution statistique des recherches sur Internet 50 % des recherches concernent les sites 30 % des recherches ordinaires (shopping, voyages, informations médicales, etc.) 20 % des mots rares, obscurs, spécialisés, exotiques, ----------------- Loi de Pareto ------------------------- 25

Qui utilisent ces mots rares? Les chercheurs, les spécialistes Vocabulaire scientifique, produits, etc. Le Grand public Machines disparues, lieux, etc. 26

Distribution valable pour tous les types d internautes «Ordinary People with Extraordinary Tastes» - pour le grand public Vocabulaire scientifique hautement spécialisé - pour les chercheurs 27

Distribution dite de la «Longue traîne» 28

Quels avantages? Google grâce à son projet Livres peut répondre à beaucoup plus de questions que ses concurrents 1 % de réponses supplémentaires = 5 % de satisfaction supplémentaire «Donc je reste sur Google pour la Fat Tail» 29

Critiques Fat tail Long tail = forte concurrence = faible concurrence L'avantage de Google est injuste car ses concurrents ne peuvent pas avoir accès au même corpus ; son avance devient insurmontable Pratiqué à cette échelle, Michael Lesk se demande si l'indexation relève encore du fair use 30

Quelques comparaisons 31

Saint Jean d Acre Google Livres Saint Jean Acre 457 livres Library of Congress Library of Congress Acre (Israel) 64 Acre (Syria) from old catalog 3 références1 références BnF Acre (Israël) 23 références Sudoc Acre (Israël) 14 références Rero Rero Acre (Israël) Saint Jean d'acre 12 1 références référence 1Y compris des descriptions iconographiques 32

Mais Acre (Ville d Israël / Syrie) Acre (Province et rivière du Brésil) Google ne fait pas de différence! 33

Pierre ollaire Pierre réfractaire dont on fait les fourneaux 34

Pierre ollaire / Stéatite RERO partout RERO voc contrôlé RERO partout RERO voc controlé RERO.DOC RERO.DOC pierre ollaire pierre ollaire stéatite stéatite pierre ollaire stéatite 42 28 9 7 1 1 références références références références réf. / 5 occurrences réf. / 5 occurrences SUDOC SUDOC pierre ollaire stéatite 51 21 références références Google Livres Google Livres pierre ollaire stéatite 902 5 610 livres livres Google Google pierre ollaire stéatite 22 000 références 289 000 références 35

Et en sciences humaines (1) RERO partout RERO voc contrôlé RERO.DOC constructivisme constructivisme constructivisme 396 277 1 références références (Note 1) référence SUDOC partout SUDOC voc contrôlé constructivisme constructivisme 611 2 références références BnF partout BnF voc contrôlé constructivisme constructivisme 355 59 références références Google Livres Google Livres constructivisme constructivisme 431 1 527 livres occurrences Google constructivisme 139 000 liens Note 1 : Avantage RERO qui fait la distinction «constructivisme (philosophie)» et «constructivisme (psychologie)» 36

Et en sciences humaines (2) RERO partout RERO voc contrôlé RERO.DOC hypostase hypostase hypostase 19 8 0 références références références SUDOC partout SUDOC voc contrôlé hypostase hypostase 26 2 références références BnF partout BnF voc contrôlé hypostase hypostase 23 10 références références Google Livres Google Livres hypostase hypostase 299 3 210 livres occurrences Google hypostase 127 000 liens (Note 1) Avantage : Google Note 1 : Wikipedia en premier, pas de publicité à placer! 37

Pour être complet Google Livres Google Livres constructivisme 431 livres constructivisme 80 livres affichage complet Google Livres Google Livres faillibilisme faillibilisme 295 livres 1 livre affichage complet Google Livres Google Livres hypostase hypostase 301 livres 365 livres affichage complet Les derniers résultats sont incohérents : l affichage complet doit être égal ou inférieur au premier total (recherche répétée plusieurs fois) Interrogations faites le 6 mars 2010 38

Définitions Pierre ollaire - ou stéatite : pierre naturelle qui possède une forte capacité de résistance à la chaleur. Se prête bien à la réalisation de fourneaux Constructivisme : théorie de l apprentissage et courant artistique et architectural (~1920) Hypostase : théologie, substance fondamentale

De toute évidence Grâce à la masse indexée, Google trouve plus de livres que les catalogues de bibliothèques C est parfaitement logique Mais Seuls 20 % environ de ce qui est trouvé peut être consulté en totalité 40

Conclusion provisoire Avec la numérisation, l indexation des livres est passée à un stade industriel L indexation est désormais «autre chose» On est en passe de quitter le modèle booléen brut que l on utilise depuis 35 ans 41

Les liens autour de Google Livres 42

Les liens autour de Google Livres Les ouvrages numérisés dans Google Livres ne sont pas isolés De nombreux liens y arrivent De nombreux liens en sortent 43

Les liens venant du catalogue local VD VD RERO 44

Informations redondantes 202 millions de notices 1,6 milliard de localisations? 12 millions de Livres numérisés RERO 5 millions de notices 46

Echanges de (meta)données et établissement de liens

Liens internes à Google Livres Google Livres Ouvrage consulté 48

Liens sur des informations propres à Google - 1 49

Liens sur des informations propres à Google - 2 Liens venant de Google Scholar 50

Liens extérieurs à Google Livres (Internet Archive / 2.5 millions de livres numérisés) 51

Liens extérieurs à Google 52

Le futur des liens Vers des dictionnaires biographiques DHS Dictionnaire historique de la Suisse Numérisé à Oxford le 1/4/2008 Notices d autorité Catalogues LoC, Rero, Sudoc, 53

Constitution progressive de grands «blocs» d informations contrôlées Monographies, périodiques, brochures Catalogues, bibliographies, listes Bibliothèques, domaines spécialisés, enseignants Dictionnaires, répertoires, recueils, lexiques Biographiques, géographiques, historiques, techniques, scientifiques, archéologiques, etc. Données brutes Astrophysiques, biologiques, géolocalisées, mais encore juridiques (lois, règlements, jurisprudence, etc.), culturelles, etc. 54

Mais encore des «blocs» non contrôlés Wiki (?) Est-ce de l information contrôlée? Blogs Grand public, spécialisés, etc. Commerce ebay, Abebooks, etc. (Informations volatiles) 55

Google / Jacquesson56/ Mars 2010

Nature des informations Gratuites Officielles, contrôlées, libres, personnelles, Payantes Commerciales (Elsevier, Benezit ) Jstor, HighWire, 57

Dans tous les cas : des informations stables Des adresses permanentes PURL Permanent URL URN Uniform Resource Name DOI Digital Object Identifier Handle System (Ancres) Des résolveurs de liens 58

Google et la gestion des liens Un savoir faire exceptionnel sur lequel est construit initialement le moteur de recherche Une avance énorme Des essais dans tous les domaines 59

L interconnexion des savoirs Une nouvelle étape dans le domaine des bibliothèques numériques Les bibliothèques devront travailler avec de nouveaux acteurs 60

Quelles techniques documentaires derrière Google Livres? 61

La technique de base du moteur de recherche Le «Pagerank» Basée sur la technique du Citation indexing Eugene Garfield (1955) Appliquée au référencement des pages Web 62

Mais Google sait utiliser d autres techniques documentaires Notamment le «Vector Space Model» développé par G. Salton (~1968) Article cité 2533 fois 63

Qui a travaillé sur les méthodes de détection de plagiat par calcul de similarité? 64

[ Petit aparté ] Détection de plagiats : On calcule la similarité entre des documents «soupçonnés» et une base de données de documents

Méthodes de travail de Google «Ne rien faire à la main» Pas de thésaurus, pas de liste matière, pas de classification Utiliser la statistique Utiliser la linguistique computationnelle 66

Etape suivante : utiliser la linguistique Identifier automatiquement les synonymes En janvier 2010, Google annonce qu il sait identifier les synonymes : Taux de réelle erreur : 1 sur 50! Pour l instant ne fonctionne qu en anglais 67

Google / Jacquesson / Août 2010 70

Objectif : améliorer les résultats Elargir la question posée par l utilisateur Actuellement dans le cadre du moteur de recherche Terme posé par l utilisateur : imperméable Synonymes proposés Manteau de pluie Ciré Etc. 71

Fonctionnalité cachée : le tilda En août 2010 Synonymes proposés : women lady female wife Ces termes sont proposés de façon automatique

Résolution des homonymies (1) Jaguar Animal Marque de voiture Avion Système d exploitation Mac Un film, un roman Une chanson des Who Modèle de guitare électrique

Résolution des homonymies (2) Comprendre le contexte Au moyen de la «proximité» des mots A nouveau utilisation des matrices de similarité terme/terme Relativement facile à résoudre

Les chercheurs de Google travaillent dans plusieurs domaines Identification des synonymes Identification des homonymes Eventuellement : classification automatique du vocabulaire

Toutes les conditions semblent donc réunies Pour la construction totalement automatique de thesaurus, de listes matières, etc. Google génère déjà,ou peut générer, des TG, TS, EP Je ne pense pas que Google produise jamais un thésaurus, mais comme pour les synonymes, il cachera ces fonctionnalités

Au-delà du projet «Livres» Google Inc. est préoccupé par la recherche documentaire, par la recherche matière Pour Google général Mais aussi pour Google Livres

Ce domaine de la recherche documentaire Fait l objet de concurrence rude entre développeurs Fait l objet de dépôt de brevets sur le sujet

Conclusion provisoire Avec la numérisation, l indexation des livres est passée à un stade industriel L indexation est désormais «autre chose» Elle est déjà traitée par de puissants mécanismes formels cachés Google Google/ Jacquesson / Jacquesson/ Octobre / Août 2010 2010 79

Cette indexation se base sur Des mécanismes formels Mathématiques ou linguistiques Où l invervention humaine est réduite à sa portion congrue Nos métiers ne pourront pas éviter de lancer un vaste débat sur ce changement profond

Au cours des prochaines années Nos métiers (bibliothécaires, documentalistes, etc.) ne pourront pas éviter de lancer un vaste débat sur le sens de l indexation matière au temps de Google Livres 81

Références complémentaires Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. WSDM (2010) http://research.yahoo.com/pub/3011 Google's Goal: Digitize Every Book Ever Printed Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html [En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'open Book Alliance), etc. PBS est une télévision éducative indépendante]. 82

Coordonnées Alain Jacquesson 9 Route de Bellebouche 1246 Corsier (GE) / Suisse Tél Mail 0(0 41) 22 751 20 63 alain.jacquesson@gmail.com 83