Google Livres et les bibliothèques numériques Mediadix Paris / 8 octobre 2010 Alain Jacquesson Vers.1.00
Origine des fonds des bibliothèques numériques Documents numériques natifs Bibliothèque numérique Documents papier numérisés 2
Petit rappel concernant Google Livres 3
Les cinq premières bibliothèques Stanford 9,2 mio Michigan 9,2 mio Oxford Bodleian 9 mio New York Public Library 16 de 50 mio Harvard 16 mio
Et trois bibliothèques francophones Stanford 9,2 mio Gand Madrid Michigan 9,2 mio Munich Vienne Harvard 16 mio Oxford Bodleian 9 mio Rome Florence New York Public Library 16 de 50 mio Lyon 2 mio Lausanne 2 mio
Les différentes opérations Numérisation Images Affichage Transformation en mode texte Index Interrogation 6
Co-Inventeur : Ingénieur français François-Marie Lefévère Polytechnique Promo 1998 Jacquesson / 2-2010
Numérisé à Oxford le 5 juillet 2006
La controverse juridique
Deux options juridiques Opt Out Je numérise d abord tous les livres et je retire les œuvres si vous me le demandez Opt In Je demande d abord si je peux numériser et j inclus les œuvres en cas de réponse positive 10
Résultat En principe le résultat est le même Les éditeurs qui ne le veulent pas ne sont pas présents dans Google Livres Mais il y a un gros problème 11
Les œuvres orphelines Ayants droit identifiés Sous droit Œuvres orphelines Domaine public 12 millions de livres numérisés Domaine public 2,5 millions Domaine public 2,5 millions Sous droit 9,5 millions Epuisés 2,5 millions Œuvres orphelines 2,5 millions Ayants droit identifiés 7 millions 12
Conséquences «Les œuvres orphelines ont désormais un père, il s appelle Google» C est un hold-up magnifique A la colère de Microsoft, Amazon, etc.
Les limites du domaine public Etats-Unis 1923 Reste du monde 1868 Dépend du lieu d interrogation et non de la date de publication de l ouvrage
Trois controverses juridiques Monopole et / ou position dominante Procès aux USA Captation des œuvres orphelines Droit d auteur Procès en France 15
Loi fédérale Loi fédérale sur le droit d auteur et les droits sur le droit d auteur et les voisins (Juillet 2008) droits voisins (Juillet 2008) (Loi sur le droit d auteur, LDA) (Loi sur le droit d auteur, LDA) Ouvrage récent Ouvrage récent publié en Suisse publié en Suisse Acquis conservé Acquis etetconservé dansdans une bibliothèque bibliothèque US US une Consultation en Allemagne Urheberechtsgesetzes Numérisation des ouvrages Numérisation des ouvrages (Opt-Out) par Google (Opt-Out) par Google Consultation en France Code de la propriété intellectuelle Google / Jacquesson / Septembre 2010 16
Conséquences Google est accusé de violation du droit d auteur (essentiellement les éditeurs européens) d accaparer illégitimement les œuvres orphelines (essentiellement ses concurrents : Microsoft, Amazon, etc.) Enorme procès en cours à New York Procès perdu par Google à Paris 17
Les index de Google Livres 18
Les index de Google Livres Google a donc indexé plus de 12 millions de livres Ces index peuvent être sélectionnés par langue (46 langues différentes en août 2010) Dans des graphies variées (latin, cyrilique, japonais, chinois, taï, grec, etc.). 19
Quelques chiffres RERO Google Livres BnF Bibliothèque du Congrès WorldCat d OCLC 5 millions 12 millions 14 millions (notices) (livres) (notices) 32 millions (notices) 169 millions (notices) 20
Chiffres exacts d une bibliothèque participant à Google Livres (Michigan) Après la numérisation de 1 million de livres (janvier 2008) 25,8 680 361 70 000 428 135 000 kilomètres linéaires tonnes millions de pages millions d occurrences de mots Langues Sujets (LCSH) 21
Extrapolations à court terme (En février 2010 Google a numérisé 12 millions de livres) 22
Ajouts aux index de Google Hypothèse : 15 millions de livres numérisés 1 050 000 millions d occurrences (1 billion) Mots non-significatifs 80 % Mots significatifs 20 % 210 000 millions d occurrences de mots 23
Loi de Zipf (Loi du moindre effort vers 1920)) Une des 3 lois fondamentales de la bibliométrie La fréquence d un mot est inversement proportionnelle à son rang 24
Distribution statistique des recherches sur Internet 50 % des recherches concernent les sites 30 % des recherches ordinaires (shopping, voyages, informations médicales, etc.) 20 % des mots rares, obscurs, spécialisés, exotiques, ----------------- Loi de Pareto ------------------------- 25
Qui utilisent ces mots rares? Les chercheurs, les spécialistes Vocabulaire scientifique, produits, etc. Le Grand public Machines disparues, lieux, etc. 26
Distribution valable pour tous les types d internautes «Ordinary People with Extraordinary Tastes» - pour le grand public Vocabulaire scientifique hautement spécialisé - pour les chercheurs 27
Distribution dite de la «Longue traîne» 28
Quels avantages? Google grâce à son projet Livres peut répondre à beaucoup plus de questions que ses concurrents 1 % de réponses supplémentaires = 5 % de satisfaction supplémentaire «Donc je reste sur Google pour la Fat Tail» 29
Critiques Fat tail Long tail = forte concurrence = faible concurrence L'avantage de Google est injuste car ses concurrents ne peuvent pas avoir accès au même corpus ; son avance devient insurmontable Pratiqué à cette échelle, Michael Lesk se demande si l'indexation relève encore du fair use 30
Quelques comparaisons 31
Saint Jean d Acre Google Livres Saint Jean Acre 457 livres Library of Congress Library of Congress Acre (Israel) 64 Acre (Syria) from old catalog 3 références1 références BnF Acre (Israël) 23 références Sudoc Acre (Israël) 14 références Rero Rero Acre (Israël) Saint Jean d'acre 12 1 références référence 1Y compris des descriptions iconographiques 32
Mais Acre (Ville d Israël / Syrie) Acre (Province et rivière du Brésil) Google ne fait pas de différence! 33
Pierre ollaire Pierre réfractaire dont on fait les fourneaux 34
Pierre ollaire / Stéatite RERO partout RERO voc contrôlé RERO partout RERO voc controlé RERO.DOC RERO.DOC pierre ollaire pierre ollaire stéatite stéatite pierre ollaire stéatite 42 28 9 7 1 1 références références références références réf. / 5 occurrences réf. / 5 occurrences SUDOC SUDOC pierre ollaire stéatite 51 21 références références Google Livres Google Livres pierre ollaire stéatite 902 5 610 livres livres Google Google pierre ollaire stéatite 22 000 références 289 000 références 35
Et en sciences humaines (1) RERO partout RERO voc contrôlé RERO.DOC constructivisme constructivisme constructivisme 396 277 1 références références (Note 1) référence SUDOC partout SUDOC voc contrôlé constructivisme constructivisme 611 2 références références BnF partout BnF voc contrôlé constructivisme constructivisme 355 59 références références Google Livres Google Livres constructivisme constructivisme 431 1 527 livres occurrences Google constructivisme 139 000 liens Note 1 : Avantage RERO qui fait la distinction «constructivisme (philosophie)» et «constructivisme (psychologie)» 36
Et en sciences humaines (2) RERO partout RERO voc contrôlé RERO.DOC hypostase hypostase hypostase 19 8 0 références références références SUDOC partout SUDOC voc contrôlé hypostase hypostase 26 2 références références BnF partout BnF voc contrôlé hypostase hypostase 23 10 références références Google Livres Google Livres hypostase hypostase 299 3 210 livres occurrences Google hypostase 127 000 liens (Note 1) Avantage : Google Note 1 : Wikipedia en premier, pas de publicité à placer! 37
Pour être complet Google Livres Google Livres constructivisme 431 livres constructivisme 80 livres affichage complet Google Livres Google Livres faillibilisme faillibilisme 295 livres 1 livre affichage complet Google Livres Google Livres hypostase hypostase 301 livres 365 livres affichage complet Les derniers résultats sont incohérents : l affichage complet doit être égal ou inférieur au premier total (recherche répétée plusieurs fois) Interrogations faites le 6 mars 2010 38
Définitions Pierre ollaire - ou stéatite : pierre naturelle qui possède une forte capacité de résistance à la chaleur. Se prête bien à la réalisation de fourneaux Constructivisme : théorie de l apprentissage et courant artistique et architectural (~1920) Hypostase : théologie, substance fondamentale
De toute évidence Grâce à la masse indexée, Google trouve plus de livres que les catalogues de bibliothèques C est parfaitement logique Mais Seuls 20 % environ de ce qui est trouvé peut être consulté en totalité 40
Conclusion provisoire Avec la numérisation, l indexation des livres est passée à un stade industriel L indexation est désormais «autre chose» On est en passe de quitter le modèle booléen brut que l on utilise depuis 35 ans 41
Les liens autour de Google Livres 42
Les liens autour de Google Livres Les ouvrages numérisés dans Google Livres ne sont pas isolés De nombreux liens y arrivent De nombreux liens en sortent 43
Les liens venant du catalogue local VD VD RERO 44
Informations redondantes 202 millions de notices 1,6 milliard de localisations? 12 millions de Livres numérisés RERO 5 millions de notices 46
Echanges de (meta)données et établissement de liens
Liens internes à Google Livres Google Livres Ouvrage consulté 48
Liens sur des informations propres à Google - 1 49
Liens sur des informations propres à Google - 2 Liens venant de Google Scholar 50
Liens extérieurs à Google Livres (Internet Archive / 2.5 millions de livres numérisés) 51
Liens extérieurs à Google 52
Le futur des liens Vers des dictionnaires biographiques DHS Dictionnaire historique de la Suisse Numérisé à Oxford le 1/4/2008 Notices d autorité Catalogues LoC, Rero, Sudoc, 53
Constitution progressive de grands «blocs» d informations contrôlées Monographies, périodiques, brochures Catalogues, bibliographies, listes Bibliothèques, domaines spécialisés, enseignants Dictionnaires, répertoires, recueils, lexiques Biographiques, géographiques, historiques, techniques, scientifiques, archéologiques, etc. Données brutes Astrophysiques, biologiques, géolocalisées, mais encore juridiques (lois, règlements, jurisprudence, etc.), culturelles, etc. 54
Mais encore des «blocs» non contrôlés Wiki (?) Est-ce de l information contrôlée? Blogs Grand public, spécialisés, etc. Commerce ebay, Abebooks, etc. (Informations volatiles) 55
Google / Jacquesson56/ Mars 2010
Nature des informations Gratuites Officielles, contrôlées, libres, personnelles, Payantes Commerciales (Elsevier, Benezit ) Jstor, HighWire, 57
Dans tous les cas : des informations stables Des adresses permanentes PURL Permanent URL URN Uniform Resource Name DOI Digital Object Identifier Handle System (Ancres) Des résolveurs de liens 58
Google et la gestion des liens Un savoir faire exceptionnel sur lequel est construit initialement le moteur de recherche Une avance énorme Des essais dans tous les domaines 59
L interconnexion des savoirs Une nouvelle étape dans le domaine des bibliothèques numériques Les bibliothèques devront travailler avec de nouveaux acteurs 60
Quelles techniques documentaires derrière Google Livres? 61
La technique de base du moteur de recherche Le «Pagerank» Basée sur la technique du Citation indexing Eugene Garfield (1955) Appliquée au référencement des pages Web 62
Mais Google sait utiliser d autres techniques documentaires Notamment le «Vector Space Model» développé par G. Salton (~1968) Article cité 2533 fois 63
Qui a travaillé sur les méthodes de détection de plagiat par calcul de similarité? 64
[ Petit aparté ] Détection de plagiats : On calcule la similarité entre des documents «soupçonnés» et une base de données de documents
Méthodes de travail de Google «Ne rien faire à la main» Pas de thésaurus, pas de liste matière, pas de classification Utiliser la statistique Utiliser la linguistique computationnelle 66
Etape suivante : utiliser la linguistique Identifier automatiquement les synonymes En janvier 2010, Google annonce qu il sait identifier les synonymes : Taux de réelle erreur : 1 sur 50! Pour l instant ne fonctionne qu en anglais 67
Google / Jacquesson / Août 2010 70
Objectif : améliorer les résultats Elargir la question posée par l utilisateur Actuellement dans le cadre du moteur de recherche Terme posé par l utilisateur : imperméable Synonymes proposés Manteau de pluie Ciré Etc. 71
Fonctionnalité cachée : le tilda En août 2010 Synonymes proposés : women lady female wife Ces termes sont proposés de façon automatique
Résolution des homonymies (1) Jaguar Animal Marque de voiture Avion Système d exploitation Mac Un film, un roman Une chanson des Who Modèle de guitare électrique
Résolution des homonymies (2) Comprendre le contexte Au moyen de la «proximité» des mots A nouveau utilisation des matrices de similarité terme/terme Relativement facile à résoudre
Les chercheurs de Google travaillent dans plusieurs domaines Identification des synonymes Identification des homonymes Eventuellement : classification automatique du vocabulaire
Toutes les conditions semblent donc réunies Pour la construction totalement automatique de thesaurus, de listes matières, etc. Google génère déjà,ou peut générer, des TG, TS, EP Je ne pense pas que Google produise jamais un thésaurus, mais comme pour les synonymes, il cachera ces fonctionnalités
Au-delà du projet «Livres» Google Inc. est préoccupé par la recherche documentaire, par la recherche matière Pour Google général Mais aussi pour Google Livres
Ce domaine de la recherche documentaire Fait l objet de concurrence rude entre développeurs Fait l objet de dépôt de brevets sur le sujet
Conclusion provisoire Avec la numérisation, l indexation des livres est passée à un stade industriel L indexation est désormais «autre chose» Elle est déjà traitée par de puissants mécanismes formels cachés Google Google/ Jacquesson / Jacquesson/ Octobre / Août 2010 2010 79
Cette indexation se base sur Des mécanismes formels Mathématiques ou linguistiques Où l invervention humaine est réduite à sa portion congrue Nos métiers ne pourront pas éviter de lancer un vaste débat sur ce changement profond
Au cours des prochaines années Nos métiers (bibliothécaires, documentalistes, etc.) ne pourront pas éviter de lancer un vaste débat sur le sens de l indexation matière au temps de Google Livres 81
Références complémentaires Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. WSDM (2010) http://research.yahoo.com/pub/3011 Google's Goal: Digitize Every Book Ever Printed Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html [En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'open Book Alliance), etc. PBS est une télévision éducative indépendante]. 82
Coordonnées Alain Jacquesson 9 Route de Bellebouche 1246 Corsier (GE) / Suisse Tél Mail 0(0 41) 22 751 20 63 alain.jacquesson@gmail.com 83