Les humanités numériques à l ère du big data D. A. ZIGHED djamel@zighed.com Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC AFIHM - SFdS
Accueil - Remerciements! Les GT de l association «extraction et gestion des connaissances» (EGC)! Fouille de Données Complexes (FDC)! Fouille de Grands Graphes (FDG)! Gestion et Analyse de données Spatiales et Temporelles (GAST)! Le GT de «l association française des interfaces hommemachine» (AFIHM)! Visualisation d informations, interaction et fouille de données (VIF)! Le GT de la société française de statistique (SFdS)! Data mining et apprentissage (DMA) Bienvenue à l ISH pour cet échange STIC-SHS
Plan de présentation! Présentation de l ISH! Les humanités et les sciences sociales! Le big data! Les humanités et le big data! Conclusion
L institut des sciences de l homme de Lyon
Les humanités et les sciences sociales
Les humanités et les sciences sociales Recherche : individuelle Matériel : Monographie Méthodologie : Interprétation exégèse érudition, critique - raisonnement déductif discours discursif Publication : auteur unique - ouvrage
Les humanités et les sciences sociales Recherche : Collective Matériel : Observations sur terrain Méthodologie : Hypothèse - mesure observation statistique induction expérimentation - simulation Publication : collective - articles
Les humanités et les sciences sociales Littérature (Analyse de style) Recherche : individuelle Matériel : Monographie Méthodologie : Interprétation exégèse érudition, critique - raisonnement déductif discours discursif Publication : auteur unique - livre Economie (Eco Politique) Recherche : Collective Matériel : Observations de terrain Méthodologie : Hypothèse - mesure observation statistique induction expérimentation simulation Publication : collective - articles
Les humanités et les sciences sociales l humain son existence et ses activités sociales, économiques et culturelles = Sciences de l Humain et de la Société - SHS
Les humanités et les sciences sociales à L ISH 8000 références biblio 2010-2014 23 laboratoires 3000 personnes Extraction de topics AFC
Les humanités et les sciences sociales à L ISH
Humanités Numériques ~ 1940 : Computational humanities ; Digital Humanities ehumanities Roberto Busa (1913 2011) Thomas John Watson, Sr. (1874 1956) Lexique des 118 textes de Thomas d'aquin
Humanités Numériques Lex 1 Lex 2 Lex 3 Lex j Lex n Texte 1 Texte 2 : Texte i : : : : : : Texte 118 n ij (Occurences de Lex j dans T i ) magister T 1 Comment visualiser Les textes dans les n dimensions lexicales? T i T 2 T 3 T n praesentis
Humanités numériques! ~ 1990 : PC, Scanners, Internet,! Objectif initial : Mise en lignes du patrimoine culturel et scientifique;! Les projets (~2000) :! bibliothèque du congrès américain;! Gutenberg (1971);! Million books project;! Google books (2013) ~ 30 Millions d ouvrages.
Humanités numériques Chaine de numérisation et d édition critique; Acquisition Numérisation (Text image vidéo ) Préparation Nettoyage Mise en forme Archivage ROC Encodage (TEI) Indexation Enrichissement Méta-données Dublin Core Mise en ligne DVD, Web Enrichissement Collaboratif
Humanités numériques intégratives Enregistrer, stocker, traiter et diffuser les traces et empreintes des activités humaines Acquisition, enquête numérisation, open data, obets connectés (Text image vidéo ) Préparation Nettoyage Mise en forme Archivage Exploitation Analytique Fouille ROC Encodage (TEI) Indexation Enrichissement Méta-données Dublin Core Mise en ligne DVD, Web Enrichissement Collaboratif Création de nouveaux services / outils
Big data en image 200 Mds mails/j 35 Mds de pages Facebook 5,6 Mds téléphones Internet = 10 000 Mds de Go / mois Océan Déluge Tsunami des données
Big data : montée en flèche et chutes libres Nb noeuds 1 Mds 1969 2015 $ / To 14 000 000 $ $ / GFLOPS 1,1 Mds $ $ / Mbps 1200 $ 70 $ 1970 2015 0,08 $ 1960 2015 0,63 $ 1998 2015
Big data : caractéristiques Volume Walmart : 1 million de transactions/heure Google : 25 pétaoctets traités par jour Facebook traite, analyse +30 pétaoctets Vitesse Facebook : enregistre 100 téraoctets / jour Twitter enregistre ~ 200 millions de tweets par jour Variété Youtube enregistre 48 heures de vidéo / minute 30 milliards de documents partagés sur Facebook Médias sociaux Internet des objets Open data
Big data : objet Gérer et traiter des «grands» volumes de données hétérogènes et évolutives dans un cadre contraint; Temps de lecture à 100 Mo/s 2 h 45 10 jours Disque dur ~1To Data center > 100 To Internet : > 10 Po BDR optimisées Temps de réponse Taille de la BD
Big data : diviser pour régner! Vers un nouveau modèle de données! Vers de nouveaux concepts de programmation
Big data : Nouveau modèle de données Dénormaliser Relâcher les contraintes Cohérence De nouveaux compromis - Efficacité + Disponibilité NoSQL Distribuer Données et traitements Montée en charge linéaire Viser Performance et disponibilité $$$$$$$$$$$$$$ Couplage données et traitements Développement ad hoc
Big data : Bases de données orientées agrégats Clé 0FR63K (identifie serveur et enregistrement) Valeur : blob (video/text/xml doc/ ) facteur de réplication (N) quorum d écriture (W) quorum de lecture (R) Entrepôts Clé-valeur BDOA Clé 0FR63K Valeur : Doc (XML, JSON) BD orientées documents BD orientées colonnes Clé 0FR63K table : colonnes (statique/dynamiques) Fondation Apache BD orientées graphes
Big data : Concept de programmation! Calcul parallèle : un concept né avec l informatique! Le paradigme MapReduce Clusters de calcul MAP Shuffle REDUCE Clients 1 2 3 4 Factures Chaque machine calcule par produit : Volume - CA Tri par produit du map Volume Total CA global par produit
Big data : Hadoop, l éléphanto dans un magasin de porcelaine? Framework Fondation Apache Java Ramener un calcul à des taches de type : Map Reduce. Est-ce toujours possible? Ecriture-test Paramétrage...
Humanités numériques et big data! Commencement @ Google (2000) Création d un annuaire inversé des pages web pour le moteur de recherche Google; Combien
Digital humanities @ google Des centaines de partenariats avec des musées pour rendre accessible en ligne les œuvres d arts et les préserver en numérique pour le futur.
Humanités numériques @ Google 30 millions de livres scannés (2013) ~ 130 millions de titres ont été publiés depuis Xve siècle
Humanités numériques intégratives! Economie et Big data Dépôt de bilan en juillet 2008 Roberto Rigobon Relevé des prix de 500 000 prix USA Aucun nettoyage ni consolidation Analyse (big data) Détecte un épisode inflationniste en septembre 2008 Le CPI (INSEE US) ne détecte le phénomène que 2 mois plus tard, novembre 2008; Coût de production 250 millions $
Humanités numériques intégratives! Psycho-socio
Humanités numériques intégratives! Sociologie - Analyse d opinion - Analyse des sentiments - Recommandations -
Conclusion : Humanités numériques big data! Nous sommes qu au début : il faut un Codd pour les big data ;! Il faut un Gauss pour le traitement;! Est ce que tout est dans les données? (frappe clavier)! Peut-on tout optimiser? (smart-phone/assurances)! Faut-il tout traiter tout?! Faut-il cesser de chercher des théories? (2008, Chris Anderson)