Les humanités numériques à l ère du big data

Documents pareils
Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Les bases de données relationnelles

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Programmation parallèle et distribuée (Master 1 Info )

Enjeux mathématiques et Statistiques du Big Data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

À PROPOS DE TALEND...

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Titre : La BI vue par l intégrateur Orange

Pourquoi intégrer le Big Data à son organisa3on?

Les technologies du Big Data

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Bases de données documentaires et distribuées Cours NFE04

Panorama des solutions analytiques existantes

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Big Data et Graphes : Quelques pistes de recherche

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Conserver les Big Data, source de valeur pour demain

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Jean-François Boulicaut & Mohand-Saïd Hacid

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Introduction Big Data

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Document réalisé par Khadidjatou BAMBA

Big Data et Graphes : Quelques pistes de recherche

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

Introduction au Data-Mining

Quels choix de base de données pour vos projets Big Data?

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Le coffre-fort électronique qui classe votre courrier!

BIG DATA en Sciences et Industries de l Environnement

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Bases de données documentaires et distribuées Cours NFE04

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr


Big Data On Line Analytics

Open Data. Enjeux et perspectives dans les télécommunications

Les Entrepôts de Données. (Data Warehouses)

Présentation du module Base de données spatio-temporelles

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Livret de Stages 2014 / 2015

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Ricco Rakotomalala R.R. Université Lyon 2

SÉRIE NOUVELLES ARCHITECTURES

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Big Graph Data Forum Teratec 2013

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Les datas = le fuel du 21ième sicècle

Le BigData, aussi par et pour les PMEs

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Tables Rondes Le «Big Data»

Infrastructure / réseau / sécurité /support utilisateur

Transformez vos données en opportunités. avec Microsoft Big Data

Les quatre piliers d une solution de gestion des Big Data

HADOOP ET SON ÉCOSYSTÈME

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Surmonter les 5 défis opérationnels du Big Data

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Catalogue Formation «Vanilla»

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Gestion collaborative de documents

BIG Data et R: opportunités et perspectives

Présentation aux entreprises du numérique

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Mise en place d'un serveur d'application SIG au Conseil général de Seine-et-Marne

Big Data et l avenir du décisionnel

ISTEX, vers des services innovants d accès à la connaissance

Cours 8 Not Only SQL

Master Informatique Aix-Marseille Université

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Un serveur d'archivage

Guide de référence pour l achat de Business Analytics

25 octobre JD EDWARDS ENTERPRISEONE et DÉMATÉRIALISATION

Exploration des Big Data pour optimiser la Business Intelligence

TRAVAUX DE RECHERCHE DANS LE

Cycle de vie, processus de gestion

Découverte et investigation des menaces avancées PRÉSENTATION

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Dématérialisation du courrier: à éviter

Certificat Big Data - Master MAthématiques

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

QLIKVIEW ET LE BIG DATA

Transcription:

Les humanités numériques à l ère du big data D. A. ZIGHED djamel@zighed.com Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC AFIHM - SFdS

Accueil - Remerciements! Les GT de l association «extraction et gestion des connaissances» (EGC)! Fouille de Données Complexes (FDC)! Fouille de Grands Graphes (FDG)! Gestion et Analyse de données Spatiales et Temporelles (GAST)! Le GT de «l association française des interfaces hommemachine» (AFIHM)! Visualisation d informations, interaction et fouille de données (VIF)! Le GT de la société française de statistique (SFdS)! Data mining et apprentissage (DMA) Bienvenue à l ISH pour cet échange STIC-SHS

Plan de présentation! Présentation de l ISH! Les humanités et les sciences sociales! Le big data! Les humanités et le big data! Conclusion

L institut des sciences de l homme de Lyon

Les humanités et les sciences sociales

Les humanités et les sciences sociales Recherche : individuelle Matériel : Monographie Méthodologie : Interprétation exégèse érudition, critique - raisonnement déductif discours discursif Publication : auteur unique - ouvrage

Les humanités et les sciences sociales Recherche : Collective Matériel : Observations sur terrain Méthodologie : Hypothèse - mesure observation statistique induction expérimentation - simulation Publication : collective - articles

Les humanités et les sciences sociales Littérature (Analyse de style) Recherche : individuelle Matériel : Monographie Méthodologie : Interprétation exégèse érudition, critique - raisonnement déductif discours discursif Publication : auteur unique - livre Economie (Eco Politique) Recherche : Collective Matériel : Observations de terrain Méthodologie : Hypothèse - mesure observation statistique induction expérimentation simulation Publication : collective - articles

Les humanités et les sciences sociales l humain son existence et ses activités sociales, économiques et culturelles = Sciences de l Humain et de la Société - SHS

Les humanités et les sciences sociales à L ISH 8000 références biblio 2010-2014 23 laboratoires 3000 personnes Extraction de topics AFC

Les humanités et les sciences sociales à L ISH

Humanités Numériques ~ 1940 : Computational humanities ; Digital Humanities ehumanities Roberto Busa (1913 2011) Thomas John Watson, Sr. (1874 1956) Lexique des 118 textes de Thomas d'aquin

Humanités Numériques Lex 1 Lex 2 Lex 3 Lex j Lex n Texte 1 Texte 2 : Texte i : : : : : : Texte 118 n ij (Occurences de Lex j dans T i ) magister T 1 Comment visualiser Les textes dans les n dimensions lexicales? T i T 2 T 3 T n praesentis

Humanités numériques! ~ 1990 : PC, Scanners, Internet,! Objectif initial : Mise en lignes du patrimoine culturel et scientifique;! Les projets (~2000) :! bibliothèque du congrès américain;! Gutenberg (1971);! Million books project;! Google books (2013) ~ 30 Millions d ouvrages.

Humanités numériques Chaine de numérisation et d édition critique; Acquisition Numérisation (Text image vidéo ) Préparation Nettoyage Mise en forme Archivage ROC Encodage (TEI) Indexation Enrichissement Méta-données Dublin Core Mise en ligne DVD, Web Enrichissement Collaboratif

Humanités numériques intégratives Enregistrer, stocker, traiter et diffuser les traces et empreintes des activités humaines Acquisition, enquête numérisation, open data, obets connectés (Text image vidéo ) Préparation Nettoyage Mise en forme Archivage Exploitation Analytique Fouille ROC Encodage (TEI) Indexation Enrichissement Méta-données Dublin Core Mise en ligne DVD, Web Enrichissement Collaboratif Création de nouveaux services / outils

Big data en image 200 Mds mails/j 35 Mds de pages Facebook 5,6 Mds téléphones Internet = 10 000 Mds de Go / mois Océan Déluge Tsunami des données

Big data : montée en flèche et chutes libres Nb noeuds 1 Mds 1969 2015 $ / To 14 000 000 $ $ / GFLOPS 1,1 Mds $ $ / Mbps 1200 $ 70 $ 1970 2015 0,08 $ 1960 2015 0,63 $ 1998 2015

Big data : caractéristiques Volume Walmart : 1 million de transactions/heure Google : 25 pétaoctets traités par jour Facebook traite, analyse +30 pétaoctets Vitesse Facebook : enregistre 100 téraoctets / jour Twitter enregistre ~ 200 millions de tweets par jour Variété Youtube enregistre 48 heures de vidéo / minute 30 milliards de documents partagés sur Facebook Médias sociaux Internet des objets Open data

Big data : objet Gérer et traiter des «grands» volumes de données hétérogènes et évolutives dans un cadre contraint; Temps de lecture à 100 Mo/s 2 h 45 10 jours Disque dur ~1To Data center > 100 To Internet : > 10 Po BDR optimisées Temps de réponse Taille de la BD

Big data : diviser pour régner! Vers un nouveau modèle de données! Vers de nouveaux concepts de programmation

Big data : Nouveau modèle de données Dénormaliser Relâcher les contraintes Cohérence De nouveaux compromis - Efficacité + Disponibilité NoSQL Distribuer Données et traitements Montée en charge linéaire Viser Performance et disponibilité $$$$$$$$$$$$$$ Couplage données et traitements Développement ad hoc

Big data : Bases de données orientées agrégats Clé 0FR63K (identifie serveur et enregistrement) Valeur : blob (video/text/xml doc/ ) facteur de réplication (N) quorum d écriture (W) quorum de lecture (R) Entrepôts Clé-valeur BDOA Clé 0FR63K Valeur : Doc (XML, JSON) BD orientées documents BD orientées colonnes Clé 0FR63K table : colonnes (statique/dynamiques) Fondation Apache BD orientées graphes

Big data : Concept de programmation! Calcul parallèle : un concept né avec l informatique! Le paradigme MapReduce Clusters de calcul MAP Shuffle REDUCE Clients 1 2 3 4 Factures Chaque machine calcule par produit : Volume - CA Tri par produit du map Volume Total CA global par produit

Big data : Hadoop, l éléphanto dans un magasin de porcelaine? Framework Fondation Apache Java Ramener un calcul à des taches de type : Map Reduce. Est-ce toujours possible? Ecriture-test Paramétrage...

Humanités numériques et big data! Commencement @ Google (2000) Création d un annuaire inversé des pages web pour le moteur de recherche Google; Combien

Digital humanities @ google Des centaines de partenariats avec des musées pour rendre accessible en ligne les œuvres d arts et les préserver en numérique pour le futur.

Humanités numériques @ Google 30 millions de livres scannés (2013) ~ 130 millions de titres ont été publiés depuis Xve siècle

Humanités numériques intégratives! Economie et Big data Dépôt de bilan en juillet 2008 Roberto Rigobon Relevé des prix de 500 000 prix USA Aucun nettoyage ni consolidation Analyse (big data) Détecte un épisode inflationniste en septembre 2008 Le CPI (INSEE US) ne détecte le phénomène que 2 mois plus tard, novembre 2008; Coût de production 250 millions $

Humanités numériques intégratives! Psycho-socio

Humanités numériques intégratives! Sociologie - Analyse d opinion - Analyse des sentiments - Recommandations -

Conclusion : Humanités numériques big data! Nous sommes qu au début : il faut un Codd pour les big data ;! Il faut un Gauss pour le traitement;! Est ce que tout est dans les données? (frappe clavier)! Peut-on tout optimiser? (smart-phone/assurances)! Faut-il tout traiter tout?! Faut-il cesser de chercher des théories? (2008, Chris Anderson)