Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne 1
Nominalisme : Argument Peut se comprendre comme la cri8que de l analogie établie entre la structure du langage et celle du réel; Historique : Première révolu8on nominaliste au 14e siècle: Le langage n est plus le moyen d accès à la nature; l expérimentacon et le calcul se subsctue au langage. Deuxième révolu8on nominaliste aujourd hui? Le langage n est plus le moyen d accès à la culture: calcul et donnée se subsctuent à l analyse fondée sur le langage. 06/02/15 2
LES BIG DATA 3
3 caractéris8ques Masses Masse de données impliquant un traitement automa8que. Dégager des propriétés des données visibles seulement via la masse. Dynamicité Les données sont produites cycliquement, régulièrement de manière «spontanée». Hétérogénéité Les données sont collectées en récupérant ce qu on trouve sur les réseaux (Web en par8culier). Même médium pour exprimer toutes les données (quelles que soient leurs formes : vidéo, texte, image, son ) : le numérique Même médium récculaire et véhiculaire pour localiser, adresser, véhiculer, recevoir les données : le Web Et donc possibilité d avoir des données différentes du fait de cese iden-té de médium expressif et véhiculaire 4
Les 4V hup://www.datasciencecentral.com/profiles/blogs/data- veracity 5
Google Flu En France : 6
Des discussions 7
Des prédic8ons / va8cina8ons Nouveau paradigme sciencfique pour les SHS (Manovich) Effacement de la pracque savante cricque au profit d un empirisme directement au contact de la donnée (Anderson) Ancrage objeccf de la décision 8
LES RÉVOLUTIONS NOMINALISTES 06/02/15 9
Première révolu8on nominaliste CriCque du réalisme médiéval Les proposi8ons vraies sont vraies dans la mesure où les termes et leur agencement syntaxique reflètent la structure du réel Les termes renvoient à des essences La syntaxe renvoient à la parccipacon entre les essences E.g. l homme est un animal. Toute différence de langage renvoie à une différence réelle. Ockham (entre autres) cricque cese vision: Le monde n est fait que d individus : ruine des essences Les individus ne sont que de deux sortes: substances et propriétés (Socrate, ceue blancheur). 06/02/15 10
Conséquences de ceue révolu8on La relacon du mot à la chose n est plus consctucf de la connaissance de la chose, qui doit donc se consctuer autrement. Premier divorce entre les sciences de la nature et celles de la culture. Émergence d une nouvelle relacon à la nature, qui sera consctuée par le calcul et l expérience 06/02/15 Des «calculateurs» d Oxford à Galilée et Descartes. 11
Seconde révolu8on nominaliste ConsCtuCon de grandes bases de données 06/02/15 Bases de contenus E.g. 2 millions d heures numérisées à l INA E.g. YouTube Etc. Bases de données Open data, Métadonnées commerciales (e.g. Amazon et le profilage) Etc. 12
Seconde révolu8on nominaliste La compréhension du fait social ne repose sur une analyse langagière et qualitacve, mais sur Une analyse sta8s8que et quan8ta8ve; Une visualisa8on percep8ve et qualita8ve. Le rapport à l humain et au social uclise le langage comme une donnée, et non comme un milieu ou une méthode: L analyse est sta8s8que et percep8ve, et non 06/02/15 qualita8ve et linguis8que. 13
CE QU ON GAGNE: DE NOUVELLES RÉPONSES 06/02/15 14
Cultural analy8cs Terme proposé par Lev Manovitch Plusieurs étapes: Collectes des données Analyses sta8s8ques Visualisa8ons interac8ves 06/02/15 15
Exemple : collecte de données sur le Web Liste de sites blabla.com fdsdgfg.fr dfsqffqqdsf.fr blabla.com dfsqffqqdsf.fr blabla.com Bruno Bachimont Archivistique audiovisuelle et numérique 2011 16
Linkfluence.net 17
Perspectives : visualisation des réseaux réseau de vidéos similaires sur dailymotion Ina, Thomas Drugeon 06/02/15 réseau d images similaires 18
Visualcomplexity.com 06/02/15 19
Un nouveau paradigme? 20
21
22
23
CE QU ON GAGNE : DE NOUVELLES QUESTIONS 24
Une triple phénoméno- technique ConstrucCon des «données» Les données résultent d ac8ons et des transforma8ons issues des ac8vités : traces, publica8ons, enregistrements, etc. CaptaCon et traitement des «données» Les ou8ls de collecte des données sélec8onnent, transforment, formatent les données lors de leur capta8on. Ces données sont construites par ces choix mul8ples du collecteur de données. PrésentaCon des analyses effectuées Ou8ls de visualisa8on qui montrent de manière qualita8ve et graphique (morphologique) le résultat du traitement des données. 25
La ques8on graphique Métaphore graphique : La sémio8que du graphique montré induit des parcours interpréta8f sur- produc8f par rapport aux données traitées Modèle interprétacf : La sémio8que du graphique reflète la ra8onalité et la systéma8cité des données, si bien que le graphique devient un ou8l d explora8on et de découverte. 06/02 26
Data : artefacta / capta / ficta Les données semblent être «données» car elles sont trouvées : Celui qui collecte n est pas celui qui a construit des données. La cri8que de la collecte ne préjuge pas de la cri8que des données comme construites. Triple décalage: Data comme artefacta Data comme capta (cf. Drucker) Data comme picta 27
Héritage: épistémologie de la mesure La phénoméno- technique qui produit les mesures et celle qui objeccve les contenus sciencfiques sont homogènes : Aux hypothèses sur le réel Aux traitements appliqués sur les mesures pour les transformer et les interpréter. Quelques étapes remarquables de la maturacon d une telle épistémologie : Mesure, calcul, mathéma8sa8on Imagerie scien8fique (cf. Daston & Galison) 28
Une nouvelle épistémologie: l épistémologie de la donnée ProblémaCser la donnée au croisement du triple décalage : De quoi les données sont- elles les données? Quel rapport entre la nature des traitements (massivement sta8s8ques) et la nature des données? Quel rapport en l objec8vité montrée et l objec8vité construite par la présenta8on des résultats? 29
Une double tendance contradictoire Rigueur de l analyse Fondée sur des modèles mathéma8ques Objec8vée sur de grandes masses Arbitraire de l interprétacon fondée sur la percepcon: Absence de sémio8que rigoureuse des objets graphiques montrés; Absence de l analyse portée par le langage 06/02 30
D un réalisme à un autre À la cricque du «réalisme» (au sens médiéval) du langage se subsctue en fait un réalisme de la percepcon : Le réel n est plus conformé selon mon lexique et ma syntaxe, mais selon ma percep8on spontanée et qualita8ve. Dans le meilleur des cas, la cri8que de ceue percep8on est signalée et renvoyée à plus tard. 31 06/02
Problème déjà rencontré ailleurs Vincent Minier «The Pillars of CreaCon» 32
Conclusion Un nouveau paradigme Une manière d interroger le monde et la connaissance. Une nouvelle épistémologie à construire Un besoin pour comprendre ces nouveaux possibles et les habiter. «Il ne faut pas qu on soit chassé du paradis que les big data ont construit pour nous» Des quescons avant tout, plutôt que des réponses 33