Big data : vers une nouvelle science des risques?



Documents pareils
IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Les datas = le fuel du 21ième sicècle

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

TOP. année promet d être BIG (Business Intelligence Growth) PRINCIPALES TENDANCES EN MATIÈRE DE SOLUTIONS DÉCISIONNELLES POUR 2013

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

À PROPOS DE TALEND...

Big Data et Graphes : Quelques pistes de recherche

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Jean-François Boulicaut & Mohand-Saïd Hacid

Introduction au Data-Mining

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

Les défis statistiques du Big Data

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Patrick Fischer et les «boursicoteurs» de TTC

Pair-à-Pair: Architectures et Services

Affiliate link:

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Création de jeu vidéo

Big Data et le droit :

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Vision prospective et obstacles à surmonter pour les assureurs

Conseil économique et social

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Protection des données personnelles : Vers un Web personnel sécurisé

Dailymotion: La performance dans le cloud

Big Data et Graphes : Quelques pistes de recherche

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Fraude de masse Sophie Olieslagers 14 mars 2014

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Entreprise et Big Data

Être plus proche, mais pas à n importe quel prix

Comment ça se passe? Déroulé détaillé. INTRODUCTION / 10 minutes

Big Data et la santé

COMMENT TRANSFORMER LE WEB

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

L humain et ses données, le «quantified self»

Votre laisser-passer pour les. Big Data Guide visuel

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Janvier BIG DATA : Affaires privées, données publiques

Esri LOCATION ANALYTICS

Étude sur la compétitivité des administrations cantonales

Open Data. Enjeux et perspectives dans les télécommunications

Journée Scientifique Onera

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Emergence du Big Data Exemple : Linked Open Data

QUELLE EST LA SITUATION ACTUELLE

Analyse détaillée des trajets effectués en Transports en commun en Ile-de-France

LES DONNÉES : VOTRE AVANTAGE CONCURRENTIEL

BIG Data et R: opportunités et perspectives

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Limites. Problèmes trouvés et propositions de solutions

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Accès des gouvernements aux données du secteur privé

Migration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas

Séquence. «Eduquer aux réseaux sociaux : créer, publier, maîtriser»

Big Data On Line Analytics

Mobilitics : Saison 1 : résultats iphone. Conférence de presse du 9 avril 2013

LES RESEAUX SOCIAUX SONT-ILS UNE MODE OU UNE REELLE INVENTION MODERNE?

Rotary et réseaux sociaux. Districts

Quels choix de base de données pour vos projets Big Data?

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

BIG DATA et DONNéES SEO

IBM Software Big Data. Plateforme IBM Big Data

Dix façons d économiser sur l assurance voyage. Une exclusivité «Ingle»!

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Big Data et l avenir du décisionnel

SAN07 IBM Social Media Analytics:

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Moteur d idées pour véhicules spécifiques. Le Pôle de compétitivité Véhicules et Mobilités du grand Ouest

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

BIG DATA & PROTECTION DES DONNEES DANS LE DOMAINE DE LA SANTE

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Formation à la recherche documentaire sur le web

Plus de données, quels impacts sur la gestion des sinistres? 4 avril 2013 Gontran Peubez

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Que faire des data? 04/06/2015

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Travailler avec les télécommunications

Transformez vos données en opportunités. avec Microsoft Big Data

Business Intelligence avec Excel, Power BI et Office 365

Algorithmique et systèmes répartis

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Transcription:

Big data : vers une nouvelle science des risques? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques 1

Organisation Big data en bref Big data : mythe et réalité Exemple : la santé (une vision d ignorant) Big data et science des risques 2

Big data en bref Big data et science des risques 3

Le Big Data Le big data ou La data Data ce n est pas pluriel? En français : Grosses données Moins glamour? Big data et science des risques 4

Crash course en Big Data La société moderne génère des volumes de données infernaux Double tous les 18 mois Ces données ont une valeur considérable Santé, science, environnement, sécurité, transport... Le «Big data»: croiser les données Très structurées et propres d une entreprise/organisation Avec la masse de données moins structurées/plus sales du Web Des données personnelles (comme des emails) Des données de réseaux sociaux Et des flux de données (générées par ex. par des senseurs) Valoriser ces données Découvrir de nouvelles connaissances Offrir de nouveaux services Big data et science des risques 5

Crash course: tâches principales L analyse de données Un vieux problème Tâches principales Acquisition : aller chercher les données, e.g., outils ETL Intégration : e.g., transformer dans un schéma unique, aligner les données Nettoyage : e.g., éliminer les réplicas, résoudre les contradictions, gérer les données manquantes Crowd sourcing: interagir avec des humains pour obtenir des données, résoudre les contradictions Interrogation : requête, souscription, visualisation Analyse statistique : frequent item set L analyse de données ne répond pas à des problèmes souvent complexes Fouille : quelles sont les questions intéressantes? Utilisation : comment utiliser ces données? Etc. Big data et science des risques 6

Difficultés Taille des données : c est Big! Téraoctets, plus Hétérogénéité: structures, ontologies, multilinguisme Vélocité: importance du temps, taux de changement/d'arrivée Espace : localisation Protection des données : données privées, réglementation Qualité: erreurs, incomplétude, confiance, Et encore de la qualité: provenance, fraicheur... Et la complexité : un algorithme en n 3 sur un milliard d enregistrements reste hors de portée même avec mille machines Big data et science des risques 7

Pour tuer quelques idées reçues La grande mode est au parallélisme massif style Hadoop Super techno venue des moteurs de recherche Ne marche que sur les problèmes très parallèles Technologie encore assez bas niveau (ça s améliore) Évidemment, Ça impressionne (de moins en moins) C est fun Mais si «votre data est Big» et si vous recherchez l efficacité, interrogez vous : Vos données sont-elles vraiment Big? Ne suffirait-il pas de gonfler votre machine en RAM/en SSD? Peut-on réduire la dimension en échantillonnant? Big data et science des risques 8

Big data : mythe et réalité Big data et science des risques 9

Big data Le mythe On va résoudre les problèmes de l humanité On a plus en plus de données bientôt toutes les données Un coup d algo et on va résoudre le cancer, la pauvreté, etc. En analysant ces données, nous pouvons faire des prédications de plus en plus fines mais Cela reste des statistiques Limites dues à la complexité en la taille des données Et évidemment une énorme place au hasard On va sûrement résoudre des problèmes Mais Big data et science des risques 10

Big data La réalité Ce qu on observe surtout pour l instants 1. Les sociétés utilisent des données privées Pour des buts commerciaux principalement pub ciblées Plus il y a de données, plus ils gagnent d argent 2. Les états utilisent des données privées Pour se protéger du terrorisme Pour surveiller leurs citoyens (surtout dans certains pays) Plus il y a de données, plus l état est puissant Big data et science des risques 11

Et si on utilisait cette techno pour résoudre de vrais problèmes Prévoir et mieux y répondre À des crises sanitaires À des problèmes d'environnement À des catastrophes naturelles Aider à résoudre les problèmes de Santé, transport, pauvreté, Organiser un suivi personnalisé Des personnes en difficultés Des personnes âgées Des élèves en difficulté Big data et science des risques 12

Exemple : la santé (une vision d ignorant) Big data et science des risques 13

Exemple : La santé Les soins personnalisés Toutes les données médicales de la personne Son génome Toutes ses données sociales Soins personnalisés Mesures prédictives Les polices personnalisées Plus chères pour les personnes à risque Personnes «trop» à risque non assurées Mutualisation des risques de plus en plus limitée C est la même science qui rend ça possible Quel monde souhaitons-nous? Big data et science des risques 14

Problème : les données personnelles Mes achats, ma géolocalisation, mes courriels Mes données médicales, fiscales, assurances Mes données dans les réseaux sociaux Peut-être celles de mes amis Mes données génomiques 23andMe: pour 99$ séquencement de votre génome et publication sur le Web Et ma vie privée? 2 exemples de problèmes récents : Instagram et revente Facebook et embauche Big data et science des risques 15

Une religion personnelle À qui appartiennent mes données? Les données personnelles appartiennent à la personne Les entreprises/états n en sont que les dépositaires temporaires Big data et science des risques 16

Comment pouvoir faire quand même des statistiques? L anonymisation des données En garantissant l anonymat de chacun - compliqué Par exemple, «differential privacy» Le propriétaire des données a le droit de choisir ce qu on fait de ses données Condition d utilisation Durée Responsabilité légales de ceux qui détiennent ces données Big data et science des risques 17

Big data et science des risques 18