Making Sense of BIG DATA



Documents pareils
Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

1. Le service Commercial

Janvier BIG DATA : Affaires privées, données publiques

Chapitre 1 : Introduction aux bases de données

Lisez ATTENTIVEMENT ce qui suit, votre avenir financier en dépend grandement...

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Mutation digitale et conséquences sur l organisation de l entreprise et ses salariés

LE CONTROLE DE GESTION DANS L'ASSURANCE : UNE REHABILITATION VITALE EN TUNISIE

SafeNet La protection

LES DONNÉES : VOTRE AVANTAGE CONCURRENTIEL

3 Les premiers résultats des plans d'actions

LE PLAN D'AMÉLIORATION DE LA FONCTION MARKETING

Extrait du site de l'oseo (ex.anvar) Reste à déterminer les points incontournables

Revue de presse : Introduction en Bourse de Twitter. 1 ère ES 2 Théodore Aubanel 2013 Par Eva Fraicher et Victoire de Camaret

SOMMAIRE. Portraits des intervenants Portraits des animateurs Conférence, Débat et Échanges #$%&'(!)(*+,!-$*./)(*-(!"0!1,2*!34"0!5!!

Les dessous des moteurs de recommandation

Sommaire. AXA et Polytechnique s offrent une chaire de data science orientée assurance Silicon.Fr - 02/07/2015

La Clé de notre succès est "r + a + r = rr" ( Relevanz + aléatoire + rotation = résultat de la recherche)

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

L opérateur Wi-Fi à la conquête des interactions.

Big Data et la santé

modélisation solide et dessin technique

ETRE OBSEDE PAR LA PSYCHOLOGIE DE L ACHETEUR

Réseaux sociaux et recrutement Qu en est-il de leur utilisation et de leur rentabilité? Rapport 2010

Comment avoir une banque sans banque. Tome 2

LA PLENIERE D OUVERTURE

SEO et Mobile, plus qu'une adaptation, un changement de point de vue

client. ECOUTE, SIMPLICITE, SERVICE... Pour ELCIA, l'accompagnement est la clé de la satisfaction ELCIA, le savoir-faire et l'écoute

Navigation dans Windows

La voix sur IP n'est pas un gadget, et présente de réels bénéfices pour l'entreprise.

Le Web, les réseaux sociaux et votre entreprise. Applaudissons les Visionnaires 2009 de Québec. La génération C et le marché du travail

C o n f é r e n c e 7 LA PARTICIPATION, PIEGE OU SIMULATION CREATIVE POUR LES MARQUES?

Consultation de la CNIL. Relative au droit à l oubli numérique. Contribution du MEDEF

TEXT MINING von 7

données à caractère personnel (ci-après la "LVP"), en particulier l'article 29 ;

SÉCURISEZ LE TRAITEMENT DES PAIEMENTS AVEC KASPERSKY FRAUD PREVENTION. #EnterpriseSec

" Internet : Comment communiquer? Visibilité, Promotion, Communication... " Intervenants. Mercredi 16 juin 2010

AdWords Guide de survie

TIC. Panorama. L'industrie de l'information et de la communication la première industrie japonaise

1. QU'EST-CE QUE L'INNOVATION

Perspectives. Les Orientations générales de la politique monétaire en Afrique du Sud. Ediab Ali. que monétaire

Anticiper les difficultés financières : l'apport du scoring comportemental

L humain et ses données, le «quantified self»

L'attribution marketing :

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

Sur Facebook, Vous n'êtes pas le client, mais le produit

Thème 5. Proposition d'une activité d'exploration élève : Micro-trottoir «Qu'est-ce qu'une entreprise?»

Systèmes intelligents pour le commerce de détail. Plateforme Windows Embedded

Bibliothèque Esparron en livres.

Les pratiques des 9-16 ans sur Internet

CONFERENCE TECHNOM AIDE IBM

Gestion de la Relation Client (GRC)

4. Les traces que je laisse avec mon ordinateur. Expression Ce que je dis. Audience Qui je connais

DIALOGUE AVEC LES CONSTRUCTEURS DE VEHICULES

Big Data & objets connectés

données à caractère personnel (ci-après la "LVP"), en particulier l'article 29 ;

«RETOUR AUX ÉTUDES» : mode d emploi AVANT DE COMMENCER, prenez le temps de lire ce qui suit

Théories de la Business Intelligence

En route vers la troisième révolution industrielle!

Comment ça se passe? Déroulé détaillé. INTRODUCTION / 10 minutes

La vie des étoiles. La vie des étoiles. Mardi 7 août

SOCIAL CRM: DE LA PAROLE À L ACTION

Corrigé : Enquête terrain : La communication interne

Les Data Management Platforms (DMP)

Position de l ASTEE sur l innovation en matière de services d eau et de déchets

Contrôle interne et organisation comptable de l'entreprise

NOS ENGAGEMENTS COMMUNS Programmation du mouvement ATD Quart Monde en Belgique

Travail collaboratif à distance

Transformez vos données en opportunités. avec Microsoft Big Data

TRANSFORMATION DIGITALE NEWSLETTER - MARS 2014

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

ANALYSE WEB. Baromètre Les Nouvelles tendances technologiques

CANDIDAT JAPONAIS AU POSTE DE SECRÉTAIRE GÉNÉRAL

POLITIQUE DE BIOSÉCURITÉ

Internet et Big Brother : Réalité ou Fantasme? Dr. Pascal Francq

UNION INTERNATIONALE DES TÉLÉCOMMUNICATIONS BUREAU DE DÉVELOPPEMENT DES TÉLÉCOMMUNICATIONS

Deux outils élaborés en concertation avec les professionnels du tourisme régional

Jusqu'où la Machine va-t-elle remplacer l'homme?

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

e-commerce NAVIGATION MOBILE Votre site est-il optimisé? RESPONSIVE ET ÉCRANS LARGES Le paradoxe!

Série TD 3. Exercice 4.1. Exercice 4.2 Cet algorithme est destiné à prédire l'avenir, et il doit être infaillible! Exercice 4.3. Exercice 4.

Le DSI au service de l'expérience Client

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

DIAGNOSTIC NUMERIQUE 2013 DOUE LA FONTAINE ET SA REGION

IT SecuDay Geneva 2015 : Les apports du Big Data à la sécurité informatique

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

Comportement des consommateurs européens envers le commerce mobile

Une réussite : Les prix de rachat garantis soutiennent les énergies renouvelables en Allemagne

L association française des docteurs

Transcription:

Colloque Annuel de l Association Technion France Lundi 15 décembre 2014 Maison de la Chimie, Paris 7ème Making Sense of BIG DATA Sous le Haut Patronage de Monsieur François Hollande, Président de la République Alors qu'a commencé, de façon de plus en plus perceptible, une nouvelle et profonde révolution scientifique, technologique et sociétale, celle du big data, Technion France a choisi d'y consacrer son colloque scientifique annuel réuni le 15 décembre 2014 à la Maison de la Chimie à Paris. Sur le thème «Making Sense of Big Data», spécialistes de premier plan, utilisateurs, concepteurs, responsables, enseignants d'université ont balayé le champ de plus en plus en plus vaste du big data et ses implications profondes qui s'annoncent dans le quotidien des citoyens et leurs pratiques professionnelles. Geneviève Fioraso, ministre de l'enseignement supérieur et de la recherche, a ouvert les débats en traçant le périmètre dans lequel s'inscrit le big data. Il convenait de bien définir le phénomène et ses effets, assimilés à un véritable tsunami numérique ouvrant une nouvelle ère d'innovation. 1 Big data se dit en français «mégadonnées», mot officiel depuis août 2013. Les termes de déluge ou de tsunami rendent bien compte de l'ampleur et de l'accélération extraordinaires du phénomène. Ils peuvent aussi évoquer le déferlement catastrophique contre lequel nous serions impuissants, voire victimes, et qu'il nous faudrait donc subir. Mais les mégadonnées ouvrent des opportunités extraordinaires. Nous sommes à un tournant de l'histoire de l'économie des connaissances, à l'heure de l'éclosion de nouveaux savoirs,de nouvelles formations, de nouveaux métiers et il nous faut prendre part pleinement et activement à ce mouvement. Pas pour le subir, mais pour le maîtriser au mieux et même pour rebondir grâce à son effet d'accélération. Le terme «Big data» n'est pas vraiment nouveau. Il a été utilisé la première fois en 1997 dans un article publié par deux chercheurs de la NASA, Michael Cox et David Ellsworth. La première dimension fondamentale du Big data c'est évidemment sa composante technologique, aboutissement de soixante ans de recherches et d'innovations en informatique. Cette discipline scientifique, un temps considérée comme des sous-mathématiques, comme quelque chose qui «buguait» à côté de la noble physique, est maintenant Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

enfin reconnue comme une authentique discipline scientifique mise à l'honneur en France par l'attribution cette année de la Médaille d'or du CNRS à un mathématicien devenu informaticien, Gérard Berry. Lorsqu en 2008, les big data font la Une du prestigieux magazine Nature, on les qualifie rapidement de «plus grande innovation de la décennie en informatique dans les domaines du commerce, de la science et de la société dans son ensemble». Cette mise en données du monde s'appuie sur un ensemble d'innovations technologiques qui transforment profondément la façon dont les données sont générées, transmises, stockées, sélectionnées et utilisées. Les méga-données sont donc une vraie chance pour peu que l'on prenne la peine de réfléchir à la manière de «Making Sense of Big Data», comme l'indique l'intitulé du colloque d'aujourd'hui. Une étude du cabinet Transparency Market Research estime que le chiffre d'affaire mondial du marché des big data devrait connaître dans les années à venir une croissance annuelle supérieure à 30 % ce qui, dans le contexte économique actuel, fait réfléchir. De 8,9 milliards de dollars en 2014 à 23 milliards de dollars en 2016. En 2020, ce marché devrait représenter en France 9 milliard d'euros, et, pour l'europe, 8 % du PIB. En terme d'emploi, le big data devrait représenter plus de 4 millions d'emplois en 2015 et l'on attend en France la création de 130 000 emplois dans les six prochaines années sans compter les emplois induits. On présente le big data comme un nouvel eldorado. Après le «search» qui a créé Google, après les réseaux sociaux qui ont créé Facebook, le big data pourrait donc créer un nouveau géant. Certains disent que ce géant est déjà en place. Qu'est ce qui caractérise de façon simple et pratique le big data? C'est d'abord la digitalisation de toutes les données qui nous concernent, il y a la numérisation des services et l'étendue des activités numériques, il y a aussi la multiplication de capteurs de toute nature et l'émergence de ce que l'on appelle «l'internet des objets» même si ce n'est pas encore très matérialisé ou concret pour beaucoup d'entre nous. C'est déjà une réalité puisqu'il y aura environ 50 milliard d'objets connectés en 2020, capteurs de lumières, capteurs de pression, de température, et tous ces capteurs sont des générateurs de données. Derrière tous ces enjeux du big data, il y a différends métiers, souvent confondus, de la création de données à la connexion de ces données, à la collecte de ces données, à leur analyse, leur valorisation, à l'émergence de nouveaux service portés par ces données voire de nouvelles industries puisque dans l'usine du futur, l'industrie 4.0, les big data sont au cœur de cette réflexion. Il est important, dès maintenant, de faire prendre conscience aux industriels de ce qu'est le big data et ses enjeux en termes industriels. Il s'agit de faire comprendre à de grands secteurs que l'on est dans une révolution industrielle qui mélange à la fois certaines caractéristiques de l'invention de la machine à vapeur, avec des notions de mobilité numérique nouvelles ou de mobilité tout court, d'autres, de l'invention de l'électricité, c'est le numérique pur, qui va avoir des impacts économiques profonds dans les domaines de l'industrie et des services. L'une des clés de cette révolution est la notion d'usage, et, notamment, d'usage grand public. Cette révolution génère des besoins importants en formation de spécialistes divers. Concrètement, on peut déjà mesurer à quel point les pratiques et les stratégies des entreprises sont en train de se modifier et quelles opportunités se profilent. Pour Veolia, par exemple, qui agit dans trois métiers : assainissement, services liés au cycle d'énergie, cycle propreté, de la collecte au traitement,. ce qui en train de changer c'est le rapport à celui auquel est délivré le service. Pour traiter les données recueillies auprès des usagers, un partenariat avec Orange et IBMa été initié.

L'objectif est d'avoir avec le client une relation non plus inerte mais dynamique. Le client devient un partenaire. Il gère par exemple lui même sa consommation d'eau. Certains fabricants de compteurs migrent vers l'utilisation intelligente de données et les barrières internes entre production et délivrance des services sont en train d'exploser. Même approche pour Alstom dans son activité «Energie» abordée par Ronan Stephan, Directeur de l'innovation qui voir dans le big data une possibilité d'aider à répondre à l'absolue nécessité de préservation de la planète. Il induit un champ d'opportunités pour créer de la croissance en créant des données et répondre aux grands enjeux d'optimisation en fourniture d'énergie. Il y a nécessité d'élaboration de modèles pertinents et efficaces à partir de données. L'acquisition de centrales de production d'électricité par des majors de la Silicon Valley, au prétexte de leur sécurité énergétique, n'est pas un hasard. On va vers la fourniture de systèmes globaux de fourniture d'énergie. Ce qui crée de la valeur c'est la donnée. 3 Le big data révèle sa puissance dans des domaines industriels et/ou commerciaux où la quantité de données traitées est considérable. L'exemple de Total est, à cet égard significatif. Il est parfaitement décrit par Jean-François Minster, Directeur scientifique de Total. Les données sont un vecteur d'économies. Les économies sur les coûts font la marge et la marge fait le cash qui permet d'investir. Total surveille toutes ses machines. La société possède des milliers de machines tournantes, compresseurs, turbines etc. Ce sont des pièces très sensibles. Quand elles tombent en panne c'est très dangereux car elles explosent parfois. Elles sont par ailleurs un maillon essentiel d'une installation et toute panne arrête le fonctionnement du tout et ce sont des dizaines de millions de dollars par jour qui sont perdus. L'approche classique consiste à rester dans les spécifications des constructeurs, à respecter les cycles de maintenance des constructeurs donc d'être contraints par des prescriptions extérieures. Total a créé un service qui permet de pousser les machines à leurs limites mais de les surveiller en continu. A distance, avec du traitement sophistiqué de données, du croisement d'expérience d'une machine sur l'autre. Le retour, après plusieurs années, est que Total est capable de faire de la maintenance préventive, et les machines ainsi surveillées n'ont plus jamais d'accident. Le retour sur investissement est considérable. Deuxième exemple, aujourd'hui dans les traitements sismiques pétroliers, le volume des données est gros. Un relevé sismique sur 5000 kilomètres carrés ce sont 200 terabytes et ce n'est pas seulement du relevé sismique, c'est de l'étude tridimensionnelle de la propagation d'ondes dans un milieu hétérogène, et cela exige de grosses capacités de calcul. Le problème est que ne peut pas traiter ces données en elle-même, il faut les combiner avec d autres sources d'information qui ne sont pas toutes internes et qu'il faut renouveler ce traitement régulièrement. L'enjeu est de savoir où il faut forer...et un forage off-shore ce sont 100 millions d'euros. Économiser un forage rembourse n'importe quel ordinateur. Pendant longtemps l'étude n'était que de la sismique, mais maintenant le réservoir pétrolier lui-même est une représentation d'objet complexe. Un réservoir est figuré, par exemple, en un milliard de cellules de modèles numériques. Un calcul numérique d'écoulement multiphasique en milieu poreux avec des hétérogénéités de structures, de milieux et le besoin de savoir ce qui se passe à l'échelle de tout le champ pour savoir comment on va structurer l'exploitation du champ pétrolier dans la Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

durée...cela fait quelques bytes. Troisième exemple, dans le domaine du marketing. Total a beaucoup de clients. En gros 1,5 millions qui passent dans ses sites de vente par mois, ce qui représente environ 100 millions de transactions financières par an. Mais aujourd'hui il faut que le client soit incité à venir chez Total. La communication digitale directe avec le consommateur est nécessaire. Le client veut des services. Le modèle d'affaires de la station-service c est aujourd'hui par exemple le wi-fi offert. Total possède 5000 stations-services en Afrique dans des zones où souvent, il n y a pas de banque. Où il n'y a pas de cartes de crédit mais où il y a 800 millions de téléphones portables. Il faut donc permettre au client de gérer l'acte commercial à partir du téléphone portable d'où l'e-banking etc. On trouve immédiatement des solutions. On crée des partenariats avec des banques qui doivent gérer le transfert de fonds de migrants vers leur pays d'origine. Il y a besoin de transactions locales. Total crée donc une activité nouvelle entre le marché et le commerce. Le plus difficile est de créer ces points de vente. Il y a 78 start-up aidées financièrement, techniquement. Cela permet de tirer de l'expérience du terrain une stratégie mondiale, de créer de vrais modèles d'affaires. Il faut des métiers nouveaux, des organisations, des relations nouvelles avec les clients mais aussi dans l'entreprise, des hiérarchies nouvelles. Les outils sont complexes pour l exploitation des données. Dans une entreprise technologique, n'importe quelle technologie a des potentiels et il faut absolument les identifier assez tôt, même dans d'autres domaines et il faut faire de l'intelligence très ouverte. Dans cette partie «intelligence», le big data a aussi toute son utilité. Vendre les résultats du traitement des données détenues par l'entreprise, sous forme de services c'est une opportunité qu'orange a décidé de saisir, comme l'expose Nathalie Boulanger,Directrice du programme Orange Start Up Ecosystem. Pour l'entreprise, le big data c'est du chiffre d'affaires en plus. Pour un tiers en terme d'augmentation du chiffre et pour deux tiers, des économies par amélioration des process. Chez Orange existe un outil appelé Flux Vision qui permet de collecter des données anonymisées de déplacement des téléphones portables. L'analyse de ces données est utile par exemple en matière d'équipement du territoire, de tourisme etc. Ce qui est important et ce qui fait la valeur de Flux Vision ce n'est pas tant la masse des données que les algorithmes qui vont permettre leur analyse. Une autre offre nous permettra de mettre à disposition de nos partenaires des données d'entreprises qui s'enrichiront mutuellement de ces données par le big data. Le tout se déroulera bien sûr dans l'anonymisation. Dans l'approche du big data, on est confronté à trois types d'enjeux, souligne : d'abord un enjeu technologique, il est simple à résoudre car les solutions existent et c'est simplement une question de coût. Le deuxième enjeu traite de la donnée. Il y a là des enjeux de compréhension, d'algorithmie, de structuration, de rapprochement des données. Là aussi, on va identifier dans le big data quatre grandes catégories de données dont chacune apporte des problématiques différentes. Il y a la donnée issue de l'open data, massivement mises à disposition par des gouvernements, des organisations. C'est souvent du texte, des données non structurées, des tableaux etc. La deuxième grande source se trouve dans les objets connectés. Beaucoup d'objets vont nous envahir. Ils vont générer beaucoup d informations. La troisième grande source est le mobile. Nous avons parlé de géolocalisation, par exemple. Et la quatrième est le web et en particulier les réseaux sociaux. Après la technologie et les données, le troisième volet ce sont les usages. Il faut réconcilier les trois. La question sera : y a t-il un usage derrière la technologie et les données? Pour un État par exemple, dans le domaine particulier de la fraude, on peut enrichir les données pour

détecter la fraude au carrousel de TVA. Des données ouvertes sur le web, confrontées à des données de déclarations ont permis en Belgique de réduire de 95 % la fraude au carrousel de TVA. Les résultats sont extrêmement concrets. Dans ce cas il s'agit de trouver des liens entre des sociétés qui pratiquent ce système frauduleux. Pour le même État, on peut agir sur la fraude à la déclaration de biens vendus. Souvent minorés pour payer moins de droits. Il s'agit d'estimer la valeur réelle d'un bien en traitant les données disponibles qui sont nombreuses (ventes antérieures, transactions notariales, transactions chez les agents immobiliers etc.). Le big data permet de rapprocher tout cela pour le mettre en cohérence. Deuxième exemple, le secteur de la publicité. Question : comment, quand je mets de l'argent sur un site, suis-je assuré que les clics sont bien réels? Pour des États, comment éviter les récidives dans la délinquance à partir de l'analyse des comportements tels qu'ils figurent en données numériques? Mes fournisseurs respectent-ils la loi en matière de travail des enfants, en matière d'écolo-responsabilité? Le big data permet de répondre à ces questions. Concrètement, il y a des limites fixées par la loi. Par exemple, pour les voitures connectées, en France on n'a pas le droit de collecter la vitesse, en Italie oui. Les constructeurs internationaux intéressés par le traitement de ces données auront tendance à agir sur les pays qui brident les informations pour les pousser à s'ouvrir un peu plus. Autre problématique intéressante : Qui va être le partenaire d'un assureur qui veut proposer la tarification au kilomètre parcouru? Le constructeur? Google qui sait tout grâce à la géolocalisation? Les équipementiers qui sont à bord de la voiture? Ce sont des combats de titans qui s 'annoncent. On vient de le voir, le big data et sa puissance son riches d opportunités pour les très grandes entreprises, y compris dans la partie la plus lourde de leur activité. Mais les entreprises moyennes ou petites ne sont pas exclues des bénéfices du big data. 5 Ainsi, Kira Radinsky, dont l'excellence est internationalement reconnue, définit clairement l'activité de son entreprise, Sales Predict et ce qui l'inspire dans le domaine du marketing prédictif, une notion née grâce au big data : essayer de modifier la manière dont les entreprises mènent leurs affaires. Elle explique : «Nous allons «dénicher» des algorithmes sur la base de chaque transaction passée effectuée par la société. Nous allons essayer de déterminer la probabilité pour la société de conclure un contrat. Nous collectons ses données internes et tout ce qui est disponible sur le Web. Qui sont ses clients potentiels, quelles sont les données la concernant publiées dans la presse, les ventes réalisées par le passé, ce qui circule sur Twitter la concernant, en bref, une quantité suffisante de données pour élaborer un modèle définissant ses relations avec ses clients. Par exemple, nous cherchons à hiérarchiser la qualité de leurs contacts avec l'analyse par mots clés. L algorithme saisit chaque information pertinente circulant sur le web ou sur Twitter et la fait entrer dans la base des données à analyser. On parvient ainsi à définir le degré de compréhension du client potentiel devant une offre et de proposer les mots clés qui feront mouche par rapport aux offres de produits concurrents. Les outils permettent également de définir des critères d'accord de crédit à des particuliers. L'objectif de ces prochaines années, au-delà de l entreprise, est de parvenir à des simulations économiques qui permettent de valider rapidement des hypothèses et des actions sans avoir à attendre 20 ans pour avoir un retour d'expérience qui valide ou non une théorie. La simulation complexe à partir de données nombreuses sera un progrès considérable dans l émergence de nouvelles théories économiques. Nous essayons Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

d'être les meilleurs avec nos algorithmes. Il n'y a pas de limite théorique à la pertinence de l'activité prédictive. Nous allons ainsi recueillir des données partout où elles se trouvent, Wikipedia, sites gouvernementaux etc, nous essayons de déceler les tendances et les usages à venir pour répondre aux questions comme «va-t-il y avoir des émeutes à tel endroit?». Nous identifions des phénomènes macroéconomiques et nous les associons à des données microéconomiques des entreprises qui permettent de construire des stratégies d'action.. La vision de Gilles Babinet, président de Captain Dash, n'est pas très éloignée. Son but est de permettre aux entreprises d'accéder à leurs propres données afin de les traiter et d'en tirer des informations utiles. Elles ne parviennent pas à obtenir une vision transversale de leurs données. La finance reste à la finance, les données du marketing restent au marketing etc. Il s'agit de réunir des données pour des entreprises qui ont un peu perdu le contrôle de la synthèse de ces données sur une longue période et de sortir un tableau de bord. C'est plus difficile qu'il y paraît car il faut utiliser des extracteurs de données qui permettent de les traduire dans un format permettant de les inclure dans des systèmes de données structurées ou pas. Nous rendons les donnés cohérentes les unes par rapport aux autres pour en avoir une vision synthétique. La révolution du big data est autant anthropologique que numérique car elle change l organisation des entreprises. Quand on livre un tableau de bord aux entreprises, on a une sorte de mise en équilibre de la société avec le ressenti de la nécessité de repenser le business c'est à dire, d'abord, le rapport au client donc l'organisation de l'entreprise. 500 millions d'euros par an de budget marketing ont été réattribués par une entreprise sur la base des informations obtenues par cette méthode. Appliquée, pour une grande marque de produits de beautés, à une étude de rendement des «égéries», elle a donné des résultats surprenants. Le budget engagé peut aller jusqu'à 50 millions de dollars pour rémunérer des top modèles emblèmes de la marque. Toutes les données de ventes de produits, d'identité de la marque, de résonnance sur les réseaux sociaux, etc ont été traitées et le client a été très surpris de voir sur le tableau de bord des résultats très variables selon la saison, le temps etc. et selon les égéries. Ce tableau de bord, utilisé opportunément, a permis d'optimiser des engagements financiers qui sont de l'ordre 400 millions de dollars par an. Dans un secteur voisin du marketing, la publicité, le big data prend aussi toute son importance. Yannick Bolloré, Président d'havas le confirme. En utilisant les bons algorithmes, en utilisant les bonnes données, les mégadonnées donnent des opportunités inespérées aux clients des publicitaires en utilisant des logiciels de marketing prédictif qui permettent de proposer au consommateur un message personnalisé sur le meilleur support à la meilleure heure. Pour les publicitaires, il y a la possibilité de mesurer beaucoup plus finement que par le passé l'impact des achats médias sur les ventes. Henry Ford disait «La moitié de mon budget média ne sert à rien. Le problème c'est que je ne sais pas laquelle...». Aujourd'hui, grâce au big data, on est capable de mesurer l'impact de telle ou telle action média sur les ventes. Cela permet d'optimiser les budgets média. C'est une ère nouvelle pour les publicitaires. Avec une implication culturelle de taille : Les groupes de communication qui réussiront dans un avenir proche seront ceux qui auront réussi à créer l'harmonie entre trois types de populations : les créatifs, les commerciaux et les «data scientists» très technologiques.

Industrie, commerce, ce sont des domaines traditionnels fortement bousculés par le big data avec l'effet «wahoo» décrit par plusieurs orateurs, ce «wahoo» qui manifeste cette fascination émerveillée devant la puissance du phénomène. Que vat-on dire devant les applications du big data dans le domaine de la santé au sens le plus large du terme. Pourquoi pas «wahoo! Wahoo!»? Maya Said, Vice-président Stratégie, politique scientifique et innovation interne de SANOFI décrit l'évolution de monde du médicament. 7 L'évolution la plus profonde dans le domaine des pharmas mais plus généralement dans le domaine de la santé est, comme partout, liée aux données. On passe d'un monde où la génération des données était l'avantage compétitif, à un monde où les données sont partout et dans lequel l'avantage réside maintenant dans la compréhension de ces données. C'est l'accès et l'exploitation des données qui permettent désormais de faire de la R&D et de créer de l'innovation. Cela signifie que, désormais, on est dans un cycle d'innovation en continue durant la durée de vie commerciale du médicament, constamment nourrie par les données recueillies auprès du malade, du médecin etc. Et les budgets de R&D attribués à des médicaments déjà exploités est de plus en plus important. Et cela a des impacts considérables car, en cours de vie, un médicament peut, sur la base du traitement des données recueillies être amélioré dans ses effets thérapeutiques mais aussi recevoir de nouvelles indications. C'est ainsi le cas chez Sanofi d'un médicament développé pour le traitement de la sclérose en plaques et dont la molécule existait depuis un moment en oncologie. Le vrai problème est celui de l intégration des données pour pouvoir les traiter. Il faudrait des médecins chercheurs technologistes qui aient l'intuition, proprement humaine, de la direction à prendre dans l'exploitation des données. La propriété intellectuelle des travaux et de leurs résultats pose aussi de nouveaux problèmes avec la recherche de données en milieu ouvert. La nécessité de la définition d'un écosystème adapté devient évidente. Autre illustration du big data utilisé dans le secteur de la santé. Elle est fournie par Mohammed Afshar, PDG de Ariana Pharmaceuticals. Il pointe la facilité de recueillir les données mais la difficulté de les interpréter. Problème de base : l'efficacité des traitements. Des traitements ne marchent pas, on le constate. L'implication financière d'un traitement économique de quelques centimes pour un comprimé basique à 40 000 euros ou plus pour une injection d'un produit en oncologie. Aujourd'hui, familièrement, on va chez le médecin puis au laboratoire d'analyses médicales. On ressort avec cinq feuillets de données simples qui permettent au médecin de vous situer par rapport à une norme. Imaginons que vous ressortiez non plus avec cinq pages mais avec 500 feuillets. Votre médecin va avoir beaucoup de mal à les analyser. On a alors besoin d'outils pour traiter ces informations et, en particulier, les combinaisons. D'où un nouveau business, celui de l'interprétation des données d'analyses biologiques, qui existe déjà. Un certain type d'analyse effectué en laboratoire par des méthodes traditionnelles donne cinq paramètres. Vous allez sur Internet et vous entrez ces paramètres sur un site web qui vous renvoie un score. Les deux actes sont facturés séparément. Pour certaines Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

affections, le rôle de la partie logicielle va devenir de plus en plus importante par rapport avec la partie clinique. Et cela se précise en chirurgie. Ariana Pharmaceuticals développe avec un partenaire un appareil qui mesure chaque minute 40 000 paramètres qui indiquent précisément au chirurgien s'il est bien dans la tumeur du cerveau qu'il opère. L'enjeu c'est de créer l'algorithme qui va, en temps quasi réel, donner l'information au chirurgien : vert, il est dans la tumeur, orange il est limite, rouge il est en dehors. Il y a donc partenariat entre un hôpital, CHU de Strasbourg, qui fournit les échantillons, une société d'appareillage pour diagnostic, et une société de traitement de données. La démarche est celle de l'avenir. Elle vaut pour la thérapeutique. Un projet international travaille sur un logiciel d'aide au médecin dans le choix d'une thérapeutique contre le cancer. 20 % des cancers peuvent être traités par une démarche ciblée à partir d'un test génétique simple. Pour 80 % des patients, il y a 300 protocoles, molécules etc. disponibles. Plus de 20 000 marqueurs divers peuvent être mesurés pour caractériser les tumeurs. La question est de mettre en correspondance ces 20 000 paramètres et les 300 traitements. Les cliniciens d'aujourd'hui vont privilégier les protocoles qu'ils connaissent, auxquels ils sont habitués ou qui sont en usage dans leur centre, et ce qui est élaboré en ce moment c'est un système qui dit au praticien «Pour tel patient donné, aujourd'hui, les traitements les plus efficaces sont les suivants...». C'est la première fois qu'un tel logiciel se trouve en essai clinique multi-centrique. Si la survie du patient est clairement améliorée, le logiciel prend une valeur thérapeutique qui dépasse sa fonction d'aide à la décision. Et cela crée de la valeur. Raison pour laquelle des firmes comme Google et Amazon s'intéressent à ce secteur. Dans la recherche fondamental le big data est bien sûr également sollicité, comme le souligne Shai Shen-Orr, professeur à la faculté de médecine et à la faculté de biologie du Technion. Dans les sciences de la vie, nous mesurons l'immunité des systèmes. Dans un prélèvement de sang, on mesure les gènes, les protéines etc et l'on voit comment ils interagissent? Nous mesurons des centaines de paramètres qui partent du niveau clinique et vont jusqu'au niveau moléculaire. Chaque cellule donne 40 informations et les données de plusieurs millions de cellules sont recueillies. Chaque cellule a sa fonction. Nous recueillons les données, les traitons et déterminons le degré de réponse immunitaire probable du patient. Nous pouvons voir comment le patient réagit à un médicament. On détermine un modèle prévisionnel efficace. L'un des obstacles à l'utilisation du big data en matière de recherche médicale est l absence de norme des données ouvertes en particulier concernant la langue. Par ailleurs, nous sommes capables de mesurer des paramètres sans en comprendre la signification avant traitement informatique. Mais on sait que nous connaîtrons l importance de ces données dans un futur proche. Nous connaissons 20 % du génome et nous les comprenons. Les 80 % restant sont un champ ouvert. Pour conduire cette révolution du big data, il va falloir des troupes nombreuses et qualifiées. Des ingénieurs, des techniciens, des théoriciens etc. en grand nombre. Il va falloir les former. Les universités, et pas seulement, se trouvent donc elles aussi fortement impactées. Peretz Lavie, Président du Technion, mesure l'ampleur des efforts à accomplir. Nous devons être prêts pour le big data, dit-il. L'université doit former des ingénieurs qui sachent se servir des big data, les analyser, les présenter. Il faut former les

experts également. Collecter les données, les conserver, les utiliser sera leur rôle. Les MOOCS, cours universitaires sur Internet, seront un support important des cours nécessaires aux étudiants. Un mooc du Technion sur les nanotechnologies a été suivi, en anglais, par 30 000 étudiants et, en arabe, par 7500 étudiants dont certains en Syrie. Mais, si vous avez dans l'avenir des universités qui rassemblent en ligne 500 000 étudiants, comment allez vous faire passer des examens? Comment allez-vous recueillir des informations concernant ces 500 000 étudiants? Si l'on propose un cours comme celui sur les nanotechnologies en chinois, on va avoir 3 millions d'étudiants. Imaginez! Comment faire avec toutes les données concernant 3 millions d'étudiants? En 2010, le Technion a été sollicité pour participer à un concours pour la création d'une université à New York. J'ai réuni six présidents d'université et je leur ai dit qu'il nous faudrait être très créatif si nous voulions remporter le concours. Ils ont suggéré à la ville de New York d'ouvrir trois centres de recherche. L'un sur les médias connectés qui serait donc adapté à l'industrie de la publicité et au secteur financier, le deuxième, à la vie urbaine et le troisième à la santé avec un dénominateur commun qui serait le big data, à l'époque encore un peu nébuleux. Chacun de ces centres aurait des scientifiques chargés d'extraire les données et de les traiter, les présenter, les analyser. Nous avons remporté le concours et le campus sera prêt en 2017. Google s'est présenté à nous et nous a accordé un espace libre. Google a dit aussi payer électricité pendant plusieurs années ; Eric Schmidt a justifié cette générosité de la façon suivante : «Vous êtes en train de prévoir le futur et je veux être près de vous.». Les données vont peut être perdre un peu de leur romantisme. Ce que je veux dire, précise Peretz Lavie, c'est que quand on va dans une bibliothèque, tout est numérisé, on peut trouver les vieux bouquins sur son ordinateur mais cela ne se compare pas avec l'odeur des livres. 9 Les barrières qui séparent depuis des siècles certaine disciplines scientifiques entre elles ou avec des matières nouvelles sont en train de chanceler sous les coups de boutoir du big data. C'est un thème dont importance n'a pas échappé aux participants au débat conduit pat Cédric Villani, mathématicien, professeur, Directeur de l'institut Raymond Poincaré et Médaille Fields 2010. Cédric Villani évoque, pour illustrer l'ouverture nouvelle des sciences fondamentales, la mise à concours par le CERN de l'équipe qui pourrait trouver le meilleur algorithme qui identifierait automatiquement le boson de Higgs parmi les monceaux de données que génèrent les expériences du CERN. Les orateurs valident cette nouvelle manière de faire vivre ensemble des sciences qui se découvrent de nouvelles complémentarités, avec les conséquences qui en découlent sur la formation. Le big data est une science qui peut contribuer aux autres sciences. De quelle façon peut elle contribuer à la bio informatique, à la médecine personnalisée? Elle est en train de contribuer à l'étude du climat, mais il y a une science dure qui lui est ouverte et qui consacre lorsque l'on fait ses preuve dans son domaine, c'est la physique. L accélérateur de particules du CERN permet de provoquer une collision entre deux protons et d'analyser les débris pour y trouver la trace du fameux boson de Higgs...qui a fait l'actualité l'an passé. Les données qui sont recueillies appartiennent au big data. Il y a cent millions de collisions par seconde entre protons Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

et les données font plusieurs petabytes par an et la question est de savoir si nous pouvons aider les physiciens à identifier la région de l'espace où se trouvent les bosons. Pour la première fois, le CERN a mis à disposition du grand public les données. Les physiciens se sont donné une peine extrême pour arriver à construire des données abordables par des mathématiciens «normaux». Un énorme effort a été mis dans la construction des données et dans les mesures qui permettaient de dire aux participants au challenge s'ils faisaient bien ou pas. Ce mariage entre la physique théorique et le machine-learning a été un succès. Un champ scientifique est en train de s'ouvrir qui consiste à analyser des problèmes de très très grande dimension. Ces problèmes contiennent des milliers ou des millions de variables et il va falloir agréger ces variables pour obtenir un nombre, prendre une décision comme dans le cas du chirurgien qui agit sur une tumeur au cerveau. On se retrouve devant des problèmes mathématiques extrêmement difficiles car le volume de l'ensemble des possibles est absolument énorme. Et quand bien même on a énormément de données, on n'en n'a pas assez pour explorer cet énorme espace. On va donc essayer de comprendre ce que sont les structures et comment les reconnaître à l'intérieur des données. Cela signifie que les variables ne vont pas varier de façon complètement aléatoire par rapport les unes des autres. On a beaucoup pensé ces problèmes de structures sous forme de règles. Si l'on pense à l'intelligence artificielle des années 80, aux systèmes experts, cela consiste essentiellement à trouver les bonnes règles et à les appliquer à des données. Ce qui est apparu ces quinze dernières années c'est que l'explosion de la complexité implique une explosion du nombre de règles et il faut donc regarder ces problèmes différemment. Le point fondamental qui apparaît c 'est qu'il va être très important de comprendre quelles sont les distances, quelles sont les analogies, quelles sont les relations entre les structures et comment l'on peut construire de telles distances et c'est là que l'on voit beaucoup de domaines de mathématiques qui sont très différents. D'abord la géométrie pour comprendre dans quel domaine les données habitent, mais aussi tous les domaines de l'aléatoire, des probabilités, des théories de groupes etc. Ce qui est intéressant dans ces problèmes c'est qu'en apparence, ils sont très différents, mais l'une des beautés des mathématiques c'est de trouver la correspondance, de trouver que derrière ces phénomènes en apparence très différents (son, parole, diagnostic etc.), il y a des structures très similaires qui expliquent que le même type d'algorithme générique permet d'attaquer tous ces problèmes. Il y a quelque chose de très joli dans ce domaine, c'est qu'il y a une avance considérable actuellement due aux gens qui travaillent directement sur les données c'est à dire les ingénieurs, les algorithmiciens. Les mathématiques sont encore loin derrière. Il y a des choses superbes qui ont été faites parfois avec des outils très ésotériques, comme ce que l'on appelle les réseaux de neurones regardés par le passé d'un air un peu méprisant. «On ne comprend pourquoi ça marche», certes mais les avancées sont incroyables. Actuellement des voitures circulent de manière complètement autonome. Elles font de la reconnaissance d'image, de son, de langage naturel et elles fonctionnent sur ces structures de réseaux de neurones. Cette avancée pose beaucoup de questions scientifiques à commencer par : pourquoi ça marche? Les mathématiques deviennent très fondamentales à ce niveau là? Parce que tant qu'on n'a pas compris, on n'est jamais tout à fait sûr que ça va toujours marcher. Et l'on s'aperçoit que parfois, ça ne marche pas. Autre point fondamental, notamment dans le domaine industriel, c'est que tant qu'on reste empiriques il faut énormément de temps pour développer quoi que ce soit. Les mathématiques permettent d accélérer la phase d'expérimentation pour aller vers des solutions efficaces. Les industriels en sont conscients, mais il n'y a pas encore assez de personnes formées. Beaucoup d'étudiants français partent vers de grandes

sociétés américaines comme Google. Il n'y a pas assez de gens qui font à la fois des mathématiques, de l'informatique et qui ont «les pieds dans les données». Il y a des gens qui sont à la fois mathématiciens et informaticiens, qui veulent se libérer des données pour les dominer. Le big data génère des data scientists dont la première qualité doit être le discernement. Les mathématiques connaissent un vrai regain d'intérêt et l'on voit qu'aux USA le nombre d'étudiants en mathématiques augmente fortement. C'est provoqué sans doute par cette arrivée des données en grand nombre. Cela permet aux étudiants de discerner clairement l'utilité pratique des mathématiques. Les données sont une force de cohésion entre toutes les disciplines. L'enseignement des statistiques, des probabilités doit survenir plus tôt dans le cursus. Elles sont d'une utilité évidente dans le traitement et l'interprétation des données. Il n'y a pas assez d'ingénieurs formés sur les big data. Il est important de donner d'abord les bases de ce qui fait une donnée, de ce qu'elle est, de ce qu'est sa durée de vie par exemple. Après quoi il sera plus facile à l ingénieur de traiter de manière pertinente un type particulier de données comme les données médicales par exemple. Il est aussi nécessaire de créer des formations continues qui permettent à des professionnels des mathématiques et de l'informatique de se convertir aux métiers des big data. 11 Pouvons nous former les ingénieurs en quantité suffisante? Pas seulement des docteurs. Il faut former les étudiants dès le début de leurs études à se passionner pour les données et leur maniement. Et Comment initier les enfants au big data? L'école sert à former les enfants à s'insérer dans la société actuelle et à les former aux métiers qu'ils exerceront. Les formations ne peuvent donc plus être celles du 20ème siècle. L'éducation doit suivre des sciences qui ont changé. Tous les métiers utilisent l'informatique et les bases de données. Les enfants doivent apprendre les outils qui correspondent au monde d'aujourd'hui. On peut familiariser les enfants au traitement des données, à l'utilisation d'algorithmes dès le collège. Il faut aussi faire tomber cette séparation entre lettres et sciences. Il s'agit non seulement de former des spécialistes mais aussi des citoyens qui appréhendent bien tous les enjeux sociétaux de l utilisation des big data. Le big data n'est à l'évidence pas neutre en matière de respect de la vie privée. C'est une activité très intrusive et elle va provoquer une adaptation importante des dispositifs législatifs de protection de la vie privée. Quelques exemples concrets pour illustrer le propos. Dans un pays étranger à la France, un propriétaire de Ferrari cherche à se faire rembourser sa voiture accidentée. L'assureur lance une analyse de données concernant ce client et remonte des données qui montrent, sur les comptes sociaux de ses amis, que le soir de l'accident il était à une soirée, qu'il a bu beaucoup (photos sur un réseau social le montrant en train de boire abondamment) etc. L'assureur a pu négocier le montant du remboursement. Yannick Bolloré raconte un souvenir personnel. A son arrivée à l'aéroport de San Francisco, il rallume son smartphone et il reçoit un texto qui lui dit «Près de votre hôtel, 30 % de réduction sur les sushis saumon». Il se demande immédiatement Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

comment la source du texto sait qu'il est à San Francisco, comment elle connaît son hôtel et comment elle sait qu'il aime les sushis saumon...réponse le lendemain par les gens de Google avec lesquels il a rendez-vous : «Ça, c'est nous!». Google vous localise, par un monitoring de votre agenda, il sait que vous êtes à l'hôtel Untel et par l'analyse de vos SMS et de vos mails repère votre goût pour les sushis que vous avez du commander en ligne il y a peu...et cela ne leur pose aucun problème éthique...privacy? Connais pas! Autre exemple, on arrive à détecter des signaux faibles c'est à dire par exemple de jeunes artistes émergents qui naissent par l'écoute, au début confidentielle sur les réseaux sociaux. On a des outils de monitoring de tout ce que les gens écoutent et passer à côté d'un nouveau talent est de moins en moins possible. Un homme est entré il y a peu dans un magasin aux USA et s'est plaint que sa fille soit encouragée à être enceinte car elle avait reçu un mail lui proposant des couches pour bébés. Quelques jours après il est revenu s'excuser car sa fille était réellement enceinte. Comment le magasin le savait-il? Tout simplement car la jeune femme avait effectué par ailleurs des achats identifiés comme étant ceux d'une femme enceinte. L'apprentissage machine, qui est l'une des composantes du big data, dans ce cas d'utilisation ne peut pas protéger la confidentialité. L'université de Cambridge a réussi, à partir de 50 000 profils sur Facebook, et de ce que les titulaires des comptes ont aimé, d'identifier les utilisateurs de stupéfiants, les fumeurs, les alcooliques, avec une précision de 70 %. Même l'orientation sexuelle a été facile à identifier à 88 % chez les hommes et de 75 % chez les femmes. Le sexe, la religion, les options politiques ont été identifiées très précisément ainsi que la couleur de la peau. Donc, quand on clique «I like», cela permet de vous analyser. Jacques Marceau, président de Aromates, dresse le constat de l'état de l'opinion à partir d'un sondage. Big data sonne à nos oreilles comme s'il avait été inventé pour nous faire peur. Avons nous des raisons d'être inquiets? La sécurité et la confidentialité des données sur Internet sont identifiés comme des enjeux majeurs par les français. Pour un français sur trois le principal frein au développement d'internet est le manque de protection des données personnelles. Une personne sur deux est persuadée que des informations personnelles peuvent être transmises par les téléphones mobiles sans que l'utilisateur en soit averti. 47% des internautes pensent avoir été victimes d'un accès indésirable à leurs données, parmi eux, les possesseurs de smartphones qui en sont persuadés. Face à ces risques, 57 % des français se disent très vigilants, en utilisant des mots de passe, en rangeant leurs données hors Internet ou en recourant à des pare-feu. L'Europe a décidé de donner un nouveau souffle à son action visant à la protection des données personnelles. Eric Pérès, Vice-président de la CNIL souligne que les 15 articles de la déclaration initiée par la présidente de la CNIL réaffirment les valeurs de l'europe et proposent des actions concrètes. Il ne s'agit pas de construire une sorte de «Ligne Maginot» numérique mais de créer un cadre propice aux nouvelles formes d'échanges donc d'économies basées sur l'exploitation et le commerce des données, mais un commerce équitable, respectueux de nos libertés individuelles et collectives. Il y a des notions comme la protection différenciée, qui permet que sur des données comme par exemple des données épidémiologiques on ne puisse pas ré-identifier les données. Les techniques existent. Toutes les questions posées par big data (big brother?) sont de nature éthique. Peut-on s'autoriser à collecter des données?

Pourra-t-on toujours définir la finalité des données recueillies? Comment éviter les corrélations loufoques comme celle entre les phases de la conquête spatiale et le nombre de meurtres par étranglement. Par ailleurs, si l'on trouvait, par une collecte de données sans définition de finalité, un moyen d'éviter le cancer, le public suivrait-il la prescription ou attaquerait-il l'illégalité de collecte de données? La question est éthique. Quand on regarde ce que permet le big data, on est pris de vertige, on a peur d'être submergé et on a le sentiment qu'il faut se mettre à beaucoup pour y travailler. Il est aussi important que le concept de vie privée soit un domaine de souveraineté, personnelle, culturelle, nationale de façon que ces règles de vie privée ne soient pas inscrits dans des algorithmes définitifs au niveau mondial. Toutes les sciences humaines et sociales doivent être convoquées pour l'examen de cette révolution qu'est le big data. L'Homme et le numérique doivent évoluer ensemble au profit du plus grand nombre. Aujourd'hui, la réponse aux questions est juridique. On interdit, on contrôle. Par ailleurs, on a des acteurs comme Google, Amazon, qui collectent des données, qui avancent et ne nous attendent pas. Ils ont toujours un coup d'avance sur la loi. En France nous avons, entre autres, un volumineux rapport du Conseil d État sur la protection des données personnelles mais il nous faut aussi prendre garde à ne pas tuer le marché et jeter le bébé avec l'eau de bain. Nous sommes sur une ligne de crête étroite. D'abord, il est important de bien séparer l'utilisation primaire des données que je fournis à un service dans le cadre de la démarche proche à ce service et l'utilisation secondaire de mes données par un fournisseur de service qui les utilisent pour toute autre chose que son activité propre. Les logiques d'encadrement de ces deux choses sont très différentes. L'attention du public se porte plus sur l'utilisation secondaire. Là, le concept du consentement devient très important notamment, du «consentement informé» et aussi du «consentement dynamique informé» par lequel celui qui fournit ses données a la possibilité de disposer de ses données de façon dynamique et constante c'est à dire de révoquer son accord. Ce dernier concept est mis en place dans le domaine du traitement de données personnelles en matière de santé. L'une des difficultés actuelles réside dans les différences de conception de ce qu'est la vie privée, de ses données associées et de leur protection entre les États Unis et l'europe. Des groupes divers essaient de mettre en place ou, du moins, d'élaborer des règles communes ou compatibles mais c'est très difficile. On peut identifier trois défis éthiques liés au big data. Le premier est comportemental, il concerne le comportement due l'internaute devant des action optionnelles. Pré-cocher une case pour supprimer une éventuelle restriction d'utilisation de données n'est pas neutre. La monétisation des données personnelles en est un autre, le troisième défi concerne les distorsions qui peuvent naître de la médecine prédictive en matière de protection sociale des individus dans la mesure où les assureurs sont friands de données. C'est la dimension éthique de la motivation qui légitime ou non la démarche. Que peut on faire? Certains sont partisans de laisser les agences et institutions existantes traiter du sujet. Mais big data et CNIL par exemple ne s'opposent-ils pas sur les principes? La CNIL dit que si je veux stocker des données, je dois dire avec précision pourquoi. Le big data, par essence, répond qu'il ne sait pas. Avant de traiter les données, on ne sait pas ce que l'on va trouver. On stocke et, dans un premier temps, c'est tout. Autre difficulté, le «quantified self» mis en vogue par les bracelets connectés, n'est pas une donnée de santé. Sauf que le «quantified self» 13 Microsoft Association Technion France 46 rue de l Amiral Hamelin 75016 PARIS Tél : + 33 1 40 70 13 28 - Fax : + 33 1 40 70 16 79 Email : muriel.touaty@technionfrance.org Site : www.technionfrance.org

plus le big data, cela devient une donnée de santé par la masse des données possiblement traitées. Pourtant, Eric Pérès, vice président de la CNIL l'affirme, la CNIL n'est pas un empêcheur de tourner en rond. L innovation et la protection doivent pouvoir marcher de concert. Si l'on veut aller vers un big data éthique dont les potentialités sont incroyables, encore faut-il que les données personnelles soient collectées de manière loyale. Si la transparence est claire, ne serait-ce que dans des conditions générales d'utilisation ou dans un tableau qui permet à l'individu de voir les données qui sont conservées sur lui, il y aura la confiance. On va alors vers la gestion des comportements et c'est un choix politique. Il n'y a pas d'antagonisme entre big data et finalités. On peut collecter des données personnelles à condition que la personne concernée soit d'accord, mais tous les opérateurs ou tous les acteurs n'ont pas la même ambition de travailler pour le bien public. En termes de surveillance et de renseignement, il faut savoir jusqu'où on peut aller. Le projet de règlement européen nous donne l'opportunité de redonner au citoyen la maîtrise de ses données personnelles. Il faut imposer un standard européen du point de vue juridique, un standard technologique qui intègre des règles de protection des données de la vie privée ; On peut imaginer aussi des contrats d'utilisation de données dans un cercle géographique précis destiné à permettre leur traitement pour améliorer localement des politiques de l'eau, des transports etc. La confiance deviendra alors un élément concurrentiel fort car il pourra déterminer le choix de l'acteur auquel je vais accepter de confier mes données personnelles. La loi informatique et libertés est restée pertinente. C'est avec le big data qu'elle devient inadaptée. Il y a nécessité de repenser la réglementation. L'individu a des droits qu'il ne met jamais en œuvre, pas plus que son droit au consentement ou à la suppression de données le concernant. Ce n'est pas l'individu avec son identité qui compte mais la prédiction de ses comportements. L'individu doit avoir le droit à l'oubli numérique, il doit aussi avoir la pleine propriété de ses données et de leur usage dans la définition d'un droit universel. Autre droit, celui à la révélation. Tout détenteur de données me concernant doit me les révéler à ma demande. Ce qu'il sait sur moi il doit me le dire. Il doit y avoir enfin un droit à l'intimité numérique. L'enjeu essentiel est celui de l'éducation qui doit permettre à chacun d'utiliser par exemple des objets connectés en toute connaissance de cause, en sachant ce qui sa cache derrière. A l'heure actuelle, on fait reposer une responsabilité excessive sur le citoyen dans la protection de ses données au regard de ses capacité à comprendre les engagements contractuels proposés et souscrits en ligne. Il vaudrait mieux renverser la charge de la responsabilité vers l'opérateur public ou privé. Le contrôle de l exécution des obligations éthiques devrait avoir pour corollaire des niveaux de sanction très dissuasifs. L'avantage de ce système serait de ne pas empêcher l'innovation, encore une fois dans un cadre éthique strict. C'est d'ailleurs le sens du rapport du Conseil stratégique en technologie à la Maison Blanche. Il faut être sur le terrain du droit mais pas seulement. La régulation et la confiance par la multitude sont efficaces. On peut imaginer des systèmes de tiers de confiance. Labelliser les opérateurs ou des tiers de confiance? Peut on imaginer de contrôler les algorithmes? AFNOR est prête à définir des normes des normes. On le voit, le débat ne fait que commencer alors que le big data avance. L'avenir est ouvert. Technion France aura permis de mieux comprendre les enjeux immenses du big data. Un mot et une réalité multiple, devenus ainsi plus familiers aux participants.