Mastodons Une approche interdisciplinaire des Big Data



Documents pareils
Emergence du Big Data Exemple : Linked Open Data

Emergence du Big Data Exemple : Linked Open Data

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Jean-François Boulicaut & Mohand-Saïd Hacid

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Big Data et Graphes : Quelques pistes de recherche

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Big Data et Graphes : Quelques pistes de recherche

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Masses de données et calcul : à l IRIT. 8 octobre 2013

L informatique à l IN2P3 et le rôle du Chargé de Mission

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

TRAVAUX DE RECHERCHE DANS LE

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Cycle de vie, processus de gestion

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Big Data -Comment exploiter les données et les transformer en prise de décisions?

OBJECTIFS. Une démarche E-science

ISTEX, vers des services innovants d accès à la connaissance

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Eco-système calcul et données

Les datas = le fuel du 21ième sicècle

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Assemblée Générale. Structure Fédéra,ve de Recherche Condorcet. condorcet.fr. Agro- Sciences, Environnement et Développement Durable

Colloque Calcul IN2P3

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

«Les projets collaboratifs pour les nuls»

IN2P3 et PLUME Valorisation de la production de logiciels

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

BIG DATA en Sciences et Industries de l Environnement

Semestre HPC. Violaine Louvet. Institut Camille Jordan - CNRS louvet@math.univ-lyon1.fr. Labex MILyon, Printemps 2016

Présentation du module Base de données spatio-temporelles

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

La mise en place d une cellule de veille

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Calcul Haute Performance & Données

Modèles et algorithmes pour le conseil et la gestion des préférences en configuration de produit

Introduction au datamining

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Préserva(on des données scien(fiques. C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS

Environmental Research and Innovation ( ERIN )

Guide de préparation d un projet

Métriques, classements et politique scientifique des Etablissements

Exemple de projet et réseau: modélisation et simulation des systèmes socio-environnementaux

Smart City Pour relever les défis d urbanisation et de mobilité du futur. Raphael Rollier 05/2015

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Open Data. Enjeux et perspectives dans les télécommunications

SÉRIE NOUVELLES ARCHITECTURES

Master Informatique Aix-Marseille Université

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Etudier l informatique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Les défis statistiques du Big Data

Introduction Big Data

ArcGIS. for Server. Comprendre notre monde

Conception des systèmes répartis

Dailymotion: La performance dans le cloud

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Big Data. Concept et perspectives : la réalité derrière le "buzz"

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

Assemblée générale Aristote

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

EXL GROUP FILIÈRE ERP - QUI SOMMES NOUS?

Bases de Données OLAP

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Big Data On Line Analytics

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

IT for Innovative Services (ITIS)

#GoSocial. solutions de marketing communautaire & social crm

Stratégie Open Source et Présentation du Centre de recherche et d innovation sur le logiciel libre

Saadi KHOCHBIN. Directeur de recherche CNRS. médaille d Argent. Institut des sciences biologiques. Institut Albert Bonniot (IAB)

Matrice snapshot Jacquelin Charbonnel ANF RNBM - Marseille, 23 mai 2013

BI SWISS FORUM (ecom / SITB)

L Institut National des Sciences Mathématique et de leurs. Premiers éléments d un bilan à deux ans.

Les Entrepôts de Données

Faculté des Sciences d ORSAY

Recherche et Formation dans un environnement de pointe. Contact:

SAUVER LA DISTRIBUTION!

Présentation de la Grille EGEE

Module BDR Master d Informatique (SAR)

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Hervé Couturier EVP, SAP Technology Development

Transcription:

Mastodons Une approche interdisciplinaire des Big Data Méga- données, IRIT Nov 2014 Mokrane Bouzeghoub DAS INS2I / MI CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 1 1 Introduction 2 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 2 1

Deux constats La collecte, la produc.on et la dissémina.on à grande échelle de données sont devenues des «réflexes» de la société numérique Systèmes d observa.on Espace/Terre, Expérimenta.ons scien.fiques, Simula.on, Réseaux sociaux, Déluge de données (Big Data) dont l amplitude est inimaginable il y a qq années encore. Le traitement efficace de ces données défie les modèles classiques de calcul, de stockage, de communica.on et d explora.on des données Comment analyser ces données, les interpréter et les valoriser en connaissances scien.fiques ou sociétales? Quelles avancées technologiques, architecturales et algorithmiques permerent de répondre à ces défis? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 3 Aucun domaine n échappe à l avalanche des données Commerce et les affaires SI d entreprise, Banques, transactions commerciales, systèmes de réservation, Gouvernements et organisations Lois, réglementations, standards, infrastructures,. Loisirs Musique, vidéo, jeux, réseaux sociaux Sciences fondamentales Astronomie, physique et énergie, génome, Santé Dossier médical, sécurité sociale, Environnement Climat, dév durable, pollution, alimentation, Humanités et Sciences Sociales Numérisation du savoir (littérature, histoire,art, srchitectures), données archéologiques CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 4 2

Les applications opérant sur des grandes MdD Applications d analyse Pas de mises à jour, pas de transactions ü ü ü OLAP, BI Fouille de données Apprentissage Applications scientifiques explorant des domaines inaccessibles à la théorie et à l expérimentation Évolution de l univers (observation) Crash test de véhicules (simulation) Prédiction des changements du climat (modélisation) CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 5 Pourquoi pas les SGBD? Fin de l ère «One Size Fits All» Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d application/type de données Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents les fonctions de gestion de données sont enfouies dans des systèmes à plus forte valeur ajoutée (services métiers, process de haut niveau) La gestion de données: une offre de services web On n achète plus un SGBD mais des services Web opérant sur des sources locales ou distribuées Les services de gestion de données sont sous-jacents au Cloud/Grid CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 6 3

De la Gestion des Données à La Science Des Données 7 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 7 Les grandes questions de la Science des Données La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les parerns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quan.té mais aussi en raison des rela.ons existantes entre elles (séman.que) Les données peuvent être source de plus- value scien.fique mais aussi source de bruit et de pollu.on (qualité, hétérogéneité, manipula.on) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- elles quelque chose de nous aux généra.ons futures? Ont- elles une objec.vité en elles- mêmes ou sont- elles biaisées par des transforma.ons subjec.ves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur inves.ssement? Quel rôle pour ces données (ma.ère première, produits dérivés, capital, )? Quel statut pour ces données (propriété privée, domaine publique, objet CNRS - Mission commercial)? pour l'interdisciplinarité Mokrane Bouzeghoub 8 4

Science des données : un 4 e pilier de la Science La disponibilité de très grandes masses de données et la capacité de les traiter de manière efficace est en train de modifier la manière dont nous faisons de la science 1. Science empirique : observa.ons de phénomènes naturels, évalua.on de faits mesurables, extrac.on de lois générales par raisonnement induc.f 2. Science théorique : cadre de travail offrant des modèles (mathéma.ques) pour comprendre un certain univers 3. Science computa.onnelle : simula.on de phénomènes complexes pour comprendre ou valider des théories 4. Science des données: collecte massive de données et traitement pour en extraire des connaissances nouvelles CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 9 Complexité multidimensionnelle du Big Data Nouvelles archi. de stockage Nouvelles archi. d interopérabilité Défi pour les réseaux de communica.on Nouveaux modèles de calcul sur des flux NeRoyage et transforma.on Fusion de données Nouveaux modèles de qualité (données & processus de traitement) hnp://www.datasciencecentral.com/profiles/blogs/data- veracity 10 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 10 5

27/11/14 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini.ée en 2007 avec une dizaine de sources de données interconnectées Aujourd hui, plusieurs centaines de sources connectées et ouvertes 11 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub Qu est-ce qu une (très grande) masse de données? Big Data VLDB LDB X B Very ta ig Da Data Deluge es ta ass M a Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, at CNRS - Mission D pour l'interdisciplinarité Mokrane Bouzeghoub Mas siv e Da 12 6

Challenges scientifiques 13 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 13 Les grands challenges scientifiques de MdD&SdD Stockage et préserva.on des données Performance des accès, disponibilité des données ProtecWon des données IndexaWon sémanwque (ontologies), indexawon parwcipawve (folksonomies) PréservaWon à long terme Analyse sta.s.que et séman.que, raisonnement Analyse en temps réel de flux conwnus de données émanant de différentes sources Requêtes mulwdimensionnelles sur des grands ensembles de données ExtracWon et interprétawon de connaissances Impact sociétal et économique ProtecWon de la vie privée, Droit à l oubli Droits de propriétés, droits d exploitawon Economie d énergie, coût du stockage, coût de transfert è 120 kwh/an/to stocké par CCIN2P3 è 1M /an facture électricité de l IDRIS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 14 7

Exemple 1 : Analyse complexe à grande échelle Analyse en temps réel de flots continus de données émanant de différentes sources Ex: Découvrir et comprendre les patterns caractéristiques du comportement de certains phénomènes ou certaines populations Réaction en temps réel à des événements d alerte Ex: attaques sur le réseau Requêtes multidimensionnelles sur des grands ensembles de données Découvrir des corrélations entre phénomènes CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 15 Exemple 2 : La visualisation des données Besoins Navigation intuitive/contextuelle Visualisation de phénomènes non perceptibles (durant la simulation) Analyse /Interaction visuelle Problèmes L approche de visualisation peut-elle aider à la compréhension d un phénomène Ou peut-elle introduire un biais et en altérer l interprétation? visualcomplexity.com/vc Ex: Visualisation post traitement V.S Visualisation in-situ Évite des zones d ombre par perte de calculs intermédiaires à Coupler la simulation et la visualisation (vars température, pression, ) Ex: Swiss Nat Supercomputing Center CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 16 8

Une grande créativité pour faciliter l analyse/l interprétation visualcomplexity.com CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 17 Exemple 3 : La préservation des données Comment préserver les données à durée de vie illimité? connaissances scientifiques produits culturelles connaissances archéologiques et environnementales connaissances sociales (recensements) Comment préserver les données à durée de vie longue mais limitée patrimoine informationnel des entreprises Données personnelles (stockées dans les disques privés ou publiés sur le Web) Données publiques (fichiers sécu, police, ) Quel coût pour la préservation des données Coût de conversion des données (formats) Coût pour la migration des technologies Coût de maintien des technologies de niche Quelle stratégie pour les données gérées dans le Cloud? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 18 9

Initiatives en Big Data Ex. du Défi Mastodons 19 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 19 Quelques exemples d initiatives USA Govt US: Big Data Research and Development IniWaWve (Mars 2012) ü 250M$ / an dont 60 pour les projets de recherche ü mis en œuvre par NSF, NIH, DOD, DOE, USGS) Accel Partners: fond d inveswssement à 60 M$ / an de souwen à la créawon de startups dans le Big Data UK ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M. BBSRC (2012): 75 M pour améliorer la disponibilité des Big Data France PIA: Appel Cloud Comp & Big Data Ministère de l Industrie (juillet 2012): 25 M CNRS: IniWaWve interdisciplinaire (Mastodons): 800K /an sur 4/5 ans? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 20 10

Le Défi Mastodons : Objectifs Produire des concepts et des solu.ons qui n'auraient pu être obtenus sans coopéra.on entre les différentes disciplines Favoriser l émergence d une communauté scien.fique interdisciplinaire autour de la science des données, et produire des solu.ons originales sur le périmètre des données scien.fiques. CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 21 Mastodons : Chiffres clés Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans avec un budget de 700 à 885 K /an Nb de soumissions: 58 Nb d UMR impliquées: + 100, Couvrant les 10 ins.tuts Nb de projets retenus: 21 +1 Reste 16+1 projets en janvier 2014, cible janvier 2015: 10 projets Degré de pénétra.on dans les labos Nb d UMR impliquées: 69, couvrant les 10 ins.tuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet/an 30 à 120 K (projets ayant fusionné) Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA, Universités et écoles CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 22 11

Thématiques couvertes et thématiques orphelines Collecte, stockage et indexation de données (en particulier dans le Cloud) Hétérogénéité, interopérabilité, intégration, partage des données Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données, optimisation Extraction de connaissances, datamining et apprentissage, agrégation/résumé, sémantique et raisonnement Visualisation de grandes masses de données Qualité des données, protection et sécurité des données Problèmes de propriété, de droit d usage, droit à l oubli Consommation d énergie, environnement, recyclage Préservation/archivage des données pour les générations futures (animation) CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 23 Projets Mastodons Titre du projet Porteur UMR Impliquées Instituts/Organismes Nombre de permanents PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d observations astronomiques grand champ Farouk Toumani LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3 29 AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la Terre et de l Univers Sofian Maabout LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU 15 Gaia: l origine et l évolution de notre Galaxie : validation des données Frédéric Arenou GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI 7 SeqPhenoHD: Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Eric Rivals / Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 16 CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Johan Montagnat I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM 9 PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de données et de connaissances spectrométriques et «omiques». Gilles Bisson LIG, irtsv INS2I, INSB, CEA 6 ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio Sémantiques Patrick Gallinari LIP6, CAMS, LIG, LIRIT, LATTICE, IRISA INS2I, INSMI, INSHS 23 SENSE : Socialized Network Science Pablo Jensen LP, LIP, IXXI, Max Weber INP, INS2I, INSHS 6 CROWD-BIODIV: Statistiques Crowdsourcing Biodiversité Romain Julliard MNHN, CMAP, CEFE INEE, INSMI, INRA 7 CROWD-HEALTH: A crowd-based platform for health-related hypothesis testing Sihem Amer-Yahia LIG, EVS,UREN, LIPADE INS2I, INSHS, INRA U.P5, U.P13 7 SABIOD : Scaled Acoustic BioDiversity Hervé Glotin LSIS, LIP6, CNPS, MNHN, LIG, GeoAzur INSB, INS2I 29 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 24 12

Projets Mastodons Tera_SAR: Massification du calcul des déformations de surface par imagerie radar multi---temporelle, multi--- spectrale et haute résolution Marie-Pierre Doin ISTerre, IPGP, GIPSA, LISTIC(EA) INSU(2), INS2I 15 SISMO : Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques: études de l intérieur de la Terre à partir Nikolai Shapiro IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP 7 des champs d onde complexes EPINES: production, distribution et analyse des résultats de simulations climatiques. Jean-Louis Dufresne IPSL, KerData INSU, INRIA 5 Gargantua: Optimisation mathématique et apprentissage statistique à grande échelle pour le traitement et l'interprétation de données gigantesques Zaid Harchaoui LJK, LIG, DI-ENS, LPP INSMI, INS2I, INRIA 13 DISPLAY: Distributed processing for very large arrays in radioastronomy Andre Ferrari LJLL, SATIE, Artemis, LTCI, INSMI, INS2I 17 COMOTEX: COMmande temps réel de systèmes d'optique adaptative à très grand nombre de degrés de liberté pour les Télescopes EXtrêmement grands Brice Le Roux / Morgan Gray LAM, CEREA INSU, ONERA, ENPC 8 MesureHD: Développement de nouveaux protocoles de mesure, d'analyse et de traitement des données adaptés aux mesures à hautes résolutions et à haut débit par Marc-andre Delsuc des méthodes biophysiques. IGBMC, icube, LIGM, LJLL + INSB(2), INS2I, INSIS, (Soleil, Institut Pasteur, MSAP) INSMI(2), INC(2) 10 AMADOUER: Analyse de MAsse de DOnnées de l Urbain et l EnviRonnement Sylvie Servigne LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS 18 ANIMITEX: Analyse d'images fondée sur des informations textuelles Mathieu Roche LIRMM, TETIS, icube, GREYC, LIUPPA(EA) INS2I(2), IRSTEA, INSIS 13 DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments Balazs Kegl LAL, LIP, LRI IN2P3, INS2I 11 PREDON: La préservation et l exploitation des données scientifiques à long terme Cristinel Diacanou CPPM, LPCCG, LAPP IN2P3, INS2I, INSU, CINES, IRD 23 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 25 Types de données visés dans les projets retenus Cosmologie, astrophysique Dynamique de la Cartographie céleste Sciences de la terre et de l univers (traitement d images) Modélisa.on, déforma.on de la croute terrestre Environnement, climat, biodiversité Simula.on, intégra.on, fusion de données Biologie santé Génome, séquençage, phénotypage Données médicales Réseaux sociaux RI, analyse d opinions, santé Crowdsourcing CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 26 13

Projet Aresos : Analyse de grands réseaux socio-sémantiques CAMS - INSMI, EHESS, Paris CSI - INSHS, Ecole des Mines, Paris IRIT - INS2I, U. Toulouse 3 LATTICE - INSHS, ENS/ U. Paris 3 LIG - INS2I, UJF, Grenoble LIP6 - INS2I, UPMC, Paris IRISA, INS2I, U. Rennes 1 GIS ISC- PIF, INSHS Objec.fs : qui parle, de quoi, comment Reconnaissance d acteurs Analyse sociologique Recherche d informa.on dans les microblogs Iden.fica.on de théma.ques Recommanda.on collabora.ve CrowdIndexing, tagging social Défi MASTODONS - Projet ARESOS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 27 27 Projet SeqPhénoHD : Séquençage & Phénotypage Haut Débit Info et bio- info LIRMM, LIFL, IRISA Phénotypage INRA Génome France Génomique Biologie- environnement ISEM Etude du comportement des plantes, de différents génomes, Densité végéta.on (nb de feuilles) Croissance (rapidité, hauteur, encombrement, ) selon les évolu.ons de leur environnement Température, Humidité, Lumière/Ensoleillement Exemple 400 génomes 3 à 10 plants par génome 10 5 informa.ons / jour CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 28 14

Projet PetaSky : observation astronomique grand champ (LSST) LIMOS (Clermont- Fd)=> F. Toumani LIRIS (Lyon) LPC (Clermont- Fd) APC (Paris) LAL (Paris) Centre de Calcul de l IN2P3/CNRS 15 CEC, 8 ITA, 2 Doct. Ges.on des données scien.fiques dans le domaine de la cosmologie et l astrophysique Des dizaines de milliers de milliards d observa.ons photométriques sur des dizaines de milliards d'objets 3 Milliards de sources 1-10 Millions d évènements par nuit 16 TB chaque 8 heures avec un taux de 540 MB/seconde EsWmaWon en fin de projet : 400 000 Milliards de tuples (différentes versions des données sans prise en compte de la réplicawon), 60 PB CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 29 Défi de la gestion des données dans LSST Requêtes sur une centaine d anributs Analyse en temps réel de 2 TB/heure Surveillance en temps réel des variawons de 10 Milliards d objets Requêtes type Point- query (chercher une aiguille dans une bone de foin) CorrélaWons : adresser par paires 109 galaxies Séries temporelles : 10 ans de données, 1000 visites par pointé Passage à l échelle des ouwls d aide à la décision OpWmiser l organisawon des données pour l analyse Une nouvelle approche pour l extracwon des connaissances en temps réel CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 30 15

Indicateurs de suivi Pérennité de la coopéra.on Publica.ons communes Co- encadrement de thèses Plateformes de test et d expérimenta.on Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données. CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 31 Indicateurs de suivi : quelques chiffres (Janv 2014) Publica.ons communes 25 publica.ons de haut niveau 5 workshops interna.onaux organisées Plusieurs workshops na.onaux et journées d études propres aux projets ou inter- projets Levier pour lancer d autres projets France: 1 ANR (projet Display è Magellan) Europe: 1: 1 COST Big Data Era in Sky and Earth Observa.on ü 16 pays partenaires dont les membres de PetaSky + Gaia Autres impacts (projet Sabiod) Bird Challenge: Iden.fy bird species from con.nuous audio recordings Expédi.on GoéleRe TARA: collecte et traitement de données sur la pollu.on en méditerrannée CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 32 16

Perspectives 2015 Poursuivre la structura.on de la communauté Via le financement des gros projets (regroupement, renforcement) Via le nouveau GDR MaDICS (anima.on) Susciter de nouveaux projets (si budget) Les problèmes de droit d usage, de propriété, d oubli (aspect SHS) Le crowdsourcing (aspects SHS) Lancer un nouveau défi sur le traitement d images Année théma.que pour INS2I Coloriage de postes de CR1/CR2 Sou.en aux plateformes (ingénieurs) Sou.en aux recherches théoriques (AAP) Réfléchir à une stratégie plus ambi.euse pour le CNRS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 33 Initiatives en Big Data Ex. du Défi Mastodons 34 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 34 17

Conclusion Un domaine très vaste en interacwon permanente avec les autres disciplines scienwfiques Un domaine qui se reposi.onne périodiquement En revisitant ses soluwons à la lumière de nouvelles technos et de nouvelles idées En intégrant de nouveaux besoins et de nouveaux problèmes Une recherche dominée (ou presque) par des labos industriels : Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsox CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 35 Discussion Structura.on de la communauté Créa.on d un GDR (MaDICS) Émergence de sites de références La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc.on et d exploita.on des données (existants ou à créer) Avec un sou.en fort en ingénierie Une véritable interdisciplinarité Un code clair sur l accès aux données et leur u.lisa.on CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 36 18

Big Data, la déferlante des octets CNRS le journal Donner du sens à la science Rechercher Rechercher Se connecter / S'inscrire Suivre file:///users/mokrane-cnrs/desktop/big%20data,%20la%20déferlante%20des%20octets%20%7c%20cnrs%20le%20journal.webarchive 04/03/14 12:30 Partager l'article Types Page 1 sur 10 27/11/14 Big Data : un enjeu pour le CNRS VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 37 Big Data = Big Topic CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 38 19