Mastodons Une approche interdisciplinaire des Big Data Méga- données, IRIT Nov 2014 Mokrane Bouzeghoub DAS INS2I / MI CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 1 1 Introduction 2 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 2 1
Deux constats La collecte, la produc.on et la dissémina.on à grande échelle de données sont devenues des «réflexes» de la société numérique Systèmes d observa.on Espace/Terre, Expérimenta.ons scien.fiques, Simula.on, Réseaux sociaux, Déluge de données (Big Data) dont l amplitude est inimaginable il y a qq années encore. Le traitement efficace de ces données défie les modèles classiques de calcul, de stockage, de communica.on et d explora.on des données Comment analyser ces données, les interpréter et les valoriser en connaissances scien.fiques ou sociétales? Quelles avancées technologiques, architecturales et algorithmiques permerent de répondre à ces défis? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 3 Aucun domaine n échappe à l avalanche des données Commerce et les affaires SI d entreprise, Banques, transactions commerciales, systèmes de réservation, Gouvernements et organisations Lois, réglementations, standards, infrastructures,. Loisirs Musique, vidéo, jeux, réseaux sociaux Sciences fondamentales Astronomie, physique et énergie, génome, Santé Dossier médical, sécurité sociale, Environnement Climat, dév durable, pollution, alimentation, Humanités et Sciences Sociales Numérisation du savoir (littérature, histoire,art, srchitectures), données archéologiques CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 4 2
Les applications opérant sur des grandes MdD Applications d analyse Pas de mises à jour, pas de transactions ü ü ü OLAP, BI Fouille de données Apprentissage Applications scientifiques explorant des domaines inaccessibles à la théorie et à l expérimentation Évolution de l univers (observation) Crash test de véhicules (simulation) Prédiction des changements du climat (modélisation) CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 5 Pourquoi pas les SGBD? Fin de l ère «One Size Fits All» Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d application/type de données Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents les fonctions de gestion de données sont enfouies dans des systèmes à plus forte valeur ajoutée (services métiers, process de haut niveau) La gestion de données: une offre de services web On n achète plus un SGBD mais des services Web opérant sur des sources locales ou distribuées Les services de gestion de données sont sous-jacents au Cloud/Grid CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 6 3
De la Gestion des Données à La Science Des Données 7 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 7 Les grandes questions de la Science des Données La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les parerns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quan.té mais aussi en raison des rela.ons existantes entre elles (séman.que) Les données peuvent être source de plus- value scien.fique mais aussi source de bruit et de pollu.on (qualité, hétérogéneité, manipula.on) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- elles quelque chose de nous aux généra.ons futures? Ont- elles une objec.vité en elles- mêmes ou sont- elles biaisées par des transforma.ons subjec.ves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur inves.ssement? Quel rôle pour ces données (ma.ère première, produits dérivés, capital, )? Quel statut pour ces données (propriété privée, domaine publique, objet CNRS - Mission commercial)? pour l'interdisciplinarité Mokrane Bouzeghoub 8 4
Science des données : un 4 e pilier de la Science La disponibilité de très grandes masses de données et la capacité de les traiter de manière efficace est en train de modifier la manière dont nous faisons de la science 1. Science empirique : observa.ons de phénomènes naturels, évalua.on de faits mesurables, extrac.on de lois générales par raisonnement induc.f 2. Science théorique : cadre de travail offrant des modèles (mathéma.ques) pour comprendre un certain univers 3. Science computa.onnelle : simula.on de phénomènes complexes pour comprendre ou valider des théories 4. Science des données: collecte massive de données et traitement pour en extraire des connaissances nouvelles CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 9 Complexité multidimensionnelle du Big Data Nouvelles archi. de stockage Nouvelles archi. d interopérabilité Défi pour les réseaux de communica.on Nouveaux modèles de calcul sur des flux NeRoyage et transforma.on Fusion de données Nouveaux modèles de qualité (données & processus de traitement) hnp://www.datasciencecentral.com/profiles/blogs/data- veracity 10 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 10 5
27/11/14 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini.ée en 2007 avec une dizaine de sources de données interconnectées Aujourd hui, plusieurs centaines de sources connectées et ouvertes 11 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub Qu est-ce qu une (très grande) masse de données? Big Data VLDB LDB X B Very ta ig Da Data Deluge es ta ass M a Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, at CNRS - Mission D pour l'interdisciplinarité Mokrane Bouzeghoub Mas siv e Da 12 6
Challenges scientifiques 13 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 13 Les grands challenges scientifiques de MdD&SdD Stockage et préserva.on des données Performance des accès, disponibilité des données ProtecWon des données IndexaWon sémanwque (ontologies), indexawon parwcipawve (folksonomies) PréservaWon à long terme Analyse sta.s.que et séman.que, raisonnement Analyse en temps réel de flux conwnus de données émanant de différentes sources Requêtes mulwdimensionnelles sur des grands ensembles de données ExtracWon et interprétawon de connaissances Impact sociétal et économique ProtecWon de la vie privée, Droit à l oubli Droits de propriétés, droits d exploitawon Economie d énergie, coût du stockage, coût de transfert è 120 kwh/an/to stocké par CCIN2P3 è 1M /an facture électricité de l IDRIS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 14 7
Exemple 1 : Analyse complexe à grande échelle Analyse en temps réel de flots continus de données émanant de différentes sources Ex: Découvrir et comprendre les patterns caractéristiques du comportement de certains phénomènes ou certaines populations Réaction en temps réel à des événements d alerte Ex: attaques sur le réseau Requêtes multidimensionnelles sur des grands ensembles de données Découvrir des corrélations entre phénomènes CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 15 Exemple 2 : La visualisation des données Besoins Navigation intuitive/contextuelle Visualisation de phénomènes non perceptibles (durant la simulation) Analyse /Interaction visuelle Problèmes L approche de visualisation peut-elle aider à la compréhension d un phénomène Ou peut-elle introduire un biais et en altérer l interprétation? visualcomplexity.com/vc Ex: Visualisation post traitement V.S Visualisation in-situ Évite des zones d ombre par perte de calculs intermédiaires à Coupler la simulation et la visualisation (vars température, pression, ) Ex: Swiss Nat Supercomputing Center CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 16 8
Une grande créativité pour faciliter l analyse/l interprétation visualcomplexity.com CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 17 Exemple 3 : La préservation des données Comment préserver les données à durée de vie illimité? connaissances scientifiques produits culturelles connaissances archéologiques et environnementales connaissances sociales (recensements) Comment préserver les données à durée de vie longue mais limitée patrimoine informationnel des entreprises Données personnelles (stockées dans les disques privés ou publiés sur le Web) Données publiques (fichiers sécu, police, ) Quel coût pour la préservation des données Coût de conversion des données (formats) Coût pour la migration des technologies Coût de maintien des technologies de niche Quelle stratégie pour les données gérées dans le Cloud? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 18 9
Initiatives en Big Data Ex. du Défi Mastodons 19 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 19 Quelques exemples d initiatives USA Govt US: Big Data Research and Development IniWaWve (Mars 2012) ü 250M$ / an dont 60 pour les projets de recherche ü mis en œuvre par NSF, NIH, DOD, DOE, USGS) Accel Partners: fond d inveswssement à 60 M$ / an de souwen à la créawon de startups dans le Big Data UK ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M. BBSRC (2012): 75 M pour améliorer la disponibilité des Big Data France PIA: Appel Cloud Comp & Big Data Ministère de l Industrie (juillet 2012): 25 M CNRS: IniWaWve interdisciplinaire (Mastodons): 800K /an sur 4/5 ans? CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 20 10
Le Défi Mastodons : Objectifs Produire des concepts et des solu.ons qui n'auraient pu être obtenus sans coopéra.on entre les différentes disciplines Favoriser l émergence d une communauté scien.fique interdisciplinaire autour de la science des données, et produire des solu.ons originales sur le périmètre des données scien.fiques. CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 21 Mastodons : Chiffres clés Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans avec un budget de 700 à 885 K /an Nb de soumissions: 58 Nb d UMR impliquées: + 100, Couvrant les 10 ins.tuts Nb de projets retenus: 21 +1 Reste 16+1 projets en janvier 2014, cible janvier 2015: 10 projets Degré de pénétra.on dans les labos Nb d UMR impliquées: 69, couvrant les 10 ins.tuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet/an 30 à 120 K (projets ayant fusionné) Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA, Universités et écoles CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 22 11
Thématiques couvertes et thématiques orphelines Collecte, stockage et indexation de données (en particulier dans le Cloud) Hétérogénéité, interopérabilité, intégration, partage des données Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données, optimisation Extraction de connaissances, datamining et apprentissage, agrégation/résumé, sémantique et raisonnement Visualisation de grandes masses de données Qualité des données, protection et sécurité des données Problèmes de propriété, de droit d usage, droit à l oubli Consommation d énergie, environnement, recyclage Préservation/archivage des données pour les générations futures (animation) CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 23 Projets Mastodons Titre du projet Porteur UMR Impliquées Instituts/Organismes Nombre de permanents PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d observations astronomiques grand champ Farouk Toumani LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3 29 AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la Terre et de l Univers Sofian Maabout LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU 15 Gaia: l origine et l évolution de notre Galaxie : validation des données Frédéric Arenou GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI 7 SeqPhenoHD: Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Eric Rivals / Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 16 CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Johan Montagnat I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM 9 PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de données et de connaissances spectrométriques et «omiques». Gilles Bisson LIG, irtsv INS2I, INSB, CEA 6 ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio Sémantiques Patrick Gallinari LIP6, CAMS, LIG, LIRIT, LATTICE, IRISA INS2I, INSMI, INSHS 23 SENSE : Socialized Network Science Pablo Jensen LP, LIP, IXXI, Max Weber INP, INS2I, INSHS 6 CROWD-BIODIV: Statistiques Crowdsourcing Biodiversité Romain Julliard MNHN, CMAP, CEFE INEE, INSMI, INRA 7 CROWD-HEALTH: A crowd-based platform for health-related hypothesis testing Sihem Amer-Yahia LIG, EVS,UREN, LIPADE INS2I, INSHS, INRA U.P5, U.P13 7 SABIOD : Scaled Acoustic BioDiversity Hervé Glotin LSIS, LIP6, CNPS, MNHN, LIG, GeoAzur INSB, INS2I 29 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 24 12
Projets Mastodons Tera_SAR: Massification du calcul des déformations de surface par imagerie radar multi---temporelle, multi--- spectrale et haute résolution Marie-Pierre Doin ISTerre, IPGP, GIPSA, LISTIC(EA) INSU(2), INS2I 15 SISMO : Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques: études de l intérieur de la Terre à partir Nikolai Shapiro IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP 7 des champs d onde complexes EPINES: production, distribution et analyse des résultats de simulations climatiques. Jean-Louis Dufresne IPSL, KerData INSU, INRIA 5 Gargantua: Optimisation mathématique et apprentissage statistique à grande échelle pour le traitement et l'interprétation de données gigantesques Zaid Harchaoui LJK, LIG, DI-ENS, LPP INSMI, INS2I, INRIA 13 DISPLAY: Distributed processing for very large arrays in radioastronomy Andre Ferrari LJLL, SATIE, Artemis, LTCI, INSMI, INS2I 17 COMOTEX: COMmande temps réel de systèmes d'optique adaptative à très grand nombre de degrés de liberté pour les Télescopes EXtrêmement grands Brice Le Roux / Morgan Gray LAM, CEREA INSU, ONERA, ENPC 8 MesureHD: Développement de nouveaux protocoles de mesure, d'analyse et de traitement des données adaptés aux mesures à hautes résolutions et à haut débit par Marc-andre Delsuc des méthodes biophysiques. IGBMC, icube, LIGM, LJLL + INSB(2), INS2I, INSIS, (Soleil, Institut Pasteur, MSAP) INSMI(2), INC(2) 10 AMADOUER: Analyse de MAsse de DOnnées de l Urbain et l EnviRonnement Sylvie Servigne LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS 18 ANIMITEX: Analyse d'images fondée sur des informations textuelles Mathieu Roche LIRMM, TETIS, icube, GREYC, LIUPPA(EA) INS2I(2), IRSTEA, INSIS 13 DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments Balazs Kegl LAL, LIP, LRI IN2P3, INS2I 11 PREDON: La préservation et l exploitation des données scientifiques à long terme Cristinel Diacanou CPPM, LPCCG, LAPP IN2P3, INS2I, INSU, CINES, IRD 23 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 25 Types de données visés dans les projets retenus Cosmologie, astrophysique Dynamique de la Cartographie céleste Sciences de la terre et de l univers (traitement d images) Modélisa.on, déforma.on de la croute terrestre Environnement, climat, biodiversité Simula.on, intégra.on, fusion de données Biologie santé Génome, séquençage, phénotypage Données médicales Réseaux sociaux RI, analyse d opinions, santé Crowdsourcing CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 26 13
Projet Aresos : Analyse de grands réseaux socio-sémantiques CAMS - INSMI, EHESS, Paris CSI - INSHS, Ecole des Mines, Paris IRIT - INS2I, U. Toulouse 3 LATTICE - INSHS, ENS/ U. Paris 3 LIG - INS2I, UJF, Grenoble LIP6 - INS2I, UPMC, Paris IRISA, INS2I, U. Rennes 1 GIS ISC- PIF, INSHS Objec.fs : qui parle, de quoi, comment Reconnaissance d acteurs Analyse sociologique Recherche d informa.on dans les microblogs Iden.fica.on de théma.ques Recommanda.on collabora.ve CrowdIndexing, tagging social Défi MASTODONS - Projet ARESOS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 27 27 Projet SeqPhénoHD : Séquençage & Phénotypage Haut Débit Info et bio- info LIRMM, LIFL, IRISA Phénotypage INRA Génome France Génomique Biologie- environnement ISEM Etude du comportement des plantes, de différents génomes, Densité végéta.on (nb de feuilles) Croissance (rapidité, hauteur, encombrement, ) selon les évolu.ons de leur environnement Température, Humidité, Lumière/Ensoleillement Exemple 400 génomes 3 à 10 plants par génome 10 5 informa.ons / jour CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 28 14
Projet PetaSky : observation astronomique grand champ (LSST) LIMOS (Clermont- Fd)=> F. Toumani LIRIS (Lyon) LPC (Clermont- Fd) APC (Paris) LAL (Paris) Centre de Calcul de l IN2P3/CNRS 15 CEC, 8 ITA, 2 Doct. Ges.on des données scien.fiques dans le domaine de la cosmologie et l astrophysique Des dizaines de milliers de milliards d observa.ons photométriques sur des dizaines de milliards d'objets 3 Milliards de sources 1-10 Millions d évènements par nuit 16 TB chaque 8 heures avec un taux de 540 MB/seconde EsWmaWon en fin de projet : 400 000 Milliards de tuples (différentes versions des données sans prise en compte de la réplicawon), 60 PB CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 29 Défi de la gestion des données dans LSST Requêtes sur une centaine d anributs Analyse en temps réel de 2 TB/heure Surveillance en temps réel des variawons de 10 Milliards d objets Requêtes type Point- query (chercher une aiguille dans une bone de foin) CorrélaWons : adresser par paires 109 galaxies Séries temporelles : 10 ans de données, 1000 visites par pointé Passage à l échelle des ouwls d aide à la décision OpWmiser l organisawon des données pour l analyse Une nouvelle approche pour l extracwon des connaissances en temps réel CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 30 15
Indicateurs de suivi Pérennité de la coopéra.on Publica.ons communes Co- encadrement de thèses Plateformes de test et d expérimenta.on Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données. CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 31 Indicateurs de suivi : quelques chiffres (Janv 2014) Publica.ons communes 25 publica.ons de haut niveau 5 workshops interna.onaux organisées Plusieurs workshops na.onaux et journées d études propres aux projets ou inter- projets Levier pour lancer d autres projets France: 1 ANR (projet Display è Magellan) Europe: 1: 1 COST Big Data Era in Sky and Earth Observa.on ü 16 pays partenaires dont les membres de PetaSky + Gaia Autres impacts (projet Sabiod) Bird Challenge: Iden.fy bird species from con.nuous audio recordings Expédi.on GoéleRe TARA: collecte et traitement de données sur la pollu.on en méditerrannée CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 32 16
Perspectives 2015 Poursuivre la structura.on de la communauté Via le financement des gros projets (regroupement, renforcement) Via le nouveau GDR MaDICS (anima.on) Susciter de nouveaux projets (si budget) Les problèmes de droit d usage, de propriété, d oubli (aspect SHS) Le crowdsourcing (aspects SHS) Lancer un nouveau défi sur le traitement d images Année théma.que pour INS2I Coloriage de postes de CR1/CR2 Sou.en aux plateformes (ingénieurs) Sou.en aux recherches théoriques (AAP) Réfléchir à une stratégie plus ambi.euse pour le CNRS CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 33 Initiatives en Big Data Ex. du Défi Mastodons 34 CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 34 17
Conclusion Un domaine très vaste en interacwon permanente avec les autres disciplines scienwfiques Un domaine qui se reposi.onne périodiquement En revisitant ses soluwons à la lumière de nouvelles technos et de nouvelles idées En intégrant de nouveaux besoins et de nouveaux problèmes Une recherche dominée (ou presque) par des labos industriels : Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsox CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 35 Discussion Structura.on de la communauté Créa.on d un GDR (MaDICS) Émergence de sites de références La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc.on et d exploita.on des données (existants ou à créer) Avec un sou.en fort en ingénierie Une véritable interdisciplinarité Un code clair sur l accès aux données et leur u.lisa.on CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 36 18
Big Data, la déferlante des octets CNRS le journal Donner du sens à la science Rechercher Rechercher Se connecter / S'inscrire Suivre file:///users/mokrane-cnrs/desktop/big%20data,%20la%20déferlante%20des%20octets%20%7c%20cnrs%20le%20journal.webarchive 04/03/14 12:30 Partager l'article Types Page 1 sur 10 27/11/14 Big Data : un enjeu pour le CNRS VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 37 Big Data = Big Topic CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 38 19