07/11/2014. Emergence du Big Data Exemple : Linked Open Data. Les grandes questions du Big Data

Documents pareils
Emergence du Big Data Exemple : Linked Open Data

Emergence du Big Data Exemple : Linked Open Data

Mastodons Une approche interdisciplinaire des Big Data

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Jean-François Boulicaut & Mohand-Saïd Hacid

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Assemblée Générale. Structure Fédéra,ve de Recherche Condorcet. condorcet.fr. Agro- Sciences, Environnement et Développement Durable

L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

Présenta6on Isatech. ERP, Décisionnel, Architecture Systèmes & Réseaux. Isatech Tous droits réservés Page 1

Les Rencontres ANR du numérique 2013

Big Data et Graphes : Quelques pistes de recherche

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Big Data et Graphes : Quelques pistes de recherche

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Knowledge Management D. Chauvel, 13 Novembre Journée Mondiale de la Qualité Université Aix Marseille

Colloque Calcul IN2P3

Métriques, classements et politique scientifique des Etablissements

Guide du démembrement

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

LA DIGITALISATION DE LA RELATION CLIENT

Catalogue de FORMATIONS 2015

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Open Data. Enjeux et perspectives dans les télécommunications

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

ISTEX, vers des services innovants d accès à la connaissance

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Préserva(on des données scien(fiques. C. Diaconu Centre de Physique des Par(cules de Marseille CPPM/IN2P3/CNRS

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

REPUTATION INSIGHTS Par Laurent Reynes

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

L informatique à l IN2P3 et le rôle du Chargé de Mission

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

Eco-système calcul et données

MTI820 Entrepôts de données et intelligence d affaires. Les applica+ons de BI

Les formations. calipia. novembre 2014 à mai 2015

Parcours de soins, solu/ons de partage Évolu/ons des poli/ques na/onales & Mises en œuvre régionales Séminaire IFERISS 17 Avril 2014

Masses de données et calcul : à l IRIT. 8 octobre 2013

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

La Valorisation des logiciels dans l enseignement supérieur : aspects pratiques vus d un laboratoire. Ecole ENVOL Projet PLUME Annecy - Octobre 2008

Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

L exper>se sur financements européens et autres : quelles opportunités pour les consultants et les universitaires?

SÉRIE NOUVELLES ARCHITECTURES

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Design & conception de site web optimisé SEO. augmentez la conversion sur vos sites

Le Cloud Computing : un «Open Source killer»?

TRAVAUX DE RECHERCHE DANS LE

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Qu est- ce que Bien- Copyright Quo.ent Factor Inc., 2011

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

Professionnalisa+on des acteurs de l'éduca+on prioritaire à par+r du développement de pra+ques collabora+ves

Active Asset Allocation

«Les projets collaboratifs pour les nuls»

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

Focus: Les projets pour le renforcement des compétences

Le contrôle fiscal anno 2013

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

#GoSocial. solutions de marketing communautaire & social crm

Évolu>on et maintenance

Profils du Diplômé (profils de sor2) de la forma2on de médicine au Chile

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

La démarche Omnicanal Outils d'aide à l'amélioration de l'expérience client Avec le partenaire SKema Alumni

14 Octobre 2008 TICPME2010 Sage et TICPME2010

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

Lettre de prospective n 48 janvier 2015

Recherche en Rhône-Alpes sur le PLM : le projet AncarPLM

Les Français, l épargne et l assurance vie Une enquête Ipsos pour la Fédéra;on Française des Sociétés d Assurances. Janvier 2013

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

Big data et sciences du Vivant L'exemple du séquençage haut débit

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

Poli%que ins%tu%onnelle: le numérique au service de la forma%on à l Université Laval CFQCU Paris, 26 mai 2015

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

ENVI-F-409. Economie écologique. Séance 8 13 Mai Tom Bauler tbauler@ulb.ac.be Supports de cours :

Speed up your business

Semestre HPC. Violaine Louvet. Institut Camille Jordan - CNRS louvet@math.univ-lyon1.fr. Labex MILyon, Printemps 2016

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Recherche et Formation dans un environnement de pointe. Contact:

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

La mise en place d une cellule de veille

L Europe s engage en Mar/nique auprès des Entreprises

Saadi KHOCHBIN. Directeur de recherche CNRS. médaille d Argent. Institut des sciences biologiques. Institut Albert Bonniot (IAB)

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

OBJECTIFS. Une démarche E-science

du 3 au 6 juin 2014 Université Paris- Diderot

INVESTISSEMENTS D AVENIR

LES MATINÉES DE L IMMOBILIER. Valeur d usage, l immobilier un puissant vecteur de valeur ajoutée. Daniel Rousselot / SEMAPA

SAUVER LA DISTRIBUTION!

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

Transcription:

07/11/2014 Le Défi Mastodons Une approche interdisciplinaire des grandes masses de données Mokrane Bouzeghoub DAS INS2I / MI 1 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini$ée en 2007 avec une dizaine de sources de données interconnectées Aujourd hui, plusieurs centaines de sources connectées et ouvertes Les grandes questions du Big Data La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les pa@erns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que) Les données peuvent être source de plus- value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité, manipula$on) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- elles quelque chose de nous aux généra$ons futures? Ont- elles une objec$vité en elles- mêmes ou sont- elles biaisées par des transforma$ons subjec$ves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur inves$ssement? Quel rôle pour ces données (ma$ère première, produits dérivés, capital, )? Quel statut pour ces données (propriété privée, domaine publique, objet commercial)? 1

Les grands challenges scientifiques du Big Data Stockage et préserva$on des données Performance des accès, disponibilité des données Protec;on des données Indexa;on séman;que (ontologies), indexa;on par;cipa;ve (folksonomies) Analyse sta$s$que et séman$que, raisonnement Analyse en temps réel de flux con;nus de données émanant de différentes sources Requêtes mul;dimensionnelles sur des grands ensembles de données Extrac;on et interpréta;on de connaissances Impact sociétal et économique Protec;on de la vie privée, Droit à l oubli Droits de propriétés, droits d exploita;on Economie d énergie, coût du stockage, coût de transfert è 120 kwh/an/to stocké par CCIN2P3 è 1M /an facture électricité de l IDRIS Caractéristiques du domaine Un domaine très vaste en interac;on permanente avec les autres disciplines scien;fiques Un domaine qui se reposi$onne périodiquement En revisitant ses solu;ons à la lumière de nouvelles technos et de nouvelles idées En intégrant de nouveaux besoins et de nouveaux problèmes Une recherche dominée (ou presque) par des labos industriels : Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsoa USA : Plusieurs acteurs dont Quelques initiatives en Big Data Govt US: Big Data Research and Development Ini;a;ve (Mars 2012) ü 250M$ / an dont 60 pour les projets de recherche ü mis en œuvre par NSF, NIH, DOD, DOE, USGS) Accel Partners: fond d inves;ssement à 60 M$ / an de sou;en à la créa;on de startups dans le Big Data UK: Plusieurs ini$a$ves dont ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M. BBSRC (2012): 75 M pour améliorer la disponibilité des Big Data France PIA: Appel Cloud Comp & Big Data Ministère de l Industrie (juillet 2012): 25 M CNRS: Ini;a;ve interdisciplinaire (Mastodons): 800K /an sur 4/5 ans? 2

Le Défi Mastodons : Objectifs Produire des concepts et des solu$ons qui n'auraient pu être obtenus sans coopéra$on entre les différentes disciplines Favoriser l émergence d une communauté scien$fique interdisciplinaire autour de la science des données, et produire des solu$ons originales sur le périmètre des données scien$fiques. Focus de l appel Mastodons Stockage, indexation et gestion de données (par exemple, dans le Cloud),! Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données! Recherche, exploration et visualisation de grandes masses de données! Extraction de connaissances, datamining et apprentissage! Qualité des données, confidentialité et sécurité des données! Problèmes de propriété, de droit d usage, droit à l oubli! Préservation/archivage des données pour les générations futures! Les critères de sélection Vision scien$fique de l équipe/consor$um sur les thèmes du défi Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...) Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve dans la recherche. 3

Mastodons : Chiffres clés Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans avec un budget de 700 à 885 K /an Nb de soumissions: 57 Nb d UMR impliquées: + 100, Couvrant les 10 ins$tuts Nb de projets retenus: 20 +1 Reste 17 projets en janvier 2014, cible janvier 2015: 10 projets Degré de pénétra$on dans les labos Nb d UMR impliquées: 69, couvrant les 10 ins$tuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet 30 à 120 K (projets ayant fusionné) Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA, Universités et écoles Les projets retenus (par grands domaines) Physique des par$cules et astrophysique: 2 Sciences de la terre et de l univers: 5 Environnement, climat, biodiversité: 4 Biologie: 3 Réseaux sociaux: 2 Préserva$on des données: 1 Traitement d images : 2 Appren$ssage sta$s$que : 1 Qualité des données : 1 Trois ans après Gros projets phares Aresos + Sense Réseaux sociaux PetaSky+Gaia+Amadeus Cosmologie SeqPhenoHD, Sabiod Biologie végétale, Bio- acous;que Projets ciblés excellents Comotex Cde Tps réel de syst op;que CrEDIBLE Int. séman;que de données médicales Display Distr proc. For VLA in Radioastronomy Mesure- HD Mesures hautes résolu;on Prospectom Appren;ssage stat. et intégr de données spectrométriques 2 projets sur le crowdsourcing: CROWD- BIODIV: Evolu;on de la biodiversité CROWD- HEALTH: Corréla;on données nutri;onnistes et maladies 4

Projet Aresos : Analyse de grands réseaux socio-sémantiques CAMS - INSMI, EHESS, Paris CSI - INSHS, Ecole des Mines, Paris IRIT - INS2I, U. Toulouse 3 LATTICE - INSHS, ENS/ U. Paris 3 LIG - INS2I, UJF, Grenoble LIP6 - INS2I, UPMC, Paris IRISA, INS2I, U. Rennes 1 GIS ISC- PIF, INSHS Objec$fs : qui parle, de quoi, comment Reconnaissance d acteurs Analyse sociologique Recherche d informa$on dans les microblogs Iden$fica$on de théma$ques Recommanda$on collabora$ve CrowdIndexing, tagging social Défi MASTODONS - Projet ARESOS 15 Projet SeqPhénoHD : Séquençage & Phénotypage Haut Débit Info et bio- info LIRMM, LIFL, IRISA Phénotypage INRA Génome France Génomique Biologie- environnement ISEM Etude du comportement des plantes, de différents génomes, Densité végéta$on (nb de feuilles) Croissance (rapidité, hauteur, encombrement, ) selon les évolu$ons de leur environnement Température, Humidité, Lumière/Ensoleillement Exemple 400 génomes 3 à 10 plants par génome 10 5 informa$ons / jour Projet PetaSky : observation astronomique grand champ (LSST) LIMOS (Clermont- Fd)=> F. Toumani LIRIS (Lyon) LPC (Clermont- Fd) APC (Paris) LAL (Paris) Centre de Calcul de l IN2P3/CNRS 15 CEC, 8 ITA, 2 Doct. Ges$on des données scien$fiques dans le domaine de la cosmologie et l astrophysique Des dizaines de milliers de milliards d observa$ons photométriques sur des dizaines de milliards d'objets 3 Milliards de sources 1-10 Millions d évènements par nuit 16 TB chaque 8 heures avec un taux de 540 MB/seconde Es;ma;on en fin de projet : 400 000 Milliards de tuples (différentes versions des données sans prise en compte de la réplica;on), 60 PB 5

Indicateurs de suivi Pérennité de la coopéra$on Publica$ons communes Co- encadrement de thèses Plateformes de test et d expérimenta$on Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données. Indicateurs de suivi : quelques chiffres (Janv 2014) Publica$ons communes 25 publica$ons de haut niveau 5 workshops interna$onaux organisées Plusieurs journées d études propres aux projets ou inter- projets Levier pour lancer d autres projets France: 5 ANR + 1 PIA Big Data Europe: 1 Flagship + 2 FP7 soumis Projet COST BIG- SKY- EARTH : Big Data Era in Sky and Earth Observa$on ü 16 pays partenaires dont les membres de PetaSky + Gaia Autres impacts (projet Sabiod) Bird Challenge: Iden$fy bird species from con$nuous audio recordings Expédi$on Goéle@e TARA: collecte et traitement de données sur la pollu$on en méditerrannée Perspectives 2015 Poursuivre la structura$on de la communauté Via le financement des gros projets (regroupement, renforcement) Via le nouveau GDR MaDICS (Chris$ne Collet) Susciter de nouveaux projets sur La sécurité et la protec$on de la vie privée La visualisa$on des données Le crowdsourcing (aspects SHS) Année théma$que pour INS2I Coloriage de postes de CR1/CR2 Sou$en aux plateformes (ingénieurs) Sou$en aux recherches théoriques (AAP) 6

Big Data, la déferlante des octets CNRS le journal Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre file:///users/mokrane-cnrs/desktop/big%20data,%20la%20déferlante%20des%20octets%20%7c%20cnrs%20le%20journal.webarchive 04/03/14 12:30 VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Rechercher Partager l'article Types Page 1 sur 10 07/11/2014 Conclusion La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc$on et d exploita$on des données (existants ou à créer) Avec un sou$en fort en ingénierie Une véritable interdisciplinarité Un code clair sur l accès aux données et leur u$lisa$on Structura$on de la communauté Émergence de sites de références Big Data : un enjeu pour le CNRS Big Data = Big Topic 23 7