Emergence du Big Data Exemple : Linked Open Data



Documents pareils
Emergence du Big Data Exemple : Linked Open Data

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Mastodons Une approche interdisciplinaire des Big Data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Assemblée Générale. Structure Fédéra,ve de Recherche Condorcet. condorcet.fr. Agro- Sciences, Environnement et Développement Durable

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Jean-François Boulicaut & Mohand-Saïd Hacid

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Big Data et Graphes : Quelques pistes de recherche

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Assemblée générale Aristote

Le BigData, aussi par et pour les PMEs

L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Les Rencontres ANR du numérique 2013

Le Mastère Spécialisé Big Data de Télécom ParisTech

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

ISTEX, vers des services innovants d accès à la connaissance

Big Data et Graphes : Quelques pistes de recherche

«Les projets collaboratifs pour les nuls»

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Catalogue de FORMATIONS 2015

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Masses de données et calcul : à l IRIT. 8 octobre 2013

Colloque Calcul IN2P3

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

Speed up your business

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Environmental Research and Innovation ( ERIN )

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Big Data et la santé

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

L informatique à l IN2P3 et le rôle du Chargé de Mission

Eco-système calcul et données

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

Lyon, 16/10/13. Inauguration FLMSN. le contexte national et européen. M. Asch MESR/DGRI. Wednesday, 16 October 13

OBJECTIFS. Une démarche E-science

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Le Cloud Computing : un «Open Source killer»?

SÉRIE NOUVELLES ARCHITECTURES

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Tables Rondes Le «Big Data»

SysFera. Benjamin Depardon

Infrastructures de recherche: Positions de la France dans Horizon 2020

Knowledge Management D. Chauvel, 13 Novembre Journée Mondiale de la Qualité Université Aix Marseille

Big Data. Concept et perspectives : la réalité derrière le "buzz"

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

#GoSocial. solutions de marketing communautaire & social crm

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Open Data. Enjeux et perspectives dans les télécommunications

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Louis Naugès Paris, 17 juin 2013 Louis Naugès - Chief Cloud Evangelist Revevol

Design & conception de site web optimisé SEO. augmentez la conversion sur vos sites

BIG DATA et DONNéES SEO

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Poli%que ins%tu%onnelle: le numérique au service de la forma%on à l Université Laval CFQCU Paris, 26 mai 2015

Métriques, classements et politique scientifique des Etablissements

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Les défis statistiques du Big Data

Big data : vers une nouvelle science des risques?

Conserver les Big Data, source de valeur pour demain

Technologies de la Recherche et standards du Web: Quel impact sur l Innovation?

Faisons de la recherche notre force

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Table des matières CID CID CID CID CID

Parcours de soins, solu/ons de partage Évolu/ons des poli/ques na/onales & Mises en œuvre régionales Séminaire IFERISS 17 Avril 2014

DEVELOPPER SON SOURCING VIA LES RESEAUX SOCIAUX FACEBOOK

Nom du client. Date. Client Logo or project name

BI SWISS FORUM (ecom / SITB)

#BigData Dossier de presse Mai 2014

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

ETAT DE L ART ET PERSPECTIVES POUR LES SERVICES NUMÉRIQUES APPLIQUÉS À LA VITICULTURE.

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

Laboratoire Eco-PRocédés, Optimisation et Aide à la Décision (EPROAD) Institut Supérieur des sciences et Techniques de Saint-Quentin (INSSET)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

ParK24. Solu%on innovante pour un sta%onnement intelligent

Protection vs. Innovation ouverte : Comment concilier l innovation et l accès aux nouvelles technologies pour tous?

Big data et sciences du Vivant L'exemple du séquençage haut débit

Qu est- ce que Bien- Copyright Quo.ent Factor Inc., 2011

Transcription:

1 CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 1 Une approche interdisciplinaire des grandes masses de données (Défi Mastodons) Mokrane Bouzeghoub DAS INS2I / MI Ecole de L Innova.on Thérapeu. que Ariis / Aviesan - 13 Juin 2014 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini$ée en 2007 avec une dizaine de sources de données interconnectées CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 2 Aujourd hui, plusieurs centaines de sources connectées et ouvertes 1

Qu est-ce qu une (très grande) masse de données? Grandes Conf du domaine VLDB Big Data Data Deluge CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 3 Les grandes questions du Big Data La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les pa@erns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que) Les données peuvent être source de plus- value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité, manipula$on) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- eles quelque chose de nous aux généra$ons futures? Ont- eles une objec$vité en elles- mêmes ou sont- eles biaisées par des transforma$ons subjec$ves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur inves$ssement? Quel rôle pour ces données (ma$ère première, produits dérivés, capital, )? Quel statut pour ces données (propriété privée, domaine publique, objet commercial)? CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 4 2

Les 3 piliers du Big Data MathémaFque InformaFque Traitement du signal.. CONCEPTS, MODELES, ALGORITHMES OrganisaFon - IndexaFon Accès - VisualisaFon NeVoyage - EchanFllonnage ApprenFssage - Datamining ExaScale compufng Cloud CompuFng Réseaux haut débit OS / Middleware.. INFRASTRUCTURES Architectures MulF- cœurs / GPU HPC/ Parallélisme Stockage massif CNRS - Misionpour l'interdisciplinarité Big Data Data Science Connaissance, décision SémanFque, Qualité Mokrane Bouzeghoub Physique, Energie, Cosmologie, Env ironnement, Biologie, Santé,. DONNEES / CONNAISSANCES Données du Web /rés. sociaux Données de capteurs Données de simulafon Corpus SHS 5 La complexité multidimensionnelle du Big Data La Volumétrie Un défi pour les architectures de stockage (au delà du PB) La Variéte Diversité des contenus Forte hétérogénéité des formats et des données La Vélocité Défi pour les nouveaux réseaux de communicafon Nouveaux modèles de calcul sur des données en flux La Validité / Véracité Qualité des sources de données: fraîcheur, exacftude, Qualité des processus de producfon/transformafon CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 6 3

Les grands challenges scientifiques du Big Data Stockage dans le Cloud Performance des accès, disponibilité Sécurité des données et des traitements Complexité du calcul Analyse en temps réel de flux confnus de données émanant de différentes sources Requêtes mulfdimensionnelles sur des grands ensembles de données Séman$que des données IndexaFon sémanfque (ontologies), indexafon parfcipafve (folksonomies) ExtracFon et interprétafon de connaissances Consomma$on d énergie Ressources à énergie limitée (ex. capteurs) OpFmisaFon du transfert des données Impact sociétal ProtecFon de la vie privée, Droit à l oubli A qui apparfennent les données, les connaissances? CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 7 Caractéristiques du domaine Un domaine très vaste,! en interaction permanente avec les autres disciplines scientifiques! Un domaine qui se repositionne périodiquement! En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées! En intégrant de nouveaux besoins et de nouveaux problèmes! Une recherche dominée (ou presque) par des labos industriels :! Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsoft! CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 8 4

Quelques initiatives en Big Data USA : Plusieurs acteurs dont Gouvt US: Big Data Research and Development Ini$a$ve (Mars 2012) 250M$ / an dont 60 pour les projets de recherche mis en œuvre par NSF, NIH, DOD, DOE, USGS) Accel Partners: fond d inves$ssement! 60 M$ / an de sou$en à la créa$on de startups dans le Big Data UK: Plusieurs ini$a$ves dont ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M. BBSRC (2012): 75 M pour améliorer la disponibilité des Big Data France PIA: Appel Cloud Comp & Big Data Ministère de l Industrie (juillet 2012): 25 M CNRS: Ini$a$ve interdisciplinaire (Mastodons): 700K /an sur 4/5 ans? CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 9 Objectifs du défi Mastodons Produire des concepts et des solu$ons qui n'auraient pu être obtenus sans coopéra$on entre les différentes disciplines Favoriser l émergence d une communauté scien$fique interdisciplinaire autour de la science des données, et produire des solu$ons originales sur le périmètre des données scien$fiques. CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 10 5

Focus de l appel Mastodons Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité! Calcul intensif sur des grands volumes de données parallélisme dirigé par les données! Recherche, exploration et visualisation de grandes masses de données! Extraction de connaissances, datamining et apprentissage! Qualité des données, confidentialité et sécurité des données! Problèmes de propriété, de droit d usage, droit à l oubli! Préservation/archivage des données pour les générations futures! CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 11 Les critères de sélection Vision scien$fique de l équipe/consor$um sur les thèmes du défi Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...) Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve dans la recherche.! l interdisciplinarité doit être une réalité et pas un alibi CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 12 6

Indicateurs de suivi Pérennité de la coopéra$on Publica$ons communes Co- encadrement de thèses Plateformes de test et d expérimenta$on Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données. CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 13 Mastodons : Chiffres clés Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans Budget : environ 700 à 850 K /an Nb de soumissions: 57 Nb d UMR impliquées: + 100, Couvrant les 10 ins$tuts Nb de projets retenus: 20 Nb d UMR impliquées: 69, couvrant les 10 ins$tuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet : 30 à 80 K Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA Universités et écoles CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 14 7

Types de données visés dans les projets retenus Cosmologie, astrophysique Dynamique de la Cartographie céleste Sciences de la terre et de l univers (traitement d images) Modélisa$on, déforma$on de la croute terrestre Environnement, climat, biodiversité Simula$on, intégra$on, fusion de données Biologie Génome, séquençage, phénotypage Réseaux sociaux RI, analyse d opinions, santé CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 15 Deux ans après Gros projets phares PetaSky+Gaia +Amadeus Cosmologie Aresos Réseaux sociaux Phénotypage, Sabiod Biologie végétale, Bio- acous$que Projets ciblés excellents Comotex Cde Tps réel de syst op$que Display Distr proc. For VLA in Radioastronomy Mesure- HD Mesures hautes résolu$on Prospectom Etude interac$ve des protéomes par appren$ssage stat. et intégr de données spectrométriques + Un projet émergent sur le crowdsourcing: CrowdHealth CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 16 8

Mastodons : La suite Comment pérenniser la communauté Réflexion générale sur les regroupements de projets Théma$que Par domaine d applica$on Structura$on et anima$on de la communauté Big Data Emergence d un GDR «Big Data, Science des données» Comment la financer au delà du programme CNRS CNRS, au delà de 2015? ANR? COST / H2020? Autre ini$a$ve? CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 17 Conclusion La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc$on et d exploita$on des données (existants ou à créer) Avec un sou$en fort en ingénierie Une véritable interdisciplinarité Un code clair sur l accès aux données et leur u$lisa$on CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 18 9

B i g D a t a, l a d é f e r l a n t e d e s o c t e t s C N R S l e j o u r n a l f i l e : / / / U s e r s / M o k r a n e - C N R S / D e s k t o p / B i g % 2 0 D a t a, % 2 0 l a % 2 0 d é f e r l a n t e % 2 0 d e s % 2 0 o c t e t s % 2 0 % 7 C % 2 0 C N R S % 2 0 l e % 2 0 j o u r n a l. w e b a r c h i v e 0 4 / 0 3 / 1 4 1 2 : 3 0 P a g e 1 s u r 1 0 13/06/2014 Publications CNRS récentes CNRS - Misionpour l'interdisciplinarité CNR1S9- Mission pour l'interdisciplinarité Mokrane Bouzeghoub 19 Journal du CNRS R e c h e r c h e r P a r t a g e r l'a r tic l e D o n n e r d u s e n s à l a s c i e n c e S u i v r e R e c h e r c h e r S e c o n n e c t e r / S ' i n s c r i r e V I V A N T M A T I È R E T E R R E N U M É R I Q U E S O C I É T É S U N I V E R S M E S T H È M E S T y p e s CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 20 10