Emergence du Big Data Exemple : Linked Open Data



Documents pareils
Emergence du Big Data Exemple : Linked Open Data

Mastodons Une approche interdisciplinaire des Big Data

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Jean-François Boulicaut & Mohand-Saïd Hacid

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Assemblée Générale. Structure Fédéra,ve de Recherche Condorcet. condorcet.fr. Agro- Sciences, Environnement et Développement Durable

Big Data et Graphes : Quelques pistes de recherche

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Le BigData, aussi par et pour les PMEs

L informatique à l IN2P3 et le rôle du Chargé de Mission

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Colloque Calcul IN2P3

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

ISTEX, vers des services innovants d accès à la connaissance

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Big Data et Graphes : Quelques pistes de recherche

Assemblée générale Aristote

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Catalogue de FORMATIONS 2015

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

«Les projets collaboratifs pour les nuls»

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Masses de données et calcul : à l IRIT. 8 octobre 2013

Le Mastère Spécialisé Big Data de Télécom ParisTech

#GoSocial. solutions de marketing communautaire & social crm

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Open Data. Enjeux et perspectives dans les télécommunications

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Speed up your business

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

SÉRIE NOUVELLES ARCHITECTURES

Environmental Research and Innovation ( ERIN )

Métriques, classements et politique scientifique des Etablissements

Knowledge Management D. Chauvel, 13 Novembre Journée Mondiale de la Qualité Université Aix Marseille

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Protection des données personnelles : Vers un Web personnel sécurisé

DEVELOPPER SON SOURCING VIA LES RESEAUX SOCIAUX FACEBOOK

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

CONFERENCE TECHNOM AIDE IBM

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Louis Naugès Paris, 17 juin 2013 Louis Naugès - Chief Cloud Evangelist Revevol

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

ETAT DE L ART ET PERSPECTIVES POUR LES SERVICES NUMÉRIQUES APPLIQUÉS À LA VITICULTURE.

Bases de données relationnelles : Introduction

Tables Rondes Le «Big Data»

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

HAL, archives ouvertes. Christine Berthaud, CNRS/CCSD - Directrice

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Eco-système calcul et données

OBJECTIFS. Une démarche E-science

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Big Data et la santé

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Institut d Informatique & d Initiative Sociale

Technologies de la Recherche et standards du Web: Quel impact sur l Innovation?

#BigData Dossier de presse Mai 2014

Design & conception de site web optimisé SEO. augmentez la conversion sur vos sites

Parcours de soins, solu/ons de partage Évolu/ons des poli/ques na/onales & Mises en œuvre régionales Séminaire IFERISS 17 Avril 2014

Application de K-means à la définition du nombre de VM optimal dans un cloud

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

SysFera. Benjamin Depardon

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

ArcGIS. for Server. Sénégal. Comprendre notre monde

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

BIG Data et R: opportunités et perspectives

Hervé Couturier EVP, SAP Technology Development

Big Data On Line Analytics

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

TRAVAUX DE RECHERCHE DANS LE

Laboratoire Eco-PRocédés, Optimisation et Aide à la Décision (EPROAD) Institut Supérieur des sciences et Techniques de Saint-Quentin (INSSET)

Table des matières CID CID CID CID CID

REPUTATION INSIGHTS Par Laurent Reynes

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

Transcription:

16/05/2014 Une approche interdisciplinaire des grandes masses de données (Défi Mastodons) Mokrane Bouzeghoub DAS INS2I / MI 1 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Ini$ée en 2007 avec une dizaine de sources de données interconnectées Aujourd hui, plusieurs centaines de sources connectées et ouvertes 1

Qu est-ce qu une (très grande) masse de données? VLDB XLDB Massive Data Big Data Very Big Data Data Deluge Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, Les grandes questions du Big Data La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les pa@erns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quan$té mais aussi en raison des rela$ons existantes entre elles (séman$que) Les données peuvent être source de plus- value scien$fique mais aussi source de bruit et de pollu$on (qualité, hétérogéneité, manipula$on) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- elles quelque chose de nous aux généra$ons futures? Ont- elles une objec$vité en elles- mêmes ou sont- elles biaisées par des transforma$ons subjec$ves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur inves$ssement? Quel rôle pour ces données (ma$ère première, produits dérivés, capital, )? Quel statut pour ces données (propriété privée, domaine publique, objet commercial)? 2

La complexité multidimensionnelle du Big Data La Volumétrie Un défi pour les architectures de stockage (au delà du PB) La Variéte Diversité des contenus Forte hétérogénéité des formats et des données La Vélocite Défi pour les nouveaux réseaux de communicahon Nouveaux modèles de calcul sur des données en flux La Validité / Véracité Qualité des sources de données: fraîcheur, exachtude, Qualité des processus de produchon/transformahon Les grands challenges scientifiques du Big Data Stockage dans le Cloud Performance des accès, disponibilité Sécurité des données et des traitements Complexité du calcul Analyse en temps réel de flux conhnus de données émanant de différentes sources Requêtes mulhdimensionnelles sur des grands ensembles de données Séman$que des données IndexaHon sémanhque (ontologies), indexahon parhcipahve (folksonomies) ExtracHon et interprétahon de connaissances Consomma$on d énergie Ressources à énergie limitée (ex. capteurs) OpHmisaHon du transfert des données Impact sociétal ProtecHon de la vie privée, Droit à l oubli A qui apparhennent les données, les connaissances? è 120 kwh/an/tera- octet stocké par CCIN2P3 è 1M /an facture électricité pour l IDRIS 3

Caractéristiques du domaine Un domaine très vaste,! en interaction permanente avec les autres disciplines scientifiques! Un domaine qui se repositionne périodiquement! En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées! En intégrant de nouveaux besoins et de nouveaux problèmes! Une recherche dominée (ou presque) par des labos industriels :! Google, Facebook, Yahoo!, Amazone, IBM, Oracle, Microsoft! USA : Plusieurs acteurs dont Quelques initiatives en Big Data Gouvt US: Big Data Research and Development Ini$a$ve (Mars 2012) ü 250M$ / an dont 60 pour les projets de recherche ü mis en œuvre par NSF, NIH, DOD, DOE, USGS) Accel Partners: fond d inves$ssement! 60 M$ / an de sou$en à la créa$on de startups dans le Big Data UK: Plusieurs ini$a$ves dont ESRC Big Data Network (2012) : 3 phases, PHASE 2 AVR 2013: 60M. BBSRC (2012): 75 M pour améliorer la disponibilité des Big Data France PIA: Appel Cloud Comp & Big Data Ministère de l Industrie (juillet 2012): 25 M CNRS: Ini$a$ve interdisciplinaire (Mastodons): 700K /an sur 4/5 ans? 4

Objectifs du défi Mastodons Produire des concepts et des solu$ons qui n'auraient pu être obtenus sans coopéra$on entre les différentes disciplines Favoriser l émergence d une communauté scien$fique interdisciplinaire autour de la science des données, et produire des solu$ons originales sur le périmètre des données scien$fiques. Focus de l appel Mastodons Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité! Calcul intensif sur des grands volumes de données parallélisme dirigé par les données! Recherche, exploration et visualisation de grandes masses de données! Extraction de connaissances, datamining et apprentissage! Qualité des données, confidentialité et sécurité des données! Problèmes de propriété, de droit d usage, droit à l oubli! Préservation/archivage des données pour les générations futures! 5

Les critères de sélection Vision scien$fique de l équipe/consor$um sur les thèmes du défi Les verrous scien$fiques et les axes de recherche à moyen terme, avec un focus par$culier sur la première année Les acquis scien$fiques dans le domaine ou dans un domaine connexe suscep$ble de contribuer aux problèmes scien$fiques ou sociétaux posés (publica$ons significa$ves, projets passés ou en cours, applica$ons réalisées, logiciels, brevets...) Les différentes disciplines impliquées et leurs contribu$ons respec$ves au projet Une liste de 3 à 5 chercheurs seniors impliqués de façon significa$ve dans la recherche.! l interdisciplinarité doit être une réalité et pas un alibi Indicateurs de suivi Pérennité de la coopéra$on Publica$ons communes Co- encadrement de thèses Plateformes de test et d expérimenta$on Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données. 6

Mastodons : Chiffres clés Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans Budget : environ 700 à 850 K /an Nb de soumissions: 57 Nb d UMR impliquées: + 100, Couvrant les 10 ins$tuts Nb de projets retenus: 20 Nb d UMR impliquées: 69, couvrant les 10 ins$tuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet : 30 à 80 K Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA Universités et écoles Types de données visés dans les projets retenus Cosmologie, astrophysique Dynamique de la Cartographie céleste Sciences de la terre et de l univers (traitement d images) Modélisa$on, déforma$on de la croute terrestre Environnement, climat, biodiversité simula$on Biologie Génome, phénotypage Réseaux sociaux RI, analyse d opinions, santé 7

Deux ans après Gros projets phares Projets ciblés excellents PetaSky+Gaia +Amadeus Cosmologie Aresos Réseaux sociaux Phénotypage, Sabiod Biologie végétale, Bio- acous$que Comotex Cde Tps réel de syst op$que Display Distr proc. For VLA in Radioastronomy Mesure- HD Mesures hautes résolu$on Prospectom Etude interac$ve des protéomes par appren$ssage stat. et intégr de données spectrométriques + Un projet émergent sur le crowdsourcing: CrowdHealth Mastodons : La suite Comment pérenniser la communauté Réflexion générale sur les regroupements de projets ü Théma$que ü Par domaine d applica$on Structura$on et anima$on de la communauté Big Data ü Emergence d un GDR «Big Data, Science des données» Comment la financer au delà du programme CNRS CNRS, au delà de 2015? ANR? COST / H2020? Autre ini$a$ve? 8

Big Data, la déferlante des octets CNRS le journal file:///users/mokrane-cnrs/desktop/big%20data,%20la%20déferlante%20des%20octets%20%7c%20cnrs%20le%20journal.webarchive 04/03/14 12:30 Page 1 sur 10 16/05/2014 Conclusion La recherche en Big Data ne peut être fructueuse sans un rapprochement des chercheurs des grands centres de produc$on et d exploita$on des données (existants ou à créer) Avec un sou$en fort en ingénierie Une véritable interdisciplinarité Un code clair sur l accès aux données et leur u$lisa$on Rechercher Partager l'article Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types 9