L EXPLOITATION DES DONNEES SCIENTIFIQUES 3 Juillet 2012

Documents pareils
Mastodons Une approche interdisciplinaire des Big Data

Emergence du Big Data Exemple : Linked Open Data

Emergence du Big Data Exemple : Linked Open Data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Jean-François Boulicaut & Mohand-Saïd Hacid

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Big Data et Graphes : Quelques pistes de recherche

Masses de données et calcul : à l IRIT. 8 octobre 2013

Big Data et Graphes : Quelques pistes de recherche

L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Master Informatique Aix-Marseille Université

TRAVAUX DE RECHERCHE DANS LE

Projet de programme pour l enseignement d exploration de la classe de 2 nde : Informatique et création numérique

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Introduction au datamining

«Les projets collaboratifs pour les nuls»

Eco-système calcul et données

Big data et sciences du Vivant L'exemple du séquençage haut débit

Smart City Pour relever les défis d urbanisation et de mobilité du futur. Raphael Rollier 05/2015

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Les datas = le fuel du 21ième sicècle

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

MABioVis. Bio-informatique et la

Chapitre 9 : Informatique décisionnelle

MASTER (LMD) GESTION DE DONNEES ET SPATIALISATION EN ENVIRONNEMENT (GSE)

ArcGIS. for Server. Comprendre notre monde

ArcGIS. for Server. Sénégal. Comprendre notre monde

La renaissance de l industrie

Big Data et la santé

Présentations personnelles. filière IL

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les Rencontres ANR du numérique 2013

L informatique à l IN2P3 et le rôle du Chargé de Mission

Faculté des Sciences d ORSAY

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Les ressources numériques

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

SQL Server 2012 et SQL Server 2014

Big Data On Line Analytics

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Environmental Research and Innovation ( ERIN )

PLAteforme d Observation de l InterNet (PLATON)

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Etudier l informatique

Guide de préparation d un projet

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Présentation de la Grille EGEE

Dr YAO Kouassi Patrick

BIG DATA en Sciences et Industries de l Environnement

ISTEX, vers des services innovants d accès à la connaissance

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Entrepôt de données 1. Introduction

Bases de données relationnelles : Introduction

Bases de données Cours 1 : Généralités sur les bases de données

OBJECTIFS. Une démarche E-science

Architectures d'intégration de données

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Prestations de conseil en SRM (Storage Ressource Management)

Module BDR Master d Informatique (SAR)

Les Entrepôts de Données

Réunion Information Investissements d Avenir

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Présentation du module Base de données spatio-temporelles

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Master "Generating Eco Innovation"

Les technologies du Big Data

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

PROJET BIGDATART DOSSIER DE PRESENTATION

et les Systèmes Multidimensionnels

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

FORMATIONS OUVRANT DROIT AU VERSEMENT DE LA TAXE D'APPRENTISSAGE Année Universitaire

Transcription:

P. 1 L EXPLOITATION DES DONNEES SCIENTIFIQUES 3 Juillet 2012 Mark Asch, INSMI-CNRS et Université de Picardie Jules Verne Journée BIG DATA - GFII

P. 2 MISSION POUR L INTERDISCIPLINARITE Juillet 2012

Organisation du CNRS Conseil d'administration Président Direction de l'audit interne Comité d'éthique P. 3 Direction de la communication Institut des sciences de la communication Mission pour l'interdisciplinarité Secrétariat général du Comité national Direction générale déléguée à la science Très grands équipements Cabinet Direction générale déléguée aux ressources Mission pilotage et relations avec les délégations régionales et les instituts Médiateur Conseil de politique européenne et internationale Mission pour la place des femmes Fonctionnaire de sécurité de défense Agent comptable principal Comité national Conseil scientifique Direction d'appui à la structuration territoriale de la recherche Direction Europe de la recherche et coopération internationale Institut des sciences biologiques (INSB) Institut de chimie (INC) 3 pt Institut écologie et environnement (INEE) Direction des comptes et de l'information financière Direction de la stratégie financière, de l'immobilier et de la modernisation Direction de l'innovation et des relations avec les entreprises Institut des sciences humaines et sociales (INSHS) Direction des ressources humaines Conseils scientifiques d'instituts Direction information scientifique et technique Institut des sciences de l'information et de leurs interactions (INS2I) Institut des sciences de l'ingénierie et des systèmes (INSIS) Institut national des sciences mathématiques et de leurs interactions (INSMI) Direction des affaires juridiques Direction des systèmes d'information Institut de physique (INP) Coordination nationale de prévention et de sécurité Sections - Commissions interdisciplinaires Institut national de physique nucléaire et de physique des particules (IN2P3) Institut national des sciences de l'univers (INSU) Unités de recherche Délégations régionales Agents comptables secondaires

Organisation de la MI l Un comité de pilotage de l interdisciplinarité P. 4 Direction de la MI + 10 DAS II + ISCC + MRCT+DIRCOM+DIRE Mise en place et suivi opérationnel des outils et des actions interdisciplinaires puis Validation en Collège de Direction

Les actions P. 5 l Les défis scientifiques l L interdisciplinarité en réseau l L interdisciplinarité sur site l Les autres actions Ouverture d une boite à idées interdisciplinaires (ouverte à la communauté) http://www.cnrs.fr/dgds/interdisciplinarité/boite-a-idees.php

Les actions Les défis scientifiques P. 6 Actions de recherche long terme (> 5 ans) et à risque Choix des équipes/unités engagées Evaluation de l avancement tous les ans Le comité de pilotage examine les thématiques exploratoires et fait des propositions pour : Promouvoir et soutenir des actions aux interfaces Répondre à un besoin, un objet Favoriser l émergence de nouveaux champs disciplinaires Partenaires potentiels : les grands organismes, les industriels, les universités

Actions Les défis scientifiques P. 7 NEEDS SENS MASTODONS Biologie Synthétique Nano - G3N l NEEDS: Nucléaire Energie Environnement Déchets et Société l Défi SENS, Insuffisances perceptives et suppléances personnalisées l MASTODONS: Très Grandes Masses de Données Scientifiques l Biologie synthétique l Nano-G3N: Graphène, Nouveaux paradigmes, Nanomédecine, Nanométrologie

P. 8 NEEDS SENS MASTODONS Biologie Synthétique Nano - G3N Actions Les défis scientifiques MASTODONS: Très grandes masses de données scientifiques Porteurs du défi : Mark Asch Mokrane Bouzeghoub * Budget : 700 k Gestion et de l exploitation de grandes masses de données (mesures, texte, image, son,...) 7 axes 1. Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité. 2. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. 3. Visualisation de grandes masses de données. 4. Extraction de connaissances, datamining et apprentissage. 5. Problèmes de propriété, de droit d usage, droit à l oubli. 6. Préservation/archivage des données pour les générations futures. 7. Exploitation des grandes masses de données liées aux bases de données scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.

P. 9 NEEDS Actions Les défis scientifiques Nombre de laboratoires ou organismes ayant postulé: 74 Nombre de laboratoires ou organismes présents dans les projets 43 sélectionnés : Nombre de projets soumis: 37 Nombre de projets sélectionnés: 18 Résultats: SENS 10 au titre de la qualité scientifique et du caractère ambitieux du projet MASTODONS Nombre de projets financés (après fusion de certains projets): 16 5 au titre de la qualité scientifique mais dont le projet était plus modeste 1 au titre de l'animation sur la préservation des données Biologie Synthétique Nano - G3N

Masses de Données Scientifiques: Quelques Enjeux et Perspectives INS2I MASTODONS

INS2I Les données : une matière première et des produits à forte valeur ajoutée Institut des sciences informatiques et de leurs interactions BD et fichiers d entreprises Données WEB et Réseaux Sociaux Données de Capteurs Données d expériences scientifiques Commerce et les affaires! SI d entreprise, transactions commerciales, systèmes de réservation,! Loisirs! Musique, vidéo, jeux, réseaux sociaux! Sciences! Astronomie, physique et énergie, génome,! Médecine! Dossier médical, sécurité sociale, imagérie! Environnement! Climat, dév durable, pollution, alimentation,! Humanités et Sciences Sociales! Numérisation du savoir (littérature, histoire, ), interactions dans les réseaux sociaux, données archéologiques! Mokrane Bouzeghoub l DAS 11

INS2I Une petite idée des volumes de données Institut des sciences informatiques et de leurs interactions Volume Exemple "* )'($%&'(!"#$ 1 gigabyte Information known in the human 10 9 genome 1 terabyte Annual world literature production 10 12 1 petabyte All US academic research libraries 10 15 1 exabyte Two thirds of annual world 10 18 production of information Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx Mokrane Bouzeghoub l DAS 12

Recherches en gestion de données INS2I Institut des sciences informatiques et de leurs interactions Données de base Données dérivées Structures de tables Structures d objets Données semi-structurées (XML) Données multi-média Données scientifiques Séries temporelles Flux de données / événements Un domaine très vaste, en interaction permanente avec toutes les autres disciplines des STIC! Architectures machin( HPC), Réseaux, systèmes, GL, IA, différentes théories de l informatique! Un domaine qui se repositionne périodiquement! En revisitant ses solutions à la lumière de nouvelles technos et de nouvelles idées! En intégrant de nouveaux besoins et de nouveaux problèmes! Un domaine interdisciplinaire! Modélisation et simulation! Apprentissage statistique! Calcul haute performance! Inférence logique! Mokrane Bouzeghoub l DAS 13

Caractéristiques INS2I Institut des sciences informatiques et de leurs interactions Des recherches principalement tirées par! Des applications industrielles! L émergence de nouvelles technologies! L émergence de nouveaux usages! Une recherche dominée (ou presque) par des labos industriels!! Nombreuses «success stories»! Des laboratoires industriels de pointe! ü IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!" Une grande perméabilité entre monde académique et monde industriel (en particulier aux US, moins en Europe)! Mokrane Bouzeghoub l DAS 14

INS2I Institut des sciences informatiques et de leurs interactions Les grands verrous dans la gestion des masses de données 1. La virtualisation du stockage et de l accès (Cloud).! 2. L intégration de données.! 3. La gestion d événements et de flots de données (event processing, data streams).! 4. L analyse complexe à grande échelle.! 5. La qualité et protection des données.! 6. La visualisation/navigation des masses de données.! 7. La préservation des données.! Mokrane Bouzeghoub l DAS 15

INS2I Défi 1 : Stockage à grande échelle (Cloud) R R Institut des sciences informatiques et de leurs interactions C Time D Bénéfices du Cloud! Pas d infrastructure à acquérir ni à gérer! ü «Pay as you go»" Stockage massif de données (à moindre coût)! ü Coûts de stockage et d utilisation réduits" Accès anytime anywhere via Internet! ü Ex: icloud (Apple)" Qualité de service! ü Disponibilité, sécurité" Elasticité! ü absorbe facilement les charges lourdes ou soudaines" C D Challenges du Cloud! Indexation intelligente (sémantique)! Sécurité et Confidentialité (privacy)! Calcul haute performance (//)! Cohérence et qualité des données! Mokrane Bouzeghoub l DAS 16

INS2I Divy Agrawal et al VLDB Tutorial 2010 Institut des sciences informatiques et de leurs interactions Défi 2 : Analyse complexe à grande échelle Analyse en temps réel de flots continus de données émanant de différentes sources! Ex: Découvrir et comprendre les patterns caractéristiques du comportement des clients/ utilisateurs! Réaction en temps réel à des événements d alerte! Ex: attaques sur le réseau! Requêtes multidimensionnelles sur des grands ensembles de données! Découvrir et comprendre des patterns en analysant le comportement d une population! Découvrir des corrélations entre phénomènes! Mokrane Bouzeghoub l DAS 17

INS2I Institut des sciences informatiques et de leurs interactions Cible : intelligence ambiante, réseaux sociaux, surveillance temps réel, robotique, bioinformatique. Mokrane Bouzeghoub l DAS Défi 3 : la gestion de flots d événements Capture d événements! Politique de détection et de composition (requêtes sur les évnts)! Introduction d incertitude sur l arrivée des événements et sur le contenu de leurs messages! Détection / simulation d événements rares! Réaction aux événements! Politique de déclenchement, consommation, exécution (optimisation)! Couplage transactionnel! Analyse : confluence, terminaison! Bufferisation! Taille des fenêtres temporelles! Stratégies de glissement! Historisation! Stockage massif! Indexation! Analyse complexe (analyse de séquences, motifs fréquents, )! 18

INS2I Défi 4 : La visualisation des masses de données Institut des sciences informatiques et de leurs interactions Mokrane Bouzeghoub l DAS Besoins! Navigation intuitive/contextuelle! ü desktop intelligent, réseaux sociaux, contenus MM" Visualisation de phénomènes non perceptibles! ü Génome, trou noir" Analyse visuelle! ü Découverte de connaissances" Challenges! Invention de nouvelles métaphores graphiques! Algorithmes de graphes performants (//)! ü Optimisation de la visulaisation de grands graphes" Clusterisation et stats de graphes! Adaptation aux terminaux /équipements!! 19

Défi 5 : La préservation des données INS2I Institut des sciences informatiques et de leurs interactions Accroissement de l hétérogénéité des MDD Plus grandes difficultés pour leur intégration et leur exploitation Mokrane Bouzeghoub l DAS Comment préserver les données à durée de vie illimité?! connaissances scientifiques! produits culturelles! connaissances archéologiques et environnementales! connaissances sociales (recensements)! Comment préserver les données à durée de vie longue mais limitée! patrimoine informationnel des entreprises! Données personnelles (stockées dans les disques privés ou publiés sur le Web)! Données publiques (fichiers sécu, police, )! Quel coût pour la préservation des données! Coût de conversion des données (formats)! Coût pour la migration des technologies! Coût de maintien des technologies de niche! Quelle stratégie pour les données gérées dans le Cloud?! 20

Conclusion INS2I Institut des sciences informatiques et de leurs interactions Fin de l ère «One Size Fits All»! Il faut offrir des architectures de données flexibles, avec des services de gestion de données adaptables à chaque type d application/type de données! Les SGBD ne sont plus visibles en tant que systèmes intégrés et cohérents! les services de gestion de données sont enfouis dans des systèmes à plus forte valeur ajoutée (services métiers)! Grands challenges des MDD! Passage à l échelle et calcul haute performance! Virtualisation et indexation sémantique! Requêtage, extraction des connaissances et visualisation! Sécurité et protection de la vie privée! Mokrane Bouzeghoub l DAS 21

P. 22 MISSION POUR L INTERDISCIPLINARITE Grand défi : MASTODONS

P. 23 NEEDS SENS MASTODONS Biologie Synthétique Nano - G3N Actions Les défis scientifiques MASTODONS: Très grandes masses de données scientifiques Porteurs du défi : Mark Asch Mokrane Bouzeghoub * Budget : 700 k en 2012 Gestion et de l exploitation de grandes masses de données (mesures, texte, image, son,...) 7 axes 1. Stockage et gestion de données (par exemple, dans le Cloud), sécurité, confidentialité. 2. Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. 3. Visualisation de grandes masses de données. 4. Extraction de connaissances, datamining et apprentissage. 5. Problèmes de propriété, de droit d usage, droit à l oubli. 6. Préservation/archivage des données pour les générations futures. 7. Exploitation des grandes masses de données liées aux bases de données scientifiques, réseaux sociaux, très gros corpus littéraires, et autres.

DEFI "MASTODONS" Résumé Nombre de laboratoires ou organismes ayant postulé: 74 Nombre de laboratoires ou organismes présents dans les projets sélectionnés : 43 Nombre de projets soumis: 37 Nombre de projets sélectionnés: Actions 18 Nombre de projets financés (après fusion de certains projets): P. 24 MASTODONS 16 10 au titre de la qualité scientifique et du caractère ambitieux du projet 5 au titre de la qualité scientifique mais dont le projet était plus modeste 1 au titre de l'animation sur la préservation des données 1- Projets fédérateurs : Titre du projet Porteur UMR Impliquées Instituts/Organismes DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments NEEDS Kegl Balazs LAL, LIP, LRI IN2P3, INS2I Gaia: l origine et l évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Projet IPSL-INRIA: production, distribution et analyse des résultats de simulations climatiques. (EPINES) Dufresne Jean-Louis IPSL, KerData INSU, INRIA CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques: études de l intérieur de la Terre à partir des champs d onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la Terre et de l Univers Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d observations astronomiques grand champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3 Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 2- Projets ciblés : Titre du projet Porteur UMR Impliquées Instituts/Organismes Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS COMOTEX: COMmande temps réel de systèmes d'optique adaptative à très grand nombre de degrés de liberté pour les Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC AMADOUER: Analyse de MAsse de DOnnées de l Urbain et l EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, irtsv INS2I, INSB, CEA Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA 3- Projet d'animation : Titre du projet Porteur UMR Impliquées Instituts/Organismes PREDON: La préservation et l exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3

Actions MASTODONS P. 25 Titre NEEDS CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Porteur Montagnat Johan - johan@i3s.unice.fr - Laboratoire I3S d'informatique, Signaux et Systèmes, Sophia-Antipolis UMR 7271 UMR Instituts Résumé I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM Le travail proposé intègre les moyens d aligner des entrepôts distribués de données hétérogènes (médiation) de les unifier (fédération), notamment à travers des outils d interrogation (requêtes distribuées), et de les analyser (flots de données) sur des infrastructures de calcul distribuées (Grilles, Clouds). Ce travail comprendra également une analyse sémantique du domaine de l imagerie médicale. Les principaux verrous scientifiques abordés sont : la représentation sémantique des données d imagerie médicale fondée sur des ontologies des différents domaines concernés, la gestion de sources de données hétérogènes, la fédération d entrepôts distribués, la performance des requêtes distribuées, la gestion de flots de calculs distribués sur les cohortes de données, la cohérence des données distribuées afin de lier les instances relatives à une même entité physiques potentiellement distribuées dans plusieurs entrepôts.

Actions MASTODONS P. 26 Titre Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Porteur NEEDS Rivals Eric, Esther Pacitti - rivals@lirmm.fr, Esther.Pacitti@lirmm.fr - LIRMM, Montpellier - UMR 5506 UMR LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE Instituts Résumé INS2I, INSB, INEE, INRA Les nouvelles technologies de Séquençage à Haut Débit (SHD) et Séquençage de Nouvelle Génération (NGS), révolutionnent la manière dont sont posées et résolues les questions de recherches en science du vivant, par exemple, pour évaluer la biodiversité d un espace on peut aujourd hui séquencer l ADN des espèces présentes. Une seule expérience de séquençage produit jusqu à plusieurs centaines de millions de courtes séquences. Ces reads sont ensuite groupés en catégories représentant les espèces, et ainsi leur nombre et abondance relative permettent d estimer la biodiversité. La question devient alors computationnelle. La mesure automatisée des phénotypes (caractères observables d un organisme) permet d identifier les conséquences de variations alléliques en termes de morphologie, de croissance ou de métabolisme dans un environnement donné. Les verrous identifiés et visés comprennent : l algorithmique du texte et des séquences (indexation, comparaison, compression) et son passage à l échelle l exploitation des architectures parallèles (multi-coeurs, grille, cloud) pour l analyse des données l invention de nouvelles approches et algorithmes pour identifier variations génomiques, épigénomiques, transcriptomiques ou classifier les données du méta-génome le partage et la fouille de données à grande échelle l intégration de données sur les versants technique et biologique (lien génotype-phénotype). Axes de recherche : traitement primaire des séquences (algorithmique et parallélisme), prediction d événements biologiques, Partage et analyse de données (P2P)

Actions MASTODONS P. 27 Titre SABIOD : Scaled Acoustic BioDiversity NEEDS Porteur Glotin Hervé - glotin@univ-tln.fr - LSIS, Toulon. - UMR 7296 UMR Instituts Résumé LSIS, LIP6 INSB, INS2I L'observation et l'étude la biodiversité sont des enjeux majeurs de notre siècle, tant pour comprendre notre environnement, et son évolution, que sa vulnérabilité face aux activités humaines. La bioacoustique, discipline émergente à l'interface de l'écologie et la physique, analyse la trace acoustique directe (cri, chant, biosonar, etc) ou indirecte (leur déplacement ou modification du milieu) laissée par une majorité d'espèces animales. Les axes de recherche traitent des grands thèmes suivants : passage à l'échelle, clustering en ligne, classification, fouille de données, modélisation probabiliste nonsupervisée, analyse Bayésienne, adaptation de modèles en ligne, statistique de masse, indexation multi-échelle, interprétation écologique, fusion de connaissances hétérogènes.

Actions MASTODONS P. 28 Titre ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio Sémantiques Porteur NEEDS Gallinari Patrick - patrick.gallinari@lip6.fr - LIP6, Paris. - UMR 7606 UMR Instituts Résumé LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS Analyse et modélisation des réseaux sociaux. Le projet développera des outils et méthodes pour reconstruire à partir de l'analyse de ces grands corpus textuels les réseaux dynamiques multipartites des contenus et des acteurs qui les produisent, analysera et modélisera la structure de ces réseaux ainsi que les processus de diffusion d'information qu'ils supportent, et enfin proposera des interfaces innovantes permettant de visualiser et d'interagir avec ces contenus Les défis majeurs : taille des données, hétérogénéité et complexité des données, dynamicité et échelles de temps, interprétabilité des résultats et interaction, défis des différents champs disciplinaires. Il s'agira notamment d'intégrer dans une même approche des analyses à différentes échelles de temps et à travers plusieurs sphères du social reflétées par des corpus distincts (tweets, blogs, pages web, articles de journaux, articles scientifiques, corpus juridiques) de manière à mieux comprendre les différents types de dynamiques de nos sociétés.

Actions MASTODONS P. 29 Titre Porteur NEEDS UMR Instituts Gaia: l origine et l évolution de notre Galaxie : validation des données Arenou Frédéric - Frederic.Arenou@obspm.fr - GEPI, Observatoire de Paris, MEUDON - UMR8111 GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Consortium et collaborations entre les domaines de l'astrophysique, de l'informatique (BD, datamining) et les mathématiques et statistiques pour permettre de résoudre les problèmes considérables posés par l exploitation des données GAIA (projet de cartographie 3D de notre galaxie). Developper des outils d'analyse multidimensionnelle adaptés aux grandes masses de données (1 Pb) astrométriques, photométriques, spectrophotométriques, spectroscopiques. Résumé

Actions MASTODONS P. 30 Titre Porteur NEEDS UMR Instituts DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments Kegl Balazs - balazs.kegl@gmail.com - LAL, Orsay - UMR8607 LAL, LIP, LRI IN2P3, INS2I Consortium interdisciplinaire (physiciens, informaticiens) pour traitement de données issues du LHC (dizaine de pétabytes/an). Trois thèmes: (1) la gestion de cycle de vie des données, placement optimal (2) l'analyse de données à grande échelle, algorithmes MCMC sur grille (3) l'integration de données sur le comportement d'egi (l'infrastructure de grille européenne), Observatoire de Grille. Résumé

Titre du projet Porteur UMR Impliquées Instituts/Organismes DEEPHY: Data in physics - Large-scale data storage, data management, and data analysis for next generation particle physics experiments Kegl Balazs LAL, LIP, LRI IN2P3, INS2I Gaia: l origine et l évolution de notre Galaxie : validation des données Arenou Frédéric GEPI, IMCCE, PRISM, LMPP INSU, INS2I, INSMI Projet IPSL-INRIA: production, distribution et analyse des résultats de simulations climatiques. (EPINES) Dufresne Jean-Louis IPSL, KerData INSU, INRIA CrEDIBLE : fédération de données et de ConnaissancEs Distribuées en Imagerie BiomédicaLE Montagnat Johan I3S, LTSI, CREATIS, MIS INS2I, INSIS, INSB, INSERM NEEDS Actions MASTODONS ARESOS: Reconstruction, Analyse et Accès aux Données dans les Grands Réseaux Socio Sémantiques Gallinari Patrick LIP6, CAMS, LIG, LIRIT, LATTICE INS2I, INSMI, INSHS SABIOD : Scaled Acoustic BioDiversity Glotin Hervé LSIS, LIP6 INSB, INS2I Grandes masses de données sismologiques: Exploration complète des grandes masses de données sismologiques: études de l intérieur de la Terre à partir des champs d onde complexes Shapiro Nikolai IPGP, LJLL, Langevin INSU, INSMI, INSIS/INP AMADEUS: Analysis of MAssive Data in Earth and Universe Sciences Analyse de données massives en Sciences de la P. 31 Terre et de l Univers Maabout Sofian LABRI, LIRMM, LIF, CEREGE, LAM INS2I, INSU PetaSky: Gestion et exploration des grandes masses de données scientifiques issues d observations astronomiques grand champ Toumani Farouk LIMOS, LIRIS, LPC, APC, LAL INS2I/INSIS, IN2P3 Défis computationnels des séquençages et phénotypage haut-débit en science de la vie Rivals Eric, Esther Pacitti LIRMM, CEFE, EFE, IPMC, IRISA, ISEM, LEPSE INS2I, INSB, INEE, INRA 2- Projets ciblés : Titre du projet Porteur UMR Impliquées Instituts/Organismes Projet SENSE : Socialized Network Science Jensen Pablo LP, LIP, IXXI, Max Weber INP, INS2I, INSHS COMOTEX: COMmande temps réel de systèmes d'optique adaptative à très grand nombre de degrés de liberté pour les Télescopes EXtrêmement grands Le Roux Brice LAM, CEREA INSU, ONERA, ENPC AMADOUER: Analyse de MAsse de DOnnées de l Urbain et l EnviRonnement Baskurt Attila LIRIS, EVS, CETHIL,LGCIE INS2I, INSHS, INEE, INSIS PROSPECTOM: Etude visuelle et interactive des protéomes par apprentissage statistique et intégration des bases de données et de connaissances spectrométriques et «omiques». Bisson Gilles LIG, irtsv INS2I, INSB, CEA Statistiques Crowdsourcing Biodiversité Julliard Romain MNHN, CMAP, CEFE INEE, INSMI, INRA 3- Projet d'animation : Titre du projet Porteur UMR Impliquées Instituts/Organismes PREDON: La préservation et l exploitation des données scientifiques à long terme Diacanou Cristinel CPPM, LPCCG, LAPP IN2P3

Actions Conclusion et Perspectives P. 32 NEEDS Année 2012 : Mise en place et structuration de l interdisciplinarité au CNRS. Lancement de «grands défis» et de «projets exploratoires». Année 2013 : Ouverture aux autres organismes de recherche (INSERM, INRA, INRIA, INSEE, ) Ouverture aux entreprises et industries de l information

P. 33 NEEDS