Tâches de service & Big Data. Franck Le Petit



Documents pareils
Le centre d exper,se régional Grand Sud- Ouest Data Center

AA-SO5 KIDA/GSOV/VAMDC

Chapitre 6 : les groupements d'étoiles et l'espace interstellaire

Application à l astrophysique ACTIVITE

Vie et mort des étoiles. Céline Reylé Observatoire de Besançon

Gaz moléculaire et formation stellaire dans les galaxies proches : maintenant et à l'époque ALMA Jonathan Braine

FORMATION ET FONCTIONNEMENT D'UNE ETOILE

Mise en oeuvre d'une base de données mono-utilisateur avec SQLite

Vers le Big Data? Exemple de la gestion des données astronomiques au Centre de Données astronomiques de Strasbourg

a. La masse de Jeans b. Le support des nuages moléculaires -Séquence Principale (PMS)

Panorama de l astronomie. 7. Spectroscopie et applications astrophysiques

Rayonnements dans l univers

Cycle de vie, processus de gestion

Le nouveau programme en quelques mots :

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

La vie des étoiles. La vie des étoiles. Mardi 7 août

Chapitre 02. La lumière des étoiles. Exercices :

Entrepôt de données 1. Introduction

Panorama de l astronomie

Correction ex feuille Etoiles-Spectres.

Étude et modélisation des étoiles

Big Data et Graphes : Quelques pistes de recherche

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

Big Data et Graphes : Quelques pistes de recherche

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

PROGRAMME DE PHYSIQUE - CHIMIE EN CLASSE DE SECONDE GÉNÉRALE ET TECHNOLOGIQUE

- Le LPC2E et les Bases de Données Spatiales - Valorisation des bases de données ondes

L ACCROISSEMENT DE L ENTROPIE DES SYSTÈMES D INFORMATION EST-ELLE UNE FATALITÉ?

Chapitre 6 La lumière des étoiles Physique

Comprendre l Univers grâce aux messages de la lumière

Niveau 2 nde THEME : L UNIVERS. Programme : BO spécial n 4 du 29/04/10 L UNIVERS

INTRODUCTION À LA SPECTROSCOPIE

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Quelques liens entre. l'infiniment petit et l'infiniment grand

Les objets très lointains

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

TP 03 B : Mesure d une vitesse par effet Doppler

I - Quelques propriétés des étoiles à neutrons

NUAGES INTERSTELLAIRES ET NEBULEUSES

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

et les Systèmes Multidimensionnels

Centre de Données de la Physique des Plasmas CDPP

Présentation du module Base de données spatio-temporelles

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Un spectromètre à fibre plus précis, plus résistant, plus pratique Concept et logiciel innovants

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE

Le satellite Gaia en mission d exploration

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Comment dit-on qu'une étoile est plus vieille qu'une autre ou plus jeune qu'une autre?

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Monitoring THPE. Soutien au projet. Présentation du projet

Ministère de la Culture et de la Communication

BI Open Source Octobre Alioune Dia, Consultant BI

Simulations hydrodynamiques relativistes de la phase émission rémanente dans les GRB. Séminaire au L.U.Th, Observatoire de Paris

Activité 1 : Rayonnements et absorption par l'atmosphère - Correction

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

Cerea. Centre d enseignement et de recherche en environnement atmosphérique

Le partenaire de votre innovation technologique

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Energie Nucléaire. Principes, Applications & Enjeux. 6 ème /2015

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Principes généraux de la modélisation de la dispersion atmosphérique

TP 2: LES SPECTRES, MESSAGES DE LA LUMIERE

Qu est-ce qui cause ces taches à la surface du Soleil?

LIVRE BLANC Décembre 2014

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

Notre galaxie, la Voie lactée

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Energie nucléaire. Quelques éléments de physique

Étude statistique de la turbulence dans le milieu interstellaire

Bases de Données Avancées

janv-10 janv-11 oct-10 juil-11 juil-10 avr-11 avr-10

Projet SENTINELLE Appel àprojets «CO 2»Déc. 2007

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Masses de données et calcul : à l IRIT. 8 octobre 2013

UE 8 Systèmes d information de gestion Le programme

Hervé Couturier EVP, SAP Technology Development

Les enjeux de la métrologie dans le domaine de l environnement 30 novembre Réseau des Pôles Eco Tech

L inégale répartition de l énergie solaire est à l origine des courants atmosphériques

Mise en pratique : Etude de spectres

Atelier : L énergie nucléaire en Astrophysique

TEMPÉRATURE DE SURFACE D'UNE ÉTOILE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Celestia. 1. Introduction à Celestia (2/7) 1. Introduction à Celestia (1/7) Université du Temps Libre - 08 avril 2008

PageScope Suite L accélérateur de workflow * L essentiel de l image

Extraction d informations stratégiques par Analyse en Composantes Principales

Charte d adhésion d un laboratoire au Mésocentre CIMENT

Oracle Fusion Middleware Concepts Guide 11g Release 1 (11.1.1) Figure 1-1 Architecture Middleware

Master Informatique Aix-Marseille Université

TD 9 Problème à deux corps

Les Entrepôts de Données

Conservation des documents numériques

Cours Bases de données

Introduction Big Data

Mesure de la surface spécifique

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

Transcription:

Tâches de service & Big Data Franck Le Petit

Réforme SO5 Avant la réforme : Souvent des services sous-critiques Pas de stratégie globale de développements de service Objectifs de la réforme SO5: Remise à plat de la liste des services de référence Centres d expertise régionaux : assurent les masses critiques / moyens Pôles thématiques nationaux : coordination nationale des services -> définition de stratégies d évolution des services Spécificités des services de référence en SO5 : pérennisation des données qualité des données (sensibilité, précision...) documentation des données interopérabilité des données exploitations innovantes / plus-value

Réforme SO5 2012 : ~ 60 demandes de labellisation 2014 : 21 services de référence Procédure de labellisation: Avis des PN & AS Evaluation comité Proposition à la CSAA Infrastructure de recherche IDOC-SO5 - GLO-IDOC - MEDOC - DustEM Paris Data Center - BASECOL - BASS 2000 - OP - Catal. des exoplanètes - F-VAMDC - Plateforme MIS & Jets - VO-Solar System IAP Terapix Obs. de Strasbourg - SSC XMM-Newton Obs. Besançon Modèle Galaxie CDS Centre d'expertise régional Service dans OSU Centre d'expertise régional émergent GSO - BASS 2000 - CDAB - CASSIS - CDPP - KIDA - PolarBase - Pollux - STORMS OSUG Data Center - GhoSST - JMMC CESAM (Pythéas) CER données multivaluées (OCA) Pôles thématiques nationaux Pôle de diffusion des données de physique atomiques et moléculaires Pôle de diffusion de données plasmas planétaires Pôle de diffusion des données solaires Pôle de traitement des données interférométriques IR/Visible

Réforme SO5 Recommandations pour tous les services : Intégrés dans les Observatoires Virtuels Comités d utilisateurs Rôle important des PN procédure de labellisation stratégie d évolution des services : - comités utilisateurs - Pôles thématiques Services liés au PNPS CDS JMMC Modèle de la Galaxie de Besançon POLLUX PolarBase Plateforme MIS & Jets VAMDC

Pollux database http://www.pollux.graal.univ-montp2.fr Spectres synthétiques stellaires Codes MARCS, ATLAS9, CMFGEN Spectres HR : R > 150 000 SED R ~20000 Etoiles O à M Paramètres couverts : Teff, log g, Fe / H,... Services : Accessible via l OV Service de convolution VOSPECFLOW Comparaison aux données NARVAL A. Palacios

Modèle de la Galaxie http://model.obs-besancon.fr Service fournissant des simulations : du contenu stellaire de la Galaxie d images du ciel de l'uv à l'infrarouge de catalogues de grands relevés de microlentilles gravitationnelles Service basé sur : Synthèse de populations stellaires Modèle de l'extinction interstellaire Simulateur d'évènements de microlentilles gravitationnelles

Polarbase h"p://polarbase.irap.omp.eu Diffusion des données ESPaDOnS, NARVAL données des spectropolarimètres INSU Domaine : 370-1000 nm Polarimétrie Accès aux données réduites ASCII / FITS Intégré à l OV - manque descrip. polarimétrie association de données complémentaires : champ magnétique de surface émission chromosphérique vitesse radiale,

Plateforme MIS & Jets http://ism.obspm.fr Services & diffusion de modèles de références et de simulations lourdes pour l interprétation des observations dans les nuages et les jets STARFORMAT (P. Hennebelle et al.) Diffusion de simulations MHD Dynamique du gaz et formation des étoiles Accès à plusieurs jeux de simulations Coeurs denses Services fournis : Catalogues de propriétés de coeurs denses Téléchargement de simulations Coupes : cubes, lignes de visée,... Post-traitement RADMC-3D Evolution du service - nouveau projets Simulations de formation stellaire (B. Commerçon) Jets (A. Ciardi, C. Stehlé) Disques

Plateforme MIS & Jets Outils OV Web portal Services : Fouille / Interopérabilité / Méthodes de minimisation Protocoles OV VO Space Bases de données Services de codes en ligne STARFORMAT PDRDB Chocs MHD PDR Chocs MHD Chimie Transfert Turbulence Grains Bases de données / Système de fichiers Middleware Données Ressources de calcul STARFORMAT Echange de profil de densité de lignes de visée Echange du spectre UV qui interagit avec les grains PDR Online Post-traitement Transfert de rayonnement LVG Intensités de raies Calcul synchrone Extraction des profils d'abondances et de température DUSTEM Physique des grains Echanges des propriétés des grains (température, émission I.R.) Simulateur ALMA Fonctionnel hors OV En cours de développement A faire Echange de données de physique moléculaire VAMDC Bases de données de Physique Atomique & Moléculaire

Données de physique atomique & moléculaires VAMDC : Virtual Atomic and Molecular Data Center Infrastructure pour faciliter : la découverte de jeux de données atomiques & moléculaires l accès aux données Principales bases de données européennes participent : VALD, HITRAN, CHIANTI, TIP Base, TOP Base, CDMS,...

Big Data Données de plus en plus volumineuses Gaïa caractérisation d un milliard d étoiles type spectral masse, rayon, luminosité, température composition chimique... ALMA - Centres d archivage : ~ 1PB actuellement ~ 3 PB / yr (2015-2018) => problèmes stockages / électriques Comment stocker ces données? Comment les manipuler? Comment les diffuser?

Big Data Exemple de CyberSKA Analyse des données SKA système distribué réplication des données outils collaboratifs visualisation des données online

Big Data Problèmes posés par les volumes de données au niveau des services: Stockage : Besoin d infrastructures de stockage de plus en plus couteuses Centres de données AA / Centres de calcul nationaux Centres d expertise SO5 / Mesocentres Transfert des données : Un combat perdu d avance si approche brute: - Réseau internet : 10 Gbytes / s -> 100 Gbytes / s (RENATER) - Goulet d étranglement pour arriver aux ordinateurs Solutions : Si peu d utilisateurs intéressés par les grands volumes : Ex: grands jeux de simulations très spécialisées Données fréquemment sollicitées : => Développer des méthodes innovantes pour l extraction et le datamining

Big Data Solutions pour transférer les volumes de données Exemple d ALMA : Cube de données : 1-100 Gby tout le cube n est pas pertinent Système permettant de 1) sélectionner une portion du cube 2) récupérer un sous-ensemble B. Glendenning Problème similaire : extraire des informations d un catalogue extraire un cube dans une simulation Solutions : * Envoi progressif des données : imagettes / type Google Map / pagination * Extraction & transfert : cutout (travaux en cours à l IVOA) La difficulté n est pas tant le volume des données...... que de trouver ce qu on veut dedans

Big Data Exploitation des Big Data implique souvent de nombreuses méta-données Avant le Big Data Fouille simples selon des paramètres classiques Exemple recherche de spectres : * Spectre HST/STIS de HD 34078 * Modèle stellaire O 9 Système informatique : Filesystem stockant ~ qq To de données Base de données gérant ~ 10 métadonnées position dans le ciel instrument date...

Big Data Example : Services PDR UV H H 2 C + C CO Molecular Region Fouille 1 : on recherche sur les paramètres d entrée Ex: n = 1000 cm-3, flux UV = 10 ISRF Metadonnées = Paramètres d entrée ~ 30 métadonnées Fouille 2 : Problème inverse quels sont les modèles tels que 9E-8 < intensité de CO (1-0) < 2E-7 erg cm-2 s-1 sr-1 8E-5 < intensité de C+ à 158 microns < 3E-4 erg cm-2 s-1 sr-1 Le cas d utilisation 2 impose que certaines données soient traitées en tant que métadonnées => + 150 000 types de métadonnées Problèmes techniques : les technologies informatiques de data management classiques ne fonctionnent plus! => bases de données relationnelles sont peu adaptées au grand nombre de métadonnées Besoin de technologies informatiques moins / peu connues : Ex : bases orientées objets / bases orientées document / MongoDB /... + algorithmes de fouille adaptés au problème

Big Data Big Data peut aussi nécessiter de repenser les interfaces utilisateurs Formulaire de recherche PDR 150 000 quantités Formulaire de recherche du NRAO «Barre Google» + web semantique

Big Data DATA DATA DATA DATA DATA Base de données relationnelle Datamining tool Algorithms Interface utilisateur Metadata Analyse des données Metadata Ingestion Document Oriented Database Couche interopérable File system Cutout DATA DATA DATA DATA DATA Infrastructure informatique plus complexe et spécifique à des cas d utilisation Algorithmes d analyse côté serveur : interprétation, analyse, visualisation Nouvelles technologies informatiques pour gérer les masses de méta-données Technologies de système distribué Algorithmes de fouille => coût humain plus important pour développer un service mais résultat beaucoup plus puissant

Big Data Plus coûteux à mettre en oeuvre Pas de solution universelle mais dépendante de du type de données de la façon dont on souhaite que les utilisateurs interagissent avec le système Procédure itérative dans le développement Développement tend à relever d une R&D informatique à visée opérationnelle Opportunités pour la recherche Permet des services très évolués accès à des données riches fouille / services plus intelligents

Conclusion Plusieurs services directement liés au PNPS CDS JMMC Pollux Polarbase Modèle de la Galaxie Plateforme MIS & Jets VAMDC + services de physique atomique Définir une stratégie pour le développement des services SO5 Rôle important des PN Participent à la définition des besoins de la communauté Suggestion sur l organisation nationale => utile à faire apparaître dans la prospective Big Data Une opportunité pour la recherche Plus difficile à mettre en place que les systèmes de diffusion classiques Nécessite de définir en amont les besoins pour trouver des solutions => PN doivent jouer un rôle pour spécifier les besoins de leur communauté Développement complexe : coordination / partage d expertise entre les centres d expertises / services