PetaSky Experience, Feedback

Documents pareils
Jean-François Boulicaut & Mohand-Saïd Hacid

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data et Graphes : Quelques pistes de recherche

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Vers le Big Data? Exemple de la gestion des données astronomiques au Centre de Données astronomiques de Strasbourg

Big Data et Graphes : Quelques pistes de recherche

Programmation parallèle et distribuée (Master 1 Info )

Présentation du module Base de données spatio-temporelles

Cartographie des solutions BigData

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Introduction à MapReduce/Hadoop et Spark

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Hadoop, les clés du succès

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Mastodons Une approche interdisciplinaire des Big Data

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Bases de données relationnelles : Introduction

BIG DATA en Sciences et Industries de l Environnement

Tables Rondes Le «Big Data»

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Panorama des solutions analytiques existantes

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Les bases de données relationnelles

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Change the game with smart innovation

HADOOP ET SON ÉCOSYSTÈME

Anticiper et prédire les sinistres avec une approche Big Data

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

M2 GL UE DOC «In memory analytics»

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Le cloud computing au service des applications cartographiques à haute disponibilité

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Les journées SQL Server 2013

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Emergence du Big Data Exemple : Linked Open Data

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Bases de données documentaires et distribuées Cours NFE04

Comment booster vos applications SAP Hana avec SQLSCRIPT

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

Ricco Rakotomalala R.R. Université Lyon 2

Fonctionnalités des différentes éditions de SQL Server 2012

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Bases de données Cours 1 : Généralités sur les bases de données

Big Data Concepts et mise en oeuvre de Hadoop

Cassandra et Spark pour gérer la musique On-line

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

BIG Data et R: opportunités et perspectives

Emergence du Big Data Exemple : Linked Open Data

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Les journées SQL Server 2013

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Projet d'infrastructure de stockage mutualisée

Certificat Big Data - Master MAthématiques

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Les technologies du Big Data

Exchange 2007 : Améliorations et nouvelles fonctionnalités Atelier 136. Société GRICS

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

L informatique à l IN2P3 et le rôle du Chargé de Mission

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Fouille de données massives avec Hadoop

Infrastructure de calcul du CRRI

CYCLE CERTIFIANT ADMINISTRATEUR BASES DE DONNÉES

Offre formation Big Data Analytics

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets

Segmentation d'images à l'aide d'agents sociaux : applications GPU

Optimisations des SGBDR. Étude de cas : MySQL

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

PREDON. A project on Scientific Data Preservation in France. 13/10/2013 PREDONx Workshop C.Diaconu 1

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

Introduction Big Data

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Information utiles. webpage : Google+ : digiusto/

Transcription:

PetaSky Experience, Feedback PREDONx 2015 : Atelier sur la Préservation des Données Scientifiques Mercredi 9 décembre 2015, Observatoire Astronomique de Strasbourg C. Surace Laboratoire d Astrophysique de Marseille Résumé extrait de : présentation WC meeting - Cost BigSky Earth, 2015 (K. Zeitouni) présentation MASTODONS 2014-2015 (F. Toumani, E. Gangler) pour le projet PETA SKY

2 Petasky Le consortium INS2I LIMOS (UMR 6158, Clermont-Ferrand) LIRIS (UMR 5205, Lyon) LaBRI (UMR 5800, Bordeaux) LIF (UMR 7879, Marseille) LIRMM (UMR 5506, Montpellier) IN2P3 LPC (UMR CNRS 6533, Clermont-Ferrand) APC (UMR CNRS 7164, Paris) LAL (UMR CNRS 8607, Paris) Centre de Calcul de l IN2P3/CNRS (CC-IN2P3)! INSU LAM (UMR 7326, Marseille) 19 chercheurs ; 8 ITA ; 5 doctorants

3 LSST Une nouvelle fenêtre sur le ciel :! Télescope de 8,4 m! Astronomie très grand champ! Cerro Pachon (Chili)! Démarrage 2020! CNRS partenaire du projet Tout le ciel visible en 6 bandes (ugrizy) (20000 sqdeg)! Poses de 15 s, 1 visite / 3 jours! 10 ans, 60 Pbytes de données brutes Paradigme pour l'analyse : Astroinforma6que ( characterize fi rst, analyze later ) Comment accéder efficacement à ces données? Quels ou6ls pour l'analyse et la visualisa6on

4 Gaia The#era#of#Big#Data#has#arrived!# PanKSTARRS#(NEO#defence)# GAIA$space$telescope$ >100#TB#of#data# Launch$date:$19.$December$2013$$ 1PB$of#data#a'er#5$years#(40#million# observa4ons#a#day!)##(free#data#catalogue# access#policy)$ ApplicaBons:#3D#catalogue#of#~1#billion# astronomical#objects# Large#Synop4c#Survey#Telescope:## 30TB#of#imaging#data#each#night# LOFAR#(radio#telescope):# 1#petabyte#per#year# Square#Kilometre#Array:# 1.5#exabytes#per#year# The#Virtual#Observatory#(VO):#provides#standards#describing#all# astronomical#resources#worldwide#and#supports#standardized# discovery#and#access#to#these#collec4ons# extrait de la presenta6on COST

5 EXODAt Datamining dans le cas d exoplanètes observées par CoRoT COROT Satellite lancé en 2006, pour 6 ans But de la mission (exoplanètes) : Détection d exoplanetes par méthode de transit. Données EXODAT (http://cesam.lam.fr/exodat/) 150 000 étoiles dont : U B V R I J H K 13,5 13,0 12,4 11,6 12,6 13,5 14,6 15,0 95000 avec une photométrie précise 104 000 avec une classification d activité 11500 avec une classification spectral 531 avec une signature de transit 30 planètes confirmées

Data challenges Shared'challenges:'data'tsunami' Digital'cura3on'and'data'access' 'store,'maintain'&'preserve'huge'amounts'of'data' 'large'mul$dimensional,&,highly,interrelated,datasets'=''' '''''''''''''''''''''''paradigm'change:'push,the,compu$ng,to,the,data, Visualiza3on' 'visualizing'large'quan33es'of'data'with:'low'signal?to?noise' ra3o,'high'dynamic'range,'mul3dimensional'parameter'space,' mul3?layered'3me?dependent,'...' Google'Earth'Engine' Adapta3on'to'new'high'performance'compu3ng' (HPC)'technologies' 'heterogeneous'supercompu3ng'environments' 'new'programming'techniques'for'gpus'and'cloud'compu3ng' GPUs'as'numerical'co?processors' Training'of'a'new'genera3on'of'scien3sts' 'astroinforma3cs,'geoinforma3cs,'bioinforma3cs' 'natural'sciences'+'it/cs'='explora3on'with'sta3s3cs' extrait de la presenta6on COST 6 New'books' and'online' courses'

7 Quelques résultats Rapidement Analyse de données rares par contre exemple Data Mining sur les données expérimentales En ce qui concerne PREDON Accès aux données Analyse de données

8 Analyse des données Le point de vue de l'astronome : analyse Catégorisation des objets (pertinence, erreurs) Détection de rareté (découverte, anomalie) Réduction de dimensionnalité Mesure de paramètres (régression, statistique) Prise en compte des incertitudes Le point de vue de l'informaticien : fouille Données sous forme tabulaire (interface avec SGBD) Algorithmique efficace en dimension élevée (> 1000, >10 10 entrées) Recherche de relations (implications, dépendances fonctionnelles) Visualisation des données

9 Etudes en cours Exploration interactive de masse de données basée sur les contre-exemples processus par Itération Sélection automatique d'un sous-ensemble des données sur lesquelles l'hypothèse pourrait être vérifée (apprentissage) Reformulation de l hypothèse Prototype isql en prod pour les Données ExoDAT (Corot) Reconstruction des redshifts photométriques Passage à l'échelle des méthodes de template-fitting Optimisation du nombre de noeuds de la couche cachée d un RNA à l'aide de méthodes de clustering Clustering et énumération Algorithmes à une passe pour la recherche de clusters Conception d'une nouvelle technique d énumération incomplète Dépendances fonctionnelles Algorithme parallèle générique pour l'extraction des DF Optimisation des requêtes skyline multidimensionnelles Plateforme de visualisation des DF

Preservation et accès des données 10

11 Accès aux données Proposer une architecture distribuée pour stocker quelques dizaines de PO de données Open Source Pouvoir évaluer aussi bien des requêtes simples (quelques secondes de calcul) que des requêtes complexes (des heures de calcul) Possibilité d accéder à des objets en u6lisant des indexes ou en procédant à un parcours (scan) complet des grosses tables (>> 1 PO)

12 Test Infrastructure Mise en place d'un environnement d expérimenta6on avec 100 machines virtuelles. 350 Go d espace disque 8 Go de RAM Systèmes de ges6on de données Centralisés: Mysql, PostgresQL et DBMS- X Distribués (à la Map/Reduce): Hive et HadoopDB Caractérisa6on des requêtes selon la difficulté des traitements Comparaison méthodes Map Reduce Hadoop! [Dean*et*al,*04]* Hadoop++! [Di3rich*et*al,*10]* HAIL! [Di%rich!et!al,!12]! HadoopDB! [Abouzeid*et*al,*09]* Hive! [Thusoo*et*al,*10]* Requêtes types id# Syntaxe#SQL# Q1# select#*#from#source#where#sourceid=29785473054213321;# Q2# select#sourceid,#ra,decl#from#source#where#objecfd=402386896042823;# Q3# select#sourceid,#objecfd#from#source#where#ra#>#359.959#and#ra#<#359.96#and# decl#<#2.05#and#decl#>#2;# Q4# select#sourceid,#ra,decl#from#source#where# scienceccdexposureid=454490250461;# Q5# select#objecfd,count(sourceid)#from#source#where#ra#>#359.959#and#ra#<#359.96# and#decl#<#2.05#and#decl#>#2#group#by#objecfd;# Q6# select#objecfd,count(sourceid)#from#source#group#by#objecfd;# Q7# select#*#from#source#join#object#on#(source.objecfd=object.objecfd)#where#ra#># 359.959#and#ra#<#359.96#and#decl#<#2.05#and#decl#>#2;# Q8# select#*#from#source#join#object#on#(source.objecfd=object.objecfd)#where#ra#># 359.959#and#ra#<#359.96;# Q9# SELECT#s.psfFlux,#s.psfFluxSigma,#sce.exposureType#FROM#Source#s#JOIN# RefSrcMatch#rsm#ON#(s.sourceId#=#rsm.sourceId)#JOIN# Science_Ccd_Exposure_Metadata#sce#ON#(s.scienceCcdExposureId#=# sce.scienceccdexposureid)#where#s.ra#>#359.959#and#s.ra#<#359.96#and#s.decl#<# 2.05#and#s.decl#>#2#and#s.filterId#=#2#and#rsm.refObjectId#is#not#NULL;# Query*language* procedural* Procedural* Procedural* DeclaraGve* DeclaraGve* Simple*indexes* Not*supported* supported* Supported* supported* Supported* MulG*indexes* Not*supported* Not*supported* supported* Supported* Supported* Complex*indexes* Not*supported* Not*supported* Not*supported* supported* Supported* Storage* System* HDFS* HDFS* HAIL* Classical*DBMS* HDFS* Index*choice* O* Manual* Manual* AutomaGc* Manual*

13 Résultats Différence (Hive >> HadoopDB): 3X pour 25 machines et 2X pour 50 machines Par66onnement personnalisé pénalise HadoopDB Hive: 2X de temps pour 2X de volumes de données 25 >> 50 machines: même temps HadoopDB: 2X de données: 90 %- 120 % supplémentaires 25 >>50 machines: 25 % gain Remarque 1: Hive ne supporte pas l'u6lisa6on d'index pour évaluer les requêtes de jointure Remarque 2: HadoopDB ne supporte pas plus d une jointure Hive vs HadoopDB Hive est negement meilleur que HadoopDB même lorsque HadoopDB u6lise l index Hive parallélise le traitement des jointures HadoopDB u6lise une seule machines pour construire les résultats de la jointure

14 Conclusions HADOOP n est pas encore la solution finale Chargement des données assez long Dépendant du partitionnement des données Nécessite un «tuning important» et spécialisé Besoin en Répartition spatiale des bases distribuées - des demandes qui sont basées sur des cones search - des cross match - des densités Approches à l étude - Hadoop GIS - Spatial hadoop - Pigeon - GeoSpark

15 Quelques réponses Pas de concordance avec des systèmes orienté GIS Pas de géométrie sphérique implémentée Spa6al Hadoop offre un rapport 1/100 par rapport à Hadoop mais est limité en requêtes GeoSpark est promegeur Extension de SPRK dans un framework QServ hgp://ls.st/lpj (Database Design doc) hgp://ls.st/6ym (User Manual) Architecture) du)système!!!!!!!!!!gaïa SKYMAP (générateur!de!données!stellaires) Splitter (Spark!+!Healpix) U6lisa6on de tessela6on Healpix pour par66onnement des requêtes Cluster Système!d accès!aux!données (Spark) Requête!SQL Interpréteur!SQL (Healpix)

16 Finalement Les algorithmes basés sur Map reduce peuvent permettre une implémentation optimisée des requêtes Les systèmes hybrides de stockage par colonne/tuples sont intéréssant à étudier pour la répartition des requêtes Nécessité de travailler sur : L abstraction des données astro l optimisation des techniques (partitionnement, tuning, cache) Prendre en compte les requêtes Prendre en compte la mise à jour des information pour optimisation [1] Mesmoudi, Amin, Mohand-Saïd Hacid, and Farouk Toumani. Benchmarking SQLon MapReduce systems using large astronomy databases. Distributed and Parallel Databases (2015): 1-32.

17 Production scientifique : 16 publications, 7 séminaires invités, 5 co-encadrement doctoraux... PetaSky a servi de levier pour Projet européen COST BIG-SKY-EARTH : Big Data Era in Sky and Earth Observation 2 membres de PetaSky sont au Management Comittee de l action Proposer une action structurante au sein du GDR MaDICS 2 projets-projets ANR L'intégration de LSST et des Big Data dans le projet AUDACE du CPER 2015-2020 de la région Auvergne