Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Documents pareils

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

HADOOP ET SON ÉCOSYSTÈME

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Cartographie des solutions BigData

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Labs Hadoop Février 2013

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Hadoop, les clés du succès

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Anticiper et prédire les sinistres avec une approche Big Data

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Infrastructures Parallèles de Calcul

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

BIG Data et R: opportunités et perspectives

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

BIG DATA en Sciences et Industries de l Environnement

Introduction à MapReduce/Hadoop et Spark

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Détection d'intrusions en environnement haute performance

Cassandra et Spark pour gérer la musique On-line

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Le BigData, aussi par et pour les PMEs

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Les mésocentres HPC àportée de clic des utilisateurs industriels

Services à la recherche: Data Management et HPC *

Les datas = le fuel du 21ième sicècle

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Offre formation Big Data Analytics

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

Introduction au Massive Data

M2 GL UE DOC «In memory analytics»

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Ricco Rakotomalala R.R. Université Lyon 2

Ne cherchez plus, soyez informés! Robert van Kommer

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

La rencontre du Big Data et du Cloud

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Accès aux données Sentinelles

Les environnements de calcul distribué

Me#re le Big Data sur la carte : déﬁs et avenues rela6fs à l exploita6on de la localisa6on

Les journées SQL Server 2013

Big Data Concepts et mise en oeuvre de Hadoop

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Change the game with smart innovation

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Mise en place d'un cluster

Les technologies du Big Data

Le nouveau visage de la Dataviz dans MicroStrategy 10

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Cloud Computing et Calcul Haute Performance (HPC High Performance C

Package Contents. System Requirements. Before You Begin

VMware : De la Virtualisation. au Cloud Computing

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

<Insert Picture Here> Exadata Storage Server et DB Machine V2

SysFera. Benjamin Depardon

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Cours 13. RAID et SAN. 2004, Marc-André Léger

IBM Software Group. Migration vers Tivoli Workload Scheduler. Philippe TESSIER 2009 IBM Corporation

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Conserver les Big Data, source de valeur pour demain

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

3 ème journée des utilisateurs de l archivage

Gamme Serveurs HP ProLiant Rack

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

Cycle de vie, processus de gestion

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Présentation de la Grille EGEE

Programmation parallèle et distribuée (Master 1 Info )

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Programmation parallèle et distribuée

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Application Form/ Formulaire de demande

Evolution des SI à l heure du Cloud

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS

Titre : La BI vue par l intégrateur Orange

Architectures informatiques dans les nuages

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Projet d'infrastructure de stockage mutualisée

Monitoring des classes de neige des calottes polaires par Envisat

Instructions Mozilla Thunderbird Page 1

ACCOMPAGNER L EXPLOSION DES VOLUMES DE DONNEES : LES NOUVEAUX ENJEUX DU STOCKAGE

Transcription:

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1

SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData computationnel, le temps de la convergence? 2

Le calcul scientifique au CNES Deux grandes familles de calcul 1) Simulation numérique Phase «amont» des projets Type de calcul usuel en HPC, «outil» de la science expérimentale contemporaine. champs d application : CFD, Combustion, Electromagnétisme, Mécanique spatiale, CPU intensif Bande passante mémoire importante Parallélisme à grain fin (1 job / multiple process) Tendances : multi échelle, multi physique (couplage de codes) 3

Le calcul scientifique au CNES Deux grandes familles de calcul 2) Traitement de données Phase «aval» des projets Traitement des données brutes provenant des senseurs satellites en données intelligibles pour une communauté scientifique : Terre: Etude du climat (hydrographie, salinité, océan circulation, etc.), Imagerie (cartographie, etc.), Altimetrie, Univers : Cosmologie (matière noire, rayonnement cosmologique, etc.), Astrométrie (catalogue d objets) I/O intensif Parallélisme gros grain (multiple jobs séquentiels) Contrainte opérationnelle (temps de restitution borné) Tendance : augmentation du volume 4

Le calcul scientifique au CNES et une nouvelle classe de problème de traitement 3) Traitement de données orienté «Big Data» Dataset trop important pour être traité sur la P/F existante Volume et type d accès aux données mettant en échec les technologies usuelles Besoin d un nouveau paradigme : Map/Reduce CPU intensif ET I/O intensif 5

Les enjeux : - Produire une cartographie 3D de notre proche galaxie - Localisation de plus d un milliard d objets avec une précision inégalée - Détermination des paramètres stellaires/astrophysiques Gaia Le centre de mission : - DPAC = 6 centres de traitement - DPCC (centre de traitement CNES) : - 3 CU (coordination units) - 10 chaines scientifiques - 60 modules scientifiques - 60 développeurs EU 6

Gaia Les chiffres: - 3Po de données (1 pile de DVD aussi haute que 4 tours montparnasse) - 290 milliards d entrée dans la base de données (100 fois plus que la base de données du projet Corot) - Complexité des requêtes d accès - Plus de 1000 connexions concurrentes à la base 7 GAIA est un projet à l échelle du «BigData». Une CRIP solution 16/10/2013 dédiée est nécessaire.

Focus sur un projet Hadoop : Etude technologique (2011-2012) Critères d évaluation» Performance : ingestion, une requête complexe» Scalabilité de la solution» Fiabilité (data safety)» Impacts sur l existant (software et hardware)» Coût global de la solution sur la durée de la mission (jusqu à 2022)» Pérennité de la solution» Utilitaires d administation/supervision Analyse de performance» Jeux de données identiques» Comparaison avec la solution originelle basée sur PostgreSQL.» Ecriture/Lecture massive de données (taille objects : petite et moyenne)» Requêtes complexes 8

Objects/s. Focus sur un projet Hadoop : Test de performance 12000 10000 8000 Hadoop Caché 6000 4000 PostgreSql Cassandra MongoDb 2000 0 1 000 000 10 000 000 100 000 000 Object Number Hadoop Cassandra Caché, PostgreSql, MongoDb Scalabilité hadoop OK 9

Focus sur un projet Hadoop : Solution choisie par le DPCC Migrer sur Hadoop n a rien changé au niveau des chaînes scientifiques (Facade pattern) Quelques impacts sur l architecture du gestionnaire de workflow (orchestration) 10

Focus sur un projet Hadoop : Solution choisie par le DPCC Hadoop : Ordonnanceur de travaux batch : paradigme Map/Reduce (distributed computing, parallélisme gros grain) Système de fichiers parallèle HDFS Principe : Amener le calcul à la donnée Advantages : vitesse flexibilité scalabilité écosystème logiciel Hadoop 11

Focus sur un projet Hadoop : Cascading une API Java pour les developpeurs au dessus de la couche Hadoop MapReduce les process Cascading sont traduites à la volée en tâches Map Reduce (5% d overhead constaté) permet des opérations complexes (proches de SQL : join, group, ) sans penser en MapReduce 12

Déclinaison matérielle BigData et HPC DPCC cluster Specifications hardware : Masternodes : DELL R620 GlusterFS nodes : DELL R720 Datanodes : DELL C6220» 12 cœurs» 48 Go RAM» Stockage 12To (JBOD) Réseau Ethernet» 10Gb interbaie» 1Gb intrabaie Configuration globale cible :» ~ 6500 cores» ~ 10 TB RAM» ~ 3PB» ~ 120 Tflops 13

Déclinaison matérielle BigData et HPC HPC cluster Hardware specifications Nœuds master : DELL R420 Nœuds de calcul : DELL C6220» 16 cores» 64 GB RAM» Stockage local 0,5 TB (RAID0) Stockage parallèle : GPFS» 260 To, 8Go/s Réseau Infiniband Configuration actuelle :» 1700 cores» 6,5 TB RAM» 35 Tflops 14

Déclinaison matérielle BigData et HPC Convergence des solutions Comment fusionner les P/F HPC et «BigData computationnel»? recherche d optimisation de coût (acquisition, maintenance, infogérance) Impact au niveau de l infrastructure Densification implique haute consommation des racks Des solutions arrivent (découplage MR/HDFS)» Logicielle : Yarn, MR+, Intel Hadoop, LSF, SLURM» Matérielle : Lustre, RHS, 15

Conclusion Le BigData au CNES : première expérience réussie dans un contexte orienté calcul. De nouvelles solutions ont émergé, veille technologique cruciale. Besoins CNES en continuelle évolution : nouveaux projets identifiés à l échelle 10Po. Convergence des P/F pour optimiser les coûts 16

Merci pour votre attention

Annexe1 : To cloud or not to cloud? Public cloud, open questions What kind of hardware quid of Numercial precision (IEE754 compliance)? highly optimized codes? Data integrity : duplication across multiple sites? Data transfer : feasibility and cost (cost model f (volume+compute+network) Intercenter network bottleneck (need of solution such as Aspera or Fedex!) Data dissemination (high access rate : geoportail model) Fixed and well controled actual compute and storage demand. 18

Annexe1 : To cloud or not to cloud? Public cloud Seems suitable for certain kind of workload Small to medium data re/processing campaign (large number of independant sequential jobs) Pay attention to the transfered volume Difficult for other ones : Numerical simulation, parallel, higly optimized Data volume Very sensitive codes to the numerical precision 19

Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Iterative processing 6 month Data Reduction Cycles At current estimates AGIS will run 2 weeks every 6 months Amount of data increases over the 5 year mission AGIS Peak Processing (Hours) 2500 2000 1500 Hours 1000 500 AGIS 6 monthly processing 0 Date 20

Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Highly distributed usually running on >40 nodes has run on >100 (1400 threads). Only uses Java no special MPI libraries needed new languages come with almost all you need. Hard part is breaking problem in distributable parts no language really helps with that. Truly portable can run on laptops desktops, clusters and even Amazon cloud. 21

Annexe 2 : exemple SELECT astroobservation.data as observation, astroelementary.data as aelementary, newsource.data as nsource FROM match join newsource using (sourceid) join astroobservation using (transitid) ( transitid ) join astroelementary using WHERE flag =2 22

Annexe 2 : exemple 15 steps 23

Annexe 2 : exemple 7 steps 24