Analyse de données à l'échelle du PetaOctet avec Qserv. Fabrice Jammes Expert en développement logiciel IN2P3/LSST Data-management team.



Documents pareils
Jean-François Boulicaut & Mohand-Saïd Hacid

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

BIG DATA en Sciences et Industries de l Environnement

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Big Data et Graphes : Quelques pistes de recherche

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Cartographie des solutions BigData

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Big Data et Graphes : Quelques pistes de recherche

Présentation du module Base de données spatio-temporelles

Les technologies du Big Data

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

Big Graph Data Forum Teratec 2013

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Les bases de données relationnelles

TRAVAUX DE RECHERCHE DANS LE

Introduction Big Data

Bases de données relationnelles : Introduction

Programmation parallèle et distribuée (Master 1 Info )

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Information utiles. webpage : Google+ : digiusto/

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Big Data Concepts et mise en oeuvre de Hadoop

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Masses de données et calcul : à l IRIT. 8 octobre 2013

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Mastodons Une approche interdisciplinaire des Big Data

IN2P3 et PLUME Valorisation de la production de logiciels

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Emergence du Big Data Exemple : Linked Open Data

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Change the game with smart innovation

Fouillez facilement dans votre système Big Data. Olivier TAVARD

SQL Server 2012 et SQL Server 2014

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop


Fouille de données massives avec Hadoop

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Labs Hadoop Février 2013

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Introduction aux Bases de Données Relationnelles Conclusion - 1

Anticiper et prédire les sinistres avec une approche Big Data

Hadoop, les clés du succès

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Eco-système calcul et données

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Big Data On Line Analytics

Les journées SQL Server 2013


Document réalisé par Khadidjatou BAMBA

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Bases de Données NoSQL

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée

Catalogue des stages Ercom 2013

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Les datas = le fuel du 21ième sicècle

Le Cloud Open-Mind! Emilien Macchi

Offre formation Big Data Analytics

M2 GL UE DOC «In memory analytics»

Emergence du Big Data Exemple : Linked Open Data

Module BDR Master d Informatique (SAR)

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

Panorama des solutions analytiques existantes

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Oracle 11g Optimisez vos bases de données en production (ressources matérielles, stockage, mémoire, requêtes)

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Introduction à ElasticSearch

Safe Harbor Statement

Programmation parallèle et distribuée

Vérifier la qualité de vos applications logicielle de manière continue

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Certificat Big Data - Master MAthématiques

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Démonstrateur libre Application des données Open Street Map à l analyse géographique de réseaux de voirie et Transports Collectifs

Cours Bases de données

Vos experts Big Data. Le Big Data dans la pratique

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Transcription:

Analyse de données à l'échelle du PetaOctet avec Qserv Fabrice Jammes Expert en développement logiciel IN2P3/LSST Data-management team Avril 2015 ADASS XXIV CALGARY, CANADA OCTOBER, 2014 Name of Meeting Location Date - Change in Slide Master 1

Les données images ~38 PB (persistantes) ~½ EB (virtuelles) ~3 milliards de visites ~37 milliards d'objets Plus grande table: ~5 PB Plus haute table: ~50 billions de lignes Total (toute data releases, compressé): ~83 PB LSST/FRANCE AVRIL 2015 2

Design Base de données relationnelle, partionnée spatialement avec des recouvrements Modèle de calcul Map/reduce LSST/FRANCE AVRIL 2015 3

Implémentation sur mesure Pas de produit sur étagère disponible SLAC développe Qserv, avec l'aide de l'in2p3 Basé sur des composants existants intégrés de manière spéci6que 100% open source LSST/FRANCE AVRIL 2015 4

Architecture technique Interception des requêtes SQL utilisateurs Ré-écriture des requêtes SQL et répartition sur les noeuds Qserv. Gestion des index spatiaux, haute disponibilité, aggrégation des résultats User MySQL Proxy Czar XRootD MySQL Zookeeper master Résultats intermédaires Gestion du cluster Communication, réplication Optimizations et ordonnancement Possibilité de lancer des analyses NO-SQL Service API External daemon MySQL LSST/FRANCE AVRIL 2015 worker Un SGBD par noeud. Scan, 6ltrage, calcul, aggrégation et jointure 5

Fonctionnalités majeures Géométrie sphérique performante Gestion de la distortion au pôles, et de la recherche par polygones convexes, calcul de distance précis, test d'appartenance à une région sphérique (cercle, ellipse, boîte, polygone convexe) UDFs spéci6ques https://github.com/wangd/scisql Jointures spatiales optimisées pour les recherches par voisinage Partitionnement spérique avec recouvrement 2 niveau, second niveau matérialisé à la volée Scan partagé des données Lecture continue et séquentielle à travers les données (Non-interactif) requêtes attachées à un scan spéci6que du disque La complexité interne est transparente pour les utilisateurs LSST/FRANCE AVRIL 2015 6

Statut courant Prototype fonctionnel, utilisable, mais pas encore à l'épreuve des balles Sous-ensemble de fonctionnalités non implémentées (sous-requêtes) Chargeur de grandes masses de données en cours de validation Version optimisée de xrootd intégrée au produit Cluster de développement de 50 noeuds au CC- IN2P3 (olert par DELL ) => Chargement de 400 TB de données en cours Contributeurs extérieurs bienvenus: http://www.slac.stanford.edu/exp/lsst/qserv/ LSST/FRANCE AVRIL 2015 7

LSST/FRANCE AVRIL 2015 8

PetaSky Programme de la MI du CNRS : mégadonnées (Mastodons GDR Madics) dans le contexte astrophysique IN2P3 LPC, CCIN2P3 Qserv, Bases de données APC photo-z LAL visualisation d'images INSU LAM Exoplanètes, Euclid OBSPM, U. Besançon GAIA (Voie Lactée, Astéroïdes, CU9) INS2I LIMOS, LIRIS, PriSM Base de données, fouille LIF, LIRMM fouille visuelle LaBRI algorithmique INSMI Ceremade, LPP statistique ~ 45 participants 22/1/15 Emmanuel Gangler Workshop Mastodons 1/16

R&D Bases de données Qserv : baseline de référence benchmarking, analyse des limitations Contexte théorique des systèmes d'intégration User query Answe r MEDIATOR Global Schema G Mappings M scientific Data Web data Documents XML DBMS Data warehouse data Other sources Data sources S prototypage (InTheMidst), étude des optimisations 22/1/15 Emmanuel Gangler Workshop Mastodons 2/16

R&D Bases de données Approches exploratoires Modèle relationnel pour LSST? diffculté d'insersion, valeurs peu accédées Map/Reduce (HadoopDB, Hive, ) Map : pousser les traitements vers les données Reduce : pousser les données vers les traitements benchmarking : mise en évidence de limitations Optimisation complexe Coût réseau Division en 2 traitements BSP (Bulk Synchronous Parallel) Méthode basée sur les graphes Algorithmique en cours de développement Mise en place d'une plateforme de test 22/1/15 Emmanuel Gangler Workshop Mastodons 3/16

Fouille de données Photo-z comme cas d'école Quelques travaux préliminaires côté info Convergence culturelle lente... Neural network Deep Learning Algorithmiques passant à l'échelle Ou comment ne pas regarder tout, mais seulement ce qui est intéressant, au prix d'approximations Fouille guidée par l'expert (généralisation d'hypothèses ou de relations) Abstraction des données (représentations résumées ) encore préliminaire 22/1/15 Emmanuel Gangler Workshop Mastodons 4/16

BigSkyEarth Consortium européen Big Data Astro et Géo Kick-off 2015... 24 pays, 3 communautés... un peu auberge espagnole, mais... Contacts avec Astrostatistique, communauté des VO Présence de LSST au niveau européen Anglais 120 PI (Victor Debattista) Serbie 4 PI (Darko Jeremovic) transients de LSST (AlertSim) Espagne (Johan Knappen) Allemagne (qq dizaines de PI, non présents dans le COST) + autres (Hongrie, Coratie, Pologne, R. Tchéque, Slovénie, Autriche) Workshops et Training Schools 22/1/15 Emmanuel Gangler Workshop Mastodons 5/16

COIN Initiative hébergée par l' IAA (International Astrostatistics Association) ~30 participants, surtout post-docs Statistique (Approximated Bayesian Computaion, Generalized Linear Models, Gaussian Mixtures...) Appliquée à la cosmo (photo-z, estimation des paramètres cosmo, supernovae, galaxy clusters,...) Ex : «The Overlooked Potential of Generalized Linear Models in Astronomy-II: Gamma regression and photometric redshifts» arxiv 1409.7699 Code rapide (quelques secondes sur laptop), ~2% catastrophiques (SDSS) 22/1/15 Emmanuel Gangler Workshop Mastodons 6/16

En guise de conclusions Collaborations pluridisciplinaires Ouverture sur d'autres communautés Temps d'acculturation important Enrichissement scientifque (méthodes, outils) Intérêt pour les données LSST Retour d'expérience Modèle de travail Faire nos analyses, tirer parti des idées des autres. Guider la conception des outils (via la nature des données) Moyens associés (missions, RH sur appels d'offre...) 22/1/15 Emmanuel Gangler Workshop Mastodons 7/16