Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Dimension: px
Commencer à balayer dès la page:

Download "Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet"

Transcription

1 Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1

2 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData computationnel, le temps de la convergence? 2

3 Le calcul scientifique au CNES Deux grandes familles de calcul 1) Simulation numérique Phase «amont» des projets Type de calcul usuel en HPC, «outil» de la science expérimentale contemporaine. champs d application : CFD, Combustion, Electromagnétisme, Mécanique spatiale, CPU intensif Bande passante mémoire importante Parallélisme à grain fin (1 job / multiple process) Tendances : multi échelle, multi physique (couplage de codes) 3

4 Le calcul scientifique au CNES Deux grandes familles de calcul 2) Traitement de données Phase «aval» des projets Traitement des données brutes provenant des senseurs satellites en données intelligibles pour une communauté scientifique : Terre: Etude du climat (hydrographie, salinité, océan circulation, etc.), Imagerie (cartographie, etc.), Altimetrie, Univers : Cosmologie (matière noire, rayonnement cosmologique, etc.), Astrométrie (catalogue d objets) I/O intensif Parallélisme gros grain (multiple jobs séquentiels) Contrainte opérationnelle (temps de restitution borné) Tendance : augmentation du volume 4

5 Le calcul scientifique au CNES et une nouvelle classe de problème de traitement 3) Traitement de données orienté «Big Data» Dataset trop important pour être traité sur la P/F existante Volume et type d accès aux données mettant en échec les technologies usuelles Besoin d un nouveau paradigme : Map/Reduce CPU intensif ET I/O intensif 5

6 Les enjeux : - Produire une cartographie 3D de notre proche galaxie - Localisation de plus d un milliard d objets avec une précision inégalée - Détermination des paramètres stellaires/astrophysiques Gaia Le centre de mission : - DPAC = 6 centres de traitement - DPCC (centre de traitement CNES) : - 3 CU (coordination units) - 10 chaines scientifiques - 60 modules scientifiques - 60 développeurs EU 6

7 Gaia Les chiffres: - 3Po de données (1 pile de DVD aussi haute que 4 tours montparnasse) milliards d entrée dans la base de données (100 fois plus que la base de données du projet Corot) - Complexité des requêtes d accès - Plus de 1000 connexions concurrentes à la base 7 GAIA est un projet à l échelle du «BigData». Une CRIP solution 16/10/2013 dédiée est nécessaire.

8 Focus sur un projet Hadoop : Etude technologique ( ) Critères d évaluation» Performance : ingestion, une requête complexe» Scalabilité de la solution» Fiabilité (data safety)» Impacts sur l existant (software et hardware)» Coût global de la solution sur la durée de la mission (jusqu à 2022)» Pérennité de la solution» Utilitaires d administation/supervision Analyse de performance» Jeux de données identiques» Comparaison avec la solution originelle basée sur PostgreSQL.» Ecriture/Lecture massive de données (taille objects : petite et moyenne)» Requêtes complexes 8

9 Objects/s. Focus sur un projet Hadoop : Test de performance Hadoop Caché PostgreSql Cassandra MongoDb Object Number Hadoop Cassandra Caché, PostgreSql, MongoDb Scalabilité hadoop OK 9

10 Focus sur un projet Hadoop : Solution choisie par le DPCC Migrer sur Hadoop n a rien changé au niveau des chaînes scientifiques (Facade pattern) Quelques impacts sur l architecture du gestionnaire de workflow (orchestration) 10

11 Focus sur un projet Hadoop : Solution choisie par le DPCC Hadoop : Ordonnanceur de travaux batch : paradigme Map/Reduce (distributed computing, parallélisme gros grain) Système de fichiers parallèle HDFS Principe : Amener le calcul à la donnée Advantages : vitesse flexibilité scalabilité écosystème logiciel Hadoop 11

12 Focus sur un projet Hadoop : Cascading une API Java pour les developpeurs au dessus de la couche Hadoop MapReduce les process Cascading sont traduites à la volée en tâches Map Reduce (5% d overhead constaté) permet des opérations complexes (proches de SQL : join, group, ) sans penser en MapReduce 12

13 Déclinaison matérielle BigData et HPC DPCC cluster Specifications hardware : Masternodes : DELL R620 GlusterFS nodes : DELL R720 Datanodes : DELL C6220» 12 cœurs» 48 Go RAM» Stockage 12To (JBOD) Réseau Ethernet» 10Gb interbaie» 1Gb intrabaie Configuration globale cible :» ~ 6500 cores» ~ 10 TB RAM» ~ 3PB» ~ 120 Tflops 13

14 Déclinaison matérielle BigData et HPC HPC cluster Hardware specifications Nœuds master : DELL R420 Nœuds de calcul : DELL C6220» 16 cores» 64 GB RAM» Stockage local 0,5 TB (RAID0) Stockage parallèle : GPFS» 260 To, 8Go/s Réseau Infiniband Configuration actuelle :» 1700 cores» 6,5 TB RAM» 35 Tflops 14

15 Déclinaison matérielle BigData et HPC Convergence des solutions Comment fusionner les P/F HPC et «BigData computationnel»? recherche d optimisation de coût (acquisition, maintenance, infogérance) Impact au niveau de l infrastructure Densification implique haute consommation des racks Des solutions arrivent (découplage MR/HDFS)» Logicielle : Yarn, MR+, Intel Hadoop, LSF, SLURM» Matérielle : Lustre, RHS, 15

16 Conclusion Le BigData au CNES : première expérience réussie dans un contexte orienté calcul. De nouvelles solutions ont émergé, veille technologique cruciale. Besoins CNES en continuelle évolution : nouveaux projets identifiés à l échelle 10Po. Convergence des P/F pour optimiser les coûts 16

17 Merci pour votre attention

18 Annexe1 : To cloud or not to cloud? Public cloud, open questions What kind of hardware quid of Numercial precision (IEE754 compliance)? highly optimized codes? Data integrity : duplication across multiple sites? Data transfer : feasibility and cost (cost model f (volume+compute+network) Intercenter network bottleneck (need of solution such as Aspera or Fedex!) Data dissemination (high access rate : geoportail model) Fixed and well controled actual compute and storage demand. 18

19 Annexe1 : To cloud or not to cloud? Public cloud Seems suitable for certain kind of workload Small to medium data re/processing campaign (large number of independant sequential jobs) Pay attention to the transfered volume Difficult for other ones : Numerical simulation, parallel, higly optimized Data volume Very sensitive codes to the numerical precision 19

20 Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Iterative processing 6 month Data Reduction Cycles At current estimates AGIS will run 2 weeks every 6 months Amount of data increases over the 5 year mission AGIS Peak Processing (Hours) Hours AGIS 6 monthly processing 0 Date 20

21 Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Highly distributed usually running on >40 nodes has run on >100 (1400 threads). Only uses Java no special MPI libraries needed new languages come with almost all you need. Hard part is breaking problem in distributable parts no language really helps with that. Truly portable can run on laptops desktops, clusters and even Amazon cloud. 21

22 Annexe 2 : exemple SELECT astroobservation.data as observation, astroelementary.data as aelementary, newsource.data as nsource FROM match join newsource using (sourceid) join astroobservation using (transitid) ( transitid ) join astroelementary using WHERE flag =2 22

23 Annexe 2 : exemple 15 steps 23

24 Annexe 2 : exemple 7 steps 24

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Les données massives à Calcul Québec

Les données massives à Calcul Québec Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Infrastructures Parallèles de Calcul

Infrastructures Parallèles de Calcul Infrastructures Parallèles de Calcul Clusters Grids Clouds Stéphane Genaud 11/02/2011 Stéphane Genaud () 11/02/2011 1 / 8 Clusters - Grids - Clouds Clusters : assemblage de PCs + interconnexion rapide

Plus en détail

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009 Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009 Pôle de Calcul Intensif pour la mer, 11 Decembre 2009 CAPARMOR 2 La configuration actuelle Les conditions d'accès à distance règles d'exploitation

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Tier1 at the CC-IN2P3. March 2004

Tier1 at the CC-IN2P3. March 2004 Tier1 at the CC-IN2P3 March 2004 Current state at the CC-IN2P3 storage, computation, network... Architecture Cluster - +1000 processors (90% Linux Redhat 7.2) - Job submissions : BQS - Parallel computation

Plus en détail

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Laboratoire LaTICE Univ. de Tunis INRIA LYON Avalon Team Laboratoire d Informatique de Paris Nord (LIPN) BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Heithem Abbes Heithem Abbes Rencontres

Plus en détail

Détection d'intrusions en environnement haute performance

Détection d'intrusions en environnement haute performance Symposium sur la Sécurité des Technologies de l'information et des Communications '05 Détection d'intrusions en environnement haute performance Clusters HPC Fabrice Gadaud (fabrice.gadaud@cea.fr) 1 Sommaire

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D

EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D Hugues Prisker Séminaire Aristote - 5 Février 2015 SI SCIENTIFIQUE EDF R&D EN QUELQUES CHIFFRES (2015) 1000 utilisateurs 150

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire

Plus en détail

DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com

DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com #solconnect13 SOLUTIONS ADAPTEES AUX BESOINS CLIENTS Mobile/Cloud Data Serving and Transaction Processing Mobile Storefront JSON Database

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Journée Utiliateurs 2015. Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Journée Utiliateurs 2015. Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS Journée Utiliateurs 2015 Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS 1 Pôle ID, Grid'5000 Ciment Une proximité des platesformes Autres sites G5K Grenoble + CIMENT Pôle ID = «Digitalis»

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Services à la recherche: Data Management et HPC *

Services à la recherche: Data Management et HPC * Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu

Plus en détail

Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI

Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI Responsable Service Informatique Ingénieure Systèmes & Réseaux Ingénieur High Performance Computing

Plus en détail

Benchmarks. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble.

Benchmarks. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble. (Merci à Ludovic Saugé) Françoise BERTHOUD, Francoise.Berthoud@grenoble.cnrs.fr Les benchmarks

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Les mésocentres HPC àportée de clic des utilisateurs industriels

Les mésocentres HPC àportée de clic des utilisateurs industriels Les mésocentres HPC àportée de clic des utilisateurs industriels Université de Reims Champagne-Ardenne (URCA) Centre de Calcul ROMEO Multidisciplinary university more than 22 000 students a wide initial

Plus en détail

Cassandra et Spark pour gérer la musique On-line

Cassandra et Spark pour gérer la musique On-line Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani

Plus en détail

Introduction au Massive Data

Introduction au Massive Data Introduction au Massive Data Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE Sylvain SIOU VMware Laurent DELAISSE Hitachi Data Systems 1 Hitachi Data Systems Corporation 2012. All Rights Reserved

Plus en détail

Thomas Loubrieu (Ifremer) Small to Big Data. http://wwz.ifremer.fr/bigdata. 26 Novembre 2013, Ifremer, Brest

Thomas Loubrieu (Ifremer) Small to Big Data. http://wwz.ifremer.fr/bigdata. 26 Novembre 2013, Ifremer, Brest Thomas Loubrieu (Ifremer) Small to Big Data 26 Novembre 2013, Ifremer, Brest http://wwz.ifremer.fr/bigdata Small to Big data IFREMER/IDM/ISI T. Loubrieu Résumé A partir d'expériences en gestion de données

Plus en détail

Perspectives pour le stockage des données scientifiques. Jean-Yves Nief (CC-IN2P3)

Perspectives pour le stockage des données scientifiques. Jean-Yves Nief (CC-IN2P3) Perspectives pour le stockage des Jean-Yves Nief (CC-IN2P3) Vue d ensemble de la présentation! Etat des lieux pour le stockage des données.! Evolutions matérielles: Disque dur, SSD, bandes magnétiques.!

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse Pascale Borla-Salamet Consultante Avant Vente Oracle France Oracle Exadata Performance et Optimisation de votre Datawarehouse Agenda Les nouveaux challenges Exadata Storage Server Oracle Database Machine

Plus en détail

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud Grid and Cloud Computing Problématique Besoins de calcul croissants Simulations d'expériences coûteuses ou dangereuses Résolution de

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Big Data par l exemple

Big Data par l exemple #PARTAGE Big Data par l exemple Alexandre Chauvin Hameau Directeur de la production Malakoff Médéric @achauvin CT BIG DATA 10/12/2015 Soyons pragmatiques BIG DATA beaucoup de bruit pour des choses finalement

Plus en détail

CRIHAN Centre de Ressources Informatiques de HAute-Normandie

CRIHAN Centre de Ressources Informatiques de HAute-Normandie ACT-MG-v2 CRIHAN Centre de Ressources Informatiques de HAute-Normandie Journée Entreprises & HPC-PME au CRIHAN - 11 avril 2013 CRIHAN Missions Concept : mutualisation de services et d équipements Réseau

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

CIMENT et les grilles

CIMENT et les grilles CIMENT et les grilles CIMENT - University of Grenoble april 2012 CIMENT et les grilles 1 2 3 4 5 Outline 1 2 3 4 5 Qu est-ce qu une grille de calcul? Dans notre contexte (HPC), une grille de calcul permet

Plus en détail

Gestion de gros volumes de données

Gestion de gros volumes de données Gestion de gros volumes de données Cas des projets CEDAR et PetaSky Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Introduction SIO Utilisation Conclusion Cluster au SIO

Introduction SIO Utilisation Conclusion Cluster au SIO Cluster au SIO ALBERT SHIH 1 1 Observatoire de Paris - Meudon 21 février 2008 Type de «machines» de calcul Mémoire partagée Tous les processeurs accèdent à toute la mémoire avec un même espace d adressage.

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

M2 GL UE DOC «In memory analytics»

M2 GL UE DOC «In memory analytics» M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Retour d expérience noeud de stockage BeeGFS

Retour d expérience noeud de stockage BeeGFS Retour d expérience noeud de stockage BeeGFS Philippe Dos Santos / Georges Raseev Fédération de Recherche Lumière Matière 06 novembre 2014 LOGO CNRS LOGO IO Philippe Dos Santos / Georges Raseev (FédérationRetour

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER. François BOTTON Product Marketing Manager

LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER. François BOTTON Product Marketing Manager LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER François BOTTON Product Marketing Manager LES PRIORITÉS DES DSI UNE MEILLEURE AGILITÉ Le déploiement rapide d'applications

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Conserver les Big Data, source de valeur pour demain

Conserver les Big Data, source de valeur pour demain Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers

Plus en détail

Date: 09/11/15 www.crmconsult.com Version: 2.0

Date: 09/11/15 www.crmconsult.com Version: 2.0 Date: 9/11/2015 contact@crmconsult.fr Page 1 / 10 Table des matières 1 SUGARPSHOP : SCHEMA... 3 2 PRESENTATION... 4 3 SHOPFORCE WITH SCREENSHOTS... 5 3.1 CLIENTS... 5 3.2 ORDERS... 6 4 INSTALLATION...

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Accès aux données Sentinelles

Accès aux données Sentinelles Accès aux données Sentinelles Hervé Jeanjean - CNES Ministère de l'écologie, du Développement durable, et de l Énergie www.developpement-durable.gouv.fr Contexte Un changement de paradigme majeur Big data

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014 SIGAMM/ COMMISSION UTILISATEUR du 05/12/2014 ORDRE DU JOUR : - Rôle de la commission, - Présentation de la nouvelle plateforme, - Accès Mésocentre, - Point sur les problèmes rencontrés, - Propositions

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Centre de calcul de l ub

Centre de calcul de l ub Centre de calcul de l ub Formation Présentation et utilisation du cluster de Calcul Antoine Migeon ccub@u-bourgogne.fr Tel : 5205 ou 5270 Le Centre de Calcul de l ub (ccub) Dédié à l enseignement et à

Plus en détail

Rappels. Génie logiciel. Implemented tactics. Oldest architecture: Batch-Sequential

Rappels. Génie logiciel. Implemented tactics. Oldest architecture: Batch-Sequential Rappels Génie logiciel Philippe Dugerdil Composants, packages Couches & dépendances Principes de structuration Réutilisation / responsabilité Réutilisation & composants 09.12.2010 Oldest architecture:

Plus en détail

Traitement des données Gaia. Aperçu, organisation Participation française. ---- F. Mignard. OCA/Cassiopée. AS Gaia - 18/12/07 Meudon

Traitement des données Gaia. Aperçu, organisation Participation française. ---- F. Mignard. OCA/Cassiopée. AS Gaia - 18/12/07 Meudon Traitement des données Gaia Aperçu, organisation Participation française ---- F. Mignard OCA/Cassiopée 1 Sommaire Le traitement de données Formation & organisation du DPAC Participation Française 2 3 I-

Plus en détail

Camptocamp. State of the art of the creation of GIS rich internet application. OGRS 2009, Nantes, Cédric Moullet, CTO Camptocamp

Camptocamp. State of the art of the creation of GIS rich internet application. OGRS 2009, Nantes, Cédric Moullet, CTO Camptocamp Camptocamp State of the art of the creation of GIS rich internet application OGRS 2009, Nantes, Cédric Moullet, CTO Camptocamp camptocamp SA / www.camptocamp.com / info@camptocamp.com Agenda Web 2.0 Creation

Plus en détail

Cours 13. RAID et SAN. 2004, Marc-André Léger

Cours 13. RAID et SAN. 2004, Marc-André Léger Cours 13 RAID et SAN Plan Mise en contexte Storage Area Networks Architecture Fibre Channel Network Attached Storage Exemple d un serveur NAS EMC2 Celerra Conclusion Démonstration Questions - Réponses

Plus en détail

3 ème journée des utilisateurs de l archivage

3 ème journée des utilisateurs de l archivage Université Lille 2 CINES Département Archivage et Diffusion 3 ème journée des utilisateurs de l archivage 9 juin 2015 JOURNEE INTERNATIONALE Mardi 9 juin 2015 des ARCHIVES Et on la fête absolument partout

Plus en détail

Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs

Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs Marc Mendez-Bermond Expert solutions HPC Programme Contexte Technologies Evolutions 2 Confidentiel Research

Plus en détail

SysFera. Benjamin Depardon

SysFera. Benjamin Depardon SysFera Passage d applications en SaaS Benjamin Depardon CTO@SysFera SysFera Technologie 2001 Création 2010 Spin Off INRIA Direction par un consortium d investisseurs 12 personnes 75% en R&D Implantation

Plus en détail

VMware : De la Virtualisation. au Cloud Computing

VMware : De la Virtualisation. au Cloud Computing VMware : De la Virtualisation. au Cloud Computing Tunis, le 12 Décembre 2012 Jamal Belhachemi BDM South EMEA 2010 VMware, Inc. Tous droits réservés. 2010 #1 dans les priorités des Directeurs Informatiques

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Big Data et HPC. Session «Le Big Data dans la recherche scien4fique» Conférence Big Data Paris Stéphane REQUENA, Responsable Technique, GENCI

Big Data et HPC. Session «Le Big Data dans la recherche scien4fique» Conférence Big Data Paris Stéphane REQUENA, Responsable Technique, GENCI Session «Le Big Data dans la recherche scien4fique» Conférence Big Data Paris Stéphane REQUENA, Responsable Technique, GENCI Calcul intensif (HPC) Théorie ExpérimentaFon SimulaFon numérique Le calcul intensif

Plus en détail

Cloud Computing et Calcul Haute Performance (HPC High Performance C

Cloud Computing et Calcul Haute Performance (HPC High Performance C Cloud Computing et Calcul Haute Performance (HPC High Performance Computing) LIG/UJF/INPG/CNRS/UPMF/INRIA 21 octobre, 2011, Formation-CNRS/ANGD Sommaire Généralité, Historique et Classification Modèle

Plus en détail

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData NoSql Principes Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData Les SGBD NoSql partagés ne peuvent satisfaire que 2 critères au plus NoSql Les transactions

Plus en détail

Mise en place d'un cluster

Mise en place d'un cluster Mise en place d'un cluster par David Dessailly & Régis Sion UMR8187- LOG Laboratoire d'océanologie et de Géosciences MREN Université du Littoral Côte d'opale. MIn2RIEN Mise en place d'un cluster 13 février

Plus en détail

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager Photobox Amazon RedShift Maxime Mézin Data Foundation Manager Présentation de Photobox Leader Européen du tirage et du livre photo 25 millions de clients 17 pays, dernière ouverture il y a 6 mois en Australie

Plus en détail

Package Contents. System Requirements. Before You Begin

Package Contents. System Requirements. Before You Begin Package Contents DWA-125 Wireless 150 USB Adapter CD-ROM (contains software, drivers, and manual) Cradle If any of the above items are missing, please contact your reseller. System Requirements A computer

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Testing : A Roadmap. Mary Jean Harrold. Présentation de Olivier Tissot

Testing : A Roadmap. Mary Jean Harrold. Présentation de Olivier Tissot Testing : A Roadmap Mary Jean Harrold Présentation de Olivier Tissot Testing : A Roadmap I. L auteur II. Introduction sur les test : les enjeux, la problématique III. Les tests : roadmap IV. Conclusion

Plus en détail

Change the game with smart innovation

Change the game with smart innovation Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3

Plus en détail

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager 2009 IBM Corporation Une offre IBM optimisée pour les infrastructures dynamiques Réduire les coûts Améliorer

Plus en détail

Ne cherchez plus, soyez informés! Robert van Kommer

Ne cherchez plus, soyez informés! Robert van Kommer Ne cherchez plus, soyez informés! Robert van Kommer Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2 Le contexte

Plus en détail

Cycle de vie, processus de gestion

Cycle de vie, processus de gestion Les données scientifiques au CNES Cycle de vie, processus de gestion Danièle BOUCON Réunion PIN du 4 janvier 2013 Réunion PIN du 22 mars 2012 Outils CNES Contexte des données scientifiques au CNES SOMMAIRE

Plus en détail

DevOps / SmartCloud Orchestrator. Dominique Lacassagne Cloud Architect

DevOps / SmartCloud Orchestrator. Dominique Lacassagne Cloud Architect DevOps / SmartCloud Orchestrator Dominique Lacassagne Cloud Architect DevOps / SmartCloud Orchestrator ( SCO ) Introduction: where does SCO fit in the DevOps story? A quick review of SCO main features

Plus en détail

Les environnements de calcul distribué

Les environnements de calcul distribué 2 e Atelier CRAG, 3 au 8 Décembre 2012 Par Blaise Omer YENKE IUT, Université de Ngaoundéré, Cameroun. 4 décembre 2012 1 / 32 Calcul haute performance (HPC) High-performance computing (HPC) : utilisation

Plus en détail

Titre : La BI vue par l intégrateur Orange

Titre : La BI vue par l intégrateur Orange Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail