Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Dimension: px
Commencer à balayer dès la page:

Download "Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet"

Transcription

1 Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1

2 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData computationnel, le temps de la convergence? 2

3 Le calcul scientifique au CNES Deux grandes familles de calcul 1) Simulation numérique Phase «amont» des projets Type de calcul usuel en HPC, «outil» de la science expérimentale contemporaine. champs d application : CFD, Combustion, Electromagnétisme, Mécanique spatiale, CPU intensif Bande passante mémoire importante Parallélisme à grain fin (1 job / multiple process) Tendances : multi échelle, multi physique (couplage de codes) 3

4 Le calcul scientifique au CNES Deux grandes familles de calcul 2) Traitement de données Phase «aval» des projets Traitement des données brutes provenant des senseurs satellites en données intelligibles pour une communauté scientifique : Terre: Etude du climat (hydrographie, salinité, océan circulation, etc.), Imagerie (cartographie, etc.), Altimetrie, Univers : Cosmologie (matière noire, rayonnement cosmologique, etc.), Astrométrie (catalogue d objets) I/O intensif Parallélisme gros grain (multiple jobs séquentiels) Contrainte opérationnelle (temps de restitution borné) Tendance : augmentation du volume 4

5 Le calcul scientifique au CNES et une nouvelle classe de problème de traitement 3) Traitement de données orienté «Big Data» Dataset trop important pour être traité sur la P/F existante Volume et type d accès aux données mettant en échec les technologies usuelles Besoin d un nouveau paradigme : Map/Reduce CPU intensif ET I/O intensif 5

6 Les enjeux : - Produire une cartographie 3D de notre proche galaxie - Localisation de plus d un milliard d objets avec une précision inégalée - Détermination des paramètres stellaires/astrophysiques Gaia Le centre de mission : - DPAC = 6 centres de traitement - DPCC (centre de traitement CNES) : - 3 CU (coordination units) - 10 chaines scientifiques - 60 modules scientifiques - 60 développeurs EU 6

7 Gaia Les chiffres: - 3Po de données (1 pile de DVD aussi haute que 4 tours montparnasse) milliards d entrée dans la base de données (100 fois plus que la base de données du projet Corot) - Complexité des requêtes d accès - Plus de 1000 connexions concurrentes à la base 7 GAIA est un projet à l échelle du «BigData». Une CRIP solution 16/10/2013 dédiée est nécessaire.

8 Focus sur un projet Hadoop : Etude technologique ( ) Critères d évaluation» Performance : ingestion, une requête complexe» Scalabilité de la solution» Fiabilité (data safety)» Impacts sur l existant (software et hardware)» Coût global de la solution sur la durée de la mission (jusqu à 2022)» Pérennité de la solution» Utilitaires d administation/supervision Analyse de performance» Jeux de données identiques» Comparaison avec la solution originelle basée sur PostgreSQL.» Ecriture/Lecture massive de données (taille objects : petite et moyenne)» Requêtes complexes 8

9 Objects/s. Focus sur un projet Hadoop : Test de performance Hadoop Caché PostgreSql Cassandra MongoDb Object Number Hadoop Cassandra Caché, PostgreSql, MongoDb Scalabilité hadoop OK 9

10 Focus sur un projet Hadoop : Solution choisie par le DPCC Migrer sur Hadoop n a rien changé au niveau des chaînes scientifiques (Facade pattern) Quelques impacts sur l architecture du gestionnaire de workflow (orchestration) 10

11 Focus sur un projet Hadoop : Solution choisie par le DPCC Hadoop : Ordonnanceur de travaux batch : paradigme Map/Reduce (distributed computing, parallélisme gros grain) Système de fichiers parallèle HDFS Principe : Amener le calcul à la donnée Advantages : vitesse flexibilité scalabilité écosystème logiciel Hadoop 11

12 Focus sur un projet Hadoop : Cascading une API Java pour les developpeurs au dessus de la couche Hadoop MapReduce les process Cascading sont traduites à la volée en tâches Map Reduce (5% d overhead constaté) permet des opérations complexes (proches de SQL : join, group, ) sans penser en MapReduce 12

13 Déclinaison matérielle BigData et HPC DPCC cluster Specifications hardware : Masternodes : DELL R620 GlusterFS nodes : DELL R720 Datanodes : DELL C6220» 12 cœurs» 48 Go RAM» Stockage 12To (JBOD) Réseau Ethernet» 10Gb interbaie» 1Gb intrabaie Configuration globale cible :» ~ 6500 cores» ~ 10 TB RAM» ~ 3PB» ~ 120 Tflops 13

14 Déclinaison matérielle BigData et HPC HPC cluster Hardware specifications Nœuds master : DELL R420 Nœuds de calcul : DELL C6220» 16 cores» 64 GB RAM» Stockage local 0,5 TB (RAID0) Stockage parallèle : GPFS» 260 To, 8Go/s Réseau Infiniband Configuration actuelle :» 1700 cores» 6,5 TB RAM» 35 Tflops 14

15 Déclinaison matérielle BigData et HPC Convergence des solutions Comment fusionner les P/F HPC et «BigData computationnel»? recherche d optimisation de coût (acquisition, maintenance, infogérance) Impact au niveau de l infrastructure Densification implique haute consommation des racks Des solutions arrivent (découplage MR/HDFS)» Logicielle : Yarn, MR+, Intel Hadoop, LSF, SLURM» Matérielle : Lustre, RHS, 15

16 Conclusion Le BigData au CNES : première expérience réussie dans un contexte orienté calcul. De nouvelles solutions ont émergé, veille technologique cruciale. Besoins CNES en continuelle évolution : nouveaux projets identifiés à l échelle 10Po. Convergence des P/F pour optimiser les coûts 16

17 Merci pour votre attention

18 Annexe1 : To cloud or not to cloud? Public cloud, open questions What kind of hardware quid of Numercial precision (IEE754 compliance)? highly optimized codes? Data integrity : duplication across multiple sites? Data transfer : feasibility and cost (cost model f (volume+compute+network) Intercenter network bottleneck (need of solution such as Aspera or Fedex!) Data dissemination (high access rate : geoportail model) Fixed and well controled actual compute and storage demand. 18

19 Annexe1 : To cloud or not to cloud? Public cloud Seems suitable for certain kind of workload Small to medium data re/processing campaign (large number of independant sequential jobs) Pay attention to the transfered volume Difficult for other ones : Numerical simulation, parallel, higly optimized Data volume Very sensitive codes to the numerical precision 19

20 Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Iterative processing 6 month Data Reduction Cycles At current estimates AGIS will run 2 weeks every 6 months Amount of data increases over the 5 year mission AGIS Peak Processing (Hours) Hours AGIS 6 monthly processing 0 Date 20

21 Annexe1 : To cloud or not to cloud? Some good examples Gaia AGIS peaks (ESA) Highly distributed usually running on >40 nodes has run on >100 (1400 threads). Only uses Java no special MPI libraries needed new languages come with almost all you need. Hard part is breaking problem in distributable parts no language really helps with that. Truly portable can run on laptops desktops, clusters and even Amazon cloud. 21

22 Annexe 2 : exemple SELECT astroobservation.data as observation, astroelementary.data as aelementary, newsource.data as nsource FROM match join newsource using (sourceid) join astroobservation using (transitid) ( transitid ) join astroelementary using WHERE flag =2 22

23 Annexe 2 : exemple 15 steps 23

24 Annexe 2 : exemple 7 steps 24

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Les données massives à Calcul Québec

Les données massives à Calcul Québec Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Infrastructures Parallèles de Calcul

Infrastructures Parallèles de Calcul Infrastructures Parallèles de Calcul Clusters Grids Clouds Stéphane Genaud 11/02/2011 Stéphane Genaud () 11/02/2011 1 / 8 Clusters - Grids - Clouds Clusters : assemblage de PCs + interconnexion rapide

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

Détection d'intrusions en environnement haute performance

Détection d'intrusions en environnement haute performance Symposium sur la Sécurité des Technologies de l'information et des Communications '05 Détection d'intrusions en environnement haute performance Clusters HPC Fabrice Gadaud (fabrice.gadaud@cea.fr) 1 Sommaire

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Comment faire face à l'explosion de données?

Comment faire face à l'explosion de données? Comment faire face à l'explosion de données? Taxinomie du stockage non structuré antoine.tabary@ fr.ibm.com Architecte Software Defined Storage Les modèles traditionnels de stockage sont mis à mal par

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire

Plus en détail

CRIHAN Centre de Ressources Informatiques de HAute-Normandie

CRIHAN Centre de Ressources Informatiques de HAute-Normandie ACT-MG-v2 CRIHAN Centre de Ressources Informatiques de HAute-Normandie Journée Entreprises & HPC-PME au CRIHAN - 11 avril 2013 CRIHAN Missions Concept : mutualisation de services et d équipements Réseau

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009 Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009 Pôle de Calcul Intensif pour la mer, 11 Decembre 2009 CAPARMOR 2 La configuration actuelle Les conditions d'accès à distance règles d'exploitation

Plus en détail

Benchmarks. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble.

Benchmarks. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble. Ensemble de codes permettant de tester la fonctionnalité et les performances d'une solution HPC dans son ensemble. (Merci à Ludovic Saugé) Françoise BERTHOUD, Francoise.Berthoud@grenoble.cnrs.fr Les benchmarks

Plus en détail

Introduction SIO Utilisation Conclusion Cluster au SIO

Introduction SIO Utilisation Conclusion Cluster au SIO Cluster au SIO ALBERT SHIH 1 1 Observatoire de Paris - Meudon 21 février 2008 Type de «machines» de calcul Mémoire partagée Tous les processeurs accèdent à toute la mémoire avec un même espace d adressage.

Plus en détail

Journée Utiliateurs 2015. Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Journée Utiliateurs 2015. Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS Journée Utiliateurs 2015 Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS 1 Pôle ID, Grid'5000 Ciment Une proximité des platesformes Autres sites G5K Grenoble + CIMENT Pôle ID = «Digitalis»

Plus en détail

Retour d expérience noeud de stockage BeeGFS

Retour d expérience noeud de stockage BeeGFS Retour d expérience noeud de stockage BeeGFS Philippe Dos Santos / Georges Raseev Fédération de Recherche Lumière Matière 06 novembre 2014 LOGO CNRS LOGO IO Philippe Dos Santos / Georges Raseev (FédérationRetour

Plus en détail

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Laboratoire LaTICE Univ. de Tunis INRIA LYON Avalon Team Laboratoire d Informatique de Paris Nord (LIPN) BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Heithem Abbes Heithem Abbes Rencontres

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs

Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs Evolution des technologies de calcul intensif vers les systèmes multi-cœurs et accélérateurs Marc Mendez-Bermond Expert solutions HPC Programme Contexte Technologies Evolutions 2 Confidentiel Research

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

Introduction au Massive Data

Introduction au Massive Data Introduction au Massive Data Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD Xe, RAFF et StableTrac sont des marques de Western Digital

Plus en détail

Thomas Loubrieu (Ifremer) Small to Big Data. http://wwz.ifremer.fr/bigdata. 26 Novembre 2013, Ifremer, Brest

Thomas Loubrieu (Ifremer) Small to Big Data. http://wwz.ifremer.fr/bigdata. 26 Novembre 2013, Ifremer, Brest Thomas Loubrieu (Ifremer) Small to Big Data 26 Novembre 2013, Ifremer, Brest http://wwz.ifremer.fr/bigdata Small to Big data IFREMER/IDM/ISI T. Loubrieu Résumé A partir d'expériences en gestion de données

Plus en détail

Une nouvelle génération de serveur

Une nouvelle génération de serveur Séminaire Aristote 27 Mars 2013 Une nouvelle génération de serveur Sommaire L'équipe État de l'art et vision Présentation de l'innovation Les points forts de la solution Cas d'usage Questions? 2 L'équipe

Plus en détail

Présentation CaSciModOT Performances et Architectures

Présentation CaSciModOT Performances et Architectures Présentation CaSciModOT Performances et Architectures Code parallèle : Un peu de théorie Architectures variables : C(n,p)? Quel code? Quelle architecture? Structure d un code : partie parallèle / séquentielle

Plus en détail

Cycle de vie, processus de gestion

Cycle de vie, processus de gestion Les données scientifiques au CNES Cycle de vie, processus de gestion Danièle BOUCON Réunion PIN du 4 janvier 2013 Réunion PIN du 22 mars 2012 Outils CNES Contexte des données scientifiques au CNES SOMMAIRE

Plus en détail

LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER. François BOTTON Product Marketing Manager

LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER. François BOTTON Product Marketing Manager LES SOLUTIONS D INFRASTRUCTURES CONVERGENTES POUR TRANSFORMER VOTRE DATACENTER François BOTTON Product Marketing Manager LES PRIORITÉS DES DSI UNE MEILLEURE AGILITÉ Le déploiement rapide d'applications

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Perspectives pour le stockage des données scientifiques. Jean-Yves Nief (CC-IN2P3)

Perspectives pour le stockage des données scientifiques. Jean-Yves Nief (CC-IN2P3) Perspectives pour le stockage des Jean-Yves Nief (CC-IN2P3) Vue d ensemble de la présentation! Etat des lieux pour le stockage des données.! Evolutions matérielles: Disque dur, SSD, bandes magnétiques.!

Plus en détail

FORMATION HADOOP Administrateur pour Hadoop (Apache)

FORMATION HADOOP Administrateur pour Hadoop (Apache) FORMATION HADOOP Administrateur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de

Plus en détail

Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international

Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international CRiP Thématique Sécurité de l informatique de demain 03/12/14 Agenda Introduction big data et lien avec

Plus en détail

Services à la recherche: Data Management et HPC *

Services à la recherche: Data Management et HPC * Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu

Plus en détail

Cours 13. RAID et SAN. 2004, Marc-André Léger

Cours 13. RAID et SAN. 2004, Marc-André Léger Cours 13 RAID et SAN Plan Mise en contexte Storage Area Networks Architecture Fibre Channel Network Attached Storage Exemple d un serveur NAS EMC2 Celerra Conclusion Démonstration Questions - Réponses

Plus en détail

Gestion de gros volumes de données RDF

Gestion de gros volumes de données RDF LIPADE Université Paris Descartes June 23, 2014 Sommaire 1 2 3 4 Contexte 1 Augmentation considérable des données du Web, RDF 2 Données provenant de multiple sources autonomes, donc 3 Hétérogènes : sémantique

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI

Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI Cluster de calcul Freeware en Océanographie Opérationnelle Bertrand FERRET Carine CASTILLON Mondher CHEKKI Responsable Service Informatique Ingénieure Systèmes & Réseaux Ingénieur High Performance Computing

Plus en détail

DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com

DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com DB2 10.5 BLU Acceleration Francis Arnaudiès f.arnaudies@fr.ibm.com #solconnect13 SOLUTIONS ADAPTEES AUX BESOINS CLIENTS Mobile/Cloud Data Serving and Transaction Processing Mobile Storefront JSON Database

Plus en détail

Retour d expérience d utilisation d un cloud en Astrophysique BOSS. Cécile Cavet, Nicolás Busca, Michèle Detournay.

Retour d expérience d utilisation d un cloud en Astrophysique BOSS. Cécile Cavet, Nicolás Busca, Michèle Detournay. au Retour d expérience d utilisation d un Cloud en Astrophysique : le projet Cécile Cavet, Nicolás Busca, Michèle Detournay Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot 27 Novembre

Plus en détail

La stratégie de stockage au Centre de Calcul du CNES

La stratégie de stockage au Centre de Calcul du CNES Réunion du groupe PIN (Pérennisation des Informations Numériques) La stratégie de stockage au Centre de Calcul du CNES Anne Jean Antoine 17 janvier 2002 Le stockage est crucial... Á Les entreprises ont

Plus en détail

Big Data par l exemple

Big Data par l exemple #PARTAGE Big Data par l exemple Alexandre Chauvin Hameau Directeur de la production Malakoff Médéric @achauvin CT BIG DATA 10/12/2015 Soyons pragmatiques BIG DATA beaucoup de bruit pour des choses finalement

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

Les besoins. Le capital existant. Les nouvelles ambitions. Les projets. Conclusions. Compétences et ressources humaines Les ressources

Les besoins. Le capital existant. Les nouvelles ambitions. Les projets. Conclusions. Compétences et ressources humaines Les ressources Les besoins Le capital existant Compétences et ressources humaines Les ressources Les nouvelles ambitions Les projets Conclusions 2 Les thématiques P2IO reposent sur la production et l exploitation de

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

Tier1 at the CC-IN2P3. March 2004

Tier1 at the CC-IN2P3. March 2004 Tier1 at the CC-IN2P3 March 2004 Current state at the CC-IN2P3 storage, computation, network... Architecture Cluster - +1000 processors (90% Linux Redhat 7.2) - Job submissions : BQS - Parallel computation

Plus en détail

3 ème journée des utilisateurs de l archivage

3 ème journée des utilisateurs de l archivage Université Lille 2 CINES Département Archivage et Diffusion 3 ème journée des utilisateurs de l archivage 9 juin 2015 JOURNEE INTERNATIONALE Mardi 9 juin 2015 des ARCHIVES Et on la fête absolument partout

Plus en détail

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014 SIGAMM/ COMMISSION UTILISATEUR du 05/12/2014 ORDRE DU JOUR : - Rôle de la commission, - Présentation de la nouvelle plateforme, - Accès Mésocentre, - Point sur les problèmes rencontrés, - Propositions

Plus en détail

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager 2009 IBM Corporation Une offre IBM optimisée pour les infrastructures dynamiques Réduire les coûts Améliorer

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Transformations technologiques et nouvelles compétences IT

Transformations technologiques et nouvelles compétences IT Transformations technologiques et nouvelles compétences IT brunosch@microsoft.com Bruno Schröder National Technology Officer Microsoft Belux Prévisions: La disponibilité généralisée de capacités massives

Plus en détail

Rappels. Génie logiciel. Implemented tactics. Oldest architecture: Batch-Sequential

Rappels. Génie logiciel. Implemented tactics. Oldest architecture: Batch-Sequential Rappels Génie logiciel Philippe Dugerdil Composants, packages Couches & dépendances Principes de structuration Réutilisation / responsabilité Réutilisation & composants 09.12.2010 Oldest architecture:

Plus en détail

Titre : La BI vue par l intégrateur Orange

Titre : La BI vue par l intégrateur Orange Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr Données structurées (RDBMS) Exiger de strictement être organisé Annexer à RDBMS sans couture Consultable

Plus en détail

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus Mr Romaric SAGBO Ministère de l'economie et des Finances (MEF), Bénin SWD Technologies Email : rask9@yahoo.fr Tél : +229 97217745

Plus en détail

Renouvellement des ressources

Renouvellement des ressources ACT-MG-v2 Renouvellement des ressources Patrick BOUSQUET-MÉLOU (pbm@crihan.fr) 16 Juin 2015 Ressources actuelles Ressources actuelles IBM idataplex «ANTARÈS» Calculateur ANTARÈS installé dans le Centre

Plus en détail

Exadata Storage Server et DB Machine V2

<Insert Picture Here> Exadata Storage Server et DB Machine V2 Exadata Storage Server et DB Machine V2 Croissance de la Volumétrie des Données Volumes multipliés par 3 tous les 2 ans Evolution des volumes de données 1000 Terabytes (Données) 800

Plus en détail

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData NoSql Principes Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData Les SGBD NoSql partagés ne peuvent satisfaire que 2 critères au plus NoSql Les transactions

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

M1 MIAGE Option IFD Data Mining et Parallélisme

M1 MIAGE Option IFD Data Mining et Parallélisme M1 MIAGE Option IFD Data Mining et Parallélisme Alexandre Termier 2011-2012 S2 1 / 24 Besoin ˆ Data Mining doit... traiter de gros volumes de données pouvoir eectuer des analyses complexes (gros calculs)

Plus en détail

Le calcul intensif chez PSA Peugeot Citroën. TERATEC 28 juin 2011

Le calcul intensif chez PSA Peugeot Citroën. TERATEC 28 juin 2011 Le calcul intensif chez PSA Peugeot Citroën TERATEC 28 juin 2011 Daniel ZAMPARINI 1 Le calcul intensif chez PSA Peugeot Citroën TERATEC - 28 juin 2011 PSA Peugeot Citroën : éléments clés de la branche

Plus en détail

Tests de SlipStream sur les plateformes StratusLab@LAL et OpenStack@CC-IN2P3 : vers la. Vers la fédération du Cloud computing

Tests de SlipStream sur les plateformes StratusLab@LAL et OpenStack@CC-IN2P3 : vers la. Vers la fédération du Cloud computing Tests de sur les plateformes StratusLab@LAL et OpenStack@CC-IN2P3 : vers la fédération du Cloud computing Cécile Cavet1 & Charles Loomis2 (1) Centre François Arago, Laboratoire, Université Paris Diderot,

Plus en détail

La stratégie Cloud de Microsoft

La stratégie Cloud de Microsoft La stratégie Cloud de Microsoft Evènement GOSIS 27 MAI 2011 Edouard Payenneville Arnaud Putegnat MICROSOFT FRANCE Agenda Microsoft et le cloud IT as a Service Le cloud avec nos partenaires Pourquoi choisir

Plus en détail

Hébergement MMI SEMESTRE 4

Hébergement MMI SEMESTRE 4 Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources

Plus en détail

Gestion de gros volumes de données

Gestion de gros volumes de données Gestion de gros volumes de données Cas des projets CEDAR et PetaSky Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse Pascale Borla-Salamet Consultante Avant Vente Oracle France Oracle Exadata Performance et Optimisation de votre Datawarehouse Agenda Les nouveaux challenges Exadata Storage Server Oracle Database Machine

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Architectures d implémentation de Click&DECiDE NSI

Architectures d implémentation de Click&DECiDE NSI Architectures d implémentation de Click&DECiDE NSI de 1 à 300 millions de ligne de log par jour Dans ce document, nous allons étudier les différentes architectures à mettre en place pour Click&DECiDE NSI.

Plus en détail

Date: 09/11/15 www.crmconsult.com Version: 2.0

Date: 09/11/15 www.crmconsult.com Version: 2.0 Date: 9/11/2015 contact@crmconsult.fr Page 1 / 10 Table des matières 1 SUGARPSHOP : SCHEMA... 3 2 PRESENTATION... 4 3 SHOPFORCE WITH SCREENSHOTS... 5 3.1 CLIENTS... 5 3.2 ORDERS... 6 4 INSTALLATION...

Plus en détail

Infrastructure de calcul du CRRI

Infrastructure de calcul du CRRI Infrastructure de calcul du CRRI Types d'infrastructures de calcul Calcul Intensif (High Performance Computing) Tâches fortement couplées (codes vectoriels / parallèles) Supercalculateurs, SMP, clusters,

Plus en détail

En quoi le Cloud Computing peut-il réduire vos coûts informatiques?

En quoi le Cloud Computing peut-il réduire vos coûts informatiques? réduire vos coûts informatiques? STAND n 30 Entrez dans l ère du Numérique Très Haut Débit En quoi le Cloud Computing peut-il réduire vos coûts informatiques? 1 Fiche d Identité Network Telecom & Hosting

Plus en détail

Parallélisme. Cours 1

Parallélisme. Cours 1 Parallélisme Cours 1 TD : 20% - TP : 30% - Examen : 50% Feuille A4 manuscrite (pas de photocopie) Fabrice.Huet@etu.unice.fr (prendre rdv par mail pr le contacter) A quoi sert le parallélisme? Augmenter

Plus en détail

Ne cherchez plus, soyez informés! Robert van Kommer

Ne cherchez plus, soyez informés! Robert van Kommer Ne cherchez plus, soyez informés! Robert van Kommer Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2 Le contexte

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D

EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D EVOLUTION DE L ARCHITECTURE DU SYSTÈME D INFORMATION SCIENTIFIQUE D EDF R&D Hugues Prisker Séminaire Aristote - 5 Février 2015 SI SCIENTIFIQUE EDF R&D EN QUELQUES CHIFFRES (2015) 1000 utilisateurs 150

Plus en détail

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Et à propos des objectifs de cette présentation? 2 Big

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

VMware : De la Virtualisation. au Cloud Computing

VMware : De la Virtualisation. au Cloud Computing VMware : De la Virtualisation. au Cloud Computing Tunis, le 12 Décembre 2012 Jamal Belhachemi BDM South EMEA 2010 VMware, Inc. Tous droits réservés. 2010 #1 dans les priorités des Directeurs Informatiques

Plus en détail

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud Grid and Cloud Computing Problématique Besoins de calcul croissants Simulations d'expériences coûteuses ou dangereuses Résolution de

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Cassandra et Spark pour gérer la musique On-line

Cassandra et Spark pour gérer la musique On-line Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani

Plus en détail

Les moyens de calcul scientifique du CNES architecture et outils

Les moyens de calcul scientifique du CNES architecture et outils Les moyens de calcul scientifique du CNES architecture et outils JOSY, 13 septembre 2007 Le CNES en bref... Le CNES est un EPIC. Il propose et met en oeuvre la politique spatiale de la France, au service

Plus en détail

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager Photobox Amazon RedShift Maxime Mézin Data Foundation Manager Présentation de Photobox Leader Européen du tirage et du livre photo 25 millions de clients 17 pays, dernière ouverture il y a 6 mois en Australie

Plus en détail

Long Term Archiving at CNES COROT MISSION. Christophe Donny Dominique Delmas

Long Term Archiving at CNES COROT MISSION. Christophe Donny Dominique Delmas COROT MISSION Christophe Donny Dominique Delmas 49th SC Observatoire de Paris, 01/24/2014 SERAD (Service de Référencement et d Archivage de Données) - REFLECS (http://reflecs.cnes.fr/ ) Tool to inform

Plus en détail