Les données massives à Calcul Québec



Documents pareils
Programmation parallèle et distribuée

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Infrastructures Parallèles de Calcul

Programmation parallèle et distribuée

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Cartographie des solutions BigData

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

3 ème journée des utilisateurs de l archivage

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Panorama des solutions analytiques existantes

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Les technologies du Big Data

Bases de données documentaires et distribuées Cours NFE04

Gestion de clusters de calcul avec Rocks

Big Data Concepts et mise en oeuvre de Hadoop

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Programmation parallèle et distribuée (Master 1 Info )

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

<Insert Picture Here> Exadata Storage Server et DB Machine V2

BIG DATA en Sciences et Industries de l Environnement

Le BigData, aussi par et pour les PMEs

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Les environnements de calcul distribué

Fouille de données massives avec Hadoop

Architecture des ordinateurs

HADOOP ET SON ÉCOSYSTÈME

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Les mésocentres HPC àportée de clic des utilisateurs industriels

Introduction à MapReduce/Hadoop et Spark

Hébergement MMI SEMESTRE 4

M2 GL UE DOC «In memory analytics»

ORACLE EXADATA DATABASE MACHINE X2-8

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Gamme Serveurs HP ProLiant Rack

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Portage d applications sur le Cloud IaaS Portage d application

Kick Off SCC Vers de nouveaux horizons

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Quantification d incertitude et Tendances en HPC

ORACLE EXADATA DATABASE MACHINE X2-2

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Jean-François Boulicaut & Mohand-Saïd Hacid

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Exigences système Edition & Imprimeries de labeur

Change the game with smart innovation

Exigences système Edition & Imprimeries de labeur

Par CADICI Grégory & FRITZ Rémy

Initiation au HPC - Généralités

Options indispensables, fortement conseillées pour démarrer sans soucis

Ricco Rakotomalala R.R. Université Lyon 2

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

BIG Data et R: opportunités et perspectives

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

Cloud Computing et Calcul Haute Performance (HPC High Performance C

Catalogue des stages Ercom 2013

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Labs Hadoop Février 2013

Amazon Elastic MapReduce (Amazon EMR)

CLIENTS LÉGERS. Remote Desktop Services Linux Terminal Server Project

Grid5000 aujourd'hui : Architecture & utilisation

LXC : Une technologie de contextualisation ultra light intégrée au kernel Linux

LOT N 1 : ORDINATEURS BORDEREAU DE PRIX IDENTIFICATION DU FOURNISSEUR. Code DESIGNATION QTE PU HT EN EURO MONTANT TOTAL HT EN EURO MONTANT TTC EN EURO

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Sommaire. Systèmes d Exploitation Intégration Sage 100 Sage CRM Disponibilité Client Bases de données... 3

Centres informatiques

4 Exemples de problèmes MapReduce incrémentaux

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Spécifications détaillées

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Rapport de stage Master 2

Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS

libérez votre innovation avec l extreme computing CEA/Philippe Stroppa

Des solutions sur mesure à partir de modules fonctionnels & CRM associés à un studio de customisation.

CUOMO PC Route d Oron Lausanne 021/

Introduction Big Data

Etude d architecture de consolidation et virtualisation

GUIDE SUR LA GAMME DE SERVEURS LENOVO

PACKS DE VIRTUALISATION HP

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Big Data, un nouveau paradigme et de nouveaux challenges

Anticiper et prédire les sinistres avec une approche Big Data

ACCOMPAGNER L EXPLOSION DES VOLUMES DE DONNEES : LES NOUVEAUX ENJEUX DU STOCKAGE

Certificat Big Data - Master MAthématiques

CAHIER DES CHARGES D IMPLANTATION

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

«clustering» et «load balancing» avec Zope et ZEO

Hadoop, les clés du succès

Exigences système BauBit pro

Transcription:

Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec

Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier : Spark 2

Calcul Québec 3

Mission Procurer au milieu de la R&D des infrastructures matérielles et logicielles en Calcul Informatique de Pointe (CIP) ainsi que des services d expertconseil, afin de contribuer à l avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié en CIP, capable d exploiter efficacement le parallélisme des systèmes informatiques modernes. 4

Quelques chiffres Quatre sites principaux Laval McGill / ETS UdeM Sherbrooke Au total: un personnel d une quarantaine d employés environ 1200 utilisateurs dans 400 groupes de recherche 80,000 cœurs de calcul 300 accélérateurs 200 To de mémoire vive 8000 To de stockage sur disque 5

Statistiques 6

Nous rejoindre Site web http://www.calculquebec.ca http://wiki.calculquebec.ca http://www.calculquebec.ca/fr/acces-aux-ressources Support technique support@calculquebec.ca Informations générales info@calculquebec.ca Pour un serveur spécifique <serveur>@calculquebec.ca 7

Calcul Canada Université membre Université membre avec personnel Université membre avec personnel et infrastructures 8

Infrastructures à l UL Colosse Grappe de 960 noeuds 2 x Intel X5560 2.8GHz (8 coeurs) Mémoire : DDR3 à 1333 MHz. - 936 noeuds: 24 GB (3 GB / coeur) - 24 noeuds: 48 GB (6 GB / coeur) Réseau: Infiniband QDR (40Gbps) Stockage: 2 x 500 TB (1PB total) 17 GB/s (scratch), 12 GB/s (home) Hélios Grappe de 168 GPGPU 15 noeuds, 20 coeurs à 2,5 GHz, 128 Go RAM et 8 GPU NVIDIA K20 par noeud 6 noeuds, 24 coeurs à 2,7 GHz, 256 GB RAM et 8 GPU NVIDIA K80 par noeud 9

Services disponibles Administration et opération de grappes de calcul Déploiement de systèmes de calcul et de stockage parallèle Conception et mise en service de solutions de calcul surmesure Exploitation de grappes de calcul Développement d'algorithmes parallèles (MPI, OpenMP, CUDA, Hadoop, Spark, etc.) Configuration / utilisation de logiciels HPC (Ansys, OpenFoam, etc.) Adaptation et optimisation de workflows distribués Virtualisation Formation 10

Les formations De base Software Carpentry Ligne de commande Unix Gestion de code programmation (R / Python) Premiers pas sur les serveurs de calcul Programmation Python Programmation R MDCS : Matlab Distributed Computer Server Visualisation avec Paraview Analyse de données Hadoop / MapReduce Spark 11

Accélérateurs et GPU programmation Cuda Programmation Cuda avancée Bibliothèques GPU programmation de Xeon Phi Calcul parallèle de haute performance Introduction à OpenMP Programmation OpenMP avancée Introduction à MPI Programmation MPI avancée et programmation hybride Profilage et optimisation avec Open / SpeedShop Déboggage avec DDT Entrées/sorties parallèles avec HDF5 12

Outils: Hadoop + Spark 13

Les défis du «big data» les 3 Vs + la véracité 14

Apache Software Foundation Plus de 150 projets open source dont plus d une trentaine en lien avec les données massives 15

Hadoop mécanique de base stockage distribué autres outils 16

Les enjeux l approche classique ne fonctionne plus avec les données massives (Oracle) (Hadoop / Spark) (Google) 17

Stockage distribué (HDFS) HDFS = Hadoop Distributed File System 18

Map - shuffle - reduce 19

Redondance 20

problèmes majeurs: usage de disques 21

Spark remplace le map/reduce de Hadoop Permet de faire des itérations sans passer par le stockage sur disque Augmente la performance jusqu à 100x 22

Hadoop Spark 23

Pour en savoir plus? La prochaine formation Spark est mardi le 3 novembre! Voir notre calendrier: http://www.calculquebec.ca/fr/aide-et-documentation/ formation/calendrier-formations Pour s inscrire: http://calculquebec.eventbrite.ca 24

Conclusion Temps de calcul Extension de capacité de calcul. Capacité supplémentaire de courte durée (bursting). Stockage / transfert de données Consultation choix technologique développement algorithmique optimisation, etc. Formations spécialisées Soutien à la recherche Contrats avec l industrie 25