Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015



Documents pareils
Morea : Experts Cloud

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Comment démarrer son Cloud Hybrid avec Amazon Web Services

Les technologies du Big Data

Cartographie des solutions BigData

Amazon Web Services : Risques et conformité Avril 2015

Anticiper et prédire les sinistres avec une approche Big Data

Amazon Elastic MapReduce (Amazon EMR)

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Cloud Computing Cloud Services Workshop

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

BIG DATA en Sciences et Industries de l Environnement

Le cloud computing au service des applications cartographiques à haute disponibilité

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

ICT7 Luxembourg. ICT7 Belgium. ICT7 France. 33 people. 12 people. 2 people

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Cassandra et Spark pour gérer la musique On-line

Ricco Rakotomalala R.R. Université Lyon 2

Programmation parallèle et distribuée

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Informatique en nuage Cloud Computing. G. Urvoy-Keller

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Introduction à MapReduce/Hadoop et Spark

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

Offre formation Big Data Analytics

Big Data Concepts et mise en oeuvre de Hadoop

L INFORMATIQUE SOUS FORME DE SERVICE POUR VOTRE ENTREPRISE. Farid BENREJDAL Senior Systems Engineer VMware

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

HADOOP ET SON ÉCOSYSTÈME

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Le Cloud Open-Mind! Emilien Macchi

Programmation parallèle et distribuée

Étendre Votre infrastructure IT avec Amazon Virtual Private Cloud

du batch au temps réel Maxime Mézin Data & Photo Science Director

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Bases de données documentaires et distribuées Cours NFE04

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

TRANSFORM IT + BUSINESS + YOURSELF

Les journées SQL Server 2013

Infrastructure technique de géodonnées. Technische Geodateninfrastruktur. Cédric Moullet Forum e-geo.ch, 15. November 2013

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

OpenStack, l Infrastructure as a Service libre

Surmonter les 5 défis opérationnels du Big Data

Priorités d investissement IT pour [Source: Gartner, 2013]

Architecture pour le Cloud : bonnes pratiques avec les Amazon Web Services (AWS)

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

EMC Enterprise Hybrid Cloud. Emmanuel Bernard Advisory vspecialist

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Cloud (s) Positionnement

Guide d installation JMap 5.0

La rencontre du Big Data et du Cloud

Hébergement MMI SEMESTRE 4

Section I: Le Contexte du DATA CENTER Pourquoi l AGILITE est Nécessaire dans le DataCenter

accompagner votre transformation IT vers le Cloud de confiance

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Jean-Philippe Paquette

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Labs Hadoop Février 2013

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Entrez dans l ère du Numérique Très Haut Débit

VMware View Virtualisation des postes de travail (architecture, déploiement, bonnes pratiques...)

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Mathieu Rivoalen. Etude d'approfondissement des réseaux RICM 5 Option Réseaux

FUJITSU WORLD TOUR 2014 Paris

Projet d'infrastructure de stockage mutualisée

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Estimated SMB instances PC (Physical and Virtual) 125,000 Total instances: SMB 1-24 PC. 392,000 Total instances: SMB PC

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Cloud Computing : Généralités & Concepts de base

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Re-Platforming SAP. Jean-Baptiste Rouzaud. EMEA SAP Services lead EMC Global Services. Copyright 2013 EMC Corporation. All rights reserved.

SysFera. Benjamin Depardon

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Sébastien Geiger IPHC Strasbourg

BIG Data et R: opportunités et perspectives

Déterminer les enjeux du Datacenter

EXALOGIC ELASTIC CLOUD MANAGEMENT

Chapitre 4: Introduction au Cloud computing

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

CA Automation Suite for Data Centers

Panorama des solutions analytiques existantes

Vos experts Big Data. Le Big Data dans la pratique

Qu est ce que le Cloud Computing?

Architecture dans le nuage : les bonnes pratiques

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

Transcription:

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015

Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder AWS OpsWorks Amazon CloudHSM AWS Lambda AWS Service Catalog AWS Config AWS CodeDeploy AWS CodeCommit +24 Amazon EBS Amazon CloudFront 2008 +48 Elastic Load Balancing Auto Scaling Amazon VPC Amazon RDS 2009 +61 Amazon SNS AWS Identity & Access Management Amazon Route 53 2010 +82 Amazon SES AWS Elastic Beanstalk AWS CloudFormation Amazon ElastiCache AWS Direct Connect GovCloud 2011 Amazon Dynamo DB Amazon CloudSearch Amazon SWF Amazon Glacier Amazon Redshift AWS Data Pipeline 2012 Amazon AppStream Amazon CloudTrail Amazon WorkSpaces Amazon Kinesis 2013 AWS CodePipeline AWS Key Management Service Amazon RDS for Aurora Amazon Cognito Amazon Mobile Analytics Amazon Zocalo AWS Directory Service 2014

Mobile / Cable Telecom Oil & Gas Industrial Manufacturing Retail/Consumer Entertainment Hospitality Life Sciences Scientific Exploration Financial Services Publishing Media Advertising Online Media Social Network Gaming

Big Data AWS Cloud

Collect Ingest Store Analyze Share Direct Connect Kinesis S3 EMR EC2 S3 Import Export DynamoDB Redshift Data Pipeline Redshift Glacier Kinesis

Stockage en mode objet Amazon S3 Capacité sans limite Elastique et parallèle Durabilité 99.999999999%

Clusters Hadoop opérés Hive, Pig, Impala, HBase Amazon Elastic MapReduce Facile à utiliser Elastique : > milliers de nœuds

Entrepôt de données opéré Relationnel, compatible avec les Amazon Redshift produits du maché Massivement parallèle Capacité > Po $1,000 / To / An

Traitement temps réel (< 1s.) Elastique, haute débit Amazon Kinesis Facile à utiliser Intégré à : EMR, S3, Redshift, DynamoDB, Lambda

THANKS TO AMAZON WEB SERVICES, WE CAN DELIGHT OUR PLAYERS WORLDWIDE. Sami Yliharju Services Lead

Optimisation des coûts avec AWS Un ADN de business à Gros Volume / Faible Marge Remplacer des investissements CAPEX par des coûts variables OPEX Des économies d échelle permettant de réduire les prix Un modèle de prix qui s adapte aux types d usage Bénéficiez d économies supplémentaires 47 réductions de prix depuis 2006 A la demande Réservé Tarification dégressive Réductions au volume Spot Trusted Advisor

Instances m3.xlarge Linux 4 vcpu, 15 Go Prix On Demand $0.308 / heure Prix RI 3 ans all upfront lissé $0,134 / heure ( 56% par rapport à OD) Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com

Instances m3.xlarge Linux 4 vcpu, 15 Go Prix On Demand $0.308 / heure Prix RI 3 ans all upfront lissé $0,134 / heure ( 56% par rapport à OD) Prix Spot sur 3 mois < $0.041 / heure ( 86% par rapport à OD) Historique SPOT sur 3 mois : Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com

Comment ça marche? 1. Code et données 3. résultats S3 EMR Cluster EMR 2. Démarrez votre cluster Choisisez: Hadoop distribution Le nombre de noeuds Le type de noeud (hi- CPU, hi-memory, etc.) Hadoop apps (Hive, Pig, HBase)

Comment ça marche? Scénario #1 Job Flow Durée: 14 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25

Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures Durée: 7 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25

Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25 Durée: 7 Heures #2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44 Total = $10.06

Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures Gains en Temps : 50% Economies : ~41% Durée: 7 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25 Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com #2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44 Total = $10.06

Comment ça marche? EMR Cluster Virtual Private Cloud pour sécuriser l ensemble

Prenons un calcul massif typique

qu un cluster moyen mettrait trop de temps à effectuer

que des algorithmes optimisés peuvent améliorer

et compléter le traitement dans les temps requis.

Acquérir un cluster plus gros

est bien souvent exagéré et trop coûteux.

Les clusters à base d instances AWS peuvent être ajustés aux besoins ponctuels

pas trop gros

ni trop petits

avec de multiples clusters s exécutant en parallèle.

Elasticité sur AWS Temps : +00h <10 cœurs

Elasticité sur AWS >1500 cœurs Temps : +24h

Elasticité sur AWS Temps : +72h <10 cœurs

Elasticité sur AWS Temps : +120h >600 cœurs

Schrodinger & CycleComputing: computational chemistry Simulation by Mark Thompson of the University of Southern California to see which of 205,000 organic compounds could be used for photovoltaic cells for solar panel material. Cluster de 156,314 cœurs 1.21 petaflops (Rpeak) $33,000 au total ou $0.16 par molécule Estimated computation time 264 years completed in 18 hours.

Nouveau record de tri à grande échelle Databricks, créateur de Apache Spark Pourquoi AWS? EC2 rapide, SSD, réseau 10Gbps Agilité

15 mois 50 personnes millions Data Center Primaire Réseaux Serveurs Stockage Virtualisation Sécurité Outils de gestion Etc. Data Center Secondaire

5 minutes 1 personne 0 zéro Réseaux Serveurs Stockage Virtualisation Sécurité Outils de gestion Etc.

Architectes Solutions Services Professionnels Support 24x7 Réseau de milliers de partenaires AWS