Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015
Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder AWS OpsWorks Amazon CloudHSM AWS Lambda AWS Service Catalog AWS Config AWS CodeDeploy AWS CodeCommit +24 Amazon EBS Amazon CloudFront 2008 +48 Elastic Load Balancing Auto Scaling Amazon VPC Amazon RDS 2009 +61 Amazon SNS AWS Identity & Access Management Amazon Route 53 2010 +82 Amazon SES AWS Elastic Beanstalk AWS CloudFormation Amazon ElastiCache AWS Direct Connect GovCloud 2011 Amazon Dynamo DB Amazon CloudSearch Amazon SWF Amazon Glacier Amazon Redshift AWS Data Pipeline 2012 Amazon AppStream Amazon CloudTrail Amazon WorkSpaces Amazon Kinesis 2013 AWS CodePipeline AWS Key Management Service Amazon RDS for Aurora Amazon Cognito Amazon Mobile Analytics Amazon Zocalo AWS Directory Service 2014
Mobile / Cable Telecom Oil & Gas Industrial Manufacturing Retail/Consumer Entertainment Hospitality Life Sciences Scientific Exploration Financial Services Publishing Media Advertising Online Media Social Network Gaming
Big Data AWS Cloud
Collect Ingest Store Analyze Share Direct Connect Kinesis S3 EMR EC2 S3 Import Export DynamoDB Redshift Data Pipeline Redshift Glacier Kinesis
Stockage en mode objet Amazon S3 Capacité sans limite Elastique et parallèle Durabilité 99.999999999%
Clusters Hadoop opérés Hive, Pig, Impala, HBase Amazon Elastic MapReduce Facile à utiliser Elastique : > milliers de nœuds
Entrepôt de données opéré Relationnel, compatible avec les Amazon Redshift produits du maché Massivement parallèle Capacité > Po $1,000 / To / An
Traitement temps réel (< 1s.) Elastique, haute débit Amazon Kinesis Facile à utiliser Intégré à : EMR, S3, Redshift, DynamoDB, Lambda
THANKS TO AMAZON WEB SERVICES, WE CAN DELIGHT OUR PLAYERS WORLDWIDE. Sami Yliharju Services Lead
Optimisation des coûts avec AWS Un ADN de business à Gros Volume / Faible Marge Remplacer des investissements CAPEX par des coûts variables OPEX Des économies d échelle permettant de réduire les prix Un modèle de prix qui s adapte aux types d usage Bénéficiez d économies supplémentaires 47 réductions de prix depuis 2006 A la demande Réservé Tarification dégressive Réductions au volume Spot Trusted Advisor
Instances m3.xlarge Linux 4 vcpu, 15 Go Prix On Demand $0.308 / heure Prix RI 3 ans all upfront lissé $0,134 / heure ( 56% par rapport à OD) Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com
Instances m3.xlarge Linux 4 vcpu, 15 Go Prix On Demand $0.308 / heure Prix RI 3 ans all upfront lissé $0,134 / heure ( 56% par rapport à OD) Prix Spot sur 3 mois < $0.041 / heure ( 86% par rapport à OD) Historique SPOT sur 3 mois : Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com
Comment ça marche? 1. Code et données 3. résultats S3 EMR Cluster EMR 2. Démarrez votre cluster Choisisez: Hadoop distribution Le nombre de noeuds Le type de noeud (hi- CPU, hi-memory, etc.) Hadoop apps (Hive, Pig, HBase)
Comment ça marche? Scénario #1 Job Flow Durée: 14 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures Durée: 7 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25 Durée: 7 Heures #2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44 Total = $10.06
Comment ça marche? Scénario #1 Job Flow Scénario #2 Job Flow Durée: 14 Heures Gains en Temps : 50% Economies : ~41% Durée: 7 Heures #1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25 Exemple à titre indicatif Tous les prix à retrouver sur aws.amazon.com #2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44 Total = $10.06
Comment ça marche? EMR Cluster Virtual Private Cloud pour sécuriser l ensemble
Prenons un calcul massif typique
qu un cluster moyen mettrait trop de temps à effectuer
que des algorithmes optimisés peuvent améliorer
et compléter le traitement dans les temps requis.
Acquérir un cluster plus gros
est bien souvent exagéré et trop coûteux.
Les clusters à base d instances AWS peuvent être ajustés aux besoins ponctuels
pas trop gros
ni trop petits
avec de multiples clusters s exécutant en parallèle.
Elasticité sur AWS Temps : +00h <10 cœurs
Elasticité sur AWS >1500 cœurs Temps : +24h
Elasticité sur AWS Temps : +72h <10 cœurs
Elasticité sur AWS Temps : +120h >600 cœurs
Schrodinger & CycleComputing: computational chemistry Simulation by Mark Thompson of the University of Southern California to see which of 205,000 organic compounds could be used for photovoltaic cells for solar panel material. Cluster de 156,314 cœurs 1.21 petaflops (Rpeak) $33,000 au total ou $0.16 par molécule Estimated computation time 264 years completed in 18 hours.
Nouveau record de tri à grande échelle Databricks, créateur de Apache Spark Pourquoi AWS? EC2 rapide, SSD, réseau 10Gbps Agilité
15 mois 50 personnes millions Data Center Primaire Réseaux Serveurs Stockage Virtualisation Sécurité Outils de gestion Etc. Data Center Secondaire
5 minutes 1 personne 0 zéro Réseaux Serveurs Stockage Virtualisation Sécurité Outils de gestion Etc.
Architectes Solutions Services Professionnels Support 24x7 Réseau de milliers de partenaires AWS