Architectures Big Data en Serverless

Documents pareils
DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

du batch au temps réel Maxime Mézin Data & Photo Science Director

Hadoop, les clés du succès

Cassandra et Spark pour gérer la musique On-line

Anticiper et prédire les sinistres avec une approche Big Data

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

COMPTE-RENDU PGDAY PARIS. Journée du 21 avril Oxalide 2015 COMPTE-RENDU pgday


Les journées SQL Server 2013

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Le Cloud Open-Mind! Emilien Macchi

Les technologies du Big Data

Jean-Philippe Paquette

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Morea : Experts Cloud

La rencontre du Big Data et du Cloud

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Panorama des solutions analytiques existantes

KIT DE DÉMARRAGE SHAREPOINT DANS MICROSOFT AZURE

Ne cherchez plus, soyez informés! Robert van Kommer

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Offre formation Big Data Analytics

Cloud Computing Cloud Services Workshop

Automatiser le Software-Defined Data Center avec vcloud Automation Center

HADOOP ET SON ÉCOSYSTÈME

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Surmonter les 5 défis opérationnels du Big Data

Présentation aux entreprises du numérique

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Veeam Backup & Replication v6

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Configuration Cluster, DRS, HA, DPM et FT

Bases de données documentaires et distribuées Cours NFE04

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Internet des Objets : le point de vue de Microsoft

Entreprise et Big Data

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

au Centre Inter-établissement pour les Services Réseaux Cédric GALLO

Hébergement MMI SEMESTRE 4

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

TRANSFORM IT + BUSINESS + YOURSELF

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Paris JUG. Spring Batch. Mardi 14 Mai Olivier Bazoud Julien Jakubowski

EMC Enterprise Hybrid Cloud. Emmanuel Bernard Advisory vspecialist

Business Intelligence

Cloud for Sales Retail Execution Piloter la relation client en temps réel pour doper votre présence en linéaire. SAP Forum, Lausanne Juin 17, 2014

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

Projet de Java Enterprise Edition

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

Cartographie des solutions BigData

Le travail collaboratif : guide des services

Comparaison du coût total de propriété de MongoDB et d Oracle. Un livre blanc 10gen

Big Graph Data Forum Teratec 2013

EMC Forum EMC ViPR et ECS : présentation des services software-defined

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Manufacturing Intelligence Séminaire Connected Entreprise ( 12 mars 2015)

Java et les bases de données

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

ez Publish Cloud Edition Présentation

Construire le Business Case lié à l automatisation du Cloud avec vcloud Suite

THÉMATIQUES. Comprendre les frameworks productifs. Découvrir leurs usages. Synthèse

Change the game with smart innovation

Les environnements de calcul distribué

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Moderniser. le système d information et le portefeuille applicatif.

Informatique en nuage Cloud Computing. G. Urvoy-Keller

LES NOUVEAUX FACTEURS DE COMPÉTITIVITÉ BASÉS SUR LA 3 ÈME PLATEFORME INFORMATIQUE. Sébastien LAMOUR IDC Research & Consulting Manager

Amazon Elastic MapReduce (Amazon EMR)

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Comment démarrer son Cloud Hybrid avec Amazon Web Services

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

BIG Data et R: opportunités et perspectives

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Pensezdifféremment: la supervision unifiéeen mode SaaS

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Bases de données documentaires et distribuées Cours NFE04

Travaux pratiques Détermination de la capacité de stockage des données

BCO. Sébastien LECOT Directeur de GESS PARTNERS

Technologie Netapp. Novembre 2010

EXALOGIC ELASTIC CLOUD MANAGEMENT

Les journées SQL Server 2013

4 Exemples de problèmes MapReduce incrémentaux

Labs Hadoop Février 2013

Système de Stockage Sécurisé et Distribué

Hébergement d'application Web sur le Nuage AWS Les Meilleures Solutions

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Transcription:

Architectures Big Data en Serverless Bonnes pratiques et design patterns Rudy Krol, Solutions Architect, AWS Alexandre Ignatovic (CTO) & Benoit Tigeot (Developer), Appaloosa Store Alexis Daguès (CEO) & Cédric Rumiano (Cloud Native Engineer), Corexpert 27 Juin 2017 2016, Web Services, Inc. or its Affiliates. All rights reserved.

Evolution des architectures Cloud «Lift & Shift» VM Optimisé dans le Cloud Services managés Architecturé pour le Cloud Serverless AWS Lambda Kinesis Athena AWS Glue QuickSight EC2 EMR AWS Batch Elasticsearch Service S3 DynamoDB SQS AWS Step Functions SNS ElastiCache RDS Redshift Lex Machine Learning Polly Rekognition AWS IoT

AWS Lambda: Nouveau paradigme d architecture Architecture évènementielle Les fonctions comme unité de déploiement Une facturation par incrément de 100ms d exécution

AWS Lambda: Stateless Une instance de fonction peut être supprimée en cas de Déploiement d une nouvelle version de la fonction Mise à jour du serveur Scalabilité à la baisse Exception non gérée Bonne pratique: Utiliser un datastore externe pour stocker les données de cache longue durée ou persistantes (ex: ElastiCache, DynamoDB, S3 )

AWS Lambda: Démarrage à froid Effet «cold start» à la première exécution de la fonction après instanciation Bonnes pratiques: Initialiser les clients et connections aux bases de données en dehors de la fonction handler Déployer la fonction dans un VPC uniquement si nécessaire Activer AWS X-Ray pour mesurer les cold start Exécution à l initialisation import sys import logging import rds_config import pymysql rds_host = "rds-instance" db_name = rds_config.db_name try: conn = pymysql.connect( except: logger.error("error: def handler(event, context): with conn.cursor() as cur: Exécution à chaque invocation

AWS Lambda: Profil de puissance Le coût d exécution d une fonction dépend du temps d exécution (en ms) et de la taille de la mémoire allouée (de 128 Mo à 1,5 Go) Bonne pratique: Utiliser AWS Step Functions pour optimiser l allocation mémoire de vos fonctions https://github.com/alexcasalboni/aws-lambda-power-tuning

AWS Lambda: Gestion des erreurs Types d erreurs à gérer: Timeout Format input invalide Out of memory Dépassement de limite Erreur générée par la fonction Bonnes pratiques: Configurer des alarmes CloudWatch et activez CloudWatch Logs pour collecter les logs générés par les fonctions Pour les invocations asynchrones, activer les Dead Letter Queues pour conserver les messages en erreurs et les traiter ultérieurement Utiliser AWS Step Functions pour automatiser le traitement des cas d erreurs Voir article blog «Automating AWS Lambda Function Error Handling with AWS Step Functions»

Flux de données et solutions Big Data = Serverless Ingestion Collection Stockage Analyses Traitements Visualisation Consommation Commits Bulk Transport Transactional NoSQL Batch Analytics Interactive Querying Data Science Notebooks File/Object Upload Data Lake Machine Learning/ Deep Learning B.I. Tools Dashboards Streaming Ingest Streaming Storage Realtime Analytics Batch ETL/ELT Orchestration / Transformation Realtime ETL/ELT Transactional / CDC

Pattern d architecture: Requêtage interactif Ingestion Collection Stockage Analyses Traitements Visualisation Consommation Interactive AWS Snowball S3 Transfer Acceleration Kinesis Firehose S3 Athena Redshift EMR Presto QuickSight ES (Kibana) Serverless Tez Spark Services managés VM

Pattern d architecture: Analyse temps réel Ingestion Collection Stockage Analyses Traitements Visualisation Consommation Producteur de données Kinesis Streams DynamoDB Streams Apache Kafka Kinesis Analytics AWS Lambda EMR Spark Streaming Apache Flink Alertes Résultats calculs SNS DynamoDB ElastiCache Notifications KPI Serverless Services managés VM KCL Apache Storm RDS ES (Kibana)

Appaloosa.io Construction d un pipeline d analytics Serverless Alexandre Ignjatovic, Benoit Tigeot Mai 2017 2016, Web Services, Inc. or its Affiliates. All rights reserved.

Appaloosa est un store d applications simple et sécurisé 110 clients grands comptes (La Poste, Leroy Merlin, etc.) 60 000 applications déployées 300 000 utilisateurs @AppaloosaStore

Le Challenge

Victime de son succès Architecture du pipeline d analytics ne répondant plus au besoin Utilisateurs Smartphone API Interface d administration Administrateurs Instance MongoDB

Les symptômes

Une refonte avec deux impératifs Pas de DevOps, de DBA ou de SysAdmin dans l équipe Des technologies administrées par le fournisseur de service Une entreprise en croissance constante (~1000 clients en plus sur la dernière année) Une solution scalable et future proof

Les contraintes Un service en cours d utilisation Pas d interruption de service envisageable Un volume de données collectées assez important Jusqu à 10 000 événements par minute Un budget contraint Solution à remplacer coûtant 800 /mois

La Solution

Kinesis Firehose + DynamoDB Utilisateurs Smartphone API Interface d administration Administrateurs Kinesis Firehose Redshift Batch d agrégation DynamoDB

Kinesis Firehose + DynamoDB Avantages Mise en place triviale Pas d administration Inconvénients Duplication aléatoire des données Impossibilité d ajouter un consommateur à un flux Kinesis Firehose Alimentation par batch de DynamoDB non triviale Modèle de scaling DynamoDB pas adapté à une alimentation par batch

Pipeline de collection d événements Evénements Utilisateurs API Kinesis AWS Lambda Kinesis Firehose S3 AWS Lambda Redshift AWS cloud

Accès aux données Administrateurs AWS Lambda Interface d administration API RDS (PostgreSQL avec dblink + postgres_fdw) Redshift AWS cloud Collection d événements

Avantages Efficace quelle que soit la charge en écriture et lecture Aucune action d administration requise Délégation de toutes les questions de sécurité bas niveau à AWS Possibilité d ajout de consommateur sur le flux Kinesis Architecture modulaire, qui permet de nombreuses évolutions

Quels Bénéfices?

Scalabilité Collection des données Consultation des données 1 partition Kinesis Ø 60K événements par minute Augmenter la capacité du pipeline ou du cluster est trivial Rafraîchissement des données Ø moins de 1 minute Temps de réponse Ø inférieur à 5 ms

Coûts Sur 1 mois Avantages Kinesis (2 partitions) Ø 24$ Redshift (1 noeud) Ø 200$ RDS (db.t2.micro) Ø 16$ Total: 240$ par mois 70% d économies Modularité du tarif

Et Ensuite?

La suite? Auto-Scaling Kinesis et Kinesis Firehose? Des KPIs mis à jour en temps réel dans une instance ElastiCache ou DynamoDB (avec DAX)? Athena en tant qu outil de BI? AWS Step Functions pour matérialiser visuellement le workflow du pipeline?

Pour en savoir plus L histoire complète de la migration sur notre compte medium: bit.ly/appaloosa_aws_1 bit.ly/appaloosa_aws_2 N hésitez pas à visiter appaloosa.io!

Intelligence Artificielle en temps-réel sur un flux vidéo Analyse de vidéo en Serverless avec Rekognition Alexis DAGUES - CEO Cédric RUMIANO - Cloud Native Engineer 2016, Web Services, Inc. or its Affiliates. All rights reserved.

Architecture Serverless Rekognition

Votre feedback est important. Prenez quelques instants pour voter sur : etc.ch/qzg3

Merci!