Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager



Documents pareils
du batch au temps réel Maxime Mézin Data & Photo Science Director

Labs Hadoop Février 2013

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Cartographie des solutions BigData

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Hadoop, les clés du succès

HADOOP ET SON ÉCOSYSTÈME

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Les journées SQL Server 2013

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Panorama des solutions analytiques existantes

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Bases de données documentaires et distribuées Cours NFE04

PostgreSQL. Formations. Catalogue Calendrier... 8

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Anticiper et prédire les sinistres avec une approche Big Data

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

LES ENJEUX DU BIG DATA

Le BigData, aussi par et pour les PMEs

Introduction Big Data

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Les technologies du Big Data

Comment démarrer son Cloud Hybrid avec Amazon Web Services

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Pour bien commencer avec le Cloud

Offre formation Big Data Analytics

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Ricco Rakotomalala R.R. Université Lyon 2

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Big Data Concepts et mise en oeuvre de Hadoop

Bull, un catalogue de service particulier pour répondre aux environnements complexes

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Echapper légalement à l impôt sur les données

Technologie data distribution Cas d usage.

Introduction à MapReduce/Hadoop et Spark

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Cloud Computing, discours marketing ou solution à vos problèmes?

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Programmation parallèle et distribuée (Master 1 Info )

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Business Intelligence avec Excel, Power BI et Office 365

Base de données clients outil de base du CRM

Au regard de ces deux tendances, il nous parait indispensable de révolutionner la manière dont vous gérez vos journées de travail.

Amazon Elastic MapReduce (Amazon EMR)

Tables Rondes Le «Big Data»

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

AXIAD Conseil pour décider en toute intelligence

Hébergement d'application Web sur le Nuage AWS Les Meilleures Solutions

Cassandra et Spark pour gérer la musique On-line

Business Intelligence simple et efficace avec Excel et PowerPivot

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

BIG DATA en Sciences et Industries de l Environnement

INTEGRATEURS. Pour un Accompagnement Efficace vers le Cloud SUPPORT DE FORMATION, INFORMATION, COMMUNICATION

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Offre INES CRM + BI MyReport. Logiciels pour une meilleure performance commerciale

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Exploration des Big Data pour optimiser la Business Intelligence

Cloud computing Votre informatique à la demande

Business Intelligence

Votre laisser-passer pour les. Big Data Guide visuel

MySQL. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

Les quatre piliers d une solution de gestion des Big Data

Titre : La BI vue par l intégrateur Orange

Les Eléments clés du projet

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015


Livre Blanc. Comment tirer le meilleur parti du Cloud

MyReport, une gamme complète. La Business Intelligence en toute simplicité : Concevez, partagez, actualisez! pour piloter votre activité au quotidien.

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Outil d aide à la vente

Cas d application client B2V. Le groupe B2V développe sa stratégie de relation client avec SugarCRM

CRM & DATA SOLUTIONS VENTES SFA & MARKETING

Architectures haute disponibilité avec MySQL. Olivier Olivier DASINI DASINI - -

Big Data On Line Analytics

SQL SERVER 2008, BUSINESS INTELLIGENCE

Base de données MySQL

Transformation des applications SAP avec EMC et SAP HANA. Présentation commerciale : Solutions SAP HANA pour les datacenters

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE


GÉREZ VOTRE RELATION CLIENT SANS QUITTER MICRO SOFT OUTLOOK

Transcription:

Photobox Amazon RedShift Maxime Mézin Data Foundation Manager

Présentation de Photobox Leader Européen du tirage et du livre photo 25 millions de clients 17 pays, dernière ouverture il y a 6 mois en Australie Stockage de milliards de photos

Problématique Des traitements de rafraichissement du datawarehouse trop longs 8h en temps normal Jusqu à 12h en période de Noël Une limitation en termes de stockage 5 To actuellement avec uniquement les données de vente du site Nécessité de remplacer le hardware Acquisition d un environnement de développement à un prix élevé Nécessite un contrat administration distante (DBA externe) Problème de modèle de licence pour connecter notre outil de reporting

En continuant comme ça Remplacement du hardware 100 K Achat de nouvelles licences 100 K Implique l augmentation du coût de support Toujours pas de flexibilité Augmentation des coûts en CAPEX et OPEX Pour une une performance équivalente

Les besoins pour le futur Croiser l ensemble des sources de données de l entreprise afin d améliorer : La satisfaction client Le ciblage CRM Le reporting Affiner le reporting au niveau le plus fin : la photo

Le Big Data Face aux contraintes actuelles et besoins futurs nous nous sommes lancés dans les technologies Big Data open source : Création d un cluster Hadoop sur Amazon EC2 avec whirr et mesos Développement en Clojure / Cascalog pour le traitement des données Utilisation de Hive + Hbase Après 6 mois nous avons constaté que : Le paramétrage du cluster prenaient du temps Que nous avions pris peu de temps pour travailler sur les données Nous avions besoin de temps pour former les ressources internes

Proof Of Concept Amazon Redshift Deux points forts à retenir: Le prix La performance «Big Data» en SQL L objectif était de tester les points suivants : Temps de chargement des données Evaluation du nombre de nœuds nécessaires Flexibilité : temps de passage de 1 à N nœuds Performance sur une simulation d alimentation quotidienne Fonctions d agrégation disponibles

Résultats du POC Chargement : 4 jours pour extraire les données côté Photobox Entre 5 et 50 minutes pour charger les données dans Amazon Redshift Performances : Count(*) impossible à lancer sur la table photos sur le slave Mysql 3 secondes sur Amazon Redshift Fonctions : Quasiment équivalente (ex: manque le pivot/unpivot) Flexibilité : Passage de 1 à 8 nœuds en 6h Création d un environnement de dev en quelques minutes

Déploiement Amazon Redshift avec 1 ETP Annonce Amazon Redshift le 28/11/2012 Demande d accès le 10/12 Premier accès fin décembre Fin de la Beta 15 février Passage en prod mi-mars 8 instances réservées sur 3 ans en Mai 2013 + 3 mai 2014

Architecture Actuelle

Intégration d Amazon EMR dans le Workflow Amazon Elastic Map Reduce (EMR) est utilisé comme un ETL via Le processus est donc le suivant : Lancement d Amazon EMR Installation de Sqoop Chargement des données de la base MySQL sur hdfs Copie des données de HDFS vers Amazon S3 Chargement des données de Amazon S3 vers Amazon Redshift Paramètres : Nombre d instances Degré de parallélisme La clef de partitionnement

Performance Avant / Après L alimentation quotidienne du datawarehouse se fait en 2 étapes Récupération des données sur une base slave du site Calcul des agrégats AVANT Chargement : 1h 30 Agrégation : 6 h APRES Chargement : 1h (limitation DB slave) Agrégation : 40 min (9 fois plus rapide)

Performance Temps de traitement observé en fonction du nombre de nœuds 120 100 80 Perf (min) 60 40 20 Perf (min) 0 2 4 8 5 To avant (données + index), 500 Go sur Amazon Redshift!

Coût: avant / après Avant Opex : 70 k Support Licence : 30 k External DBA : 40 k Capex : 20 k / an (amorti) Total : 90 k Avec Amazon Redshift Opex : Amazon Redshift + EMR = 17 k$ = 13 k => 7 x moins cher Pourquoi la région US East? Initialement le service n était pas disponible dans les autres régions Pas de contrainte de latence (90 ms US East vs 30 ms EU)

Sécurité VPN / VPC et ou Firewall SSH Cryptage Légal : Safe Harbor Act la Sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'eee vers les Etats-Unis.

Fail over Upload hebdomadaire Amazon Redshift => Amazon S3 Réplication Amazon S3 inter région Amazon S3 US => Amazon S3 EU

Conclusion Plus de fiabilité Un budget divisé par 7 Des performances a minima 10 fois meilleures Une capacité de stockage multipliée par 32 Une scalabilité simplifiée

Témoignage proposé par Retrouvons-nous sur le stand 47 Espace Grande Arche Paris La Défense