du batch au temps réel Maxime Mézin Data & Photo Science Director



Documents pareils
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Agenda. Introduction au projet SIMM. Réduction des volumes de sauvegarde avec RMAN

Pour bien commencer avec le Cloud

Déterminer les enjeux du Datacenter

Technologie data distribution Cas d usage.

ZABBIX est distribué sous licence GNU General Public License Version 2 (GPL v.2).

Bull, un catalogue de service particulier pour répondre aux environnements complexes

ez Publish Cloud Edition Présentation

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Priorités d investissement IT pour [Source: Gartner, 2013]

IGEL : Le «cloud sourcing», un nouveau marché pour les clients légers

Cloud Computing, discours marketing ou solution à vos problèmes?

Dailymotion: La performance dans le cloud

Cloud computing Votre informatique à la demande

Anticiper et prédire les sinistres avec une approche Big Data

CRM & DATA SOLUTIONS VENTES SFA & MARKETING

Qu est ce qu une offre de Cloud?

Labs Hadoop Février 2013

Poste de travail Bancassurance

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Du ROI pour le Wi-Fi!

Qu est ce qu une offre de Cloud?

Gestion de clusters de calcul avec Rocks

Lieberman Software Corporation

Archivage numérique de documents SAP grâce à DocuWare

vcloud Director Comment créer et gérer son «Cloud» Jean-Claude DAUNOIS Senior Systems Engineer VMware

Comment démarrer son Cloud Hybrid avec Amazon Web Services

ADMINISTRATION EXADATA

BPPM et BCO Quoi de 9.0? David Jakubowicz Service Assurance Software Consultant

Objectif et contexte business : piliers du traitement efficace des données -l exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Cloud Computing. 19 Octobre 2010 JC TAGGER

BIG DATA Comment exploiter les données pour maximiser vos investissements en ligne

Mes logiciels d'entreprise dans le Cloud. Didier Gabioud

Les Eléments clés du projet

Pensezdifféremment: la supervision unifiéeen mode SaaS

Les journées SQL Server 2013

VMware Infrastructure The New Computing Platform. Stéphane CROIX Systems Engineer

Echapper légalement à l impôt sur les données

Présentation. + de 6 ans d expérience + de 1000 campagnes trackées + de 15 pays couverts + de sites éditeurs

Comment rendre un site d e-commerce intelligent

Bases de Données Avancées

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Recommandation prédictive

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Intégrateur de l ERP Proginov 25 chefs de projet et 32 développeurs dédiés aux clients Proginov

Gestion des sauvegardes

en version SAN ou NAS

La Gestion des Applications la plus efficace du marché

HADOOP ET SON ÉCOSYSTÈME

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

SQL Server 2012 et SQL Server 2014

vbladecenter S! tout-en-un en version SAN ou NAS

Sécurité WebSphere MQ V 5.3

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

VTX HOSTING. Les solutions d hébergement de VTX : du site Web à la colocation en passant par les applications et les serveurs dédiés

Serveur virtuel infogéré

Base de données clients outil de base du CRM

ETUDE DE CAS Marketing relationnel pour l Avent avec Fotokasten

Une approche positive du filtrage applicatif Web. Didier «grk» Conchaudron Sébastien «blotus» Blot

Retour d'expérience migration Oracle vers PostgreSQL. Vincent Moreau Adeo Services

Paris JUG. Spring Batch. Mardi 14 Mai Olivier Bazoud Julien Jakubowski

Comment capitaliser sur votre audience pour activer intelligemment vos plans médias et marketing?

NEC Virtual PC Center

Sécurité et protection des données

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

WORKSHOP NOUVELLES TECHNOLOGIES ET PATRIMOINES CULTURELS, ENTRE PROJETS REVÉS ET RÉALITÉS DU TERRAIN

Transformation des applications SAP avec EMC et SAP HANA. Présentation commerciale : Solutions SAP HANA pour les datacenters

Infrastructure Management

LA PROTECTION DES DONNÉES

MDM Multicanal. - Tous Droits Réservés

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business

Agenda. Le groupe Keyrus. Orange Tunisie. Présentation du projet. Choix initial de Talend Open Studio. Evolution de la plateforme. Nécessité de migrer

مرحبا. Bienvenue. Wel come

Guide de Tarification. Introduction Licence FD Entreprise Forfaits clé en main SaaS SaaS Dédié SaaS Partagé. Page 2 Page 3 Page 4 Page 5 Page 8

Caroline 9 Case postale Lausanne Tél

DES SAUVEGARDES ET DES RESTAURATIONS DE DONNEES SANS CONTRAINTES DE LIEU NI DE TEMPS

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

La gestion de la performance applicative dans des environnements complexes et distribués

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

KIWI BACKUP DOSSIER DE PRESSE

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Architecture de serveurs virtualisés pour la communauté mathématique

Gestion des accès et des identités

Les clés d un bon référencement en Renaud Alquier: gérant et fondateur de l agence interactive LaNouvelle R

Créer une filiale à l étranger Approche & Exemples LE TOUR DU MONDE EN 8H - 21 JUIN 2011

wiki.ipfire.org The official documentation for IPFire - An Open Source Firewall Solution Outils

ELCA Forum 2014 BIG DATA

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Evolution de messagerie en Cloud SaaS privé

Morea : Experts Cloud

Solution de sauvegarde pour flotte nomade

Focus messagerie. Entreprises Serveur de messagerie Logiciel client. Particuliers

Transcription:

du batch au temps réel Maxime Mézin Data & Photo Science Director

Leader Européen du tirage et du livre photo Plus 30 millions de membres 17 pays Stockage de milliards de photos

Développement international

Une stratégie de couverture géographique France et Angleterre Europe continentale Angleterre, Australie et Etats- Unis France, Angleterre et Allemagne Global Europe du Sud (Espagne et Portugal) et région DACH Multi-produits, multi-channel et multi géographies

Projet Redshift / Batch

Problématique Des traitements de rafraichissement du datawarehouse trop long 8h en temps normal Jusqu à 12h en période de Noël Une limitation en terme de stockage 5 To avec uniquement les données de ventes du site Nécessité de remplacer le Hardware Acquisition d un environnement de développement à un prix élevé Nécessite un contrat administration distante (DBA externe) Problème de modèle de licence pour connecter notre outil de reporting

Les besoins pour le futur Croiser l ensemble des sources de données de l entreprise afin d améliorer : La satisfaction client Le ciblage CRM Le reporting Affiner le reporting au niveau le plus fin : la photo

Résultat du POC Chargement : 4 jours pour extraire les données côté Photobox Entre 50 minutes et 5 minutes pour charger les données dans Redshift Performances : Count(*) impossible à lancer sur la table photos sur le slave Mysql 3 secondes sur Redshift Fonctions : Quasiment équivalentes (ex: manque le pivot/unpivot) Flexibilité : Passage de 1 à 8 nœuds en 6h Création d un environnement de dev en quelques minutes

Architecture Actuelle

Performance Avant / Après L alimentation quotidienne du datawarehouse se fait en 2 étapes Récupération des données sur une base slave du site Calcul des agrégats Avant EMR / Redshift Chargement : 1h30 Chargement : 1h (limitation DB slave) Agrégation : 6h Agrégation : 40 min (9 x plus rapide)

Performance Temps de traitement observé en fonction du nombre de nœuds 120 100 80 60 40 Perf (min) 20 Perf (min) 0 2 4 8 5 To avant (données + index), 500 Go sur Redshift!

Coût avant / après Avant Opex : 70 k Support Licence : 30 k External DBA : 40 k Capex : 20 k / an (amorti) Total : 90 k Redshift Opex : Redshift + EMR = 17 k$ = 13 k => 7 x moins cher Pourquoi la région US East? Initialement le service n était pas disponible dans les autres régions Pas de contrainte de latence (90 ms US East vs 30 ms IRL)

Sécurité VPN / VPC et ou Firewall SSH Cryptage Légal : Safe Harbor Act La sphère de sécurité (Safe Harbor) permet à une entreprise américaine de certifier qu'elle respecte la législation de l'espace économique européen (EEE) afin d'obtenir l'autorisation de transférer des données personnelles de l'eee vers les Etats-Unis.

Conclusion Plus de fiabilité Un budget divisé par 7 Des performances a minima 10 fois meilleures Une capacité de stockage multipliée par 32 Une scalabilité simplifiée

Projet Kinesis / Temps Réel

Objectifs Gestion de la relation client en temps réel Cas d utilisations : Envoyer un email d inscription basé sur le produits qui intéresse le membre Tracking des pages produits vues en tant que non inscrit Détecter les nouveaux inscrits et tenter de les réactiver s ils quittent le site sans action engageante (upload photos, création d un produit, achat) Personnaliser le site en fonction des actions, pages vues précédentes

Website Architecture Put Put Get KCL Apps Copy Put Put Photos upload Put Log records sent to Neolane Buffer Backup Put Get & Put Master Workers.. Get Put Slave Babel Metrics Emitter Put

Métriques du système Item Kinesis Stream Elasticache (Redis) Master Worker KCL Apps Max Capacity 1000 msg/second per shard 30 000 msg/second Plus de 500 req/second N x 30msg/second 2000 req/second Site Web + Upload envoient très peu de messages (5% de la capacité du stream) GA peut envoyer jusqu à 200 msg/second (20% de la capacité du stream) Plusieurs workers peuvent être lancés en cas d augmentation de la charge

Processus détaillé Emetteurs GA & Site web (Step 1) 1. Ajoute l événement à User Events List 2. Met à jour le dernier événement de l utilisateur dans Active Users Zset Master (Step 2) Toutes les 20 secondes: 1. Listes des utilisateurs dont le dernier événement est supérieur à X min dans Active Users Zset 2. Pousser l utilisateur vers la file de traitement Workers Queue 3. Effacer l utilisateur de Active Users Zset Active Users Zset User Events List Workers Queue Processed Users Zset Worker (Step 3) 1. Lit les utilisateurs de la file de traitement Workers Queue 2. Exécute le traitement lié à l évènement 3. Ajoute à la liste Processed Users Zset Redis

Site Web Nb Put Requests Monitoring Nb Get Requests Nb Processed Records Select count(*) Upload Nb Put Requests Master Processed Buffer Queue Size Workers Processed Workers.. Backup Master Slave Web Site CPU Memory Evictions Reclaimed Metrics Emitter

Améliorations en cours Intégrer des modèles de machine learning Recommandation produit sur les pages du site web Proposition d upsell en cohérence avec le panier Sécuriser les données stockées dans ElastiCache en cas de crash

Merci