Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an



Documents pareils
NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Bases de données documentaires et distribuées Cours NFE04

Cassandra et Spark pour gérer la musique On-line

Un peu de culture : Bases N osql L 1

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Hibernate vs. le Cloud Computing

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Les bases de données relationnelles

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Cartographie des solutions BigData

HADOOP ET SON ÉCOSYSTÈME

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Labs Hadoop Février 2013

Panorama des solutions analytiques existantes

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Hadoop, les clés du succès

Les technologies du Big Data

NoSQL. Etat de l art et benchmark

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Bases de Données NoSQL

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Bases de données documentaires et distribuées Cours NFE04

OpenPaaS Le réseau social d'entreprise

Cours 8 Not Only SQL

De à 4 millions. Khanh Tuong

Open Source Job Scheduler. Installation(s)

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Le BigData, aussi par et pour les PMEs

2 e édition. et le Big Data. Comprendre et mettre en oeuvre. NoSQL. Rudi Bruchez. Les bases de données

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Vos experts Big Data. Le Big Data dans la pratique

Tables Rondes Le «Big Data»

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Anticiper et prédire les sinistres avec une approche Big Data

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

L AVENIR DU NoSQL. Quel avenir pour le NoSQL?

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Notes de cours : bases de données distribuées et repliquées

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

NoSQL : les meilleures

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Programmation parallèle et distribuée

Les bases de données

Quels choix de base de données pour vos projets Big Data?

Avant-propos. Organisation du livre

NoSQL. Stephane VAROQUI Field Services - Senior Consultant

NoSQL - Systèmes de gestion de données distribués

Le Big Data Vers de nouveaux usages! 18/03/2015

Les journées SQL Server 2013

Performance web. Mesurer. Analyser. Optimiser. Benjamin Lampérier - Benoît Goyheneche. RMLL Beauvais. 8 Juillet 2015

Importation et exportation de données dans HDFS

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Java et les bases de données

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

CREATION WEB DYNAMIQUE

Introduction à MapReduce/Hadoop et Spark

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Programmation parallèle et distribuée

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Le NoSQL - Cassandra

Le langage SQL (première partie) c Olivier Caron

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Bases de données documentaires et distribuées Cours NFE04

Intégration de systèmes

SQL Historique

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Surmonter les 5 défis opérationnels du Big Data

QLIKVIEW ET LE BIG DATA

Encryptions, compression et partitionnement des données

Big Data Analyse et valorisation de masses de données PREAMBULE

IFT3030 Base de données. Chapitre 1 Introduction

Ricco Rakotomalala R.R. Université Lyon 2

Mysql. Les requêtes préparées Prepared statements

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Titre : La BI vue par l intégrateur Orange

Session S12 Les bases de l optimisation SQL avec DB2 for i

Rapport d étude sur le Big Data

IBM Cloudant Data Layer Local Edition

Introduction à JDBC. Accès aux bases de données en Java

L élasticité des bases de données sur le cloud computing

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Les bases de l optimisation SQL avec DB2 for i

JOnAS 5. Serveur d application d

Transcription:

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Qui suis-je? Alexander DEJANOVSKI Ingénieur EAI Depuis 15 ans chez Chronopost @alexanderdeja

Chronopost International Notre métier Leader de la livraison express de colis jusqu à 30 kg aux entreprises comme aux particuliers partout dans le monde, Chronopost s appuie sur en France sur un réseau constitué de 75 sites opérationnels et 7 hubs. Chronopost dessert plus de 230 pays en Europe et dans le monde. En 2014 : 3 500 salariés Plus de 60 000 entreprises clientes 4 500 tournées de livraison par jour 114,5 millions de colis livrés 230 pays desservis 33% des colis livrés en BtoC 25% de son CA à l International

L EAI chez Chronopost

Flux EAI chez Chronopost TIBCO BusinessWorks 750 000 échanges/j 3M d étapes/j

Suivi des flux EAI Développement interne : FLUKS Base relationnelle

Suivi des flux EAI

Suivi des flux EAI

Suivi des flux EAI

Suivi des flux EAI

Problèmes Contentions Latences Statistiques

Proposition d un PoC NoSQL sur Fluks Portage Scalabilité Open Source

La jungle «NoSQL/Big Data» http://nosql-database.org/ liste + de 150 bases NoSQL Hadoop Elasticsearch RaptorDB LevelDB HBase Cassandra Couchbase CouchDB djondb EJDB Berkeley DB Oracle NOSQL Hypertable RethinkDB densodb GenieDB Accumulo Cloudata Cloudera MonetDB HPCC Apache Flink Splice Machine MongoDB RavenDB MarkLogic Server Clusterpoint Server NeDB Terrastore AmisaDB JasDB SisoDB SDB ThruDB iboxdb DynamoDB Riak Redis Aerospike FoundationDB BangDB Scalaris Scalien Voldemort Dynomite KAI MemcacheDB Spark. #CassandraSummit

Notre short list HBase Cassandra MongoDB

Cassandra

Pourquoi Cassandra? Simplicité Réplication Tolérance aux pannes CQL JDBC Scalabilité

Partition et réplication Replication Factor = 3 3 répliques de chaque enregistrement

Requêtes

Scalabilité linéaire

CQL = Cassandra Query Language Création de table : CREATE TABLE ma_table( id int, value text, PRIMARY INDEX(id) ); Requêtage des données : SELECT * FROM ma_table WHERE id=?

Il faut réapprendre certaines choses Pas de relations Dénormalisation Clauses WHERE limitées Requêtes analytiques

Le PoC Cassandra

Portage de Fluks Driver JDBC Cassandra (TIBCO/IHM) Guava 2 mois / 1 personne

Passage en production Serveurs décommissionnés Août 2014 : 1 ère infrastructure Avril 2015 : évolution

Résultats en production Plus de contention Stats temps réel RDBMS : 100-120ms / message Cassandra : 16-20ms / message

Comparatifs des temps d intégration

Des stats temps réel? Dans la version relationnelle : Batch Recalculs à la demande Avec la montée en charge : Durée++ Perturbation insertions

Des stats temps réel? Type «counter» de Cassandra Incrémentation/Décrémentation : UPDATE ma_table SET my_counter = my_counter + 10 WHERE ma_cle=1 Le truc génial? UPDATE = INSERT Enregistrement créé s il n existe pas

Des stats temps réel? Attention : Cassandra < 2.1 = compteurs approximatifs rejeux OK pour des stats

Développements en cours sur Cassandra

Vision Base Cassandra alimentée depuis notre Base Colis Toutes les Informations colis Tous les événements

Vision 2 nouvelles offres Chronopost à la rentrée Stockage Cassandra Accent fort sur le temps réel Stockage en «time series»

Infrastructure analytique

Notre stack analytique «Big Data» Apache Spark 1.2 Cassandra (via connecteur Spark Datastax) Analyse sur profondeur réduite (opérationnel) HDFS Analyse sur profondeur étendue (archivage) Dataiku

Contribution à l écosystème Cassandra

Le driver JDBC «legacy» Non maintenu Limité Cassandra <= 1.2 Datastax Java driver

Mise à jour du driver JDBC «legacy» Cassandra 2.0/2.1 Load balancing Disponible sur code.google.com Google : «cassandra jdbc» API Thrift

Nouveau driver JDBC Réécriture Intégration Driver Java Datastax Disponible sur github.com/adejanovski

Requêtes asynchrones

Load balancing policies : Token Aware Policy

Load balancing policies : DC Aware Policy

Load balancing policies : DC Aware Policy

Remerciements Datastax pour : Son invitation aujourd hui Sa contribution au code source Cassandra (>80%) Son animation de la communauté Cassandra Vous pour : M avoir écouté jusqu au bout

Merci!