AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL



Documents pareils
NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Bases de données documentaires et distribuées Cours NFE04

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les bases de données relationnelles

Labs Hadoop Février 2013

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

HADOOP ET SON ÉCOSYSTÈME

Hadoop, les clés du succès

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Les technologies du Big Data

Hibernate vs. le Cloud Computing

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Quels choix de base de données pour vos projets Big Data?

Offre formation Big Data Analytics

Les quatre piliers d une solution de gestion des Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Panorama des solutions analytiques existantes

CA 2011 M. +40% de croissance 7. agences en France. Paris Lyon Nantes Bordeaux Montpellier Aix en Provence

Le NoSQL - Cassandra

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

LE MEILLEUR DES SOLUTIONS COLLABORATIVE OPEN SOURCE. et pas que la GED

L AVENIR DU NoSQL. Quel avenir pour le NoSQL?

NoSQL : les meilleures

Architecture NoSQL et réponse au Théorème CAP

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Anticiper et prédire les sinistres avec une approche Big Data

Les journées SQL Server 2013

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Document réalisé par Khadidjatou BAMBA

NoSQL. Etat de l art et benchmark

Titre : La BI vue par l intégrateur Orange

Vos experts Big Data. Le Big Data dans la pratique

Bases de données documentaires et distribuées Cours NFE04


Un peu de culture : Bases N osql L 1

AXIAD Conseil pour décider en toute intelligence

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Introduction Big Data

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Programmation parallèle et distribuée

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Cassandra et Spark pour gérer la musique On-line

Big Data On Line Analytics

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Programmation parallèle et distribuée

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Surmonter les 5 défis opérationnels du Big Data

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction à MapReduce/Hadoop et Spark

2 e édition. et le Big Data. Comprendre et mettre en oeuvre. NoSQL. Rudi Bruchez. Les bases de données

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Le cloud computing au service des applications cartographiques à haute disponibilité

Change the game with smart innovation

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Hébergement MMI SEMESTRE 4

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

Votre laisser-passer pour les. Big Data Guide visuel

Base de données MySQL

Big Data Concepts et mise en oeuvre de Hadoop

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Chapitre 10 Mettre en œuvre un cluster Hadoop

Catalogue Formation «Vanilla»

Big Data Analyse et valorisation de masses de données PREAMBULE

Programme ASI Développeur

Cursus 2013 Déployer un Content Management System

Design. Search. Cloud AMOA ECM. Intégration. IT Solutions. Formation. Développement. Mobilité. Open source. Infogérance. Ergonomie

Ricco Rakotomalala R.R. Université Lyon 2

Drupal : Optimisation des performances

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Big Graph Data Forum Teratec 2013

L élasticité des bases de données sur le cloud computing

SQL Server 2012 et SQL Server 2014

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Mercredi 15 Janvier 2014

COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB?

Les nouvelles architectures des SI : Etat de l Art

E-commerce B2B Comment l exploiter avec Magento Enterprise Edition?

Introduction à la B.I. Avec SQL Server 2008

Centre de formation digital et communication : www. Komelya.fr

Transcription:

AVRIL 2014 Panorama des solutions NoSQL

QUI SOMMES NOUS? Avril 2014 2

SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3

4

NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES BLANCS 5

EXPERTISE NOS PRINCIPALES SOLUTIONS 6

QUE FAIT-ON POUR VOUS? CONSEIL Cadrage / Audits / Benchmark EXPLOITATION Hosting / Infogérance / Maintenance corrective et évolutive / Support DES SERVICES DE GRANDE QUALITÉ POUR UNE COUVERTURE À 360 DE VOS PROJETS AGENCE Identité visuelle / Ergonomie Accessibilité / Stratégie Éditoriale / Référencement FORMATION Accompagnement au changement Formation intra et inter entreprises INGÉNIERIE Conception / Développement / Paramétrage 7

NOTRE SAVOIR FAIRE SMILE ET LE BIG DATA 2 livres blancs Articles sur le blog des experts Smile Exemples de projets Big Data réalisés Intégration de MongoDB pour motoriser le catalogue produits du site E-commerce Eclatement de pièces d achat pour rapprochement Mise en œuvre de 2 clusters de données MongoDB 8

NOSQL QU-EST CE QUE C EST? Avril 2014 9

NOSQL QU-EST CE QUE C EST? NoSQL prône la spécialisation : Les bases NoSQL sont optimisées pour certains patterns d accès aux données Les contraintes (durabilité, réplication, cohérence, ) adapté au cas d usage Ce sont majoritairement des bases de données opérationnelles : Latence faible Taille moyenne (quelques TO) Remplacement ou complément de SQL (Not Only SQL) Fonctionnalités généralement supportées : Réplication et «eventual consistency» paramétrable Failover automatisé Répartition des données sur un cluster (sharding) 10 Avril 2014

BESOIN N 1 DISTRIBUER LES DONNEES ET LEUR TRAITEMENT D une manière générale, il est préférable de privilégier la scalabilité horizontale : Scalabilité verticale VS Matériel moins couteux (commodity hardware) Disponibilité de matériel de machines de rechange. Capacity planning : évolution plus progressive des investissements, ajout de matériel et non remplacement Pour les plus grosse architecture : la limite du scale up est atteinte rapidement Scalabilité horizontale 11 Avril 2014

RDBMS ET SCALABILITE HORIZONTALE Deux problèmes principaux : CAP Theorem ACID : les RDBMs classiques sont conçus pour se comporter comme des systèmes transactionnels cohérents. Le maintien de la cohérence des données dans un système distribué n est pas possible en assurant à la fois le partitionnement des données et la disponibilité du système RDBMs Consistency RDB PICK TWO OF THREE Le maintien de l intégrité référentielle (contraintes) est très couteux dans une système distribué. Availability Avril 2014 Partition tolerance 12

BESOIN N 2 SPECIALISATION DES BASES DE DONNEES NoSQL ne prône pas l abandon de SQL mais bel et bien la spécialisation des bases de données NoSQL = Not Only SQL Ce n est pas entièrement nouveau : LDAP est un exemple de NoSQL La spécialisation induit de nouveaux paradigmes : Clé-Valeur Documentaire Graphes Orientée Colonnes Les moteurs de recherche 13 Avril 2014

BESOIN N 3 ADAPTATION AU CONTRAINTES DE DURABILITE / COHÉREN Toutes les données n ont pas la même valeur La durabilité de la données est l un des critères impactant le plus directement les performances Toutes les solutions n apportent pas les même garanties de durabilité et n utilisent pas les même méthodes Redis dispose d un paramètre général (équivalent à MySQL) MongoDB : laisse au développeur le soin de spécifier la durabilité par requête 14 Avril 2014

BESOIN N 4 ADAPTATION AUX PROBLEMATIQUE D INFRASTRUCTURE Deux problématiques distinctes : Distribution des données Réplication des données Le système peut t il être déployé sur plusieurs DataCenter? Impact sur les performances? En cas de perte du lien? Comment est gérée la cohérence entre les différents nœuds? Eventually Consistent (Cassandra)? Localisation du master dépendant des données (MongoDB)? 15 NoSQL : Les concepts Janvier 2014

NOSQL LES DIFFÉRENTS TYPE DE BASES A chaque cas d usage correspond un type de base NoSQL Base clé-valeurs Bases documentaires Orienté graphe Base orientée colonne Moteurs de recherche

BASE DE DONNÉES CLÉ-VALEUR Offre peu de fonctionnalités : principalement CRUD Performance souvent en pointe grâce à la simplicité du système La plupart des systèmes NoSQL sont avant tout des bases de données clé-valeur Solutions : MemCached Redis Voldemort Amazon Dynamo (SaaS) 17 Avril 2014

BASE DE DONNÉES DOCUMENTAIRES Offre plus de fonctionnalités, nottament de requêtes complexes sur les documents : Systèmes de vues : CouchBase, CouchDb Requête MapReduce : MongoDB, Riak Language de requête spécifique MongoDB Mécanisme de hook permettant l extensibilité : CouchDB, Riak Nécessairement, l ajout de ces fonctionnalités à un impact sur les performances Solutions : MongoDB CouchDB CouchBase Riak 18 Avril 2014

BASE DE DONNÉES ORIENTÉE GRAPHE Basiquement une base de données orientée graphe est une base de données clé-valeur ou documentaire à laquelle on ajoute : Un stockage de liens entre les objets Une API permettant de parcourir le graphe ainsi formé Cas d utilisation majeurs : Knowledge Graph Réseaux sociaux Recommandations Solutions : Neo4j OrientDB 19 Avril 2014

BASE DE DONNÉES ORIENTÉE COLONNE Reprise sur une base clé-valeur d une idée déjà utilisée pour des bases spécialisées dans l analyse (VerticaDB par exemple) : Stocker ensemble toutes les données d une colonne plutôt que celle d une ligne Performances : Rend les fonctions d agrégation plus efficaces (somme, moyenne) Penalise la lecture et l écriture d un objet complet Solutions : Cassandra HBase Accumulo Avril 2014 20

LES MOTEURS DE RECHERCHE Reprise sur une base clé-valeur d une idée déjà utilisée pour des bases spécialisées dans l analyse (VerticaDB par exemple) : Stocker ensemble toutes les données d une colonne plutôt que celle d une ligne Performances : Rend les fonctions d aggrégation plus efficaces (somme, moyenne) Penalise la lecture et l écriture d un objet complet Solutions : ElasticSearch Solr Avril 2014 21

HADOOP ET NOSQL Avril 2014 22

DEUX MONDES DEUX TECHNOLOGIES SYSTÈME OPÉRATIONNEL SYSTEME DECISIONNEL NoSQL et bases relationnelles Latence faible des requêtes (100ms 1s.) Concurrence élevée Lecture / Ecriture Volume de données faibles (Go, To) Applications : Vue donnes 360, Gestion de commandes, Stocks, Catalogue produits, Content management Hadoop et OLAP Latence importantes des requêtes > 1s. Concurrence réduite Lecture principalement Volumes de données importants (To, Po) Applications : BI, Analytics, Détection fraudes, Etude de risque, Scoring, Search Quality Export des analyses pour utilisation opérationnelle Export des données opérationnelles pour analyse MIDDLEWARES

NOSQL ET HADOOP SÉLECTION DE MIDDLEWARES Chargement de données en masse : Apache Sqoop Agrégation de flux de données : Flume, Scribe, Logstash Event processing : Storm, Akka ETLs : Pig : the Hadoop script ETL Talend, Pentaho Data Integration 24 Avril 2014

QUELQUES APPLICATIONS CONCRÈTES Avril 2014 25

DÉVELOPPEMENT PHP SESSIONS ET CACHE VIA REDIS Objectif : Sécuriser les sessions utilisateurs en assurant leur persistance Silo de session par DataCenter Traffic important : concurrence élevée Solution préconisée : stockage dans Redis Avantages : Durabilité paramétrable : bon compromis entre performances et sécurité des données Réplication Mise en œuvre rapide Inconvénients : Sharding au niveau applicatif Cross Datacenter difficile (réplicaiton unidirectionnelle et par shard) Failover manuel (Sentinel) Autres utilisations possibles : Stockage de caches applicatifs Middleware basique (pushsub pattern)

E-COMMERCE PASSAGE À L ECHELLE DE MAGENTO Objectif : Réduire l impact du modèle de données de Magento sur les performances Gérer des catalogues de plusieurs millions de produits Solutions hybride de stockage des produits : MySQL : stockage de la référence du produit (clé étrangère dans de nombreux) + stock (données typiquement transactionnelle) MongoDB : stockage des attributs du produits Gains : Augmentation drastique des performances de lecture et d écriture (x10 à x20) Meilleure scalabilité (sharding) et failover automatisé OpenSource : http://github.com/smile-sa/mongogento

E-COMMERCE MOTEUR D OPTIMISATION Objectif : Collecte de données Tracker classique : 80 variables suivies (session et page) Peser sur l offre présentée aux clients pour vendre plus et mieux Rétroaction des comportements utilisateurs Fonctionnalités de recommandations Agrégation des logs Valorisation des données Utilisation Transfert des logs vers Hadoop (HDFS) via Flume Script Pig : Consolidation par session utilisateur Lutte contre le spam de pixel Script Pig ProductRank (popularité de fond + tendance) Association terme de recherche + attributs produits Scoring autocomplétion Indexation : Ajout des données valorisées à l index produits (ElasticSearch) Utilisation des données valorisées dans les requêtes

REAL USER METRICS COMPRENDRE LES PERFORMANCES DE VOTRE SITE Objectif : Comprendre l impact des performances sur les métriques business Modification du tracker de moteur d optimisation pour porter les données de performances Indexation dans ElasticSearch de session Utilisation du framework d aggregation d ElasticSearch Décider d un plan d action et mesurer son efficacité Offre SaaS mutualisée Permettre l exploration des données par les utilisateurs

CRM VISION A 360 DU CLIENT Objectif : Paiement Niveau d information permettant le conseil adéquat Réclamations Demande de support Déploiement large : Service client Terminaux mobiles dans les magasins Achat sur le site Couchbase Restitution au client (agrégation de profil) Alimentation par import ou API (ESB idéalement) Vue service client Vue vendeur Vue SAV Vue compta

MERCI!!!