Panorama des solutions analytiques existantes



Documents pareils
HADOOP ET SON ÉCOSYSTÈME

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les technologies du Big Data

BIG DATA en Sciences et Industries de l Environnement

Anticiper et prédire les sinistres avec une approche Big Data

Comment booster vos applications SAP Hana avec SQLSCRIPT

Ricco Rakotomalala R.R. Université Lyon 2

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Offre formation Big Data Analytics

Labs Hadoop Février 2013

Introduction Big Data

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Pentaho Business Analytics Intégrer > Explorer > Prévoir

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée (Master 1 Info )

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Les quatre piliers d une solution de gestion des Big Data

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Programmation parallèle et distribuée

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big Data Concepts et mise en oeuvre de Hadoop

Hadoop, les clés du succès

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Surmonter les 5 défis opérationnels du Big Data

BIG DATA et DONNéES SEO

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Méthodologie de conceptualisation BI

Les journées SQL Server 2013

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Tables Rondes Le «Big Data»

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014


THÉMATIQUES. Comprendre les frameworks productifs. Découvrir leurs usages. Synthèse

Titre : La BI vue par l intégrateur Orange

QLIKVIEW ET LE BIG DATA

M2 GL UE DOC «In memory analytics»

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Livret de Stages 2014 / 2015

Programmation parallèle et distribuée

SQL Server 2012 et SQL Server 2014

Big Data et l avenir du décisionnel

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Vérifier la qualité de vos applications logicielle de manière continue

BIG Data et R: opportunités et perspectives

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

LES ENJEUX DU BIG DATA

Les bases de données relationnelles

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

L'automatisation open source pour SI complexes

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

PostgreSQL, le cœur d un système critique

Programme ASI Développeur

Urbanisme du Système d Information et EAI

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Cassandra et Spark pour gérer la musique On-line

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Suite Jedox La Business-Driven Intelligence avec Jedox

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

Fouille de données massives avec Hadoop

Big Data On Line Analytics

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS

Big Data Jean-Michel Franco

MYXTRACTION La Business Intelligence en temps réel

Vos experts Big Data. Le Big Data dans la pratique

DataStudio. Solution d intégration des données et de diffusion de l information

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Exploration des Big Data pour optimiser la Business Intelligence

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Le nouveau visage de la Dataviz dans MicroStrategy 10

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

BI = Business Intelligence Master Data-Science

Catalogue des stages Ercom 2013

Transcription:

Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives

Ne sont ici considérés que les solutions autour de l environnement Hadoop Plus de volume Moins de structure Plus de vitesse Plus d analyses Un nouveau paradigme de traitement de données massivement «parallélisable» Outils d exploitation de l information Modèle de programmation parallèle Système de fichiers distribués Bases de données Nosql, outils de transformation, outils de requêtage, reporting, datamining, machine-learning Un nouveau paradigme de stockage de données, massivement scalable 3

Axe «Opérationnel» : La possibilité de placer des fonctions analytiques complexes au cœur d applications opérationnelles tempsréel (notion de Data- Centric Applications permettant d imaginer de nouveaux produits et services) Action Décision Information Données Axe «Analytique» : La possibilité d opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées) Axe «Financier» : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la «scalabilité» desdites infrastructures 4

Exemple simplifié de traitement Map Reduce Entrée Répartition Map Assortiment Reduce Sortie <Bear, 1> <Bear, 1> <Bear, 2> Deer Bear Beer Dear Bear Beer Dear Deer Beer Deer Bear Beer Dear Bear Beer <Deer, 1> <Bear, 1> <Beer,1> <Dear, 1> <Bear,1> <Beer, 1> <Beer, 1> <Beer, 1> <Beer, 1> <Beer, 3> <Bear,2> <Beer,3> <Dear,2> <Deer,2> <Dear, 1> <Dear, 1> <Dear, 2> Dear Deer Beer <Dear, 1> <Deer, 1> <Beer, 1> <Deer, 1> <Deer, 1> <Deer, 2> Complexité algorithmique Latence liée à l architecture Concevoir des algorithmes adaptés Certains algorithmes n existent pas 5

IN HADOOP Traitements réalisés sur le cluster Hadoop avec le framework Hadoop Échanges de données Paradigme map reduce (distribué ou non) Possibilité de traitements intensifs (forte volumétrie, modélisation multiple) ON HADOOP Extractions des données pour traitement analytiques Échanges de données extra-cluster (hdfs, hive, hbase, ) Paradigmes non map reduce (distribué ou non) Espace spécialisé pour les traitements analytiques «SIDE BY SIDE» Mutualisation de l environnement Hadoop avec la solution analytique Échanges de données intra-cluster (hdfs, hive, hbase, ) Paradigmes non map reduce (distribué ou non) Partage de ressources Possibilité d approches «in memory» 6

Statistique & Datamining vs Informatique & Machine-learning RAS (Seuls les usages et la démarche changent réellement) 7

Apache MapReduce http://hadoop.apache.org Open source In Hadoop Map Reduce Java La solution standard de Hadoop pour réaliser des traitements dans le cluster. Elle n est en rien spécifique à des traitements analytiques. Standard Tarification manipulable Coût réel Latence Complexité Besoin de tout implémenter Apache Streaming http://hadoop.apache.org/docs/stable1/streami ng.html Open source In Hadoop Map Reduce Python, C++, R, Intégration sous la forme d un flux (stdin, stdout) de la fonctionnalité MapReduce pour tous les langages pouvant fonctionner sous ce mode. Standard Tarification Souplesse sur le langage à utiliser Possibilité d utiliser des bibliothèques d analyse (scikit, ) Comme MapReduce + Besoin de parsing des fichiers à chaque étape 9

Apache Mahout http://mahout.apache.org/ Open source In Hadoop Java Solution proposée standard par la fondation Apache pour réaliser des traitements analytiques. Un grand nombre d algorithme sont implémentés. Standard Tarification Algorithmes déjà programmés Java ou ligne de commande «complexe» Documentation Régression fonctionnelle RHadoop https://github.com/revolutionanalytics/rhado op/wiki Open source In Hadoop Map Reduce Solution open source réalisée par Revolution Analytics permettant de réaliser les traitement map reduce (rmr2), hdfs (rhdfs), et hbase (rhbase) directement sous R. Programmation sous R Tarification Réutilisation des bibliothèques R possible Aucun algorithme fourni Latence Conversion des données souvent nécessaire 10

Spark http://spark.incubator.apache.org Open source In Hadoop Map Reduce In Memory Solution permettant d accélérer les traitements map reduce en utilisant les ressources mémoire du cluster (c est en fai tune alternative à map Reduce). Elle peut être utilisée avec Scala, Java, Python et bientôt R. Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores Pas adapté pour l inférence En cours de développement RHive http://nexr.github.io/rhive/ Open source In Hadoop Interaction avec Hive Intégration de R avec Hive. Dans un sens, permet de réaliser des requêtes HQL en R, dans l autre sens, permet d utiliser des fonctions R sous Hive. Programmation en R Requêtes Hive Adapté à la propagation de scores Tarification Repose sur Hive Pas adapté pour l inférence 11

Storm http://storm-project.net Open source In Hadoop Java Solution adaptée à la réalisation de traitements temps réel. Peut être interfacé avec un grand nombre de langages : Ruby, Python, Javascript, Perl, PHP, et R (avec storm-r) Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores simples Pas adapté pour l inférence Non spécifique analytique 0xdata H 2 O http://0xdata.com Open source In Hadoop Non Map Reduce In Memory Solution in memory déployée sur cluster Hadoop. Permet de réaliser certains traitements analytiques classiques sur des données structurées. Performances (réactivité) IHM agréable (Web) Algorithme existants Contraintes hardware Limites du «In Memory» Méthodes limités (en développement) Pas de flux de traitement 12

ORACLE R Entreprise http://www.oracle.com/technetwork/database/ options/advanced-analytics/renterprise/index.html Commercial In Hadoop Map Reduce Solution comprenant : ORCH, un connecteur Hadoop pour R ayant des fonctionnalités proches de Rhadoop ORE, l intégration de R dans Oracle Programmation sous R Réutilisation des bibliothèques R possible Utilisation de Oracle pour les données volumineuses Tarification Aucun algorithme fourni Latence Conversion des données souvent nécessaire Wibidata http://www.wibidata.com Commercial On Hadoop Interaction avec Hive Java Solution s appuyant sur Kiji (open source) permettant de réaliser des traitement analytiques simples en HQL. Performances Algorithmes existants Adapté à la propagation de scores Pas adapté pour l inférence Peu d algorithmes existant Structuration des données 13

Datameer http://www.datameer.com Solution commerciale In Hadoop Non Map Reduce Plateforme intégrée permettant de faire des reporting, de la visualisation, et de la propagation de modèles PMML via Zementis. Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de modèles Tarification (si > 1 To) Pas adapté pour l inférence Statistica / Statsoft http://www.statsoft.fr/ Solution commerciale On Hadoop Distribué non Map Reduce Plateforme Wintel adossée à un cluster Hadoop, permettant de réaliser des traitements Hive simplement, des modélisations sur données distillées, et du scoring via une solution dédiée. Simplification des manipulation sous Hive De nombreux algorithmes Datavisualisation Scoring parallélisés Tarification Besoin de structurer les données sous Hive Estimation sur données réduites 14

SAS High-Performance Data Mining http://www.sas.com/offices/europe/france/solu tions/high-performance-analytics/ Commercial In Hadoop Non Map Reduce In Memory Solution in memory déployée sur cluster Hadoop. Permet de réaliser l ensemble des traitements analytiques classiques sur des données structurées, Performances (réactivité) Programmation «classique» IHM agréable (Flowchart) Datavisualisation Tarification Contraintes hardware Limites du «In Memory» Structuration des données Revolution Analytics http://www.revolutionanalytics.com/ Solution commerciale On Hadoop Distribué non Map Reduce Adaptation de R à l utilisation des volumes importants de données. Permet de réaliser des traitements «side by side» avec Hadoop. Un nombre important d algorithmes est disponible. Performances Programmation style R Datavisualisation (non interactive) De nombreux algorithmes Tarification Absence de certains algorithmes de machine learning Architecture 15

IBM SPSS Modeler http://www-01.ibm.com/ software/analytics/spss/products/modeler Commercial In & On Hadoop Non Map Reduce Solution analytique de IBM combinant la possibilité de traitements Map Reduce en JAQL avec du streaming avec SPSS Modeler Intégration de composants multiples Intégration possible de R Méthodes «classiques» (SPSS) Eco système complet Tarification Dataiku http://www.dataiku.com Solution commerciale In & On Hadoop Non Map Reduce Plateforme intégrée rassemblant des solutions open source (Pig, Hive) permettant de faire des reporting, de la visualisation et des traitements analytiques en python (R et Mahout à venir) Programmation «classique» IHM agréable (Web, Flowchart) Facilité à mixer les outils (Pig + Scikit + Datavisualisation, ) Non map reduce Architecture 16

Alpine http://alpinenow.com Commercial On Hadoop Non Map Reduce Solution analytique construite sur Hive et Hbase permettant de réaliser des traitements analytiques via une interface de workflow IHM agréable (Flowchart) Datavisualisation Déploiement de modèles Approche base de données Estimation de données Données à inclure dans Hive ou HBase Skytree http://www.skytree.net Commercial On Hadoop Non Map Reduce Solution analytique prenant la forme d un web service pouvant être interfacé avec R, Weka, C++ et Python. Facilitateur d accès Nombreux algorithmes Sans IHM Hors Hadoop 17

TEMPS RÉEL Détection des Fraudes Targeting dynamique Personnalisation de l offre Outils légers temps réel REPORTING Anticipation de surcharge serveurs Suivi d indicateurs agrégés (courbes de charges, flux, ) Solutions Web et in memory SCORING Segmentation clients Valorisation Next best offert Solutions les plus complètes 19

Pérennité Choix d un éditeur Développement interne Dimensionnement des données analysées Analyse sur échantillonnage? Calcul segmenté? Spécificité des analyses Algorithmes standards? Approche industrielle ou R&D? Gestion des données ETL Distillation Prise en charge des données non structurées Avec des moyens adaptés Intégration avec l existant Format de stockage des données Mutualisation de la plateforme hadoop Combiner des outils Sous forme intégrée En mutualisant les compétences En minimisant les transformations de données Evolutivité Anticiper les besoins à venir Eviter le patchwork 20

Tarification de la solution + Montée en compétence des équipes + Accompagnement + Développement d algorithmes + Contraintes hardware + Impact sur les traitements existants + Montés de version + = 21

Analyses simples sur des volumes morcelés Analyses poussées sur des volumes importants Outils riches et complexes Solutions simples et rapides à mettre en œuvre

Merci! Présentation à retrouver sur : http://datascience.bluestone.fr/