Scalable Density Clustering for Spark

Documents pareils
Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Les technologies du Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Anticiper et prédire les sinistres avec une approche Big Data

Hadoop, les clés du succès

HADOOP ET SON ÉCOSYSTÈME

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

M2 GL UE DOC «In memory analytics»

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Labs Hadoop Février 2013

Ne cherchez plus, soyez informés! Robert van Kommer

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data Concepts et mise en oeuvre de Hadoop

Offre formation Big Data Analytics

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Panorama des solutions analytiques existantes

Cartographie des solutions BigData

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Introduction à MapReduce/Hadoop et Spark

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

BIG Data et R: opportunités et perspectives

Change the game with smart innovation

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Les journées SQL Server 2013

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

La rencontre du Big Data et du Cloud

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique


Big Data, un nouveau paradigme et de nouveaux challenges

Fouille de données massives avec Hadoop

BIG DATA en Sciences et Industries de l Environnement

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Cassandra et Spark pour gérer la musique On-line

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Tables Rondes Le «Big Data»

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Les quatre piliers d une solution de gestion des Big Data

Vos experts Big Data. Le Big Data dans la pratique

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

hurence Big Data get its magical power CEO & CTO

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Le nouveau visage de la Dataviz dans MicroStrategy 10

Surmonter les 5 défis opérationnels du Big Data

Big Data Jean-Michel Franco


Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Avant-propos. Organisation du livre

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

NIMBUS TRAINING. Administration de Citrix NetScaler 10. Déscription : Objectifs. Publics. Durée. Pré-requis. Programme de cette formation

Le Big Data Vers de nouveaux usages! 18/03/2015

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Ricco Rakotomalala R.R. Université Lyon 2

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Programmation parallèle et distribuée

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Les mésocentres HPC àportée de clic des utilisateurs industriels

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Génération de code binaire pour application multimedia : une approche au vol

Oracle Maximum Availability Architecture

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Safe Harbor Statement

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Importation et exportation de données dans HDFS

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Empowering small farmers and their organizations through economic intelligence

4 Exemples de problèmes MapReduce incrémentaux

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Cloud Computing Cloud Services Workshop

Xtremweb-HEP : A best effort virtualization middleware

LES ENJEUX DU BIG DATA

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Lyon, 16/10/13. Inauguration FLMSN. le contexte national et européen. M. Asch MESR/DGRI. Wednesday, 16 October 13

Les datas = le fuel du 21ième sicècle

MARS 2015 DATA LAB. TechTrends - Publication de Xebia IT Architects. Imaginer. Matérialiser. Exploiter

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB

SHAREPOINT PORTAL SERVER 2013

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Programmation parallèle et distribuée

Développement logiciel pour le Cloud (TLC)

Bases de données documentaires et distribuées Cours NFE04

SQL Server 2012 et SQL Server 2014

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Cedric Dumoulin (C) The Java EE 7 Tutorial

Transcription:

Scalable Density Clustering for Spark THOMAS TRIPLET, PH.D., ENG. MARCH 9 TH 2016 Principal partenaire financier WWW.CRIM.CA

TECHNOLOGIES BIG-DATA Hadoop Core HDFS: Système de fichiers distribué YARN: Gestion des ressources CPU et planification MapReduce: Traitement en lot (batch) des données à grande échelle Écosystème Hadoop NoSQL: HBase, Cassandra, Accumulo, etc SQL: Hive, Stinger (Hortonworks), Impala (Cloudera), Presto (FB), Tajo, Drill (MapR) Transfert: Sqoop, Flume Calcul/ML: Spark, Storm, Giraph, Mahout Scripts: Pig, Cascading Administration: Hue, ZooKeeper, Knox Recherche: Solr, ElasticSearch 2

APACHE Popular distributed in-memory computing framework 10-100x faster than Hadoop MapReduce and low latency Linear horizontal scalability Fault tolerant (RDDs) Applications range from long-running batch jobs to stream processing High-level Scala, Java, Python and R APIs 3

AGENDA Clustering algorithms (unsupervised learning) Distance-based (k-means) Density-based (DBSCAN) PatchWork Algorithm Results Performance Conclusion Future Work 4

INTRODUCTION: MACHINE LEARNING Supervised Learning Unsupervised Learning (clustering) Class labels are known and predefined Training and testing datasets are (manually) labeled with same classes Goal is to learn function/rule that can classify new data points Examples: SVMs, Neural nets, Bayesian classifiers, Decision trees Class labels of the data are unknown Group/cluster similar data points without prior knowledge Goal is to discover structure or pattern in the data Examples: k-means, EM, DBScan, HCA 5

INTRODUCTION: MACHINE LEARNING Supervised Learning Unsupervised Learning (clustering) Class labels are known and predefined Training and testing datasets are (manually) labeled with same classes Goal is to learn function/rule that can classify new data points Examples: SVMs, Neural nets, Bayesian classifiers, Decision trees PatchWork Class labels of the data are unknown Group/cluster similar data points without prior knowledge Goal is to discover structure or pattern in the data Examples: k-means, EM, DBScan, HCA 5

INTRODUCTION: CLUSTERING Distance-based Density-based Popular algorithm: k-means (implemented in MLLib) Relies on distance function between data points Easy to implement Linear complexity (big-data) Easy to distribute Discovers spherical clusters of similar sizes only Sensitive to noise and local optima Prior knowledge of k. Popular algorithm: DBScan (not in MLLib) Relies on the density of data points in feature space Natural protection against noise and outliers Discovers clusters of arbitrary shape and size No prior knowledge of k Discovers clusters of similar densities only Quadratic complexity: not scalable 6

INTRODUCTION: CLUSTERING Distance-based Density-based Popular algorithm: k-means (implemented in MLLib) Relies on distance function between data points Easy to implement Linear complexity (big-data) Easy to distribute PatchWork Discovers spherical clusters of similar sizes only Sensitive to noise and local optima Prior knowledge of k. Popular algorithm: DBScan (not in MLLib) Relies on the density of data points in feature space Natural protection against noise and outliers Discovers clusters of arbitrary shape and size No prior knowledge of k Discovers clusters of similar densities only Quadratic complexity: not scalable 6

PATCHWORK ALGORITHM 2 main steps: 1. createcells( datapoints ) à cells à RDD[(string, int)] 2. createclusters( cells) à clusters 7

STEP 1: CELL CREATION 8

STEP 1: CELL CREATION 9

STEP 1: CELL CREATION ( -1,2 ; 4 ) ( -1,3 ; 4 ) ( -2,2 ; 4 ) ( -3,4 ; 1 ) ( 2,3 ; 4 ) ( 2,4 ; 3 ) ( 3,3 ; 3 ) ( 3,4 ; 3 ) 10

STEP 1: CELL CREATION ( -1,2 ; 1 ) ( -2,2 ; 1 ) ( 3,4 ; 1 ) ( -1,2 ; 1 ) setofcells = datapoints.map(pà(cellid(p),1)).reducebykey(_ + _) ( -1,2 ; 4 ) ( -1,3 ; ( -2,2 ; 4 4 ) )... ( -3,4 ; ( 2,3 ; 1 4 ) ) ( 3,4 ; 1 ) ( 2,4 ; 3 ) ( -1,2 ; 1 ) ( 3,3 ; 3 ) ( 3,4 ; 1 ) ( 3,4 ; 3 ) 11

STEP 2: CLUSTER CREATION 12

EXPERIMENTAL SETUP 6 servers, each with: Intel Xeon E5-2650 8 cores @2.6GHz 192GB memory 30TB storage Cloudera CDH 5.4.0 Apache Spark 1.3 13

DATASETS Aggregation Compound Jain Spiral 14

RESULTS (JAIN DATASET) K-means DBScan PatchWork 15

RESULTS (SPIRAL DATASET) K-means DBScan PatchWork 16

RESULTS (AGGREGATION DATASET) K-means DBScan PatchWork 17

RESULTS (COMPOUND DATASET) K-means DBScan PatchWork 18

PERFORMANCE DBSCAN PatchWork MLLib k-means 100,000 10,000 Running Time (seconds) 1,000 100 10 1 10,000.0 100,000.0 1,000,000.0 10,000,000.0 100,000,000.0 1,000,000,000.0 10,000,000,000.0 Millions of data points 19

PERFORMANCE: SCALABILITY MLLib k-means PatchWork 1 0.75 Normalized execution-time 0.5 0.25 0 1 2 3 4 5 Number of servers 20

CONCLUSION 21

FUTURE WORK Tests against new clustering algorithms available in Spark 1.6 Better distribution of step 2 Indexing for region query using R-trees Streaming version 22

Q & A Contact: thomas.triplet@crim.ca Availability: https://github.com/crim-ca/patchwork (MIT Licence) Reference: Frank Gouineau, Tom Landry, Thomas Triplet (2016) PatchWork, a Scalable Density-Grid Clustering Algorithm. In Proc. 31th ACM Symposium On Applied Computing, Data-Mining track

WWW.CRIM.CA Thomas Triplet, Ph.D., Eng. thomas.triplet@crim.ca Suivez-nous Dialoguez avec nous Suivez-nous #CRIM_ca wwwcrimca Le CRIM est un centre de recherche appliquée en TI qui développe, en mode collaboratif avec ses clients et partenaires, des technologies innovatrices et du savoir-faire de pointe, et les transfère aux entreprises et aux organismes québécois afin de les rendre plus productifs et plus compétitifs localement et mondialement. Le CRIM dispose de quatre équipes de recherche en TI de calibre mondial. Le CRIM œuvre principalement dans les domaines des interactions et interfaces personne-système, de l analytique avancée et des architectures et technologies avancées de développement et tests. Détenteur d une certification ISO 9001:2008, son action s inscrit dans les politiques et stratégies pilotées par le ministère de l'économie, de l'innovation et des Exportations (MEIE), son principal partenaire financier. Principal partenaire financier Tous droits réservés 2016 CRIM. 405, avenue Ogilvy, bureau 101, Montréal (Québec) H3N 1M3/514 840-1234/1 877 840-2746