Marc AMADOU Technical Sales Analytics on System z amadoum@fr.ibm.com. 18 Mars 2015. Big data et le z. 2015 IBM Corporation

Documents pareils
Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Cartographie des solutions BigData

HADOOP ET SON ÉCOSYSTÈME

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Labs Hadoop Février 2013

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Hadoop, les clés du succès

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Anticiper et prédire les sinistres avec une approche Big Data

Les journées SQL Server 2013

Surmonter les 5 défis opérationnels du Big Data

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

BIG DATA en Sciences et Industries de l Environnement

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Big Data Concepts et mise en oeuvre de Hadoop

Introduction à MapReduce/Hadoop et Spark

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Offre formation Big Data Analytics

Les quatre piliers d une solution de gestion des Big Data

Panorama des solutions analytiques existantes

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Cassandra et Spark pour gérer la musique On-line

Le nouveau visage de la Dataviz dans MicroStrategy 10

Programmation parallèle et distribuée (Master 1 Info )

Big Data : Quand l approche traditionnelle ne suffit plus à gérer les données

Le BigData, aussi par et pour les PMEs

Les technologies du Big Data

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Ricco Rakotomalala R.R. Université Lyon 2

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Entreprise et Big Data

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Introduction Big Data

Programmation parallèle et distribuée

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

IBM BigInsights for Apache Hadoop

Programmation parallèle et distribuée

Big Data Jean-Michel Franco

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Vos experts Big Data. Le Big Data dans la pratique

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Quel moteur SQL choisir?


NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique


FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Fouille de données massives avec Hadoop

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Les CAMS². Eric Charbonnier Software Client Architect BNP

Big Data, un nouveau paradigme et de nouveaux challenges

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

IBM Software Big Data. Plateforme IBM Big Data

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Big Data -Comment exploiter les données et les transformer en prise de décisions?

SAP HANA : BIEN PLUS QU UNE BASE DE DONNÉES EN MÉMOIRE. Jean-Michel JURBERT Chef de Marché SAP France

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

QLIKVIEW ET LE BIG DATA

Suite Jedox La Business-Driven Intelligence avec Jedox

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG Data et R: opportunités et perspectives

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Change the game with smart innovation

AXIAD Conseil pour décider en toute intelligence

Certificat Big Data - Master MAthématiques

M2 GL UE DOC «In memory analytics»

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

MYXTRACTION La Business Intelligence en temps réel

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Tables Rondes Le «Big Data»

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Document réalisé par Khadidjatou BAMBA

Le MDM (Master Data Management) Pierre angulaire d'une bonne stratégie de management de l'information

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza


Avant-propos. Organisation du livre

Opportunités et enjeux à l heure du Cloud, du Big Data, de la mobilité et du Social Business

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Transcription:

Marc AMADOU Technical Sales Analytics on System z amadoum@fr.ibm.com 18 Mars 2015 Big data et le z 2015 IBM Corporation

Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 2

Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 3

Contexte Big Data Systems of Record z/os est la technologie prédominante pour sécuriser, stocker et traiter les données transactionnelles critiques, de manière fiable Systems of Engagement Hadoop fournit une solution rentable pour gérer les données non structurées logs, données issues des réseaux sociaux, etc... Data La valeur métier provient de plus en plus de la fusion de ces sources multiples et hétérogènes Business Value 4

Les initiatives Big Data impliquent surtout des données transactionnelles & de logs Alors que les données non structurées ont le vent en poupe, la majorité des projets à forte valeur ajoutée implique des données transactionnelles (1) Une grande partie de ces données transactionnelles sont sur z Hadoop est mieux adapté aux types de données structurées et semistructurées 1. 70% of 465 survey respondents cite transactional data as a primary target for big data initiatives - Gartner research note Survey Analysis - Big Data Adoption in 2013 Shows Substance Behind the Hype Sept 12 2013 Analyst(s): Lisa Kart, Nick Heudecker, Frank Buytendijk 5

Big Data Cas d utilisation Exploration des Big Data Trouver, visualiser, comprendre toutes les big data pour améliorer la prise de décision Améliorer la vue 360 o du Client Etendre les vues existantes des clients (MDM, CRM, etc) en incorporant des sources d information internes et externes Extension de la Sécurité Diminuer le risque, détecter la fraude et monitorer la cyber sécurité en temps réel Opérations d Analyse Analyser une variété de données réparties pour améliorer les résultats business Data Warehouse Intégrer les big data et les capacités des data warehouse pour augmenter l efficacité opérationnelle 6

Hadoop attire presque toute l attention pour les nouveaux Workloads C M Client Master Inspiré par les publications de Google et Yahoo! Framework conçu la création d applications traitant des gros volumes de données (pétaoctets) split 0 Map Reduce output 0 Minimise les mouvements de données split 1 split 2 split 3 split 4 split 5 Input Files Map Map Phase Map Intermediate Files Reduce Reduce Reduce Phase output 1 output 2 Output Files Plus rentable que les Data Warehouses traditionnels Gains phénoménaux en termes de performance pour certaines applications Environnement agile pour du prototypage ou du développement d application Plusieurs distributions commerciales: Cloudera CDH, Hortonworks HDP, IBM BigInsights, MapR 7

Hadoop Distributed File System (HDFS) Principe sous-jacent: Beaucoup de disques redondants (si perte on remplace) Beaucoup de machines (cœurs) avec des CPs bon marché (si perte on remplace) Problèmes réseaux, on recommence Les fichiers sont éclatés en «Large Blocks» (64MB par défaut) Les blocks sont répliqués (3 fois par défaut) et distribués à travers le cluster Optimisé pour: La lecture en Streaming des gros fichiers Modèle d accès «write-once-read-many» (une écriture, mise à jour via rajout uniquement) 8

MapReduce Un Framework simple mais très puissant/efficace pour les calculs parallèles Consiste en 2 fonctions map() et reduce(), Mais applicable à l analyse d une multitude de problèmes (traitements de données, fouilles de données, graphes, ) Étapes de base : Exécution des calculs parallèles (Map) sur chaque bloque (split) de données dans un fichier HDFS et envoi de l Output (Map Output) constituée d une paire (clé, valeur) dans le système de fichiers local, Redistribution (Shuffle) de la «Map Output» par clé, Exécution d autres calculs parallèles sur le résultat de la «Map Output» redistribuée et écriture des résultats dans HDFS (Reduce). 9

Le Time to value est important Même si vous pouvez construire vous même une solution à partir de 0, ça ne veut pas dire qu il faut que vous le fassiez! 10

BigInsights: 100% Open Source Hadoop, mais au niveau Enterprise Value-Added Capabilities SQL on Hadoop Big SQL optimized ANSI compliant SQL Application Tooling Toolkits and accelerators Search BigIndex and Data Explorer Data Exploration BigSheets schema-on-read Predictive Modeling Big R scalable data mining Text Analytics Advanced text processing with AQL Real-time Analytics InfoSphere Streams Data Governance and Security Data Click, LDAP, Secure cluster Storage Integration GPFS - POSIX Distributed Filesystem Enterprise Features Adaptive MapReduce, Recoverable jobs 100% Standard Apache Open-Source Components Oozie Jaql Zookeeper Hive HCatalog HDFS MapReduce HBase Flume Sqoop YARN* Spark* Avro Pig Solr/Lucene 11

IBM InfoSphere BigInsights sur System z Secure Perimeter IBM System z MainFrame Core ERP WebSpher e Test Cluster Production Cluster CICS DB2 IMS Java Application Business Objects JVM InfoSphere BigInsights node System z Linux InfoSphere BigInsights node System z Linux InfoSphere BigInsights node System z Linux InfoSphere BigInsights node System z Linux InfoSphere BigInsights node System z Linux InfoSphere BigInsights node System z Linux z/os z/vm HiperSockets - virtual networking and switching Processor Resource / Systems Manager (PR/SM ) CP 1 CP 2... CP n IFL 1 IFL 2 IFL 2... IFL n Memory 12

Flexibilité de déploiement: Sur System z ou à l extérieur Secure Perimeter 13

Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 14

Intégration Hadoop & Systems z Analyses enrichies De très gros volumes de données non-relationnelles sont générés à l extérieur du System z Ex: e-mails envoyés par les clients, les tweets, les posts sur la page Facebook de l entreprise Analyser les sentiments et identifier les clients mécontents d une entreprise Mots annuler, arrêter, changer ou tout autre synonyme Noms des concurrents Rassembler les noms et les adresses e-mail des clients à risque Jointure des résultats avec les données opérationnelles Alerter les agents des clients «à risque» Les agents travaillent avec les clients et leurs proposent des offres et des promotions pour éviter qu ils ne s en aillent Les données & les applications opérationnelles sont ici zapp s zdata IBM InfoSphere BigInsights cluster Il peut aussi y avoir des données pertinentes ici 15 Linux Linux Linux Linux Linux

Qu est ce qui fait sens et quand? Cas 1: Hadoop sur z DB2 QSAM SMF z/os Logs CP(s) VSAM IMS RMF Linux Linux Linux Linux Linux z/vm IFL IFL IFL Cas 2: Hadoop en dehors du z DB2 QSAM SMF z/os Logs CP(s) VSAM IMS RMF Linux Linux Linux Linux Linux La plupart des données proviennent du z (fichiers de Log, extractions de base de données) La sécurité des données est la préoccupation principale Les clients ne veulent pas envoyer les données sur le réseau externe Volumes de données relativement faibles 100 GB à une 10s de TBs Hadoop est apprécié principalement pour la richesse des outils Besoin des modèles de sécurité et de gouvernance Z La plupart des données ne proviennent pas du z La sécurité n est pas la préoccupation principale. On pars du principe que les données ne sont pas de confiance de toute façon Très gros volumes de données 100s de TBs à des PBs Hadoop est apprécié pour sa capacité à gérer de manière rentable les gros volumes de données Volonté de s appuyer sur des capacités de traitement bon marché 16

Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 17

DB2 version 11: Integration avec des sources de données Big Data IBM InfoSphere BigInsights for System z Linux cluster DB2 Linux Linux Linux Linux Linux Sous-traiter à Hadoop depuis DB2 Intégration de DB2z à BigInsights fonctionnalité importante de DB2 v11 Java MapReduce est «l assembly language» d Hadoop Lancer des requêtes JSON (via JAQL depuis des UDFs DB2) JAQL est le «high-level query language» inclus dans BigInsights Format d échange de données léger Utilisé pour échanger des données entre des programmes Récupérer le résultat depuis Hadoop via la fonction HDFS_READ 18

DB2 z/os et le Big Data Enrichir les applications DB2z avec les fonctions analytiques Big Data DB2 fournit les capacités d une base de données ainsi que les connecteurs pour permettre aux applications DB2 d accéder facilement et efficacement aux données dans Hadoop New user-defined functions New generic table UDF capability IBM Big Insights JAQL { } 19

Support de DB2 v11 pour Big Data Objectif: Intégrer DB2 z/os avec la plateforme IBM BigData (BigInsights) basée sur Hadoop et permettre aux applications traditionnelles DB2 z/os d accéder aux fonctionnalités analytiques Big Data 1) Les jobs analytiques peuvent être spécifiés en utilisant JSON Query Language (Jaql) 1. Soumis pour exécution (JAQL_SUBMIT) sur la plateforme BigInsights 2. Résultats stockés dans Hadoop Distributed File System (HDFS) 2) Une table UDF (HDFS_READ) lit le résultat du job analytique BigData depuis HDFS, et le stocke dans DB2 pour une utilisation ultérieure dans une requête SQL. DB2 v11 supporte les «tables génériques» UDF, permttant d utiliser ces fonctions 20

«Connecteurs» BigInsights pour DB2 for z/os 2 fonctions DB2 «sample» : JAQL_SUBMIT Soumet un script JAQL pour exécution dans BigInsights depuis DB2 HDFS_READ Récupère le résultat depuis les fichiers HDFS pour le stocker dans une table DB2 pour être utiliser par des requêtes SQL Notes: Les fonctions sont développées par DB2 for z/os Livrées avec DB2 v11 dans prefix.sdsnlod2 Les fonctions ne sont pas installées par défaut Les fonctions et les exemples sont documentées par BigInsights http://www.ibm.com/support/docview.wss?uid=swg27040438 21

JAQL_SUBMIT Soumettre un script JAQL pour exécution dans BigInsights depuis DB2 22

Exemple HDFS_READ Récupère le résultat depuis HDFS, et le stocke dans une table DB2 pour utilisation ultérieure avec des ordres SQL 23

Exemple HDFS_READ Exemple de fichiers stocké dans HDFS 1997,Ford, E350,"ac, abs, moon",3000.00 1999,Chevy, "Venture ""Extended Edition""",,4900.00 1996,Jeep,Grand Cherokee,"MUST SELL! AC, moon roof, loaded",4799.00 Exemple d ordre SQL Résultat 24

Exemple de requête intégrée 25

Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 26

L intégration des Big Data est critique pour le succès des implémentations Hadoop La majorité des initiatives Hadoop impliquent de collecter, déplacer, transformer, nettoyer, intégrer, explorer, et analyser des volumes issus de sources de données et de types hétérogènes. Pour la 80% De l effort de développement majorité dans un projet Big Data va des clients dans l intégration des données et seulement 20% Va dans l analyse des données. Extract, Transform, and Load Big Data With Apache Hadoop - Whitepaper: https://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf 27

IBM InfoSphere BigInsights Big SQL Big SQL = Big Investment Protection SQL IBM pour Hadoop Rend les données Hadoop accessibles par une plus grande population Syntaxe familière, et connue par un large public S appuie sur les sources de données native Hadoop Complémente le Data Warehouse Analyses exploratrices Sandbox, Data Lake Inclus dans BigInsights Utilisation SQL familiers Cognos, SPSS, Tableau, MicroStrategy SQL based Application Big SQL Optimized SQL MPP Run-time Native Hadoop Data Sources CSV SEQ Parquet RC AVRO ORC JSON Custom 28

IBM InfoSphere System z Connector for Hadoop System z Mainframe z/os S M F DB2 VSAM IMS Logs System z CP(s) Connector For Hadoop System z Connector For Hadoop Linux for System z InfoSphere BigInsights MapReduce, Hbase, Hive HDFS z/vm IFL IFL IFL Enrichir les données Big Data avec les données z data avec Hadoop sur la plateforme de votre choix IBM System z pour la sécurité Power Systems Intel Servers SoftLayer Accès aux données par «Point and click» ou par batch Réduction des coûts de traitement & de stockage 29 29

IBM InfoSphere System z Connector for Hadoop Fonctionnalités clés: Supporte plusieurs distributions Hadoop sur z et à l extérieur du z Plusieurs formats de sources de données: DB2, VSAM/QSAM, IMS, Logs Transfert de fichier par les HiperSockets et par une connexion 10 GbE Interface Drag-and-drop pas de programmation Destinations multiples : Hadoop, Linux File Systems, Streaming endpoints Possibilité de définir différents profiles pour le transfert de données Interface de Streaming filtre et transforme les données & les colonnes à a volée, sur la cible Canal sécurisé Intégration à RACF 30

? 31

Merci! 32