1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU
CONNAISSEZ-VOUS PAGESJAUNES?
CONNAISSEZ-VOUS PAGESJAUNES?
LES MEGADONNEES RÉPONDENT À DE NOUVEAUX BESOINS Gestion des Logs Texte Mining Sentiment Analysis Analyse des RFID / Capteurs Big Data Business Discovery Data Visualisation Self-Service BI Data Interact Flux des clics utilisateurs en temps réel Données GPS et spatiales Voix en Texte Analyse du Web Mobile BI institutionnelle Approche Agile Social Interaction Open Data Mining Reporting Couche sémantique DataWarehouse Datamart Cubes Data Gathering Massive Processing Parallel Indexation ETL Data Cleansing ERP CRM SCM Base de données Données structurées d entreprise Système de fichiers textes Données locales Gestion de Image, Vidéo Réseaux sociaux contenu, Logs Données non structurées d entreprise et externes
LA PREUVE PAR L EXPÉRIMENTATION. 5
BI - ARCHITECTURE 2013 ET 2014 Quelques limitations de la BI actuelle: 1. BI globalement en silo => ce qui ne constitue pas de la vraie BI 2. Socle de données sur Netezza avec risque de saturation avérée 3. Aucune possibilité d incorporer des données non structurées (type blog, réseaux sociaux ) 4. BI en mode batch BI Audience BI Mobile BI Commercial BI Données DMT DWH ODS Logs fixe Logs mobile Base de donnée Base de données Données Structurées ou Semi-structurées d entreprise Base de données 6
Date Titre de la présentation 7 Parc applicatif BI en transformation en 2014 et cible 2015 : activons le Big Data!
VISION CIBLE ARCHITECTURE DE LA BI Data Visualisation Data Mart Fonctionnel Open Data Group (Données brutes et Open Datamart) Logs fixe Logs mobile Commerc Finance RH MPG CRM iale Données Structurées ou Semi-structurées d entreprise Social Network Portail / Intranet Données non structurées Image, Vidéo 8
RÉALISATIONS 2014 REAL TIME BUSINESS Real Time Business 9
RÉALISATIONS 2014/2015 - POWER SELECTOR Search Power Selector 10
OUR CONVICTION: OPENSOURCE WOULD SOLVE MOST OF BI PAINS The Enterprise Data Hub of Cloudera would be the «Extended DataWarehouse» The NoSql «Column Database» is the simple way to give access to the end user and ensure good performance Performance ETL for the data transformation on top of Hadoop New Data Visualization / Data Story Telling, which is very quick to install/deploy, and simple to use The end of the Batch, and the welcome of the Streaming and real time data 11
LE PARTAGE DE CONNAISSANCES EST CLEF! Le mangement de la donnée est essentiel dans toute pratique Big Data et tout projet. Nous avons lancé dans le cadre de l association 3 groupes de travail: Big Data Data Science Data Gouvernance D autres ateliers suivront, des événements, de la littérature donc abonnez-vous et n attendez plus! http://www.dama-france.org/ 12
BIENVENUE DANS LE MONDE DU NOSQL 13
LE NOSQL, POURQUOI? 1970 Systèmes de fichiers Système transactionnel: Écritures concurrentes, Performance accès concurrents Standardisation Base de données - RDBMS ~2009 Base de données - RDBMS Big Data: Volumétrie (téra/péta octet) Performance Données non structurées 14
NOSQL NOT ONLY SQL DIFFÉRENTS TYPES: BASES ORIENTÉES CLÉ / VALEUR BASES ORIENTÉES COLONNES BASES ORIENTÉES GRAPHES BASES ORIENTÉES DOCUMENTS Ben Scofield a évalué les différents types de NoSQL: Data Model Performance Scalability Flexibility Complexity Functionality Key Value Store high high high none variable (none) Column-Oriented Store high high moderate low minimal Document- Oriented Store high variable (high) high low variable (low) Graph Database variable variable high high graph theory Relational Database variable variable low moderate relational algebra 15
NOSQL FOCUS SUR IMPALA ET L ORIENTÉE COLONNE RowId Matricule Nom Prénom DateEntrée Fonction Salaire 1 53427 Dupont Eric 01/01/2000 Ingénieur 30000 2 89765 Martin Jean 15/03/2007 Contrôleur 65000 3 109755 LeMaitre Gaston 13/12/2003 Architecte 45000 4 76598 Dupont Gaston 01/01/2000 Contrôleur 50000 5 9090432 Prince Charles 01/01/2010 Ingénieur 55000 Nom Dupont 1;4 Martin 2 LeMaitre 3 Prince 5 Prenom Eric 1 Jean 2 Gaston 3;4 Charles 5 Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce qui accélère les analyses OLAP agrégations, filtres 16
CONSEIL: COMMENT ACTIVER LES PROJETS ET COMMENT REMÉDIER À L IMMOBILISME? Avec votre bâton de pèlerin: expliquez démystifiez donnez du sens fédérez! Trouvez le sponsor dans l entreprise, qui vous soutiendra appuiera mettra en lumière Lancez-vous! Nous avons toute la maturité technologique pour enfin réaliser tous nos désirs en termes de data! Épanouissezvous! 17