Big Data par l exemple



Documents pareils
Les technologies du Big Data

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

HADOOP ET SON ÉCOSYSTÈME

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Programmation parallèle et distribuée

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Programmation parallèle et distribuée

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Panorama des solutions analytiques existantes

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Programmation parallèle et distribuée (Master 1 Info )

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Introduction Big Data

Opérateur global de la performance IT

Cartographie des solutions BigData

Big Data Concepts et mise en oeuvre de Hadoop

Vos experts Big Data. Le Big Data dans la pratique

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

Entreprise et Big Data

Labs Hadoop Février 2013

Retour d expérience sur Prelude

Une famille d'applications permettant à toute organisation d'optimiser le suivi et la gestion de ses ressources internes vous présente

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Ricco Rakotomalala R.R. Université Lyon 2

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Gestion collaborative de documents

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Offre formation Big Data Analytics

La rencontre du Big Data et du Cloud

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Hadoop, les clés du succès

Cassandra et Spark pour gérer la musique On-line

Formation continue. Ensae-Ensai Formation Continue (Cepe)

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis


Sommaire. Systèmes d Exploitation Intégration Sage 100 Sage CRM Disponibilité Client Bases de données... 3

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Les journées SQL Server 2013

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Bases de données documentaires et distribuées Cours NFE04

Anticiper et prédire les sinistres avec une approche Big Data

VMWare Infrastructure 3

White Paper - Livre Blanc

Bases de données documentaires et distribuées Cours NFE04

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

BIG DATA en Sciences et Industries de l Environnement

«clustering» et «load balancing» avec Zope et ZEO

Suite Jedox La Business-Driven Intelligence avec Jedox

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

MySQL. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

Titre : La BI vue par l intégrateur Orange

Clusters de PCs Linux

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Hébergement MMI SEMESTRE 4

Catalogue des stages Ercom 2013

Les tableaux de bord de pilotage de nouvelle génération. Copyright PRELYTIS

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Tables Rondes Le «Big Data»

Évolution de la supervision et besoins utilisateurs

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Accéder à ZeCoffre via FTP

IBM SPSS Modeler Text Analytics Server for Windows. Instructions d installation

Créer et partager des fichiers

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Introduction à MapReduce/Hadoop et Spark

Surabondance d information

Nouveautés Ignition v7.7

Expertises Métiers & e-business. Technologies Microsoft & OpenSource. Méthodologies et gestion de projet

M2 GL UE DOC «In memory analytics»

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

IaaS à la sauce Portails Focus sur. Pierre Aubert Orange Portails OF/DMGP/Portails/DOP 1 er Juillet 2013

Surmonter les 5 défis opérationnels du Big Data

Entrez dans l ère du Numérique Très Haut Débit

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Jouez les précurseurs: avec le Managed Server de Hostpoint

Le nouveau visage de la Dataviz dans MicroStrategy 10

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

Hébergement WeboCube. Un système performant et sécurisé. Hébergement géré par une équipe de techniciens

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

IBM Tivoli Compliance Insight Manager

Synthèse Retours d expérience Dataïku, Blablacar, Kameleoon, Linkfluence et Vente privée.

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Certificat Big Data - Master MAthématiques

Manuel du logiciel PrestaTest.

Transcription:

#PARTAGE Big Data par l exemple Alexandre Chauvin Hameau Directeur de la production Malakoff Médéric @achauvin CT BIG DATA 10/12/2015

Soyons pragmatiques BIG DATA beaucoup de bruit pour des choses finalement assez usuelles et connues Vous en faites, nous en faisons et depuis longtemps : BI, analytics, dataviz, statistiques, calcul distribués Ce qui a vraiment changé : la vision du métier, la presse, les approches commerciales la technologie, notamment au niveau du stockage et de la distribution des calculs avec des solutions opensource le fait que des efforts soient placés dans l analyse et que la soif dans la donnée soit importante au plus haut de la hiérarchie

La DSI, outilleur du Big Data Le Big Data ce n est pas une approche technique, la connaissance du métier est indispensable Mais l informatique doit apporter la boîte à outils pour que le métier puisse creuser dans les données, inventer des modèles, découvrir des horizons Ceci est valable pour les données de tous les métiers, y compris ceux de la production, un très bon début pour se faire la main : l analyse des logs Pour diagnostiquer rapidement les incidents Pour anticiper Pour découvrir les aberrations en avance de phase À des fins sécuritaires (SIEM)

3 exemples, mis en place chez nous Collecte et visualisation des logs et des indicateurs techniques Moteur de recherche et statistiques sur l outil ITSM Hadoop pour l exploration des données Techniquement basés sur des solutions différentes pour des usages différents Du temps réel, de l indexation, de la recherche, de la visualisation rapide pour creuser dans le puits de données Du temps différé, batch, du calcul, la base à du décisionnel ou de la découverte de nouveaux modèles

1- Collecte et visualisation des logs et des indicateurs techniques Tous les systèmes informatiques construisent des journaux de log, les exploiter permet de découvrir des dysfonctionnements et d'anticiper des anomalies Elastic : point focal de consolidation des logs, non structuré donc souple, simple d'interrogation, massivement distribuable et résultats de recherche en temps réel Logstash : collecteur et découpeur de log - multi protocole, capacité avancées d'analyse pour le filtrage et le découpage (en champs dans Elastic). Couplé à nxlog pour la collecte sur serveurs (Windows & Linux) qui filtre et découpe à la source. Création d'un index Elastic par jour, plus de simplicité pour stockage et manipulation Kibana : visualisation des données dans une interface web 25 Go de données par jour de collecte pour 30M de documents

1- cluster technique elastic CT BIG DATA 10/12/15

1- kibana, quelques exemples CT BIG DATA 10/12/15

2- Moteur de recherche sur l outil ITSM Un de nos outils de base à la production est l'itsm, tous les changements, incidents, problèmes y sont manipulés quotidiennement Besoin fort de tableau de bord intégré et de recherche pour résolution ou analyse à froid Collecte des données sur l'outil et insertion dans elastic (via batch) 700 K documents à date Développements spécifiques pour le moteur de recherche et l'intégration dans l'outil de tableau de bord de production (php, symfony) Transfert du puits de données mysql vers elastic pour l'ensemble des indicateurs de production

3- Hadoop & Hive pour l exploration des données Construction d un cluster hadoop en mode «prospectif», dans une démarche de découverte, au cas où 18 nœuds sur du matériel de récupération, plutôt ancien (4 ou 8 cœurs, 8 Go de RAM, 130 Go de disque) CentOS 7 avec installation automatique sur kickstart + ansible Distribution Cloudera (base RPM) Utilisé par une équipe agile (MOE + métier + data scientist) autour de quelques idées pour la recherche d un modèle de prédiction et de conseil Sur un faible volume de quelques centaines de millions de lignes, 3 sources de données, manipulées par Hive en mode SQL, au total moins de 200 Go

A-t-on besoin d hadoop? Tout dépend de ce que l on fait! Pour des volumes de données faibles, on peut largement s en passer, c est beaucoup plus simple avec une base de données ([no]sql) Dès que l on traite des volumes plus conséquents et avec de multiples sources, alors le modèle distribué prend tout son sens 20 petits serveurs iront plus vite qu un gros, Imaginez 100 ou 1000! Une des clés est liée au volume de données brutes sur lesquelles on fera des traitements, on peut démarrer avec : >10 millions de lignes > 500 Go aujourd hui un serveur moyen c est 256 Go de RAM / 16 To de disque Mais les données seront plus simples à manipuler si elles sont traitées nativement avec des développements spécifiques (ie hors hive)

Performances SQL vs hadoop? Comparaison d'usage entre mysql, hive et un développement spécifique hadoop (python + pipe) sur la même source de données Temps comparés sur : chargement des données, count distinct, select avec substring, groupement complexe avec unicité MySQL plus performant jusqu'à 5.000.000 de lignes vs hive et 3.000.000 vs python Python toujours plus performant que hive (30 % à 100%) MySQL s'écroule à 10.000.000 de lignes :

Supervision de notre cluster hadoop collectd sur chaque nœud, logstash pour la collecte et insertion dans elastic, kibana pour la visualisation

Attention à l excès de confiance Hadoop ne fait par construction pas de temps réel, l approche batch est à privilégier, même si des solutions dynamiques sont désormais disponibles (ie spark in-memory map reduce) La configuration requiert un peu d expérience dans les environnements distribués et l open-source, mais pas de complexité particulière La manipulation de gros fichiers n est pas simple, notamment lorsque leur taille dépasse celle d un volume disque HDFS réparti les données sur l ensemble des nœuds du cluster Un file system ne propose généralement pas la même souplesse Nous avons utilisé glusterfs sur les mêmes disques que l HDFS pour la manipulation de fichiers intermédiaires (copie, découpage, compression, tests ) La supervision d un cluster hadoop n est pas implicite, tout est automatique et donc opaque. Plus il y a de nœuds et plus c est complexe à piloter Il faut écrire du code pour en tirer vraiment la quintessence Autres pistes : impala, amazon redshift, apache Tez, HP Vertica, looker.com, environnements très mouvants

Mais allez-y! Le rôle de la DSI et en particulier du CTO est de pousser à la mise en œuvre (interne ou service) de ce genre d infrastructure, a minima pour se faire la main et accompagner les métiers dans leurs expérimentations Le rôle des éditeurs et des constructeurs est d aller voir directement les métiers pour leur proposer leurs services, la concurrence est donc forte, mais les enjeux de localisation et de maîtrise des données sont énormes pour toutes les entreprises La suite technique de l aventure big-data est probablement autour du machine learning, mais c est une autre histoire