Vos experts Big Data contact@hurence.com Le Big Data dans la pratique
Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB Expert Search Solr Elastic Search
Consulting en infrastructures Big Data Provision Installation Optimisation Sizing Securisation Support Migration
Consulting en architectures Big Data Spécialistes «Data Lake Architectures Lambda Optimisation d'indexes Benchmarks sur gros volumes Chaînes D'alimentation Batch Chaînes D'alimentation Temps Réel
Consulting en solutions Big Data Analyses Logs Text Mining Modèles Prédictifs Audio Mining Profiling Détection Signaux
Formations Big Data Cursus Data Science avec Spark MLLib Cursus analyse de logs avec Flume et Elastic Search /SolR Cursus Search avec Elastic Search ou SolR Cursus Installation Exploitation Hadoop Cursus Développement Hadoop (MR,Storm,Spark) Fondamentaux Big Data Cursus BI SQL Hive Impala et Spark SQL Cursus Temps réel avec Kafka et Spark
Produits Botsearch B-DAP
La détection de Malwares avec Botsearch Injection indexation et analyse de logs Détection de patterns de Malwares Alertes Visualisations Copyright Hurence 2015
B-DAP: Big Data Analytics Plateform Open source à venir Copyright Hurence 2015
Le Big Data dans la pratique
Les technologies Big Data dans la pratique... Open source Moteurs SQL Teradata Oracle GreenplumDB Netezza Moteurs SQL MLLib H2O Bases de données Bases de données Plateformes d'analytique En Grilles Moteurs de recherche et crawlers Mahout Socles parallèles Glue Not only Hadoop Moteurs de recherche Copyright Hurence 2015 Analytique Écosystème Hadoop Propriétaires
Caractéristiques Elles sont massivement open source Elles s'installent sur du matériel commodité Elles offres des capacités de mise à l'échelle de l'ordre de plusieurs centaines de machines (10 000 machines avec Hadoop) Elles utilisent des formats de données libres et plus brutes CSV est largement utilisé pour tout ce qui est SQL Avro sera utilisé pour compacter des données XML Parquet et ORC seront utilisés pour représenter des colonnes (au sens Bases de données).
La vision qui sous-tend ces déploiements... Chaque outil construit sa vue sur les données mais les données sont les mêmes pour tous les outils dans un format non propriétaire sur un système de fichier distribué... Driver OBDC Data Lake SolR SolR Le moteur de recherche solr indexe les fichiers en fait des facettes de recherche Traite les fichiers comme de vraies tables d'un DBMS Le data warehouse des années 2020... Copyright Hurence 2015
La lambda architecture Speed Layer: chaîne d'alimentation temps réel: On analyse les ventes multimodales de l'entreprise en temps réel pour calculer des positions de stocks en même temps qu'on les déverse dans le data lake et qu'on construit des vues aggrégées dessus... Quel est la position du stock en iphone du magasin X? Fichier de Données aggrégées 12 Data Lake modèle Serving layer: Ce sont les applications qui exploitent des données aggrégées ou modèles en temps réel A quelle classe appartient mon Internaute? Masc+cadremoyen+... Batch Layer: chaîne d'alimentation batch On intègre des données et on calcule des modèles en batch par exemple on récupère les données de navigations des utilisateurs et on construit des modèles de classes d'internautes. Copyright Hurence 2015
ROI sur une approche data lake Un facteur 100 par rapport aux coût d'un data warehouse traditionnel Des outils qui offrent de nouvelles perspective (la recherche sur des données structurées...) Copyright Hurence 2015
Big Data Maturity Model Adapté du modèle TDWI: Google: TDWI Big Data Maturity Model gouffre Naissant Peu de culture sur le sujet Pas d'idées sur la valeur pour le business Pas d'adhésion du mgt Une pratique de la gestion de données peu évoluée L'analytique est silotée Pré-adoption Les gens se forment (conférences, lectures) Une petite investigation d'un département sur les technologies (Hadoop) Des données collectée pour l'expérimentation Quelques sponsors dans le mgt aventureux Des sceptiques dans les départements d'analytique Early-adoption Deux ou trois POCs implémentés prêts à la mise en production Infras en place (clusters Hadoop) Des pratiques de gestion de l'infra sont en place mais en dehors de l'opérationnel Corporate adoption Un seul cluster Hadoop multi-tenant de 50 à 100 machines Des processus modifiés pour opérer l'infrastructure Données métier désilotées Un centre d'excellence Analytique pour la société Mise en place d'une organisation avec des compétences pour une adoption à l'échelle de la société Mise en place d'une gouvernance de données Mature Visionnaire Des programmes Big Data sont créés La société voit le Big Data comme une ressource critique Copyright Hurence 2015
Clés du succès pour le Big Data Avoir isolé dans ses processus existants des projets potentiels Le client idéal: il sait ce qu'il veut changer dans son process. Le client sceptique: il attend de nous des use cases. Le client à fuir: son use case c'est l'analyse des réseaux sociaux. Ne pas sous-estimer la compétence qu'il faudra mettre en oeuvre Ne pas sous-estimer la pénurie pour accéder à cette compétence Se former... Se faire accompagner sur le premier projet (accélérateur en années!) Commencer petit (deux ou trois POCs de 40 jours chacun bien choisis) Si on a été bien accompagné on verra le potentiel et l'innovation métier viendra toute seule par catalyse (voire pyrolyse le feu prend!). Etre robuste aux influences des grands éditeurs Copyright Hurence 2015
Vos experts Big Data contact@hurence.com