Vos experts Big Data contact@hurence.com Mener un projet Big Data
Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB Expert Search Solr Elastic Search
Consulting en infrastructures Big Data Provision Installation Optimisation Sizing Securisation Support Migration
Consulting en architectures Big Data Spécialistes «Data Lake Architectures Lambda Optimisation d'indexes Benchmarks sur gros volumes Chaînes D'alimentation Batch Chaînes D'alimentation Temps Réel
Consulting en solutions Big Data Analyses Logs Text Mining Modèles Prédictifs Audio Mining Profiling Détection Signaux
Formations Big Data Cursus Data Science avec Spark MLLib Cursus analyse de logs avec Flume et Elastic Search /SolR Cursus Search avec Elastic Search ou SolR Cursus Installation Exploitation Hadoop Cursus Développement Hadoop (MR,Storm,Spark) Fondamentaux Big Data Cursus BI SQL Hive Impala et Spark SQL Cursus Temps réel avec Kafka et Spark
Produits Botsearch B-DAP
La détection de Malwares avec Botsearch Injection indexation et analyse de logs Détection de patterns de Malwares Alertes Visualisations
B-DAP: Big Data Analytics Plateform Open source à venir
Mener un projet Big Data
1ère étape: la formation Première étape cruciale: formation! Les membres du projet doivent être à même de comprendre les décisions architecturales qu'on va peut-être un peu leur imposer au début...
2ème étape: les porteurs du projet Afin d'avancer vite, il faut trouver des managers clés et motivés par le sujet qui sauront amener et définir avec le métier des POC «quick win» => Ils deviendront souvent les leaders Big Data dans l'entreprise
3ème étape: le métier Étape difficile : embarquer les gens des métiers dans des POCs! résistance aux changements les gens sont rarement techniques ils peuvent avoir une culture forte (ex. SQL ou statistiques) Il faut être "proche" d'eux, problématiques classiques gestion de projet communication
3ème étape: le métier les managers Étape difficile : embarquer les managers des métiers dans des POCs!! => Désilotter (préservation des pré-carrés ou baronnies)
4ème étape: l'équipe Big Data Des compétences rares voire très rares à un certain niveau d'expérience Il faut allier plusieurs compétences fortes: Informatique (et ses multiples sous domaines!) Mathématiques Créativité Une équipe multidisciplinaire a quand même besoin d'un leader technique difficile à recruter!
5ème étape: la stratégie d'entreprise POCs OK... Desilottage en cours... Équipe formée Mais : => Besoin d'une roadmap à l'échelle de l'entreprise => Il faut avoir convaincu le top management
Big Data Maturity Model Adapté du modèle TDWI: Google: TDWI Big Data Maturity Model gouffre Naissant Peu de culture sur le sujet Pas d'idées sur la valeur pour le business Pas d'adhésion du mgt Une pratique de la gestion de données peu évoluée L'analytique est silotée Pré-adoption Les gens se forment (conférences, lectures) Une petite investigation d'un département sur les technologies (Hadoop) Des données collectée pour l'expérimentation Quelques sponsors dans le mgt aventureux Des sceptiques dans les départements d'analytique Early-adoption Deux ou trois POCs implémentés prêts à la mise en production Infras en place (clusters Hadoop) Des pratiques de gestion de l'infra sont en place mais en dehors de l'opérationnel Corporate adoption Un seul cluster Hadoop multi-tenant de 50 à 100 machines Des processus modifiés pour opérer l'infrastructure Données métier désilotées Un centre d'excellence Analytique pour la société Mise en place d'une organisation avec des compétences pour une adoption à l'échelle de la société Mise en place d'une gouvernance de données Mature Visionnaire Des programmes Big Data sont créés La société voit le Big Data comme une ressource critique
La vision qui sous-tend ces déploiements... Chaque outil construit sa vue sur les données mais les données sont les mêmes pour tous les outils dans un format non propriétaire sur un système de fichier distribué... Driver OBDC Data Lake SolR SolR Le moteur de recherche solr indexe les fichiers en fait des facettes de recherche Traite les fichiers comme de vraies tables d'un DBMS Le data warehouse des années 2020...
La lambda architecture Speed Layer: chaîne d'alimentation temps réel: On analyse les ventes multimodales de l'entreprise en temps réel pour calculer des positions de stocks en même temps qu'on les déverse dans le data lake et qu'on construit des vues aggrégées dessus... Quel est la position du stock en iphone du magasin X? Fichier de Données aggrégées 12 Data Lake modèle Serving layer: Ce sont les applications qui exploitent des données aggrégées ou modèles en temps réel A quelle classe appartient mon Internaute? Masc+cadremoyen+... Batch Layer: chaîne d'alimentation batch On intègre des données et on calcule des modèles en batch par exemple on récupère les données de navigations des utilisateurs et on construit des modèles de classes d'internautes.
Vos experts Big Data contact@hurence.com