DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD BIGDATA PARIS LE 1/4/2014 VINCENT HEUSCHLING @VHE74! 1
NOUS 100% Bigdata Infrastructure IT + Data Trouver vos opportunités Implémenter les infrastructures 2
COMPÉTENCES 1 Business 2 Data 3 Infrastructures Comprendre le métier des clients Imaginer de nouveaux leviers de compétitivité Transformer les business models Analyser les données Corrélations Algos prédictifs Machine Learning Mixer les sources de données Intégrations des technologies Bigdata Mise en oeuvre d infrastructures complètes Développement d applications spécifiques Expertise Cloud & Devops Projet, Accompagnement, Transfert de compétences 3
DÉMARRER UN PROJET BIGDATA Comment? Combien de temps? Quels investissements? 4
OPTIONS D INFRASTRUCTURE Infrastructure on-premise Infrastructure dans le Cloud Plateforme Cloud 5
OPTIONS D INFRASTRUCTURE Infrastructure on-premise Infrastructure dans le Cloud Plateforme Cloud 6
OPTIONS D INFRASTRUCTURE Infrastructure on-premise Infrastructure dans le Cloud Plateforme Cloud 7
CONSTRUIRE UN DATA-PIPELINE Collecter Open-data Data-Visualisation Exploration Agrégation Croisement Machine Learning 2014 2013 Affini-Tech -- Diffusion restreinte 8
COLLECTER Aspirer des cookies API Rest Recevoir des fichiers S abonner à un Stream Requêter une base de données / une API 9
EXPLORER, TRANSFORMER Console Rstudio Hadoop Machine Learning Mahout, Python, R, Spark 10
PARTAGER, VISUALISER Base de données Analytiques Data-Applications Data-Visualisations 11
2014 2013 Affini-Tech -- Diffusion restreinte 12 +
USE CASE : SMART METERING GCS? BigQuery 13
USE CASE : SMART METERING GCS BigQuery 14
DEMO Logs Processing Datasets Visualisation Storage Compute Bigquery 15
UTILISATION DE GHADOOP paramètres du cluster hadoop : - Ou sont stockées les données? - Combien de noeuds? - Quel type de VM? - Choix des composants hadoop? paramètres du connecteur Biqquery en 3 minutes 30, le cluster Hadoop est prêt à l emploi avec Pig, Mahout,etc installé. 16
CONNECTION ET UTILISATION DE PIG 17
CONTRÔLE DU JOB SUR LE JOBTRACKER 18
VÉRIFICATION DES RÉSULTATS ET EXPORT DANS BIGQUERY 19
EXPLOITATION DES DONNEES DANS TABLEAU 20
EXPLOITATION DES DONNEES DANS TABLEAU 21
POUR RESUMER en 15 minutes on a :! - Instancié des VM et déployé un cluster Hadoop - Vérifié les données qui avaient été chargées dans Google Cloud Storage - Exécuté un script Pig - Chargé une table dans Bigquery - Connecté Tableau pour visualiser les données! Le tout pour moins de 1 euro!!! 22
UNE PLATEFORME DE DATA MANAGEMENT AUTOUR D HADOOP 23
Realtime complex event processing Trackers & Connectors Google Appengine (autoscale) Google Storage Google Compute Batch & Machine Learning jobs http:// spark.incubato r.apache.org/ Bigquery 2014 2013 Affini-Tech -- Diffusion restreinte
Web Apps Logs Analytics Transactions / CRM Opendata Réseaux sociaux Personnalisation Recommandation Datavisualisation Dashboards Google Cloud Storage Elasticsearch Graph Google Bigquery Outils statistiques R Machine Learning Hadoop Spark in memory 25
POINTS ESSENTIELS Peu couteux en termes de plateforme ( à partir de 1000 /mois) Des projets de taille raisonnables (de 15 à 30 jours) La rupture technologique et le cout permettent d envisager de nouveaux projets Améliorez une BI traditionnelle, en complétant celle-ci. 26
MERCI! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 2014 Affini-Tech - Diffusion 2013 restreinte Affini-Tech - Diffusion restreinte 27