Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1
Présentation d OCTO Technology 2
Une offre cohérente entre technologie et analyse prédictive DIRECTION SI! CONSEIL EN SI BIG DATA Etude et positionnement des solutions en fonction de votre contexte Transformation de SI Décisionnel vers le Big Data Cadrage de projets Big Data DIRECTION MÉTIER! CONSEIL EN ANALYSE DE DONNÉES AVANCÉES Benchmarks de projets Big Data par secteur Formation des équipes de datamining aux techniques Big Data Accompagnent des projets pilote métiers! ARCHITECTURE DES SYSTÈMES BIG DATA! COLLECTE DE DONNÉES EXTERNES POC sur Hadoop et NoSQL Conception et réalisation de systèmes sous Hadoop et NoSQL Formation Hadoop Identification de sources de données Collecte et traitements de données non structurées Recherche de corrélations économiques 3
Big Data @ OCTO : les chiffres C est le nombre de projets réalisés par OCTO ces 12 derniers mois autour de Big Data 20 850 en To, le plus gros volume de stockage distribué utilisé sur un projet 16 le nombre de partenariats actifs avec des acteurs majeurs du monde Big Data 250 en To, le plus gros volume de données analysées par OCTO 800 en nombre de cœurs, le plus gros cluster Hadoop mis en place 7 consultants certifiées sur Hadoop par les différents éditeurs 4
Big Data, une ambition stratégique Big data est l ambition de tirer un avantage économique de l analyse quantitative des données internes et externes de l entreprise 5
Quelles sources de données? Source Interne Source externe Qq Go Base de données internes Qq To Documents internes (doc, mail, ) Logs (web logs, infrastructure) Qq 10 To Web (sites, blogs, forums, réseaux sociaux, etc.) Infini 6
Sources de données Quels types de données? Données d Identité Données d Usage Données de Relation Client Segmentation Les prospects adressés sont-ils les bons? Comportement Quels sont les comportements de mes clients? Influence Mes clients sont-ils influents? Dans quelle communauté? Axes d analyse Produit & service Processus Marché Comment mes produits sont-ils positionnés? Qualité Quels sont les processus implicites? Usage Comment mes produits sont-ils utilisés? QoS / QoExperience Performance Quelle est la qualité de Quels sont les axes service? d expérience d optimisation? utilisateur? Adoption Quels sont les canaux d acquisition du produit? Collaboration Les échanges sont-ils efficients? Ressources Capacité Quelles sont les capacités réelle du système Optimisation Capacité Comment sont utilisées Comment optimiser leur mes ressources et celles consommation? de mes partenaires? Interaction Quelles causes et effets dans leurs consommations? 7
Univers technologique L écosystème Hadoop offre un stockage distribué, mais également du calcul distribué avec MapReduce. Ce qui explique son positionnement vertical sur le schéma. Application orientée Stockage (IO bound) Hadoop Application orientée Flux évènementiel (streaming) Le Streaming regroupe les solutions de type évènementiel. Streaming Inmemory analytics NoSQL Application orientée Transaction (TPS) L écosystème NoSQL regroupe les solutions de type base de données alternatives aux SGBDR pour les traitements transactionnels. Grid et GPU permettent gérer les calculs intensif en les distribuant sur des grilles de calcul. Application orientée Calculs (CPU bound) Grid - GPU Les solutions de type Inmemory analytics distribuent les données en mémoire pour optimiser les temps de réponse des analyses. 8
Partenaires OCTO Ecosystème Hadoop Complex Event Processing High Performance Computing NoSQL Cloud DevOps Microsoft OCTO est expert des solutions leaders du marché. Les multiples partenariats nous permettent de rester indépendants vis-à-vis des éditeurs. 9
Le partenariat OCTO avec Hortonworks OCTO est partenaire formation certifié Hortonworks et est habilité à produire les formations certifiantes originales d Hortonworks 10
Pour aller plus loin sur Hadoop Nos publications Introduction à Flume NG BigData : la fin des architectures basée sur des processus métiers? Votre premier projet Hadoop Utiliser Hadoop pour le calcul de la Value At Risk Hadoop dans ma DSI, comment dimensionner un cluster? Hadoop dans ma DSI, benchmarker son cluster L évolution des architectures décisionnelles avec Big Data Hadoop in Da Cloud Hadoop 2 en version stable : quel intérêt pour vous? Votre premier projet Hadoop http://blog.octo.com/tag/hadoop/ 11
Pour aller plus loin : Le programme R&D OCTO 2012-2013 et sur Big Data Plus de sources de données Plus de données Flexibilité des données et des processus Systèmes préventifs et adaptatifs Diminution des TCO ENJEUX À ADRESSER Evolution des usages Intégration de nouvelles sources de données Live data, static data, et social media data Analyse de gros volumes de données historiques Accès à distance à une grande quantité de données historiques brutes Analyse temps-réel Les systèmes doivent analyser des données, répondre à des événements corrélés avec une vélocité supérieure Flexibilité de la gestion des Workflows et des exceptions Capacité à bypasser les process pour l analyse, la résolution et le suivi des alertes Capacité à mieux segmenter, analyser les données, réagir à des événements Capacité d'adaptation des algorithmes à la volée (pour réduire les faux positifs...) «Commoditisation» des infrastructures Tolérance à des niveaux de pannes de plus en plus importants à coût contraint, déploiement sur site ou sur le Cloud R&D MÉTIER / EVOLUTION DES USAGES IHM Naturelles (Tactiles, Cérébrales, Réalité augmentée ) Internet des objets (Domotique, RFID ) R&D ARCHITECTURE ET TECHNOLOGIES Big Data Analytics MapReduce Data Vizualization Solution : Hadoop, Greenplum, Teradata (Distributed) Event Driven Architecture & Complex Event Processing Solution : AMQP, 0MQ, Kafka, BaseStream, Esper Web Pushing Web Socket / HTML5, long polling Solution : PushTechnology Diffusion ESB Light & BPM Solution : Spring Integ., Camel Grid Computing & distribution des calculs Parallélisation des calculs, GPU Solution : Platform Computing Mobilité Solutions : iphone, Android Web Social (Influence du graphe social ) R&D sectorielles (Gamification, Pay How You Drive, Solvency II ) Distributed Storage Data Grid, NoSQL Solution : Cassandra, Gigaspace, Gemfire Intelligence Artificielle support à l analytique, CEP ) Machine Learning Solution : Apache Mahout DevOps et Continuous Delivery outillage, process, patterns d architecture Solution : Puppet, MCollective Infrastructure Cloud Computing Virtualisation Solution : Amazon Web Services, VMWare, Xen Industrialisation des développements & langages : Java,.Net, Ruby, PHP 12
Catalogue des formations Hortonworks 13
L essentiel d Hadoop DESCRIPTION Cette session fournit une introduction à Hadoop pour les décideurs et les utilisateurs du métier. Les participants apprendront ce qu est Hadoop, quels sont les technologies de son écosystème et quelle valeur Hadoop peut apporter à leur métier et à leur business. PRÉ-REQUIS Aucune connaissances préalable n est requise. PROGRAMME Comprendre le Big Data Comprendre Hadoop 2.0 Les fondamentaux de l architecture d Hadoop 2.0 Stratégies d acquisition de données Le futur de Hadoop FICHE PRATIQUE Durée : 1 jour Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 525 HT Tarifs intra entreprise : 10 participants : 2 000 HT 6 participants supplémentaires : 1 750 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 700 HT 6 participants supplémentaires : 200 HT * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Architectes, Managers, Directeurs, décideurs METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 14
Développement Java sur Hadoop DESCRIPTION Cette session forme au développement avec Hadoop 2.0. Les participants apprendront à concevoir et développer des applications MapReduce afin d analyser leurs Big Data. PRÉ-REQUIS Expérience dans le développement Java et l utilisation d un IDE tel qu Eclipse. PROGRAMME Jour 1 Comprendre Hadoop 2.0 et HDFS Ecrire des applications MapReduce Les agrégations avec MapReduce Jour 2 Partitionnement et tri Input et Output Formats Optimiser les jobs MapReduce Jour 3 Fonctionnalités avancées de MapReduce Tester unitairement son code Programmation Hbase Jour 4 Programmation Pig Programmation Hive Créer et utiliser un workflow Oozie FICHE PRATIQUE Durée : 4 jours Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 2 175 HT Tarifs intra entreprise : 10 participants : 19 000 HT 6 participants supplémentaires : 8 000 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 2 200 HT 6 participants supplémentaires : 500 HT * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Ingénieurs logiciels Java expérimentés METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 15
Analyse de données sur Hadoop avec Pig et Hive DESCRIPTION Cette session forme à l analyse de Big Data avec Pig et Hive. Les participants apprendront les bases de YARN, HDFS et MapReduce, utiliser Pig et Hive pour leurs analyses, ajouter des données avec Sqoop et Flume et créer des workflows avec Oozie. PRÉ-REQUIS Connaissances en développement logiciel Expérience en SQL PROGRAMME Jour 1 Comprendre Hadoop 2.0 et YARN Le système de fichiers distribué HDFS Alimenter HDFS en données Le framework MapReduce et YARN Jour 3 Programmation Hive Utiliser HCatalog FICHE PRATIQUE Durée : 4 jours Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 2 175 HT Tarifs intra entreprise : 10 participants : 19 000 HT 6 participants supplémentaires : 8 000 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 2 200 HT 6 participants supplémentaires : 500 HT Jour 2 Introduction à Pig Programmation Pig avancée Jour 4 Programmation Hive avancée Analyse de données et statistiques Créer et utiliser un workflow Oozie * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Analystes & développeurs BI et SAS METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 16
Exploitation d Hadoop avec Hortonworks Data Platform DESCRIPTION Cette session forme les administrateurs qui souhaitent déployer Hadoop 2.0. Vous y apprendrez à installer, configurer, maintenir et faire scaler un cluster Hadoop 2.0. PRÉ-REQUIS Savoir utiliser un environnement Linux PROGRAMME Jour 1 Introduction à la HDP & Hadoop 2.0 L architecture d HDFS Pré-requis d installation Management de la HDP : Ambari Ambari et la ligne de commande Le Hadoop Operating System (YARN) & MapReduce Jour 2 Configurer les services Configurer HDFS Configurer le Hadoop Operating System (YARN) & MapReduce Configurer HBase Configurer ZooKeeper Configurer les ordonnanceurs L intégrité des données Extract-Load-Transform (ELT) Copier les données entre clusters Jour 3 Exploitation de la plateforme HDP 2.0 Les Web services HDFS DataWarehousing avec Hive Transférer des données avec Sqoop Collecte des logs avec Flume Configurer la gateway NFS de HDFS Gestion des Workflow : Oozie Data Lifecycle Management avec Falcon Superviser les services de la HDP 2.0 Commissionner et décommissionner des noeuds et des services Jour 4 Topologie réseau et Rack Awareness Fédération de NameNodes Haute Disponibilité du NameNode Sauvegardes et Restauration de données Sécurité FICHE PRATIQUE Durée : 4 jours Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 2 175 HT Tarifs intra entreprise : 10 participants : 19 000 HT 6 participants supplémentaires : 8 000 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 2 200 HT 6 participants supplémentaires : 500 HT * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Administrateurs et opérateurs IT, exploitants METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 17
Développer pour Hadoop sur Windows DESCRIPTION Cette session forme au développement d applications MapReduce dans Hadoop 2.0 sur plateforme Windows ainsi qu à l analyse de Big Data en utilisant C#, Pig, Hive, HCatalog, Sqoop, Oozie et Microsoft Excel. PRÉ-REQUIS Expérience en développement sur Windows et en SQL Expérience avec Visual Studio PROGRAMME Jour 1 Comprendre le Big Data et Hadoop Le système de fichiers distribué HDFS Alimenter HDFS en données Jour 2 Le framework MapReduce Développer des applications MapReduce en.net Introduction à Pig Jour 3 Programmation Pig avancée Programmation Hive Jour 4 Utiliser HCatalog Le driver ODBC Hive Créer et utiliser un workflow Oozie FICHE PRATIQUE Durée : 4 jours Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 2 175 HT Tarifs intra entreprise : 10 participants : 19 000 HT 6 participants supplémentaires : 8 000 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 2 200 HT 6 participants supplémentaires : 500 HT * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Développeurs.Net et analystes BI METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 18
La Data Science appliquée avec Hadoop DESCRIPTION Cette session forme aux principes et techniques de Data Science avec Hadoop. Vous y apprendrez à analyser vos Big Data avec Hadoop en utilisant R et Mahout. PRÉ-REQUIS Connaissances de base en statistiques, programmation ou scripting Une expérience avec Hadoop, Mahout or R est un plus. PROGRAMME Jour 1 Comprendre le Big Data et Hadoop Pourquoi et qu est ce que la Data Science? Hadoop et la Data Science Le processus de l analyse de données Les données et les fonctions en R Analyse de données en R Jour 2 Introduction au Machine Learning Les systèmes de recommandation Utiliser une Sparse Matrix en R Algorithmes de recommandation en R Implémenter un système de recommandation avec Mahout Amener la Data Science à la production Où en apprendre plus sur la Data Science FICHE PRATIQUE Durée : 2 jours Nombre de participants : 16 max Intervenants : 1 formateur Tarifs public / personne* : 1 786 HT Tarifs intra entreprise : 10 participants : 14 000 HT 6 participants supplémentaires : 6 000 HT Supplément pour la prise en charge par OCTO de la logistique, viennoiseries et déjeuner : 10 participants : 1 100 HT 6 participants supplémentaires : 250 HT * OCTO se réserve le droit d annuler en cas de participation insuffisante. AUDIENCE Architectes, développeurs, analystes et data scientists. METHODE PEDAGOGIQUE 50% de pratique et 50% de théorie. LOGISTIQUE Lieu : sur site Ou OCTO Technology Paris 8ème 19
LOGISTIQUE Sessions dans les locaux et organisation sur site Prise en charge par votre société des invitations et de la présence des participants Fourniture d une salle adaptée Fourniture d un rétroprojecteur Fourniture d un accès rapide à internet avec accès à Amazon EC2 NB : OCTO fournira les fiches d évaluation et fera un reporting Organisation prise en charge par OCTO Prise en charge de l accueil des participants et mise à disposition d une salle adaptée pour les sessions Fourniture de l accueil café/viennoiseries et du déjeuner à chaque session Fiche d évaluation à l issue de chaque session pour chaque participant Reporting des évaluations 20