Le choix MongoDB dans l architecture BIG DATA du projet KARMA Refonte du Système de Revenue Management d'air France KLM
|
|
- Adèle Ringuette
- il y a 7 ans
- Total affichages :
Transcription
1 Le choix MongoDB dans l architecture BIG DATA du projet KARMA Refonte du Système de Revenue Management d'air France KLM Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 26 Janvier 2016 Martial AYAS maayas@airfrance.fr
2 2 Agenda 1. Présentation de KARMA - Le Revenue Management - Définitions et concepts - Chiffres clés - Données et traitements du RM 4. Utilisation de MongoDB dans KARMA - Objectifs & contraintes - Technologies et critères d évaluation - Le choix MongoDB - Architecture et fonctionnement 2. Utilisation d Hadoop dans KARMA - Le choix d Hadoop - L architecture technique - Design d un batch Hadoop - Etat des lieux technique et fonctionnel 5. Cas d utilisation - POC Flights Availability - Eureka 6. Evolutions à venir 3. Axes d amélioration - Les performances - Accès aux données
3 3 Présentation de KARMA Le Revenue Management Faible contribution 200 Moyenne contribution 350 Haute contribution 500 Contribution moyenne : 260 Remplissage «naturel» M-12 : Ouverture du vol M-2 : Saturation vol J : Départ vol M-4 : Fermeture BC M-1 : Fermeture MC Contribution moyenne : 310 Maximalisation du revenu par contrôle des ventes
4 4 Présentation de KARMA Définitions et concepts KARMA KLM Air France Revenue Management Application RMS : Revenue Management System KARMA permet d optimiser le revenu grâce à la prévision : - Demande - Annulation - Overbooking Permet aux analystes de vols d agir sur les recommandations du système en fonctions : - Des marchés - Des périodes - Des évènements L objectif principal de KARMA «To sell the right seat to the right person at the right moment» Et d influer sur la disponibilité des sièges à vendre pour un tarif donné à une date donnée.
5 5 Présentation de KARMA Chiffres clés (2015) Le programme de vol vols / jour destinations / 103 pays L activité «Passage» - 77,5 millions de passagers Les avions avions - De 40 à 520 sièges La tarification - 26 classes tarifs - Prix carburant - La concurrence - La demande Volumes initiaux + Combinatoire = Démultiplication des volumes Augmentation des volumes = Problématiques de performances
6 6 Utilisation d Hadoop dans KARMA Le choix d Hadoop (1/2) Contexte fonctionnel et technique au démarrage du projet : - Refonte du RM = Nouvelle approche + Nouveaux besoins - Forte augmentation des volumes nécessaires aux calculs de prévision - Forte augmentation de la fréquence des évènements à prendre en compte pour avoir un système réactif Augmentation des volumes et du stockage Augmentation de la puissance de traitement - Infaisabilité des traitements batch en BD - Le volume des données lié aux évènements et aux combinaisons possibles - Temps de traitements incompatibles avec la fréquence nécessaire des MAJ Nécessité de paralléliser et distribuer les traitements et les données - Interfaçage avec les moteurs de RO - Les moteurs de Recherche Opérationnelle (Prévision + Optimisation) - Développés en C++ (CPlex), utilisent l approche Map Reduce / Fichiers L alimentation des moteurs doit se faire sous la forme de fichiers
7 7 Utilisation d Hadoop dans KARMA Le choix d Hadoop (2/2) Le choix Hadoop n est pas sans contraintes - Contraintes d exploitation - Haute disponibilité / Tolérance aux pannes - Seuls la Base de données et le NFS sont supportés (backup) par la production Mécanisme de synchronisation entre la BD, le NFS et le HDFS - Maitrise du stockage malgré les volumes Utilisation du format Avro + compression - Contraintes de développement / Maintenabilité - Apprentissage de l approche et des API - Démultiplication des composants : 1 req SQL 1 à n jobs Hadoop Ex : Le traitement d optimisation quotidien comporte 765 jobs dont 376 en Hadoop Création d un Framework de développement pour harmoniser le dev des jobs Hadoop - Chaque job de MapReduce crée une nouvelle copie des données Besoin d un outil de design des jobs est de suivi du cycle de vie des traitements et des données produits par Hadoop (Voir diagramme) - Contraintes métier - Concilier les 3 activités : Batch / Utilisateur / Evènementielle (Problématique de concurrence sur l accès et la mise à jour des données) Séparation des traitements par la planification / contraintes de perfs importantes
8 8 Utilisation d Hadoop dans KARMA Design technique d un Batch Hadoop DB Oracle 11g 3To ~350 tables NFS 1,5To CSV, XML, Extractions DB HDFS SQOOP Avro, CSV, XML Copies NFS HDFS DistCp Transformations Agrégations Hadoop / PIG Avro, CSV, XML Traitements Métier C++ CPlex Avro Traitements Métier Hadoop / PIG Transformations Formatage Hadoop / PIG Avro, CSV Injections DB HDFS SQL*Loader Avro, CSV Copies HDFS NFS DistCp DB Oracle 11g 3To ~350 tables NFS 1,5To CSV, XML, Accès aux données DB - SQOOP + OraOop : Extractions en // - SQL*Loader : Injection en // (Suppression des contraintes d intégrité, dénormalisation, recalcul des indexs) Accès aux données NFS - DistCp : Copies HDFS NFS Préparation des données - Hadoop MapReduce : Transformation, comparaisons, jointures, agrégations, filtres, fusion, Traitements métier - Hadoop MapReduce : traitements hors RO - C++ Cplex : Moteurs de prévisions, d optimisations (Recherche Opérationnelle) Reporting - PIG : Statistiques et KPI vérification de la qualité des données Exploitation / Supervision - Error collector, compacteurs, archivage, purge
9 9 Utilisation d Hadoop dans KARMA Etat des lieux technique et fonctionnel Revue Technique Ferme de serveurs - 21 Serveurs : 32 CPU et 128 Go de RAM par serveur Grille de calcul - Pour une capacité d environ 850 slots d exécution en parallèle Grille de stockage (HDFS) - Répartit sur les 21 serveurs - 3,2 To par serveur soit 67 To au total Revue Fonctionnelle Traitements Batchs (uniquement) - 45 batch (métiers / techniques / KPI) - 8 process planifiés > 1H dont 7 utilisent Hadoop - 7 process à la demande > 1H dont 7 utilisent Hadoop Exemple du RSU (OAC27) Profil du batch (MAJ 01/2016) - Exécution quotidienne - Durée approximative : 10 Heures (11h30) - Nombre d Unités de tâches : 117 (128) - Nombre de jobs total : 603 (765) - Nombre de jobs en séquence : 244 (232) - Nombre de jobs en parallèle : 359 (533) - Nombre de jobs Hadoop : 313 (376) Stockage nécessaires (HDFS) - 700GB, soit 2,1TB avec la réplication x3 (1,2TB soit 3,6 TB avec la réplication x3) Typologie des traitements - Job Java Hibernate - Job techniques Shell - Jobs techniques Hadoop (préparation / transformation / agrégation) - Jobs fonctionnels Hadoop - Moteurs de RO (C++)
10 10 Axes d amélioration Performances et accès aux données La performance des batch - Optimisation du séquencement des jobs au sein des Batchs - Optimisation / limitation des extractions / injections entre la DB et le HDFS La performance des traitements interactifs et évènementiels - Normalisation + Volumes = Jointures et agrégations couteuses Multiplication et diversification de l accès aux données - A des traitements batch d applications tierces - A des traitements non batch - Traitements interactifs - Traitements évènementiels Les pistes : Nouvelles approches + nouvelles technologies
11 11 Utilisation de mongodb dans KARMA Objectifs et contraintes Constats - KARMA bénéficie d une architecture et de moyens uniques au sein du SI - Cependant la puissance de calcul et les données sont «sous utilisées» - Traitements batch très évolués / optimisés - Traitements interactifs limités / optimisation couteuse Objectifs - Réutiliser la puissance de calcul et les données de KARMA pour améliorer les traitements interactifs - Améliorer et faire évoluer KARMA - Proposer de nouveaux services - Ouvrir les données à des applications tierces Contraintes - Pas d impact sur les performances - Activité batch la nuit et les week-ends - Base de données Oracle dédiée au RM (Forte sensibilité qualité / perfs) - Sortir des contraintes propres à KARMA - Eclipse RCP
12 12 Utilisation de MongoDB dans KARMA Technologies et critères d évaluation Points faibles de l accès interactif aux données - Jointure et Agrégation des données - Oracle est déjà surchargée (GUI + Alimentation temps réel) - La plupart des jointures et agrégations existent déjà sur le HDFS Techno Type Support Performances Compatibilité / Impacts Hive Metastore HDFS Usage interactif exclu Impact uniquement lors de l utilisation couteux HBase BD NoSQL Colonne HDFS OK Impact continu sur la grille Hadoop mongodb BD NoSQL Document FS OK Pas d impact direct mais de nouveaux investissements Aucune technologie ne se démarque vraiment - D autres critères doivent être pris en compte
13 13 Utilisation de mongodb dans KARMA Le choix mongodb Choix de privilégier mongodb pour ses autres atouts : - Approche document - Dénormalisation de l information - Plus proche de l utilisation de la donnée que du stockage - Interopérabilité : JSON, Drivers - Format optimisé BJSON - Agrégation Framework Performances Développement / Exploitation - Courbe d apprentissage et mise en œuvre rapide - Communauté très active - HA (Haute Disponibilité) / Sharding (Scalabilité horizontale) MongoDB et nouvelles tendances : - Développements Agile - MongoDB + AS + AngularJs + D3.js + CSS = Rich Modern Web Apps - Applications Web mono page - Applications multi supports (PC, Smartphones, Tablettes, )
14 14 Cas d utilisation POC Flight Availability Proposer un outils de recherche de disponibilité des vols - Réutilisation des données du HDFS - Client léger (Navigateur Web) - Interface graphique riche et dynamique Données - Oracle : YS_DFLS (15M), YS_DFLCS (25M), référentiel géographique - MongoDB : Vols (3,7M), Trajets (~1000), référentiel géographique Démo
15 15 Cas d utilisation Eureka Proposer un outils de monitoring de l activité utilisateur - Analyser de quelle façon les utilisateurs maximisent le revenue - Analyser la couverture des marchés - Identifier les bonnes pratiques afin de les diffuser - Identifier les lacunes et les combler Démo
16 16 Evolutions à venir MongoDB en complément et non en remplacement d Oracle L idée est donc de spécialiser chaque technologie en fonction des usages - Oracle : - Normalisation et intégrité des données - Usage transactionnel / interactif - MongoDB : - Performances liées à l agrégation des données - Usage interactif / BI dynamique - Hadoop (MapReduce + HDFS) : - Performances des batch - Préparation / spécialisation des données Prochaine étape : - Spark Streaming / Kafka - Usage temps réel / évènementiel
17 Annexes
18 18 Présentation d Hadoop Fonctionnement général / Architecture Objectifs d Hadoop - Paralléliser et distribuer des traitements sur une ferme de serveurs pour améliorer les performances et permettre des traitements dont les volumes de données sont (très) importants. Ce que fournit Hadoop - Moteur d exécution - Gère la // et la distribution des traitements - Gère la distribution et la réplication des données - Des API qui implémentent l approche MapReduce et l accés au HDFS - Un système de stockage distribué le HDFS (Supporte différents formats (CSV, XML, JSON, AVRO, ) Des outils complémentaires - Supervision - Import / Export DB HDFS - Abstraction (PIG, HIVE, ) Grille de calcul Grille de stockage HDFS JobTracker Gestion de la soumission et de l exécution des jobs Serveur 1 TaskTracker UC (CPU) US (HDD) DataNode TWS Planification des Jobs Hadoop Master Serveur 2 TaskTracker UC (CPU) US (HDD) DataNode NameNode Gestion du HDFS répartition et réplication des données Serveur N TaskTracker UC (CPU) US (HDD) DataNode Nœud d exécution Nœud de stockage
19 19 Présentation d Hadoop L approche MapReduce Un traitement MapReduce se décompose en 3 étapes : 1 - L étape de Map : Préparation des données Permet de lire, extraire / créer une clé de regroupement, transformer / formater, filtrer, 2 - L étape de Shuffle : Tri, regroupement et distribution Les données en sortie du Mapper sont automatiquement triées et regroupées par clé dans différents blocks. 3 - L étape de Reduce : Traitement métier Applique les règles métier sur les données regroupées par clé : Filtrer, agréger, sommer, transformer, Contexte d exécution Hadoop Job Hadoop ~1GB ~64 MB ~64 MB ~64 MB Map Map Map Shuffle key Grp1 key Grp2 Reduce Reduce ~X MB ~Y MB ~Z MB
20 20 Présentation d Hadoop Fonctionnement général Objectifs d Hadoop - Paralléliser et distribuer des traitements sur une ferme de serveurs pour améliorer les performances et permettre des traitements dont les volumes de données sont (très) importants. Ce que fournit Hadoop - Moteur d exécution - Gère la // et la distribution des traitements - Gère la distribution et la réplication des données - Des API de développement qui implémentent l approche MapReduce et permet d accéder au HDFS - Un système de stockage distribué le HDFS (fichiers) - Supporte différents formats (CSV, XML, JSON, AVRO, ) Des outils complémentaires - Supervision - Import / Export DB HDFS - Abstraction (PIG, HIVE, ) Grille de calcul Grille de stockage HDFS JobTracker Gestion de la soumission et de l exécution des jobs Serveur 1 TaskTracker UC (CPU) US (HDD) DataNode TWS Planification des Jobs Hadoop Master Serveur 2 TaskTracker UC (CPU) US (HDD) DataNode NameNode Gestion du HDFS répartition et réplication des données Serveur N TaskTracker UC (CPU) US (HDD) DataNode
21 21 Cas d utilisation Mise à jour du programme de vol D Purge Job Avec Hadoop Map Task D Compare Job 20 GB 20 GB 64 MB 64 MB 64 MB Read blocks from splited files D-1 Purge Jobs Purge Purge Extract Keys Purge XML Purge Sort keys store Into blocks Read blocks from splited files Map Task Read data, extract keys, and values Sort keys store Into blocks Reduce Task Process all grouped keys together apply business rules determine new Cxl, upd, unchanged flights Sort keys store Into blocks New Flights Canc. Flights Modif. Flights Unch. Flights 20 GB Split and purge data Launch and manage Threads Resquest, compare, apply rules, and update data Resquest, compare, apply rules, and update data Resquest, compare, apply rules, and update data Avec un SGBD Complexité à la charge du développeur La quasi-totalité du traitement repose sur la BD PB Contention PB Puissance Actions implemented by Developers Actions supported by Hadoop Framework
22 22 Cas d utilisation Optimisation des traitements (1/2) Décomposer pour mieux paralléliser Approche séquentielle Donnée X A B C D Job 1 Donnée X A B C D Job 2 Donnée X A B C D Job 3 Donnée X A B C D Approche optimisée Job 1 Donnée X A B C D Signature Conf. règles Donnée X A B C D Job 2 Donnée X A B C D Signature Job 3 Merger Donnée X A B C D Job 3 Donnée X A B C D Signature
23 23 Cas d utilisation Optimisation des traitements (2/2) Optimiser par le séquencement et la disponibilité des données - Démultiplication du nombre de jobs Hadoop - Analyse des entrées / sorties de chaque jobs - Déterminer le séquencement optimal des traitements - Les traitements se lancent uniquement lorsque l ensemble des données sont prêtes - Plus il y a de traitements parallélisés mieux on utilise la grille
24 24 Cas d utilisation Equilibrage des traitements (1/2) Donnée Y Job 2 Grp clé 1 Map Reduce Donnée X Job 1 Grp clé 2 Map Reduce Donnée Z L application des règles métier créent un déséquilibre dans le volume des données regroupées selon la clé choisie Grp clé 3 Grp clé 4 Map Reduce Map Reduce Le temps de traitement est égal au temps du job le plus long (dont le volume de données à traiter et le plus important) Risque qu un reducer ne tienne pas en mémoire
25 25 Cas d utilisation Equilibrage des traitements (2/2) Donnée Y Donnée Y Donnée X Job 1 L application des règles métier créent un déséquilibre dans le volume des données regroupées Grp clé 1 Grp clé 2 Grp clé 3 Grp clé 4 Job Stats (Map) Stats volumes Job Stats (Map) Grp clé 1 Grp clé 2a Grp clé 2b Grp clé 3 Grp clé 4a Grp clé 4b Grp clé 4c Job 2 Map Reduce Map Reduce Map Reduce Map Reduce Map Reduce Map Reduce Donnée Z Analyse les volumes / clé et calcul un discriminant technique pour mieux équilibrer les groupes de clés Les temps de traitement sont équilibrés Levée du risque lié à la mémoire nécessaire au traitement du reduce
26 26 Axes d amélioration et évolutions Migration vers Hadoop 2 Introduction de YARN - Plusieurs moteurs d exécution - Meilleure gestion des ressources - amélioration des performances - Permet de gérer plusieurs applications Traitement interactifs - HIVE, HBASE, - Ouverture des données du HDFS à des applications tierces - Accès aux données simplifié par l utilisation de langages de Scripts / SQL Like Traitement temps réel : - Storm, Spark Streaming, - Intégration des évènements / CEP
Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
Plus en détailLabs Hadoop Février 2013
SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL
Plus en détailHADOOP ET SON ÉCOSYSTÈME
HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos
Plus en détailDéploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr
Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les
Plus en détailL écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détailLes technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Plus en détailBig Data Concepts et mise en oeuvre de Hadoop
Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12
Plus en détail20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Plus en détailAcquisition des données - Big Data. Dario VEGA Senior Sales Consultant
Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated
Plus en détailCassandra et Spark pour gérer la musique On-line
Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani
Plus en détailHadoop, les clés du succès
Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject
Plus en détailCartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Plus en détailAVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL
AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES
Plus en détailAPI04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture
API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Plus en détailBig Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
Plus en détailIntroduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailSQL Server 2012 et SQL Server 2014
SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution
Plus en détailTechnologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC
Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les
Plus en détailMaîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel
LIVRE BLANC Processeurs Intel Xeon Unités de stockage SSD Intel Cartes réseau convergé Ethernet Intel Distribution Intel pour logiciel * Maîtriser les technologies Big Data pour obtenir des résultats en
Plus en détailBIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
Plus en détailAnticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Plus en détailL optimisation des performances, la simplification des montées de version G.O.L.D. et le suivi statistique des processus.
L optimisation des performances, la simplification des montées de version G.O.L.D et le suivi statistique des processus. Présentation assurée par Pascal Gyssler (expert G.O.L.D. ilem) et Thierry Lejeune
Plus en détailMapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306
MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup
Plus en détailHadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?
Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi
Plus en détailIntroduction Big Data
Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue
Plus en détailLes participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Plus en détailAnalytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014
Analytics & Big Data Focus techniques & nouvelles perspectives pour les actuaires Local Optimization European Minded Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014 Intervenants : Alexandre
Plus en détailIBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!
DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!! Stéphane MICHAUX Philippe BOURGEOIS Christian GRIERE stephane_michaux@ibi.com pbourgeois@fr.ibm.com cgriere@fr.ibm.com Les
Plus en détailOffre formation Big Data Analytics
Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une
Plus en détailBases de Données Avancées
1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,
Plus en détailIntroduc)on à Map- Reduce. Vincent Leroy
Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/
Plus en détailBases de Données NoSQL
Bases de Données NoSQL LI328 Technologies Web Mohamed-Amine Baazizi Transparents de Bernd Amann UPMC - LIP6 LI328 Technologies Web (B. Amann) 1 SGBD Universalité Systèmes «SQL» : Facilité d'utilisation
Plus en détailFormation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
Plus en détailDocument réalisé par Khadidjatou BAMBA
Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big
Plus en détailS7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i
Modernisation IBM i Nouveautés 2014-2015 IBM Power Systems - IBM i 19 et 20 mai 2015 IBM Client Center, Bois-Colombes S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i Mardi
Plus en détailNoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailProgrammation parallèle et distribuée (Master 1 Info 2015-2016)
Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno
Plus en détailMercredi 15 Janvier 2014
De la conception au site web Mercredi 15 Janvier 2014 Loïc THOMAS Géo-Hyd Responsable Informatique & Ingénierie des Systèmes d'information loic.thomas@anteagroup.com 02 38 64 26 41 Architecture Il est
Plus en détailVos experts Big Data. contact@hurence.com. Le Big Data dans la pratique
Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB
Plus en détailBusiness Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012
Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des
Plus en détailSGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)
SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients
Plus en détailLe projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet
Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData
Plus en détailLes bases de données relationnelles
Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais
Plus en détailProfesseur-superviseur Alain April
RAPPORT TECHNIQUE PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE DANS LE CADRE DU COURS GTI792 BASE DE DONNÉES DISTRIBUÉE APPLIQUÉE EN GÉNÉTIQUE DANS LE CADRE DE L'ANALYSE DE SÉQUENÇAGE GÉNOMIQUE JEAN-PHILIPPE
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailPerformances. Gestion des serveurs (2/2) Clustering. Grid Computing
Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des
Plus en détailÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE
ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE COMME EXIGENCE PARTIELLE À L OBTENTION DE LA MAÎTRISE EN GÉNIE PAR Sébastien SERVOLES
Plus en détailAvant-propos. Organisation du livre
Avant-propos Avec Hadoop par la pratique, les développeurs vont apprendre à maîtriser Hadoop et vont acquérir de nombreuses compétences sur la résolution de problèmes à l aide de ce framework. Ils vont
Plus en détailISC21-1 --- Système d Information Architecture et Administration d un SGBD Compléments SQL
ISC21-1 --- Système d Information Architecture et Administration d un SGBD Compléments SQL Jean-Marie Pécatte jean-marie.pecatte@iut-tlse3.fr 16 novembre 2006 ISIS - Jean-Marie PECATTE 1 Valeur de clé
Plus en détailCours 8 Not Only SQL
Cours 8 Not Only SQL Cours 8 - NoSQL Qu'est-ce que le NoSQL? Cours 8 - NoSQL Qu'est-ce que le NoSQL? Catégorie de SGBD s'affranchissant du modèle relationnel des SGBDR. Mouvance apparue par le biais des
Plus en détailBig data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Plus en détailCassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an
Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Qui suis-je? Alexander DEJANOVSKI Ingénieur EAI Depuis 15 ans chez Chronopost @alexanderdeja Chronopost International
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailBig Data, un nouveau paradigme et de nouveaux challenges
Big Data, un nouveau paradigme et de nouveaux challenges Sebastiao Correia 21 Novembre 2014 Séminaire Thématique : Traitement et analyse statistique des données massives, Poitiers. 1 Présentation Sebastiao
Plus en détailMapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Plus en détailR+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!
R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big
Plus en détailTables Rondes Le «Big Data»
Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués
Plus en détailGroupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be
Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par
Plus en détailHadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015
Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 Méthodologie Map/Reduce - programmation Hadoop. 1 Installer VirtualBox (https://www.virtualbox.org/). Importer la machine
Plus en détailOpenPaaS Le réseau social d'entreprise
OpenPaaS Le réseau social d'entreprise Spécification des API datastore SP L2.3.1 Diffusion : Institut MinesTélécom, Télécom SudParis 1 / 12 1OpenPaaS DataBase API : ODBAPI...3 1.1Comparaison des concepts...3
Plus en détailPlan de cette matinée
Plan de cette matinée Windows 2008 Les différentes versions Migration Rôles et fonctionnalités Présentation des nouveautés Windows 2008 R2 Les apports de cette nouvelle version Windows 7 Les différentes
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailTechnologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie
1 / 22 Technologies Web Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya Université Pierre et Marie Curie Rappel 2 / 22 Problématique Quelles technologies utiliser
Plus en détailNotes de cours Practical BigData
Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et
Plus en détailBIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
Plus en détailMYSQLDUMP & ZRM COMMUNITY
Meetup Viadeo & LeMUG / Paris, November 16, 2011 MYSQLDUMP & ZRM COMMUNITY Scheduling and Monitoring Cédric PEINTRE www.mysqlplus.net 2 Sondage ancien mais toujours valide! mysqldump n est pas mort! Sauvegarde
Plus en détailRicco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Plus en détailCatalogue Formation «Vanilla»
Catalogue Formation «Vanilla» Date : octobre 2009 Table des matières Liste des Formations...2 Contenu des formations...3 Vanilla FastTrack...3 Vanilla Architecture...5 Enterprise Services...6 BIPortail...7
Plus en détailCertificat Big Data - Master MAthématiques
1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia
Plus en détailLes bases de données
Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive
Plus en détailVérifier la qualité de vos applications logicielle de manière continue
IBM Software Group Vérifier la qualité de vos applications logicielle de manière continue Arnaud Bouzy Kamel Moulaoui 2004 IBM Corporation Agenda Analyse de code Test Fonctionnel Test de Performance Questions
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailImportation et exportation de données dans HDFS
1 Importation et exportation de données dans HDFS Introduction Dans une installation type, Hadoop se trouve au cœur d un flux de données complexe. Ces données proviennent souvent de systèmes disparates
Plus en détailNoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailPoint sur les solutions de développement d apps pour les périphériques mobiles
Point sur les solutions de développement d apps pour les périphériques mobiles Par Hugues MEUNIER 1. INTRODUCTION a. Une notion importante : le responsive web design Nous sommes en train de vivre une nouvelle
Plus en détailSafe Harbor Statement
Safe Harbor Statement The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment
Plus en détailBusiness & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailOrganiser vos données - Big Data. Patrick Millart Senior Sales Consultant
Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be
Plus en détailHadoop : une plate-forme d exécution de programmes Map-Reduce
Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune UPMC 8 octobre 2013 PSIA 2013 Inspiré du cours des années précédentes de Luciana Arantes J. Lejeune (UPMC) Hadoop Map-Reduce
Plus en détailLes quatre piliers d une solution de gestion des Big Data
White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement
Plus en détaildu batch au temps réel Maxime Mézin Data & Photo Science Director
du batch au temps réel Maxime Mézin Data & Photo Science Director Leader Européen du tirage et du livre photo Plus 30 millions de membres 17 pays Stockage de milliards de photos Développement international
Plus en détailLes journées SQL Server 2013
Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne
Plus en détailAnalyse comparative entre différents outils de BI (Business Intelligence) :
Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment
Plus en détailIntroduction à. Oracle Application Express
Introduction à Oracle Application Express Sommaire Qu est-ce que Oracle Application Express (APEX)? Vue d ensemble des fonctionnalités et des différents composants d Oracle APEX Démonstration de création
Plus en détailSéance 1 Introduction aux bases de données
Introduction aux bases de données Séance 1 Introduction aux bases de données Sébastien Combéfis mardi 24 février 2015 Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons
Plus en détailHadoop : une plate-forme d exécution de programmes Map-Reduce
Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune École des Mines de Nantes Janvier 2015 CODEL 2014/2015 J. Lejeune (École des Mines de Nantes) Hadoop Map-Reduce Janvier 2015
Plus en détailComparaison du coût total de propriété de MongoDB et d Oracle. Un livre blanc 10gen
Comparaison du coût total de propriété de MongoDB et d Oracle Un livre blanc 10gen New York Palo Alto Washington, DC London Dublin Barcelona Sydney US 646.237.8815 INTL 650.440.4474 info@10gen.com Copyright
Plus en détailNFA 008. Introduction à NoSQL et MongoDB 25/05/2013
NFA 008 Introduction à NoSQL et MongoDB 25/05/2013 1 NoSQL, c'est à dire? Les bases de données NoSQL restent des bases de données mais on met l'accent sur L'aspect NON-relationnel L'architecture distribuée
Plus en détailMYXTRACTION. 2009 La Business Intelligence en temps réel
MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables
Plus en détail4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Plus en détail