Le choix MongoDB dans l architecture BIG DATA du projet KARMA Refonte du Système de Revenue Management d'air France KLM

Dimension: px
Commencer à balayer dès la page:

Download "Le choix MongoDB dans l architecture BIG DATA du projet KARMA Refonte du Système de Revenue Management d'air France KLM"

Transcription

1 Le choix MongoDB dans l architecture BIG DATA du projet KARMA Refonte du Système de Revenue Management d'air France KLM Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 26 Janvier 2016 Martial AYAS maayas@airfrance.fr

2 2 Agenda 1. Présentation de KARMA - Le Revenue Management - Définitions et concepts - Chiffres clés - Données et traitements du RM 4. Utilisation de MongoDB dans KARMA - Objectifs & contraintes - Technologies et critères d évaluation - Le choix MongoDB - Architecture et fonctionnement 2. Utilisation d Hadoop dans KARMA - Le choix d Hadoop - L architecture technique - Design d un batch Hadoop - Etat des lieux technique et fonctionnel 5. Cas d utilisation - POC Flights Availability - Eureka 6. Evolutions à venir 3. Axes d amélioration - Les performances - Accès aux données

3 3 Présentation de KARMA Le Revenue Management Faible contribution 200 Moyenne contribution 350 Haute contribution 500 Contribution moyenne : 260 Remplissage «naturel» M-12 : Ouverture du vol M-2 : Saturation vol J : Départ vol M-4 : Fermeture BC M-1 : Fermeture MC Contribution moyenne : 310 Maximalisation du revenu par contrôle des ventes

4 4 Présentation de KARMA Définitions et concepts KARMA KLM Air France Revenue Management Application RMS : Revenue Management System KARMA permet d optimiser le revenu grâce à la prévision : - Demande - Annulation - Overbooking Permet aux analystes de vols d agir sur les recommandations du système en fonctions : - Des marchés - Des périodes - Des évènements L objectif principal de KARMA «To sell the right seat to the right person at the right moment» Et d influer sur la disponibilité des sièges à vendre pour un tarif donné à une date donnée.

5 5 Présentation de KARMA Chiffres clés (2015) Le programme de vol vols / jour destinations / 103 pays L activité «Passage» - 77,5 millions de passagers Les avions avions - De 40 à 520 sièges La tarification - 26 classes tarifs - Prix carburant - La concurrence - La demande Volumes initiaux + Combinatoire = Démultiplication des volumes Augmentation des volumes = Problématiques de performances

6 6 Utilisation d Hadoop dans KARMA Le choix d Hadoop (1/2) Contexte fonctionnel et technique au démarrage du projet : - Refonte du RM = Nouvelle approche + Nouveaux besoins - Forte augmentation des volumes nécessaires aux calculs de prévision - Forte augmentation de la fréquence des évènements à prendre en compte pour avoir un système réactif Augmentation des volumes et du stockage Augmentation de la puissance de traitement - Infaisabilité des traitements batch en BD - Le volume des données lié aux évènements et aux combinaisons possibles - Temps de traitements incompatibles avec la fréquence nécessaire des MAJ Nécessité de paralléliser et distribuer les traitements et les données - Interfaçage avec les moteurs de RO - Les moteurs de Recherche Opérationnelle (Prévision + Optimisation) - Développés en C++ (CPlex), utilisent l approche Map Reduce / Fichiers L alimentation des moteurs doit se faire sous la forme de fichiers

7 7 Utilisation d Hadoop dans KARMA Le choix d Hadoop (2/2) Le choix Hadoop n est pas sans contraintes - Contraintes d exploitation - Haute disponibilité / Tolérance aux pannes - Seuls la Base de données et le NFS sont supportés (backup) par la production Mécanisme de synchronisation entre la BD, le NFS et le HDFS - Maitrise du stockage malgré les volumes Utilisation du format Avro + compression - Contraintes de développement / Maintenabilité - Apprentissage de l approche et des API - Démultiplication des composants : 1 req SQL 1 à n jobs Hadoop Ex : Le traitement d optimisation quotidien comporte 765 jobs dont 376 en Hadoop Création d un Framework de développement pour harmoniser le dev des jobs Hadoop - Chaque job de MapReduce crée une nouvelle copie des données Besoin d un outil de design des jobs est de suivi du cycle de vie des traitements et des données produits par Hadoop (Voir diagramme) - Contraintes métier - Concilier les 3 activités : Batch / Utilisateur / Evènementielle (Problématique de concurrence sur l accès et la mise à jour des données) Séparation des traitements par la planification / contraintes de perfs importantes

8 8 Utilisation d Hadoop dans KARMA Design technique d un Batch Hadoop DB Oracle 11g 3To ~350 tables NFS 1,5To CSV, XML, Extractions DB HDFS SQOOP Avro, CSV, XML Copies NFS HDFS DistCp Transformations Agrégations Hadoop / PIG Avro, CSV, XML Traitements Métier C++ CPlex Avro Traitements Métier Hadoop / PIG Transformations Formatage Hadoop / PIG Avro, CSV Injections DB HDFS SQL*Loader Avro, CSV Copies HDFS NFS DistCp DB Oracle 11g 3To ~350 tables NFS 1,5To CSV, XML, Accès aux données DB - SQOOP + OraOop : Extractions en // - SQL*Loader : Injection en // (Suppression des contraintes d intégrité, dénormalisation, recalcul des indexs) Accès aux données NFS - DistCp : Copies HDFS NFS Préparation des données - Hadoop MapReduce : Transformation, comparaisons, jointures, agrégations, filtres, fusion, Traitements métier - Hadoop MapReduce : traitements hors RO - C++ Cplex : Moteurs de prévisions, d optimisations (Recherche Opérationnelle) Reporting - PIG : Statistiques et KPI vérification de la qualité des données Exploitation / Supervision - Error collector, compacteurs, archivage, purge

9 9 Utilisation d Hadoop dans KARMA Etat des lieux technique et fonctionnel Revue Technique Ferme de serveurs - 21 Serveurs : 32 CPU et 128 Go de RAM par serveur Grille de calcul - Pour une capacité d environ 850 slots d exécution en parallèle Grille de stockage (HDFS) - Répartit sur les 21 serveurs - 3,2 To par serveur soit 67 To au total Revue Fonctionnelle Traitements Batchs (uniquement) - 45 batch (métiers / techniques / KPI) - 8 process planifiés > 1H dont 7 utilisent Hadoop - 7 process à la demande > 1H dont 7 utilisent Hadoop Exemple du RSU (OAC27) Profil du batch (MAJ 01/2016) - Exécution quotidienne - Durée approximative : 10 Heures (11h30) - Nombre d Unités de tâches : 117 (128) - Nombre de jobs total : 603 (765) - Nombre de jobs en séquence : 244 (232) - Nombre de jobs en parallèle : 359 (533) - Nombre de jobs Hadoop : 313 (376) Stockage nécessaires (HDFS) - 700GB, soit 2,1TB avec la réplication x3 (1,2TB soit 3,6 TB avec la réplication x3) Typologie des traitements - Job Java Hibernate - Job techniques Shell - Jobs techniques Hadoop (préparation / transformation / agrégation) - Jobs fonctionnels Hadoop - Moteurs de RO (C++)

10 10 Axes d amélioration Performances et accès aux données La performance des batch - Optimisation du séquencement des jobs au sein des Batchs - Optimisation / limitation des extractions / injections entre la DB et le HDFS La performance des traitements interactifs et évènementiels - Normalisation + Volumes = Jointures et agrégations couteuses Multiplication et diversification de l accès aux données - A des traitements batch d applications tierces - A des traitements non batch - Traitements interactifs - Traitements évènementiels Les pistes : Nouvelles approches + nouvelles technologies

11 11 Utilisation de mongodb dans KARMA Objectifs et contraintes Constats - KARMA bénéficie d une architecture et de moyens uniques au sein du SI - Cependant la puissance de calcul et les données sont «sous utilisées» - Traitements batch très évolués / optimisés - Traitements interactifs limités / optimisation couteuse Objectifs - Réutiliser la puissance de calcul et les données de KARMA pour améliorer les traitements interactifs - Améliorer et faire évoluer KARMA - Proposer de nouveaux services - Ouvrir les données à des applications tierces Contraintes - Pas d impact sur les performances - Activité batch la nuit et les week-ends - Base de données Oracle dédiée au RM (Forte sensibilité qualité / perfs) - Sortir des contraintes propres à KARMA - Eclipse RCP

12 12 Utilisation de MongoDB dans KARMA Technologies et critères d évaluation Points faibles de l accès interactif aux données - Jointure et Agrégation des données - Oracle est déjà surchargée (GUI + Alimentation temps réel) - La plupart des jointures et agrégations existent déjà sur le HDFS Techno Type Support Performances Compatibilité / Impacts Hive Metastore HDFS Usage interactif exclu Impact uniquement lors de l utilisation couteux HBase BD NoSQL Colonne HDFS OK Impact continu sur la grille Hadoop mongodb BD NoSQL Document FS OK Pas d impact direct mais de nouveaux investissements Aucune technologie ne se démarque vraiment - D autres critères doivent être pris en compte

13 13 Utilisation de mongodb dans KARMA Le choix mongodb Choix de privilégier mongodb pour ses autres atouts : - Approche document - Dénormalisation de l information - Plus proche de l utilisation de la donnée que du stockage - Interopérabilité : JSON, Drivers - Format optimisé BJSON - Agrégation Framework Performances Développement / Exploitation - Courbe d apprentissage et mise en œuvre rapide - Communauté très active - HA (Haute Disponibilité) / Sharding (Scalabilité horizontale) MongoDB et nouvelles tendances : - Développements Agile - MongoDB + AS + AngularJs + D3.js + CSS = Rich Modern Web Apps - Applications Web mono page - Applications multi supports (PC, Smartphones, Tablettes, )

14 14 Cas d utilisation POC Flight Availability Proposer un outils de recherche de disponibilité des vols - Réutilisation des données du HDFS - Client léger (Navigateur Web) - Interface graphique riche et dynamique Données - Oracle : YS_DFLS (15M), YS_DFLCS (25M), référentiel géographique - MongoDB : Vols (3,7M), Trajets (~1000), référentiel géographique Démo

15 15 Cas d utilisation Eureka Proposer un outils de monitoring de l activité utilisateur - Analyser de quelle façon les utilisateurs maximisent le revenue - Analyser la couverture des marchés - Identifier les bonnes pratiques afin de les diffuser - Identifier les lacunes et les combler Démo

16 16 Evolutions à venir MongoDB en complément et non en remplacement d Oracle L idée est donc de spécialiser chaque technologie en fonction des usages - Oracle : - Normalisation et intégrité des données - Usage transactionnel / interactif - MongoDB : - Performances liées à l agrégation des données - Usage interactif / BI dynamique - Hadoop (MapReduce + HDFS) : - Performances des batch - Préparation / spécialisation des données Prochaine étape : - Spark Streaming / Kafka - Usage temps réel / évènementiel

17 Annexes

18 18 Présentation d Hadoop Fonctionnement général / Architecture Objectifs d Hadoop - Paralléliser et distribuer des traitements sur une ferme de serveurs pour améliorer les performances et permettre des traitements dont les volumes de données sont (très) importants. Ce que fournit Hadoop - Moteur d exécution - Gère la // et la distribution des traitements - Gère la distribution et la réplication des données - Des API qui implémentent l approche MapReduce et l accés au HDFS - Un système de stockage distribué le HDFS (Supporte différents formats (CSV, XML, JSON, AVRO, ) Des outils complémentaires - Supervision - Import / Export DB HDFS - Abstraction (PIG, HIVE, ) Grille de calcul Grille de stockage HDFS JobTracker Gestion de la soumission et de l exécution des jobs Serveur 1 TaskTracker UC (CPU) US (HDD) DataNode TWS Planification des Jobs Hadoop Master Serveur 2 TaskTracker UC (CPU) US (HDD) DataNode NameNode Gestion du HDFS répartition et réplication des données Serveur N TaskTracker UC (CPU) US (HDD) DataNode Nœud d exécution Nœud de stockage

19 19 Présentation d Hadoop L approche MapReduce Un traitement MapReduce se décompose en 3 étapes : 1 - L étape de Map : Préparation des données Permet de lire, extraire / créer une clé de regroupement, transformer / formater, filtrer, 2 - L étape de Shuffle : Tri, regroupement et distribution Les données en sortie du Mapper sont automatiquement triées et regroupées par clé dans différents blocks. 3 - L étape de Reduce : Traitement métier Applique les règles métier sur les données regroupées par clé : Filtrer, agréger, sommer, transformer, Contexte d exécution Hadoop Job Hadoop ~1GB ~64 MB ~64 MB ~64 MB Map Map Map Shuffle key Grp1 key Grp2 Reduce Reduce ~X MB ~Y MB ~Z MB

20 20 Présentation d Hadoop Fonctionnement général Objectifs d Hadoop - Paralléliser et distribuer des traitements sur une ferme de serveurs pour améliorer les performances et permettre des traitements dont les volumes de données sont (très) importants. Ce que fournit Hadoop - Moteur d exécution - Gère la // et la distribution des traitements - Gère la distribution et la réplication des données - Des API de développement qui implémentent l approche MapReduce et permet d accéder au HDFS - Un système de stockage distribué le HDFS (fichiers) - Supporte différents formats (CSV, XML, JSON, AVRO, ) Des outils complémentaires - Supervision - Import / Export DB HDFS - Abstraction (PIG, HIVE, ) Grille de calcul Grille de stockage HDFS JobTracker Gestion de la soumission et de l exécution des jobs Serveur 1 TaskTracker UC (CPU) US (HDD) DataNode TWS Planification des Jobs Hadoop Master Serveur 2 TaskTracker UC (CPU) US (HDD) DataNode NameNode Gestion du HDFS répartition et réplication des données Serveur N TaskTracker UC (CPU) US (HDD) DataNode

21 21 Cas d utilisation Mise à jour du programme de vol D Purge Job Avec Hadoop Map Task D Compare Job 20 GB 20 GB 64 MB 64 MB 64 MB Read blocks from splited files D-1 Purge Jobs Purge Purge Extract Keys Purge XML Purge Sort keys store Into blocks Read blocks from splited files Map Task Read data, extract keys, and values Sort keys store Into blocks Reduce Task Process all grouped keys together apply business rules determine new Cxl, upd, unchanged flights Sort keys store Into blocks New Flights Canc. Flights Modif. Flights Unch. Flights 20 GB Split and purge data Launch and manage Threads Resquest, compare, apply rules, and update data Resquest, compare, apply rules, and update data Resquest, compare, apply rules, and update data Avec un SGBD Complexité à la charge du développeur La quasi-totalité du traitement repose sur la BD PB Contention PB Puissance Actions implemented by Developers Actions supported by Hadoop Framework

22 22 Cas d utilisation Optimisation des traitements (1/2) Décomposer pour mieux paralléliser Approche séquentielle Donnée X A B C D Job 1 Donnée X A B C D Job 2 Donnée X A B C D Job 3 Donnée X A B C D Approche optimisée Job 1 Donnée X A B C D Signature Conf. règles Donnée X A B C D Job 2 Donnée X A B C D Signature Job 3 Merger Donnée X A B C D Job 3 Donnée X A B C D Signature

23 23 Cas d utilisation Optimisation des traitements (2/2) Optimiser par le séquencement et la disponibilité des données - Démultiplication du nombre de jobs Hadoop - Analyse des entrées / sorties de chaque jobs - Déterminer le séquencement optimal des traitements - Les traitements se lancent uniquement lorsque l ensemble des données sont prêtes - Plus il y a de traitements parallélisés mieux on utilise la grille

24 24 Cas d utilisation Equilibrage des traitements (1/2) Donnée Y Job 2 Grp clé 1 Map Reduce Donnée X Job 1 Grp clé 2 Map Reduce Donnée Z L application des règles métier créent un déséquilibre dans le volume des données regroupées selon la clé choisie Grp clé 3 Grp clé 4 Map Reduce Map Reduce Le temps de traitement est égal au temps du job le plus long (dont le volume de données à traiter et le plus important) Risque qu un reducer ne tienne pas en mémoire

25 25 Cas d utilisation Equilibrage des traitements (2/2) Donnée Y Donnée Y Donnée X Job 1 L application des règles métier créent un déséquilibre dans le volume des données regroupées Grp clé 1 Grp clé 2 Grp clé 3 Grp clé 4 Job Stats (Map) Stats volumes Job Stats (Map) Grp clé 1 Grp clé 2a Grp clé 2b Grp clé 3 Grp clé 4a Grp clé 4b Grp clé 4c Job 2 Map Reduce Map Reduce Map Reduce Map Reduce Map Reduce Map Reduce Donnée Z Analyse les volumes / clé et calcul un discriminant technique pour mieux équilibrer les groupes de clés Les temps de traitement sont équilibrés Levée du risque lié à la mémoire nécessaire au traitement du reduce

26 26 Axes d amélioration et évolutions Migration vers Hadoop 2 Introduction de YARN - Plusieurs moteurs d exécution - Meilleure gestion des ressources - amélioration des performances - Permet de gérer plusieurs applications Traitement interactifs - HIVE, HBASE, - Ouverture des données du HDFS à des applications tierces - Accès aux données simplifié par l utilisation de langages de Scripts / SQL Like Traitement temps réel : - Storm, Spark Streaming, - Intégration des évènements / CEP

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Cassandra et Spark pour gérer la musique On-line

Cassandra et Spark pour gérer la musique On-line Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel LIVRE BLANC Processeurs Intel Xeon Unités de stockage SSD Intel Cartes réseau convergé Ethernet Intel Distribution Intel pour logiciel * Maîtriser les technologies Big Data pour obtenir des résultats en

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

L optimisation des performances, la simplification des montées de version G.O.L.D. et le suivi statistique des processus.

L optimisation des performances, la simplification des montées de version G.O.L.D. et le suivi statistique des processus. L optimisation des performances, la simplification des montées de version G.O.L.D et le suivi statistique des processus. Présentation assurée par Pascal Gyssler (expert G.O.L.D. ilem) et Thierry Lejeune

Plus en détail

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306 MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014 Analytics & Big Data Focus techniques & nouvelles perspectives pour les actuaires Local Optimization European Minded Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014 Intervenants : Alexandre

Plus en détail

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!! DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!! Stéphane MICHAUX Philippe BOURGEOIS Christian GRIERE stephane_michaux@ibi.com pbourgeois@fr.ibm.com cgriere@fr.ibm.com Les

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/

Plus en détail

Bases de Données NoSQL

Bases de Données NoSQL Bases de Données NoSQL LI328 Technologies Web Mohamed-Amine Baazizi Transparents de Bernd Amann UPMC - LIP6 LI328 Technologies Web (B. Amann) 1 SGBD Universalité Systèmes «SQL» : Facilité d'utilisation

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i Modernisation IBM i Nouveautés 2014-2015 IBM Power Systems - IBM i 19 et 20 mai 2015 IBM Client Center, Bois-Colombes S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i Mardi

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Mercredi 15 Janvier 2014

Mercredi 15 Janvier 2014 De la conception au site web Mercredi 15 Janvier 2014 Loïc THOMAS Géo-Hyd Responsable Informatique & Ingénierie des Systèmes d'information loic.thomas@anteagroup.com 02 38 64 26 41 Architecture Il est

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Professeur-superviseur Alain April

Professeur-superviseur Alain April RAPPORT TECHNIQUE PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE DANS LE CADRE DU COURS GTI792 BASE DE DONNÉES DISTRIBUÉE APPLIQUÉE EN GÉNÉTIQUE DANS LE CADRE DE L'ANALYSE DE SÉQUENÇAGE GÉNOMIQUE JEAN-PHILIPPE

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des

Plus en détail

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE COMME EXIGENCE PARTIELLE À L OBTENTION DE LA MAÎTRISE EN GÉNIE PAR Sébastien SERVOLES

Plus en détail

Avant-propos. Organisation du livre

Avant-propos. Organisation du livre Avant-propos Avec Hadoop par la pratique, les développeurs vont apprendre à maîtriser Hadoop et vont acquérir de nombreuses compétences sur la résolution de problèmes à l aide de ce framework. Ils vont

Plus en détail

ISC21-1 --- Système d Information Architecture et Administration d un SGBD Compléments SQL

ISC21-1 --- Système d Information Architecture et Administration d un SGBD Compléments SQL ISC21-1 --- Système d Information Architecture et Administration d un SGBD Compléments SQL Jean-Marie Pécatte jean-marie.pecatte@iut-tlse3.fr 16 novembre 2006 ISIS - Jean-Marie PECATTE 1 Valeur de clé

Plus en détail

Cours 8 Not Only SQL

Cours 8 Not Only SQL Cours 8 Not Only SQL Cours 8 - NoSQL Qu'est-ce que le NoSQL? Cours 8 - NoSQL Qu'est-ce que le NoSQL? Catégorie de SGBD s'affranchissant du modèle relationnel des SGBDR. Mouvance apparue par le biais des

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Qui suis-je? Alexander DEJANOVSKI Ingénieur EAI Depuis 15 ans chez Chronopost @alexanderdeja Chronopost International

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Big Data, un nouveau paradigme et de nouveaux challenges

Big Data, un nouveau paradigme et de nouveaux challenges Big Data, un nouveau paradigme et de nouveaux challenges Sebastiao Correia 21 Novembre 2014 Séminaire Thématique : Traitement et analyse statistique des données massives, Poitiers. 1 Présentation Sebastiao

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 Méthodologie Map/Reduce - programmation Hadoop. 1 Installer VirtualBox (https://www.virtualbox.org/). Importer la machine

Plus en détail

OpenPaaS Le réseau social d'entreprise

OpenPaaS Le réseau social d'entreprise OpenPaaS Le réseau social d'entreprise Spécification des API datastore SP L2.3.1 Diffusion : Institut MinesTélécom, Télécom SudParis 1 / 12 1OpenPaaS DataBase API : ODBAPI...3 1.1Comparaison des concepts...3

Plus en détail

Plan de cette matinée

Plan de cette matinée Plan de cette matinée Windows 2008 Les différentes versions Migration Rôles et fonctionnalités Présentation des nouveautés Windows 2008 R2 Les apports de cette nouvelle version Windows 7 Les différentes

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie 1 / 22 Technologies Web Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya Université Pierre et Marie Curie Rappel 2 / 22 Problématique Quelles technologies utiliser

Plus en détail

Notes de cours Practical BigData

Notes de cours Practical BigData Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

MYSQLDUMP & ZRM COMMUNITY

MYSQLDUMP & ZRM COMMUNITY Meetup Viadeo & LeMUG / Paris, November 16, 2011 MYSQLDUMP & ZRM COMMUNITY Scheduling and Monitoring Cédric PEINTRE www.mysqlplus.net 2 Sondage ancien mais toujours valide! mysqldump n est pas mort! Sauvegarde

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Catalogue Formation «Vanilla»

Catalogue Formation «Vanilla» Catalogue Formation «Vanilla» Date : octobre 2009 Table des matières Liste des Formations...2 Contenu des formations...3 Vanilla FastTrack...3 Vanilla Architecture...5 Enterprise Services...6 BIPortail...7

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

Vérifier la qualité de vos applications logicielle de manière continue

Vérifier la qualité de vos applications logicielle de manière continue IBM Software Group Vérifier la qualité de vos applications logicielle de manière continue Arnaud Bouzy Kamel Moulaoui 2004 IBM Corporation Agenda Analyse de code Test Fonctionnel Test de Performance Questions

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Importation et exportation de données dans HDFS

Importation et exportation de données dans HDFS 1 Importation et exportation de données dans HDFS Introduction Dans une installation type, Hadoop se trouve au cœur d un flux de données complexe. Ces données proviennent souvent de systèmes disparates

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Point sur les solutions de développement d apps pour les périphériques mobiles

Point sur les solutions de développement d apps pour les périphériques mobiles Point sur les solutions de développement d apps pour les périphériques mobiles Par Hugues MEUNIER 1. INTRODUCTION a. Une notion importante : le responsive web design Nous sommes en train de vivre une nouvelle

Plus en détail

Safe Harbor Statement

Safe Harbor Statement Safe Harbor Statement The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune UPMC 8 octobre 2013 PSIA 2013 Inspiré du cours des années précédentes de Luciana Arantes J. Lejeune (UPMC) Hadoop Map-Reduce

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

du batch au temps réel Maxime Mézin Data & Photo Science Director

du batch au temps réel Maxime Mézin Data & Photo Science Director du batch au temps réel Maxime Mézin Data & Photo Science Director Leader Européen du tirage et du livre photo Plus 30 millions de membres 17 pays Stockage de milliards de photos Développement international

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Analyse comparative entre différents outils de BI (Business Intelligence) :

Analyse comparative entre différents outils de BI (Business Intelligence) : Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment

Plus en détail

Introduction à. Oracle Application Express

Introduction à. Oracle Application Express Introduction à Oracle Application Express Sommaire Qu est-ce que Oracle Application Express (APEX)? Vue d ensemble des fonctionnalités et des différents composants d Oracle APEX Démonstration de création

Plus en détail

Séance 1 Introduction aux bases de données

Séance 1 Introduction aux bases de données Introduction aux bases de données Séance 1 Introduction aux bases de données Sébastien Combéfis mardi 24 février 2015 Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons

Plus en détail

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune École des Mines de Nantes Janvier 2015 CODEL 2014/2015 J. Lejeune (École des Mines de Nantes) Hadoop Map-Reduce Janvier 2015

Plus en détail

Comparaison du coût total de propriété de MongoDB et d Oracle. Un livre blanc 10gen

Comparaison du coût total de propriété de MongoDB et d Oracle. Un livre blanc 10gen Comparaison du coût total de propriété de MongoDB et d Oracle Un livre blanc 10gen New York Palo Alto Washington, DC London Dublin Barcelona Sydney US 646.237.8815 INTL 650.440.4474 info@10gen.com Copyright

Plus en détail

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013 NFA 008 Introduction à NoSQL et MongoDB 25/05/2013 1 NoSQL, c'est à dire? Les bases de données NoSQL restent des bases de données mais on met l'accent sur L'aspect NON-relationnel L'architecture distribuée

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail