BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Documents pareils

Fouille de données massives avec Hadoop

MÉMOIRE DE STAGE DE MASTER M2

Big Data, un nouveau paradigme et de nouveaux challenges

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Cartographie des solutions BigData

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Tables Rondes Le «Big Data»

Bases de données documentaires et distribuées Cours NFE04

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Labs Hadoop Février 2013

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Architectures informatiques dans les nuages

Les journées SQL Server 2013

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Urbanisation des SI-NFE107

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Guide de référence pour l achat de Business Analytics

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data On Line Analytics

Cloud Computing : Généralités & Concepts de base

Le cloud computing au service des applications cartographiques à haute disponibilité

Atelier numérique Développement économique de Courbevoie

Programmation parallèle et distribuée (Master 1 Info )

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Guide de référence pour l achat de Business Analytics

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Change the game with smart innovation

Qu est-ce que le «cloud computing»?

QLIKVIEW ET LE BIG DATA

Ricco Rakotomalala R.R. Université Lyon 2

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Hébergement de sites Web

Cloud computing Architectures, services et risques

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC MÉMOIRE PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Plans d'action pour une mise en œuvre réussie des Big Data

Mes logiciels d'entreprise dans le Cloud. Didier Gabioud

SQL Server 2012 et SQL Server 2014

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Echapper légalement à l impôt sur les données

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Panorama des solutions analytiques existantes

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Programmation parallèle et distribuée

CA ARCserve r16 devance Symantec Backup Exec 2012

Chapitre 4: Introduction au Cloud computing

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Quels choix de base de données pour vos projets Big Data?

La problématique. La philosophie ' ) * )

DESCRIPTIF DE MODULE S5 GSI

Introduction Big Data

Document réalisé par Khadidjatou BAMBA

Ne cherchez plus, soyez informés! Robert van Kommer

Département Génie Informatique

Suite Jedox La Business-Driven Intelligence avec Jedox

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Cloud Computing Les bases de données NoSQL Année académique 2014/15

Le passage à l échelle de serveur J2EE : le cas des EJB

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Cloud computing Votre informatique à la demande

Hébergement MMI SEMESTRE 4

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

BIG DATA et DONNéES SEO

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG Data et R: opportunités et perspectives

Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Introduction à la B.I. Avec SQL Server 2008

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Offre formation Big Data Analytics

CA ARCserve r16 devance Veeam Backup and Replication 6.5 dans le domaine de la protection virtuelle

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

Programmation parallèle et distribuée

GPC Computer Science

2 e édition. et le Big Data. Comprendre et mettre en oeuvre. NoSQL. Rudi Bruchez. Les bases de données

Les Réunions Info Tonic. Utiliser les logiciels libres dans mon entreprise Mardi 21 janvier 2014

Conception des systèmes répartis

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Communiqué de lancement Paie 100 pour SQL Server

Transcription:

BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS

Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions?

Introduction Quelles sont les défis actuels du BI? Qu est-ce que l informatique en nuage (Cloud computing)? Comment ces technologies émergentes peuvent répondre a ces défis?

Cycle de la surenchère (hype) http://marketingtypo.com/2010/01/17/gartner-hype-cycle-2009- %E2%80%93-is-cloud-computing-over-hyped/

Quels sont les utilisateurs de ces technologies?

Pourquoi migrer vers cette technologie? Débutent tous leurs architectures avec BD Relationnelles Éprouvent progressivement des difficultés en analyses et gestion de BD: Volumes croissants Requêtes de plus en plus complexes Limitéàquelques centaines de serveurs de BD La gestion devient progressivement impossible

Ex: Technologie BigTable de Google Google a inventéune technologie pour traiter beaucoup de données (plusieurs pétabits). Une technologie qui se compose de : Exemple de grappe de Google Un système de fichier distribué GFS Un modèle de données MAPREDUCE pour traiter des grandes quantités de données en parallèle Une base de données distribuée (BIGTABLE) sur plusieurs milliers d ordinateurs de commodités. Ordinateurs de commodités peu couteux ( 40 serveurs par rack, 150 racks par data center, 36+ data centers) 1 cluster = 2000 serveurs

Le projet (CRM -analyse des ventes) Étude de l utilisation de cette technologie pour réaliser un système BI pour un CRM.

Le projet : Objectifs Objectifs a court terme : -maîtriser les technologies, éliminer les problèmes de croissance et de gestion, diminuer les coûts d'acquisition d'équipements -diminuer les temps de chargement et d'analyses des données pour obtenir une performance temps réel Objectifs à moyen terme : -CRM (incluant BI)disponible on the Cloud pour compétitionner Salesforce

Logiciel libre (hadoop) Vous pouvez retrouver ce projet Apache a l adresse suivante : http://hadoop.apache.org/

Le Projet L architecture du projet et les liens avec

Étape 1 -ETL Extraction : connexion à la BD source. Transformation :génération des requêtes pour préparer le chargement. Chargement :préparer l écriture dans l entrepôt de données. 2 activités principales : Le peuplement initial La synchronisation à la bd source

Procédure ETL Utilisation des modèles Représentation partielle du modèle relationnel de la bd source

Procédure ETL Utilisation des modèles Représentation du modèle relationnel en étoile correspondant à la nouvelle organisation désirée

Procédure ETL et utilisation des modèles Représentation sous forme de modèle d un cube

Étape 1 -ETL Expérimentation phase peuplement initial : Actuellement le chargement de 100 000 lignes de transactions en 50 minutes en utilisant un seul ordinateur de commodité et nous allons diminuer ce temps à quelques secondes dès lors que la grappe (cluster) sera mise en place. Test de la procédure de chargement basé sur les transformations de modèles pour le chargement de la table de faits du modèle étoile correspondant.

Étape 2 -Data Warehousing Administration de l entrepôt de données Utilisation des modèles pour proposer des schémas de navigation Expérimentation : Création/Suppression de plusieurs entrepôts Lecture/Écriture sur entrepôt

Étape 3 -Data Mining Analyse des données Utilisation des modèles Première expérimentation réalisée sur 10 000 lignes : Choix de générer plusieurs entrepôts (par transactions, par mois et un dernier par année) (création des 3 entrepôts en 16 min) Total par département Total par département par Mois Total par département par Année De la même manière que pour l ETL nous espérons obtenir un gain de temps (quelques secondes) avec la grappe en place. Dans notre test, ayant fait le choix de générer plusieurs entrepôts et de les maintenir. Cela nous permet d obtenir les résultats de requêtes liées à la dimension temps en «temps réel».

Étape 3 -Reporting Architecture REST Web services (basé wsdl) Mise en place d un serveur Tomcat6 de Apache et utilisation de Axis2 pour la mise en place des services web

Prochaines étapes Finaliser la partie REPORTING Déployer la grappe : ajouter des rack un àun pour obtenir la performance visée Augmenter les volumes de données (des centaines de téraoctets) et grossir la grappe: Objectif d analyse de données en temps réel Intégration de l architecture dans le framework et rendre disponible aux clients

Conclusions Le Cloud Computing a été conçu pour traiter des grandes quantités de données donc a un potentiel de régler des problèmes de BI pas de hype! Une vision R&D permet : Exploration de nouvelles technologies Devancer la compétition Financer les projet avec les crédit d impôts RS&DE

Références Leavitt, N. 2010. «Will NoSQL Databases Live Up to Their Promise?». Computer magazine, the flagship publication of the IEEE Computer Society,n o February 2010, p. 12 14. Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. WallachMike Burrows, Tushar Chandra, Andrew Fikes, Robert E.Gruber Bigtable: A Distributed Storage System for Structured Data[2006]

Fin. Des questions?