17/07/2013. Décisionnel dans le Nuage. Laboratoire ERIC. Section 1. Équipe d Accueil 3083. Décisionnel dans le Nuage.



Documents pareils
Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Sécurisation du stockage de données sur le Cloud Michel Kheirallah

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Atelier aide à la Décision à tous les Etages (AIDE)

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Les entrepôts de données pour les nuls... ou pas!

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Application de K-means à la définition du nombre de VM optimal dans un cloud

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Bases de Données OLAP

BIG DATA en Sciences et Industries de l Environnement

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

BI = Business Intelligence Master Data-ScienceCours 3 - Data

La tête dans les nuages

Entreposage de données complexes pour la médecine d anticipation personnalisée

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Architectures informatiques dans les nuages

Anticiper et prédire les sinistres avec une approche Big Data

Datawarehouse and OLAP

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Architectures d'intégration de données

Gestion des Clés Publiques (PKI)

Encryptions, compression et partitionnement des données

La problématique. La philosophie ' ) * )

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Programmation parallèle et distribuée

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Big Data et Graphes : Quelques pistes de recherche

Les Entrepôts de Données

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Programmation parallèle et distribuée

Le Cloud Computing est-il l ennemi de la Sécurité?

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

Labs Hadoop Février 2013

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Cartographie des solutions BigData

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

Bases de Données Avancées

Le nouveau visage de la Dataviz dans MicroStrategy 10

Entrez dans l ère du Numérique Très Haut Débit

SQL SERVER 2008, BUSINESS INTELLIGENCE

BI2 : Un profil UML pour les Indicateurs Décisionnels

EMC Forum EMC ViPR et ECS : présentation des services software-defined

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Ici, le titre de la. Tableaux de bords de conférence

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Business Intelligence

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Fiche Technique Windows Azure

Protection des données et des mobiles de l'entreprise

Présentation du module Base de données spatio-temporelles

SQL Server 2012 et SQL Server 2014

Évaluation d une architecture de stockage RDF distribuée

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Big Data On Line Analytics

Sécurité des réseaux sans fil

Masses de données et calcul : à l IRIT. 8 octobre 2013

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

AXIAD Conseil pour décider en toute intelligence

BI = Business Intelligence Master Data-Science


IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Les technologies du Big Data

Virtualisation & Sécurité

Business Intelligence

Sécuristation du Cloud

Cassandra et Spark pour gérer la musique On-line

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Introduction à la B.I. Avec SQL Server 2008

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

LES ENTREPOTS DE DONNEES

HADOOP ET SON ÉCOSYSTÈME

GPC Computer Science

Big Data et Graphes : Quelques pistes de recherche

De l IaaS au SaaS, La BI au cœur du cloud

Algorithmique et systèmes répartis

Installation de SCCM 2012 (v2)

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

DESCRIPTIF DE MODULE S5 GSI

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Transcription:

Master 2 FDGC-ECD Année 203-204 Laboratoire ERIC Équipe d Accueil 3083 et Jérôme Darmont eric.univ-lyon2.fr/~jdarmont/ Section Décisionnel dans le Nuage 2 Le meilleur des mondes Du décisionnel à papa datawarehousing0.wikispaces.com propriétaires Utilisateurs bien identifiés cloudcomputingadvices.com Stockage «in house» Dimensionnement a priori investissement initial important 3 4 à la Cloud BI! Vers le décisionnel à la demande propriétaires situationnelles ETL Entrepôt dans le nuage Analyses [collaboratives] [Production collaborative] danbrint.wordpress.com Élasticité et paiement à la demande investissement graduel 5 6

7/07/203 Nouvelles données nouveaux usages Scénario écolo Association qui surveille les activités de pêche Self-service BI complexes ouvertes Personal BI Crowd sourcing Règlements Statistiques Géolocalisation Observations de terrain Masses de données situationnelles Cloud intelligence 7 Nouveaux problèmes! 8 Déjà de quoi jouer! Conception - Analyse Confidentialité Centrée utilisateur Disponibilité Fusion tables Bottom up Stockage Elasticité des sources Nuage Technologie Modèle économique Accepter une perte de contrôle 9 0 Architecture des services Pour voir plus loin A. Abello J. Darmont L. Etcheverry M. Golfarelli J.N. Mazon F. Naumann T.B. Pedersen S. Rizzi J. Trujillo P. Vassiliadis G. Vossen "Fusion Cubes: Towards Self- Business Intelligence" International Journal of Data Warehousing and Mining Vol. 9 No. 2 203 66-88 Schéma extensible Instances extensibles Drill beyond (données situationnelles) Quasi temps réel 2 2

Architecture fonctionnelle Recherche par mots clés Contraintes de qualité Évaluation de la qualité Réécriture des requêtes Amélioration itérative de précision et rappel Partage et réutilisation des mappings Mise en valeur des éléments importants Filtrage en fonction de la qualité Requêtes Sources Mappings Cubes 3 Utilisateur non expert Problèmes ouverts Le décisionnel en poche Analyses à la demande Requêtage façon moteur de recherche Drill-beyond Quasi temps réel Collaboratif Technos Entrepôts de données / OLAP Web sémantique Gestion de documents Fouille de données Ingénierie sociale Modèle de données avancé algèbre de requêtes Equilibre entre partage et confidentialité des données Formalisation de l intelligence collaborative interfaces Modèle économique 4 Jusqu ici tout va bien Section 2 des dans le Nuage Collaboration avec V. Attasena N. Harbi et G. Gavin Transfert réseau Fournisseur d accès ED Transfert réseau 5 6 Plus dure sera la chute Solution Cloud computing Intruders Cloud service provider policies Characteristics of cloud architecture Inside-Intruders Outside-Intruders provider staffs & other customers Policies for Control & modification policies Virtual Virtual Grid taking benefit machine Established on network technology technology technology network Accidental plan Intentional plans s network electrical failure C + + + Delete unmodify C2 C3 C4 C5 & unaccess Data loss & damage Data loss & damage Data alteration & damage Data alteration & damage data down Data transfer bottlenecks Data pilfering Data pilfering down Data availability Data integrity Data privacy Cloud security issues 7 8 3

KEYS DATA WAREHOUSE DATA WAREHOUSE KEYS 7/07/203 Comment faire? Partager pour mieux cacher Synchronous Asynchronous Semi-synchronous Adil Shamir "How to share a secret" Communications of the ACM 22() 979 -anonymization -diversity Homomorphic encryption (HE) Partially HE Data anonymization Fully HE Data replication Related works Data encryption Incremental encryption Data verification Secret sharing Secret sharing (SS) Multi-secret sharing (MSS) Inner code verifying Outer code verifying Verify secret sharing (VSS) Partage :tpoints polynôme f(x) de degré t- Secret = terme constant Chaque donnée x i est transformée en npartages f(x i ) Reconstruction : interpolation de Lagrange Un seul polynôme p(x) tel que degré(p(x)) < tet p(x i ) = f(x i ) Secret = p(0) A Data Availability I Data Integrity P Data Privacy A Data Analysis t = 2 9 20 Repartons dans les nuages Notre procédé de Multi-Secret Sharing ED Fournisseur... Sharing process Utilisateur ED ED 2 Fournisseur 2 MSSS Provider MSSS Volume de données ED n Fournisseur n Provider Provider 2 Provider Provider 2 Provider 2 Transfer _ 2 22 Notre procédé de Multi-Secret Sharing Partageons une base de données Reconstructing process 336 Mo/s t = 3... Original data id name salary sex 24 Bob 2450 M Encrypted data at id name salary sex 24 (72)()() (50) (6) 25 (44)(00)(50)(33) (72) (44) Provider MSSS Provider 2 2 Provider Transfer Provider Verify encrypted data _ MSSS Provider Requêtes A 25 Anna 3000 F select avg(salary) from customer At : select avg(salary) from customer select id salary from customer where sex = M At : select id salary from customer where sex = 6 Encrypted data at id name salary sex 24 (50)(6)(50) () (33) 25 (83)(22)()(44) (00) (83) Encrypted data at id name salary sex 24 (72)()() (50) (6) 25 (44)(00)(50)(33) (72) (44) 23 24 4

Confidentialité? Probabilité de casser le secret en dérobant x partages : P! "#$ Disponibilité A et intégrité I? Disponibilité Par construction jusqu à n t fournisseurs peuvent être défaillants Intégrité : signatures (fonctions de hachage) Fiabilité des fournisseurs Intégrité des données partagées Volume de données : % & % '()*+ - %.2 Complexité de décryptage par force brute :! "#$ (environ 2 semaines pour un entier sur un PC standard avec t= 3) 25 26 Et ensuite? Partage des données Risque de perte ou de vol des données Section 3 de l Accès aux stockées dans le Nuage OLAP partagées Collaboration avec B. Bachelet S. Bimonte et L. d Orazio 27 28 Payer plus pour gagner plus de perfs Soyons terre à terre! L infonuagique d un point de vue économique Fournisseur d accès ED Index Caches Vues matérialisées Partitionnement Élasticité Paiement à la demande Coût global = Coût transfert + Coût calcul + Coût stockage 29 30 5

Sélection de vues à matérialiser Problématique et contributions Optimisation multicritère Modèles de tarification flexibles Modèles de coût pour la matérialisation des vues Modèle détaillé du processus d optimisation D: Ensemble de données Q: Charge de requêtes A: Réponse aux requêtes Coût de transfert 0 " %2 30 " % 40 " 2 ascendant 50 " 627 descendant Volume EC2 Coût 0 Go Go 0 Go 0 To 02 $ / Go 0 To 40 To 009 $ / Go 3 32 Coût de calcul Coût de stockage S3 > A > Temps de traitement?@ 0 8 90 3:: ; 90 <.= 8 690 < 7 ;$ <$ Coût de location Q = {Q i } / i=..n Q : Charge de requêtes IC = {IC j } / j=..n IC : Configuration d instances de calcul Volume Coût 0 To To 040 $ / Go To 450 To 025 $ / Go > D Coût de stockage Durée de stockage 0 ' % 3 := ' B % C.6% C 7 C$ Taille des données D = {D k } / k=..n D : stockées par périodes de temps 33 34 Coût de calcul avec vues matérialisées Coût de stockage avec VM Temps de traitement 0 8 E90 3F6E7.= 8 690 G 7. HI Coût de location Coût de stockage Durée de stockage 0 ' %E 3= ' 6B % 4B6E77. F E 3 F J*K8 E 4F L)" E 4F L);>" E Taille des données Exécution requêtes Matérialisation Maintenance Q: Charge de requêtes V: Ensemble de vues matérialisées IC: Configuration d instances de calcul D: Ensemble de données V: Ensemble de vues matérialisées 35 36 6

Processus d optimisation Problèmes d optimisation Sélection de vues (algorithme existant) Trouver un ensemble de vues matérialisées V V cand V all Programme linéaire MV Minimiser T proc Contrainte : C C max MV2 Minimiser C Contrainte : T proc T max V cand V MV3 Minimiser α T proc + ( -α) C 37 38 Environnement expérimental Paramètres Star Schema Benchmark : 55 Go 4 séries de requêtes Période d expérimentation : -24 [2] (mois) VM VM2 VM3 VM20 P P2 P2 2 Go RAM 8 Go disque Hadoop 0.20.2 Pig 0.9. Quadri-pros 800 MGhz 96 Go RAM Nombre de nœuds :5-20 [0] Fréquence de la charge :-5 [4] (par semaine) 39 40 Résultats expérimentaux Bilan et perspectives Gain de performance :0 % Nouveaux modèles de coût (facturation dans le nuage) Processus d optimisation multicritère Matérialisation de vues toujours avantageuse Enrichissement des modèles de coût Extension à d autres modèles de tarification Intégration des phases de sélection de vues et d optimisation Exploitation d autres techniques d optimisation Gain de coût :30 % Objectifs d optimisation non contradictoires Expériences à plus grande échelle Algorithmes d optimisation plus performants 4 42 7

Pour aller plus haut! Cloud Intelligence Workshop eric.univ-lyon2.fr/cloud-i/ Journée eric.univ-lyon2.fr/~jdn/ Cloud Computing Research Group liris.cnrs.fr/cloud/wiki Projet IA REQUEST «BigData BigAnalytics» 43 8