Master 2 FDGC-ECD Année 203-204 Laboratoire ERIC Équipe d Accueil 3083 et Jérôme Darmont eric.univ-lyon2.fr/~jdarmont/ Section Décisionnel dans le Nuage 2 Le meilleur des mondes Du décisionnel à papa datawarehousing0.wikispaces.com propriétaires Utilisateurs bien identifiés cloudcomputingadvices.com Stockage «in house» Dimensionnement a priori investissement initial important 3 4 à la Cloud BI! Vers le décisionnel à la demande propriétaires situationnelles ETL Entrepôt dans le nuage Analyses [collaboratives] [Production collaborative] danbrint.wordpress.com Élasticité et paiement à la demande investissement graduel 5 6
7/07/203 Nouvelles données nouveaux usages Scénario écolo Association qui surveille les activités de pêche Self-service BI complexes ouvertes Personal BI Crowd sourcing Règlements Statistiques Géolocalisation Observations de terrain Masses de données situationnelles Cloud intelligence 7 Nouveaux problèmes! 8 Déjà de quoi jouer! Conception - Analyse Confidentialité Centrée utilisateur Disponibilité Fusion tables Bottom up Stockage Elasticité des sources Nuage Technologie Modèle économique Accepter une perte de contrôle 9 0 Architecture des services Pour voir plus loin A. Abello J. Darmont L. Etcheverry M. Golfarelli J.N. Mazon F. Naumann T.B. Pedersen S. Rizzi J. Trujillo P. Vassiliadis G. Vossen "Fusion Cubes: Towards Self- Business Intelligence" International Journal of Data Warehousing and Mining Vol. 9 No. 2 203 66-88 Schéma extensible Instances extensibles Drill beyond (données situationnelles) Quasi temps réel 2 2
Architecture fonctionnelle Recherche par mots clés Contraintes de qualité Évaluation de la qualité Réécriture des requêtes Amélioration itérative de précision et rappel Partage et réutilisation des mappings Mise en valeur des éléments importants Filtrage en fonction de la qualité Requêtes Sources Mappings Cubes 3 Utilisateur non expert Problèmes ouverts Le décisionnel en poche Analyses à la demande Requêtage façon moteur de recherche Drill-beyond Quasi temps réel Collaboratif Technos Entrepôts de données / OLAP Web sémantique Gestion de documents Fouille de données Ingénierie sociale Modèle de données avancé algèbre de requêtes Equilibre entre partage et confidentialité des données Formalisation de l intelligence collaborative interfaces Modèle économique 4 Jusqu ici tout va bien Section 2 des dans le Nuage Collaboration avec V. Attasena N. Harbi et G. Gavin Transfert réseau Fournisseur d accès ED Transfert réseau 5 6 Plus dure sera la chute Solution Cloud computing Intruders Cloud service provider policies Characteristics of cloud architecture Inside-Intruders Outside-Intruders provider staffs & other customers Policies for Control & modification policies Virtual Virtual Grid taking benefit machine Established on network technology technology technology network Accidental plan Intentional plans s network electrical failure C + + + Delete unmodify C2 C3 C4 C5 & unaccess Data loss & damage Data loss & damage Data alteration & damage Data alteration & damage data down Data transfer bottlenecks Data pilfering Data pilfering down Data availability Data integrity Data privacy Cloud security issues 7 8 3
KEYS DATA WAREHOUSE DATA WAREHOUSE KEYS 7/07/203 Comment faire? Partager pour mieux cacher Synchronous Asynchronous Semi-synchronous Adil Shamir "How to share a secret" Communications of the ACM 22() 979 -anonymization -diversity Homomorphic encryption (HE) Partially HE Data anonymization Fully HE Data replication Related works Data encryption Incremental encryption Data verification Secret sharing Secret sharing (SS) Multi-secret sharing (MSS) Inner code verifying Outer code verifying Verify secret sharing (VSS) Partage :tpoints polynôme f(x) de degré t- Secret = terme constant Chaque donnée x i est transformée en npartages f(x i ) Reconstruction : interpolation de Lagrange Un seul polynôme p(x) tel que degré(p(x)) < tet p(x i ) = f(x i ) Secret = p(0) A Data Availability I Data Integrity P Data Privacy A Data Analysis t = 2 9 20 Repartons dans les nuages Notre procédé de Multi-Secret Sharing ED Fournisseur... Sharing process Utilisateur ED ED 2 Fournisseur 2 MSSS Provider MSSS Volume de données ED n Fournisseur n Provider Provider 2 Provider Provider 2 Provider 2 Transfer _ 2 22 Notre procédé de Multi-Secret Sharing Partageons une base de données Reconstructing process 336 Mo/s t = 3... Original data id name salary sex 24 Bob 2450 M Encrypted data at id name salary sex 24 (72)()() (50) (6) 25 (44)(00)(50)(33) (72) (44) Provider MSSS Provider 2 2 Provider Transfer Provider Verify encrypted data _ MSSS Provider Requêtes A 25 Anna 3000 F select avg(salary) from customer At : select avg(salary) from customer select id salary from customer where sex = M At : select id salary from customer where sex = 6 Encrypted data at id name salary sex 24 (50)(6)(50) () (33) 25 (83)(22)()(44) (00) (83) Encrypted data at id name salary sex 24 (72)()() (50) (6) 25 (44)(00)(50)(33) (72) (44) 23 24 4
Confidentialité? Probabilité de casser le secret en dérobant x partages : P! "#$ Disponibilité A et intégrité I? Disponibilité Par construction jusqu à n t fournisseurs peuvent être défaillants Intégrité : signatures (fonctions de hachage) Fiabilité des fournisseurs Intégrité des données partagées Volume de données : % & % '()*+ - %.2 Complexité de décryptage par force brute :! "#$ (environ 2 semaines pour un entier sur un PC standard avec t= 3) 25 26 Et ensuite? Partage des données Risque de perte ou de vol des données Section 3 de l Accès aux stockées dans le Nuage OLAP partagées Collaboration avec B. Bachelet S. Bimonte et L. d Orazio 27 28 Payer plus pour gagner plus de perfs Soyons terre à terre! L infonuagique d un point de vue économique Fournisseur d accès ED Index Caches Vues matérialisées Partitionnement Élasticité Paiement à la demande Coût global = Coût transfert + Coût calcul + Coût stockage 29 30 5
Sélection de vues à matérialiser Problématique et contributions Optimisation multicritère Modèles de tarification flexibles Modèles de coût pour la matérialisation des vues Modèle détaillé du processus d optimisation D: Ensemble de données Q: Charge de requêtes A: Réponse aux requêtes Coût de transfert 0 " %2 30 " % 40 " 2 ascendant 50 " 627 descendant Volume EC2 Coût 0 Go Go 0 Go 0 To 02 $ / Go 0 To 40 To 009 $ / Go 3 32 Coût de calcul Coût de stockage S3 > A > Temps de traitement?@ 0 8 90 3:: ; 90 <.= 8 690 < 7 ;$ <$ Coût de location Q = {Q i } / i=..n Q : Charge de requêtes IC = {IC j } / j=..n IC : Configuration d instances de calcul Volume Coût 0 To To 040 $ / Go To 450 To 025 $ / Go > D Coût de stockage Durée de stockage 0 ' % 3 := ' B % C.6% C 7 C$ Taille des données D = {D k } / k=..n D : stockées par périodes de temps 33 34 Coût de calcul avec vues matérialisées Coût de stockage avec VM Temps de traitement 0 8 E90 3F6E7.= 8 690 G 7. HI Coût de location Coût de stockage Durée de stockage 0 ' %E 3= ' 6B % 4B6E77. F E 3 F J*K8 E 4F L)" E 4F L);>" E Taille des données Exécution requêtes Matérialisation Maintenance Q: Charge de requêtes V: Ensemble de vues matérialisées IC: Configuration d instances de calcul D: Ensemble de données V: Ensemble de vues matérialisées 35 36 6
Processus d optimisation Problèmes d optimisation Sélection de vues (algorithme existant) Trouver un ensemble de vues matérialisées V V cand V all Programme linéaire MV Minimiser T proc Contrainte : C C max MV2 Minimiser C Contrainte : T proc T max V cand V MV3 Minimiser α T proc + ( -α) C 37 38 Environnement expérimental Paramètres Star Schema Benchmark : 55 Go 4 séries de requêtes Période d expérimentation : -24 [2] (mois) VM VM2 VM3 VM20 P P2 P2 2 Go RAM 8 Go disque Hadoop 0.20.2 Pig 0.9. Quadri-pros 800 MGhz 96 Go RAM Nombre de nœuds :5-20 [0] Fréquence de la charge :-5 [4] (par semaine) 39 40 Résultats expérimentaux Bilan et perspectives Gain de performance :0 % Nouveaux modèles de coût (facturation dans le nuage) Processus d optimisation multicritère Matérialisation de vues toujours avantageuse Enrichissement des modèles de coût Extension à d autres modèles de tarification Intégration des phases de sélection de vues et d optimisation Exploitation d autres techniques d optimisation Gain de coût :30 % Objectifs d optimisation non contradictoires Expériences à plus grande échelle Algorithmes d optimisation plus performants 4 42 7
Pour aller plus haut! Cloud Intelligence Workshop eric.univ-lyon2.fr/cloud-i/ Journée eric.univ-lyon2.fr/~jdn/ Cloud Computing Research Group liris.cnrs.fr/cloud/wiki Projet IA REQUEST «BigData BigAnalytics» 43 8