Application de K-means à la définition du nombre de VM optimal dans un cloud

Documents pareils

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Optimisation for Cloud Computing and Big Data

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Data Mining. Master 1 Informatique - Mathématiques UAG

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Etude d Algorithmes Parallèles de Data Mining

Big Data et Graphes : Quelques pistes de recherche

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

Big Data et Graphes : Quelques pistes de recherche

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Une méthode d apprentissage pour la composition de services web

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Cloud Computing. Groupe : Vincent, Mohammed, Yannick, Allan Tuteur : Mr. NUSSBAUM Lucas Année : 2009/2010

Visualization sur Ubuntu: Quels Choix? Nicolas Barcet

Service Cloud Recherche

Bases de données documentaires et distribuées Cours NFE04

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

La classification automatique de données quantitatives

CA Automation Suite for Data Centers

Sécuristation du Cloud

Le projet logiciel E.C.D.Sagitta Un état des lieux

Virtualisation & Sécurité

Le Cloud Compu+ng modèle et évalua+on de performances

Les opportunités du modèle de Cloud Computing. Fabrice Dubosc

Analyse de grandes bases de données en santé

CURRICULUM VITAE. Informations Personnelles

VMWARE VSPHERE ESXI INSTALLATION

Cloud Computing : Généralités & Concepts de base

SolarWinds Virtualization Manager

Informatique en nuage Cloud Computing. G. Urvoy-Keller

Laboratoire 4 Développement d un système intelligent

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Resolution limit in community detection

Webinar ORACLE LE LICENSING ORACLE Quel type de licensing choisir?

17/07/2013. Décisionnel dans le Nuage. Laboratoire ERIC. Section 1. Équipe d Accueil Décisionnel dans le Nuage.

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

Elasticité logicielle pour optimiser l empreinte énergétique

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

BIG DATA en Sciences et Industries de l Environnement

Intégration de la dimension sémantique dans les réseaux sociaux

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

ORACLE EXADATA DATABASE MACHINE X2-8

Cours de Master Recherche

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Hébergement MMI SEMESTRE 4

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

L infonuagique démystifiée LE CLOUD REVIENT SUR TERRE. Par Félix Martineau, M. Sc.

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Introduction à la Fouille de Données (Data Mining) (8)

ORACLE EXADATA DATABASE MACHINE X2-2

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Programmation linéaire

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Comment rendre un site d e-commerce intelligent

Chapitre 5 : Flot maximal dans un graphe

Le Cloud Open-Mind! Emilien Macchi

1. Aménagements technologiques 2. Installation de Microsoft SQL Server 2012

Algorithmique et systèmes répartis

État de l art sur les aspects méthodologiques et processus en Knowledge Discovery in Databases

Les Bases de Données et l Objet Introduction

Bienvenue au roadshow Microsoft System Center, SQL et Windows Server 2012

Le cloud computing au service des applications cartographiques à haute disponibilité

Jean-François Boulicaut & Mohand-Saïd Hacid

Cycle de conférences sur Cloud Computinget Virtualisation. Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup

Introduction. Gestion de la consommation énergétique. Contexte du cloud computing Instrumentation et contrôle

Introduction au Data-Mining

System Center 2012 R2 Licensing Fiche Produit

agility made possible

Conserver les Big Data, source de valeur pour demain

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Apports des réseaux sociaux dans les SI

Les environnements de calcul distribué

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Atelier : Virtualisation avec Xen

Le BigData, aussi par et pour les PMEs

Installation de ndv 5

BCO. Sébastien LECOT Directeur de GESS PARTNERS

Cloud computing Votre informatique à la demande

Livre blanc. La sécurité de nouvelle génération pour les datacenters virtualisés

Encryptions, compression et partitionnement des données

Transcription:

Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février 2012, Bordeaux, France) Khaled TANNIR (doctorant 2 ème année à l EISTI)

Présentation Khaled TANNIR Doctorant en 2 ème année à l ESTI / laboratoire L@rys (Laboratoire ETIS Université de Cergy-Pontoise) Directeur de thèse (UCP) : Dan Vodislav Directeur / Encadrant EISTI : Hubert Kadima Encadrant EISTI : Maria Malek Activité professionnelle en parallèle en tant que Consultant / Architecte Technique (MS.NET) 2/27

Sommaire Présentation du contexte / problématique L algorithme d optimisation Quelques résultats Conclusion et perspectives 3/27

Sommaire Présentation du contexte / problématique L algorithme d optimisation Quelques résultats Conclusion et perspectives 4/27

Le contexte Data Mining et Cloud Computing Génération de règles d associations avec l algorithme «Apriori» «Apriori» est un algorithme connu dans le monde de l exploration des données pour la génération de règles d associations à partir du panier de la ménagère. (très consommateur en ressources) [1] Prendre en charge un gros volume de données Exécuter dans un environnement cloud computing 5/27

Le contexte Data Mining et Cloud Computing Des travaux précédents ont été proposés dans ce domaine avec une approche de partitionnement des données [2]: On peut constater que : Ne s exécutent pas (ou pas de façon optimale) dans un environnement cloud Ne sont pas (ou difficilement) applicables à tous les cas L approche de partitionnement proposée ne s est pas révélée toujours optimale. 6/27

Le contexte Les objectifs Répondre à la problématique en proposant des algorithmes qui: Partitionnent les données d une manière plus «intelligente» S exécutent de façon optimale dans un environnement cloud Etre (dans le mesure du possible) applicables à tous les cas 7/27

L approche proposée Vue générale Partitionner les données en plusieurs partitions homogènes avec un algorithme tel que k-means [3] K-means / h-means pour les données qualificatives K-medoids pour les données quantitatives Optimiser la distribution des partitions de données dans un cloud (de sorte à optimiser le nombre d instances de VM nécessaires) 8/27

Le Data Mining en un mot Ensemble de techniques d'exploration de données afin d'en tirer des connaissances qui seront présentées à l utilisateur sous forme de modèles 9/27

Le Cloud Computing en un mot Littéralement «ordinateur dans les nuages.» Permet d utiliser des ressources (Mémoire, CPU, HDD ) des serveurs répartis dans le monde entier et liés par un réseau tel internet. 10/27

L environnement matériel et logiciel Matériels: Environnement Serveurs Cloud privé hybride basé sur OpenNebula [13] Amazon EC2 est utilisé comme fournisseur de cloud public. [14] 31/01/2012 Khaled TANNIR Présentation EGC 2012 - Bordeaux 11/27

Sommaire Présentation du contexte / problématique L algorithme d optimisation Quelques résultats Conclusion et perspectives 12/27

Caractéristiques de l algorithme général Entrer p Génération règles d associations Création des machines virtuelles et exécution en parallèle dans le Cloud Obtenir k Module d optimisation Module de partitionnement Exécution de k-means en parallèle dans le Cloud Récupérer le résultat Seul l algorithme du module d optimisation sera présenté 13/27

Fonctionnement général de l algorithme d optimisation L algorithme d optimisation constitue un sousensemble d un algorithme plus général Une seule fonction principale : Fournir une cartographie de la distribution des partitions dans les VM (une map) 14/27

Présentation de l Algorithme d optimisation (1) 15/27

Présentation de l Algorithme d optimisation (2) L algorithme d optimisation étend l algorithme k-means avec la méthode du «Simplexe» [10] Données en entrées : Une table indiquant la taille et l identifiant de chaque partition. Nombre de VM maximal et la capacité de chaque VM Donnés retournées : Une table indiquant pour chaque identifiant de partition, la VM correspondante Exigences : Le nombre de VM maximal fourni doit être suffisant pour contenir les partitions à distribuer 16/27

Les données de l algorithme Les paramètres en entrée Le module de partitionnement nous produit: n nombre de partitions (clusters) a i taille de chaque partition ( = nb de lignes*taille d une ligne) L utilisateur (ou le système) nous fournit: m nombre de VM maximal b la capacité d une VM (espace disque max) On considère: x i = 1 si une partition a été distribuée, 0 sinon y j = 1 si une VM contient une partition, 0 sinon 17/27

Le nombre de VM Fonction objective et contraintes Nous cherchons à : minimiser le nombre des VM distribuer toutes les partitions sur les VM Il s agit donc de : Minimiser (somme des VM) sous les contraintes : yi 1... n : m i x j j 1 1 (une partition doit être placée une seule fois) doit j 1... m : n i 1 a i x ij b. y j (la capacité disuqe max de chaque VM être respectée) 18/27

Le déroulement de l algorithme de distribution Initialisation FIN Générer les tables des capacités des VM Générer les tables des tailles des partitions Appel au module externe de la méthode simplexe Définitions des variables Création des tables binaires / paramètres (représentants les VM et les partitions) S assurer qu une partition est distribuée une seule fois S assurer que les capacités des VM n est pas dépassée S assurer que toutes les partitions ont été distribuées Retourner le tableau des affectations Partitions/VM Retourner la liste à l appelant 19/27

Sommaire Présentation du contexte / problématique L algorithme d optimisation Quelques résultats Conclusion et perspectives 20/27

Exemple de résultats retournés par l algorithme d optimisation (1) Nous avons partitionné une base de données en 16 partitions. (les tailles sont exprimées en Mo). Les partitions ont été distribuées sur 3 VM disponibles ayant 1.4 Go de taille disque chacune K 26 35 52 77 88 94 137 164 253 364 372 388 406 432 461 851 VM1 X X X VM2 X X X X X X VM3 X X X X X X X VM 1 : 88 + 461 + 851 = 1400 Mo VM 2 : 94 + 137 + 164 + 253 + 364 + 388 = 1400 Mo VM 3 : 26 + 35 + 52 + 77 + 372 + 406 + 432 = 1400 Mo 21/27

Exemple de résultats retournés par l algorithme d optimisation (2) Distribution de 20 partitions sur 11 VM ayant chacune une capacité maximale K MAX Mo 36 26 30 25 30 26 39 37 35 37 36 22 25 39 39 22 39 30 23 29 V1 60 X X 56 V2 55 X X 55 V3 81 X X 76 V4 43 0 V5 65 X X 65 V6 83 X X X 81 V7 73 X X 69 V8 78 X X 78 V9 42 0 V10 89 X X X 88 V11 57 X X 57 Sur les 11 VM disponibles, 9 ont été uniquement utilisées 22/27

Sommaire Présentation du contexte / problématique L algorithme d optimisation Quelques résultats Conclusion et perspectives 23/27

Points forts: Conclusion Distribution efficace des partions sur les VM (optimisation de nombre de VM) Exécution extrêmement rapide Se base sur des moteurs existants pour le calcul du simplexe Limites: Ne prend pas en charge le dépassement des capacités lorsque le nombre de VM max est insuffisant 24/27

Introduire : Perspectives une notion de «capacité disque minimale» d une VM. une notion de «coût» pour les instances du cloud public. Suggérer un nombre de VM déduit à partir de la table des partitions fournies par le module de partitionnement. 25/27

Références bibliographiques et URLs (liste non exhaustive) [1] R. Agrawal and R. Srikant. Fast algorithms for mining associations rules in large databases. In Proc. of the 20th In10 Conf. on Very Large Data Bases (VLDB'94), pages 478-499, September 1994. [2] Valerie Fiolet. ALGORITHMES DISTRIBUES D EXTRACTION DE CONNAISSANCES. 2006. [3] R. Howard. Classifying a population into homogeneous groups. J.R. Lawerence (Ed.), Operational Research in the Social Sciences, 1966. [4] Frank, Eibe, et al. The WEKA Data Mining Software: An Update. SIGKDD Explorations. July 2009, Vol. 11, 1. [5] Ian H., Witten and Eibe, Frank. Data Mining - Practical Machine Learning Tools and Techniques. [ed.] ELSEVIER. s.l. : Morgan Kaufmann Publishers, 2005. [6] M.J. Zaki. Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12:372 390, 2000. [7] C. Lucchese, S. Orlando, R. Perego. Fast and Memory Efficient Mining of Frequent Closed Itemsets In IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. I, pages 21-36, January 2006. [8] A. Savasere, E. Omiecinski, and S. Navathe. An efficient algorithm for mining association rules in large databses. In Proc. of the 21st VLDB Int. Conf. (VLDB'95), pages 432-444, September 1995. URLs: [10] Méthode du Simplexe (http://fr.wikipedia.org/wiki/algorithme_du_simplexe/) [11] IBM ILOG CPLEX Optimizer (http://www-01.ibm.com/software/integration/optimization/cplex-optimizer/) [12] http://labs.google.com/papers/mapreduce-osdi04-slides/index-auto-0002.html [13] http://opennebula.org/ [14] http://hadoop.apache.org [15] http://mahout.apache.org/ 26/27

Khaled TANNIR contact@khaledtannir.net MERCI de votre attention 27/27