Entreposage et analyse en ligne dans les nuages avec Pig

Dimension: px
Commencer à balayer dès la page:

Download "Entreposage et analyse en ligne dans les nuages avec Pig"

Transcription

1 Entreposage et analyse en ligne dans les nuages avec Pig Laurent d Orazio* Sandro Bimonte** * Clermont Université Université Blaise Pascal, LIMOS UMR 6158 CNRS ISIMA, Campus des Cézeaux F Aubière cedex laurent.dorazio@isima.fr ** Cemagref, UR TSCF 24 Avenue des Landais F Clermont-Ferrand sandro.bimonte@cemagref.fr RÉSUMÉ Les entrepôts de données et les systèmes OLAP permettent d analyser à la volée de gros volumes de données. L informatique dans les nuages vise à proposer des capacités de calcul et de stockage virtuellement infinies. Considérer l analyse et l entreposage de données au sein des nuages informatiques devient alors un enjeu majeur. Les problèmes à aborder sont ceux classiques des systèmes largement distribués, mais sous un nouvel angle prenant en compte les spécificités de ce paradigme : facturation à l utilisation, élasticité et facilité d utilisation. Cet article aborde dans un premier temps les règles de facturation à l utilisation pour le stockage des entrepôts de données. Nous proposons d utiliser pour les nuages des techniques de stockage à base de tableaux multidimensionnels. Ensuite, nous nous intéressons à l analyse OLAP en proposant de nouveaux opérateurs et des règles d optimisation, dont l intérêt est mis en avant par de premières expérimentations. Enfin, nous listons des perspectives de recherche pour la définition d un cadre théorique et pratique pour l entreposage et l analyse en ligne dans les nuages. ABSTRACT. Data warehouses and OLAP systems are decision support technologies for online analysis of large volumes of data. Cloud computing aims at supplying virtually infinite computing and storage resources. Considering OLAP analysis and data warehousing in the cloud becomes a major issue. The problems to be considered are those of conventional large scale distributed systems, but from a new point of view that takes into account the specificities of this paradigm: pay as you go model, elasticity and user-friendliness. This paper initially investigates data warehouse storage issues. We propose to use multidimensional arrays for the storage of cloud-based data warehouses. Then, we focus on OLAP analysis by proposing new operators and optimization rules, whose relevance is shown by initial experiments. Finally, we list research perspectives on the definition of a theoretical framework and implementation for multidimensional storage and online analysis in the clouds. MOTS-CLÉS : entrepôts de données, OLAP, Cloud, Pig. KEY-WORDS: data warehouses, OLAP, Cloud, Pig. DOI: /ISI Lavoisier, Paris RSTI - ISI 16/2011. Qualité des entrepôts de données, pages 141 à 164

2 142 RSTI - ISI 16/2011. Qualité des entrepôts de données 1. Introduction Les entrepôts de données et les systèmes OLAP (On-Line Analytical Processing) représentent des technologies d aide à la décision qui permettent l analyse en ligne de gros volumes de données (Inmon, 1996). Dans une architecture Relational OLAP (ROLAP), les systèmes OLAP sont déployés en utilisant des systèmes de gestion de bases de données relationnels pour stocker et analyser les données. Quand les données sont denses, l approche Multidimensional OLAP (MOLAP) peut être utilisée (Zhao et al., 1997). L architecture MOLAP stocke les données à l aide de structures multidimensionnelles ad hoc, telles que des tableaux multidimensionnels, afin de réduire la taille des données stockées. Enfin, il existe une autre typologie qui combine les deux technologies : Hybrid OLAP (HOLAP). Selon cette approche, une partie des données est stockée en relationnel et l autre en utilisant des techniques multidimensionnelles. Les architectures hautes performances visent à faire face aux besoins croissants en termes de calcul et de stockage des applications scientifiques et industrielles (Armbrust et al., 2009). Parmi ces architectures, les nuages informatiques (cloud computing) sous l impulsion d entreprises telles que Google, Microsoft et Amazon suscitent actuellement une attention particulière. Les entrepôts de données et les systèmes OLAP dans les nuages soulèvent différents problèmes liés à la performance du stockage et de l interrogation (Ordonez et al., 2010). Les problèmes à aborder sont ceux classiques des systèmes distribués à grande échelle (interrogation de gros volumes de données, hétérogénéité sémantique et structurelle, variabilité, etc.), notamment abordés par les travaux autour des entrepôts de données sur grilles, (Gorawski et al., 2006 ; Mahboubi et al., 2009), mais qui doivent être considérés d un nouveau point de vue qui prend en compte les caractéristiques particulières de ces architectures : facturation à l utilisation, élasticité et facilité d utilisation (Armbrust et al., 2009). Certains travaux récents s intéressent aux technologies des bases de données et d aide à la décision dans les nuages sur différents aspects. Par exemple, différents travaux investiguent la possibilité de stocker et d interroger les données structurées (Chatziantoniou et al., 2009) et complexes (comme spatiales (Zhang et al., 2009), textuelles (Lin et al., 2010), graphes (Ravindra et al., 2010), etc.) en utilisant les technologies des nuages informatiques qui supportent les opérations d analyse comme l agrégation (Condie et al., 2010). Du point de vue des performances des requêtes OLAP, l introduction des index est par exemple abordée par la définition d une structure de données distribuée au dessus du moteur d exécution parallèle Hadoop (Konstantinou et al., 2010). L optimisation des requêtes qui utilisent les jointures a également été abordée (Sridhar et al., 2009), tout comme le calcul des cuboids OLAP à l aide de l environnement d exécution MapReduce (Kuznecov et al., 2010). Néanmoins, à notre connaissance, aucun travail ne définit un modèle de données pour le stockage de données multidimensionnelles dans les nuages considérant la

3 Entreposage et analyse en ligne dans les nuages avec Pig 143 facturation à la demande, et un langage d interrogation OLAP facile d accès basé sur Pig Latin pour des utilisateurs non experts des systèmes de gestion de données. Cet article présente une première avancée vers l implémentation d une architecture OLAP dans les nuages afin de réduire les coûts de stockage des données. En particulier, nous présentons un algorithme qui transforme les données stockées sous forme de tableaux multidimensionnels suivant le modèle de données Pig (Olston et al., 2008). Ceci permet d exécuter les requêtes OLAP en utilisant le paradigme MapReduce (Dean et al., 2008) et de réduire grandement les coûts de stockage. De plus, nous proposons une extension et une optimisation du langage Pig Latin pour les requêtes OLAP, ainsi que les opérateurs CUBE, ROLLUP et RANK au sein du langage considéré. Cet article liste ensuite des perspectives de recherche pour l analyse de données sur nuages informatiques. Cet article est organisé de la manière suivante. La section 2 présente le contexte et les motivations de ce travail. La section 3 introduit la proposition de stockage de tableaux multidimensionnels pour les nuages, et notre extension de Pig Latin pour l OLAP. La section 4 présente les expérimentations qui valident notre approche. La section 5 liste des pistes de recherche. Enfin, la section 6 conclut cet article. 2. Contexte et motivations Dans cette section nous présentons les concepts principaux des entrepôts de données et l analyse en ligne, et une infrastructure typique pour le stockage et l interrogation de données dans les nuages Cas d étude Afin de présenter notre travail, nous nous basons sur un cas d étude simulé portant sur l analyse des ventes de magasins d une chaîne internationale d approvisionnement. L utilisateur veut analyser la moyenne du profit des ventes pour chaque jour, mois et année en fonction du pays, du département, ou de la région. Le tableau 1 propose un exemple de jeu de données qui sera utilisé dans les exemples suivants. Année Mois Jour Pays Région Département Profit France Auvergne Puy-de-Dôme Italie Campanie Naples France Auvergne Puy-de-Dôme Italie Campanie Naples 3100 Tableau 1. Données des ventes

4 144 RSTI - ISI 16/2011. Qualité des entrepôts de données 2.2. Entrepôts de données et OLAP Les entrepôts de données représentent les données selon le modèle multidimensionnel. Celui-ci définit les concepts de dimension et de mesure. Une dimension est composée de hiérarchies et représente l axe d analyse. Une hiérarchie organise les données (membres) dans une structure hiérarchique permettant aux décideurs d analyser les mesures à différentes granularités. Les mesures correspondent à des indicateurs numériques décrivant le sujet d analyse (fait). Les opérateurs OLAP tels que roll-up et drill-down permettent de naviguer au sein de hiérarchies synthétisant les données à l aide des fonctions d agrégation SQL (Inmon, 1996). D autres opérateurs ont été définis pour la sélection d une partie de l entrepôt de données et la permutation des dimensions (Rafanelli, 2003). L application considérée dans la sous-section précédente présente deux dimensions : une dimension spatiale regroupant les départements en régions et pays et une dimension temporelle avec une hiérarchie jour, mois et année, tandis que la mesure est le profit. Les architectures MOLAP utilisent des structures de données multidimensionnelles telles que les tableaux multidimensionnels construits à partir des données originales, qui sont en général stockées dans des bases de données relationnelles. Les architectures MOLAP permettent d optimiser le stockage pour les entrepôts de données denses à l aide de ce modèle de stockage de données particulier (Zhao et al., 1997). En effet, les tableaux multidimensionnels permettent de stocker uniquement les mesures car elles sont indexées à l aide des positions des membres des dimensions. Par exemple, la valeur de la mesure à la position tab[2][3][4] est associée au second membre de la première dimension, au troisième membre de la deuxième dimension et au quatrième membre de la troisième dimension. Il est important de noter qu il est possible de passer d un tableau multidimensionnel à un tableau uni-dimensionnel avec la formule suivante : Soit d dimensions, N k les membres de la k-éme dimension, alors la position de la mesure dans un tableau à une dimension est : p(i 1,..., i d) = Π d j=1 (i j * Π d k = j + 1 N k) L interrogation des entrepôts de données se base essentiellement sur deux langages : MultiDimensional expression language (MDX) et/ou SQL. MDX (Mdx, 2010) est un langage qui définit l ensemble des dimensions et mesures qui doivent être affichées sous forme de table pivot (tableau multidimensionnel). Les opérations OLAP sont donc définies implicitement par l interaction avec la table pivot. MDX est indépendant de l architecture OLAP utilisée, ce qui signifie que dans le cadre d une architecture ROLAP, les requêtes MDX doivent être traduites en SQL. D un autre côté, une extension de SQL pour les opérateurs OLAP d agrégation qui produisent des totaux et sous-totaux a été définie (Gray et al., 1996) et implémentée dans la majorité des SGBD existants. Elle introduit l operateur ROLLUP et l opérateur CUBE. La différence entre les deux opérateurs est que CUBE crée tous

5 Entreposage et analyse en ligne dans les nuages avec Pig 145 les agrégats possibles, et ROLLUP crée seulement un sous-ensemble de CUBE correspondant aux hiérarchies des colonnes. Par exemple en utilisant les données du tableau 1, le résultat de l application de l opérateur CUBE sur les niveaux Année et Pays en utilisant la SUM est illustré par le tableau 2. Année Pays Profit 2010 France Italie France Italie 3100 All France 3800 All Italie All All 4900 All All Tableau 2. Résultat de l operateur Cube D autres opérateurs OLAP ont été développés tels que l opérateur RANK (Oracle, 2011) qui retourne le rang de chaque ligne au sein de la partition d un ensemble de résultats permettant de répondre aux requêtes de type top-k (Stupar et al., 2010) (par exemple les trois meilleurs profits par pays et par année) Gestion des données dans les nuages La gestion de données sur nuages se base généralement sur une architecture en couches, illustrée par la figure 1. Figure 1. Architecture de la gestion de données sur nuages

6 146 RSTI - ISI 16/2011. Qualité des entrepôts de données Le premier niveau correspond à l infrastructure. En général, ce niveau est composé d un ou plusieurs centres numériques ou centres de données (data centers), utilisé(s) pour l analyse de gros volumes de données et mis à disposition par les fournisseurs de nuages. Microsoft Azure (Microsoft, 2010) et Amazon EC2 (Amazon, 2010) sont des exemples de telles infrastructures. La principale caractéristique de ce niveau est son association au modèle de facturation à l utilisation, où les utilisateurs ne payent que pour les ressources utilisées. Le stockage repose sur Google File System (GFS) (Ghemawat et al., 2003), un système de fichiers distribués passant à l échelle, dédié aux applications de traitement intensif de masses de données. Au sein de GFS, les fichiers sont divisés en blocs d une taille fixe stockés sur les disques locaux de différents serveurs, chaque segment étant répliqué sur plusieurs serveurs (trois copies par défaut). Afin de fournir un débit élevé, GFS sépare les flux de contrôle, qui passent par une entité centralisée, et les flux de données, qui traversent les serveurs stockant les données. GFS aborde également le problème de la tolérance aux fautes via une surveillance constante et une restauration rapide et automatique. L environnement d exécution MapReduce (Dean et al., 2008) est un modèle de programmation et une instance associée pour le traitement et la génération de grands volumes de données. Les développeurs spécifient deux fonctions : (1) une fonction map qui traite des paires (clé k1, valeur v1) afin de générer un ensemble de paires intermédiaires (clé k2, valeur v2) (cette fonction peut être considérée comme un groupement) ; (2) une fonction reduce qui synthétise toutes les valeurs intermédiaires associées à une même clé intermédiaire (cette fonction pouvant être considérée comme une agrégation). Les programmes écrits selon ce paradigme sont automatiquement parallélisés et exécutés sur des grappes (ou des grilles). Le système d exécution sousjacent permet alors le parallélisme en partitionnant les données d entrée, l exécution se faisant sur les nœuds par traitements simultanés des partitions différentes. Ce système gère également la tolérance aux fautes et assure la communication entre nœuds. La figure 2 illustre l exécution globale du processus MapReduce, répartie sur plusieurs nœuds. (1) Le programme utilisateur fractionne les fichiers d entrée en morceaux M (le numéro M dépend de la taille de l entrée et la taille des segments). Le programme est ensuite exécuté sur une grappe de serveurs. (2) Un de ces serveurs joue un rôle particulier, celui de maître, consistant à assigner les tâches map et reduce sur les autres serveurs inactifs. Les morceaux sont ensuite traités par la fonction map définie par l utilisateur en parallèle par différents nœuds qui sont affectés à une tâche map. (3) Les résultats intermédiaires produits sont placés en mémoire tampon. (4) Périodiquement, ces résultats sont écrits sur le disque local, divisés en R régions par une fonction de partitionnement (par exemple une fonction de hachage). Le nombre de partitions et de la fonction de partitionnement sont spécifiés par

7 Entreposage et analyse en ligne dans les nuages avec Pig 147 l utilisateur. L emplacement de ces partitions est donné au nœud maître, qui transmet cette information aux nœuds en charge d une tâche de reduce. (5) Un nœud de type reduce utilise ensuite des appels de procédure à distance pour lire les résultats intermédiaires des disques des map. Lorsque tous ces résultats intermédiaires ont été lus, ils sont triés à l aide de leur clé intermédiaire, afin que les résultats obtenus ayant la même clé soient regroupés. (6) La fonction reduce itère sur les résultats intermédiaires et pour chaque clé intermédiaire rencontrée, passe la clé et l ensemble des valeurs intermédiaires associé à la fonction reduce définie par l utilisateur. La sortie de cette fonction est insérée dans un fichier de sortie final pour cette partition. Lorsque toutes les tâches map et reduce sont terminées, le nœud maître finalise le programme de l utilisateur. La sortie de l exécution de MapReduce est disponible dans les R fichiers de sortie. Figure 2. Exécution d une application via MapReduce La dernière couche offre un langage d interrogation de haut niveau. Une telle couche a pour objectif de proposer une certaine facilité d utilisation et une totale transparence des autres couches de l architecture, tout en permettant le parallélisme de l exécution. Différents langages d interrogation ont été proposés dans la littérature, tels que Hive de Facebook (Thusoo et al., 2009), Scope de Microsoft (Chaiken et al., 2008), Sawzall de Google (Pike et al., 2005) ou encore Map- Reduce-Merge (Yang et al., 2007), qui sont basés sur des modèles de données particuliers comme le modèle orienté colonne (Stonebraker et al., 2008) ou des modèles étendant le modèle relationnel (Olston et al., 2008). Dans cet article nous nous intéresserons au système Pig.

8 148 RSTI - ISI 16/2011. Qualité des entrepôts de données 2.4. Gestion de données avec Pig Le système Pig a été proposé pour offrir un compromis entre un langage déclaratif de type SQL et le style procédural bas niveau de MapReduce. L implémentation Pig se compose d un langage, Pig Latin, permettant l expression de requêtes d interrogation de données, suivant un modèle de données spécifique, et d un moteur d exécution, Pig Engine, permettant le déploiement sur des environnements parallèles. Le modèle de données Pig se compose de quatre types : atom, tuple, bag et map. Chacun de ces types est explicité à l aide de l exemple suivant. Exemple 1. Types de données Pig Atom: Bimonte Tuple:( Bimonte, Cemagref ) Bag:( Bimonte, Cemagref ) ( d Orazio,( LIMOS, UMR 6158 CNRS )) Map:[ author -> d Orazio affiliation -> ( CNRS ) ( Clermont-Université )] Un atom représente une valeur atomique telle qu un nombre ou une chaîne de caractères. Un tuple correspond à une séquence de champs, chacun d eux pouvant être de n importe quel type de données. Il est à noter que les tuples peuvent être imbriqués, comme l illustre l exemple choisi. Un bag est une collection de tuples. Une telle structure autorise la duplication et l hétérogénéité des tuples. Enfin, une map est une collection d éléments, où chaque élément est associé à une clé à l aide de laquelle il est accessible. Tout comme un bag, cette structure est flexible, les données pouvant être de différents types. Néanmoins, la clé doit dans tous les cas être un atom. Le langage Pig Latin propose des opérateurs de type SQL tels que la sélection, la projection, la jointure ou encore l union. Ces opérateurs peuvent également être complétés par des opérations plus spécifiques à l aide d UDF (User Defined Functions ou fonctions définies par l utilisateur) Motivations Conformément au principe de facturation à l utilisation, les utilisateurs ne paient que pour les ressources (cycle processeur, consommation de bande passante et stockage) qu ils utilisent. Par exemple, sur Microsoft Azure (Microsoft, 2010) le coût CPU pour une heure d exécution est 0,12 $, le stockage revient à 0,15 $ par Go et par mois, alors que la consommation de bande passante est facturée par Go 0,10 $ en chargement et 0,15 $ en téléchargement.

9 Entreposage et analyse en ligne dans les nuages avec Pig 149 Ces langages d interrogation de données sur nuages d une part, ne permettent qu indirectement la formulation de requêtes OLAP, puisqu aucun opérateur pour le calcul des totaux et sous-totaux (Gray et al., 1996) ad hoc n a été proposé, et, d autre part, aucun modèle de données associé ne fournit un stockage ad hoc pour les données multidimensionnelles. C est pourquoi notre travail vise à proposer une organisation spécifique des données multidimensionnelles pour les nuages informatiques afin de réduire les coûts de stockage et de calcul pour les requêtes OLAP en accord avec la contrainte des nuages informatiques de facturation à l utilisation. De plus, nous proposons une extension du langage Pig Latin avec les opérateurs CUBE, ROLLUP et RANK comme définis en SQL. Enfin, l analyse en ligne dans les nuages est un domaine de recherche vraiment nouveau. En effet, si d un côté l Université de Californie (Armbrust et al., 2009) a identifié des axes de recherches pour nuages (disponibilité et qualité de service, sécurité, etc.), de l autre côté, peu de travaux de recherche à notre connaissance ont exploré les différentes pistes de recherche pour l OLAP dans les nuages, et quelques produits commerciaux (GoodData, 2010 ; Pentaho, 2010) ayant fait leur apparition rapidement et récemment, ne fournissant que peu d informations à leur sujet. Dans cet article nous détaillons des perspectives portant sur les performances, la modélisation multidimensionnelle et l analyse en ligne sur les nuages. 3. Tableaux multidimensionnels dans les nuages et opérateurs OLAP Dans cette section, nous introduisons un aperçu du processus d interrogation de tableaux multidimensionnels sur nuages (section 3.1) et le stockage et le traitement des données plus en détails (section 3.2). Ensuite nous présentons une proposition d optimisation des requêtes multidimensionnelles avec l operateur GROUP de Pig Latin (section 3.3). Puis, en utilisant cet opérateur nous définissons au sein de Pig Latin les opérateurs CUBE, ROLLUP et RANK Processus d interrogation Le processus d interrogation, illustré par la figure 3 peut être décomposé en deux étapes : 1. les données sont stockées dans des fichiers textes sous forme de tableaux multidimensionnels. Ceci permet de réduire la taille des fichiers stockés et, par conséquent, le prix à payer par les clients. Quand une requête est posée, les tableaux sont transformés dans des fichiers temporaires en données suivant le modèle Pig, à l aide de l algorithme présenté en section 3.2. Ces fichiers peuvent ensuite être supprimés une fois l analyse terminée ; 2. les requêtes OLAP sont formulées et optimisées afin d aboutir à un plan d exécution performant d instructions en Pig Latin. Il est à noter que ces requêtes

10 150 RSTI - ISI 16/2011. Qualité des entrepôts de données peuvent être exécutées en parallèle, à l aide du paradigme MapReduce (cf. section 2.3), permettant d obtenir une certaine élasticité. Figure 3. Aperçu du processus d interrogation 3.2. Stockage et traitement des données Cette section présente comment les tableaux multidimensionnels peuvent être utilisés comme structure de stockage pour Pig. Les données sont stockées dans des tableaux multidimensionnels logiques, stockés physiquement sous forme de tableau unidimensionnel, à l aide de la formule présentée en section 2.2. L exemple suivant illustre les tableaux multidimensionnels utilisés dans notre cas d étude. Entrèes : Fichiers de tableaux Sortie : Fichier Pig int i 1; int n; file cartprodfile; {initialisé par le produit cartésien des deux dernières dimensions} file pigfile; file mafile; array dimensions; {ensemble des dimensions} tant que(i n-1) cartprodfile produitcartesien(dimensions[i],cartprodfile);

11 Entreposage et analyse en ligne dans les nuages avec Pig 151 i i + 1; fin tant que i 0; tant que(non fin de mafile) rolapfile (produitcartesien(dimension(n),cartprodfile )+, +mafile(i)) ; i i + 1 ; fin tant que retourner pigfile; Algorithme 1. Conversion de tableaux multidimensionnels en données Pig Exemple 2. Représentation des données avec tableaux multidimensionnels France,Auvergne,Puy-de-Dôme France,Auvergne,Allier... Italie,Campanie,Naples Par exemple, le premier fait, correspondant à la première ligne de la partie mesure, correspond aux valeurs mesurées associées au membre (première ligne pour la dimension temps) et France, Auvergne, Puy-de-Dôme (première ligne de la dimension spatiale). Quand une requête est posée, les données sont converties en des données Pig dans un fichier temporaire. Chaque ligne représente un n-uplet, les valeurs d un n-uplet étant séparées par des points virgules. La conversion des données considérées dans notre cas d étude est présentée par l exemple suivant. Exemple 3. Représentation des données avec Pig 2000;01;01;France;Auvergne;Puy-de-Dôme; ;01;01;France;Auvergne;Allier; ;04;20;Italie;Campanie;Naples;2500

12 152 RSTI - ISI 16/2011. Qualité des entrepôts de données La conversion des tableaux multidimensionnels en données Pig est faite via l algorithme 1. Les entrées de cet algorithme sont les fichiers stockant les tableaux des dimensions et les mesures (voir Exemple 2). La sortie correspond à un fichier représentant l entrepôt de données basé sur le modèle de données Pig (cf. Exemple 3). Le principe de cet algorithme est de construire le produit cartésien de n 1 dimensions. Un produit cartésien est alors réalisé entre ce résultat produit, la dimension n et les valeurs mesurées sont ajoutées pour générer les n-uplets de la manière suivante : le i-eme n-uplet avec la i-eme valeur du tableau. Quand le processus d analyse est terminé, le fichier temporaire est supprimé afin de réduire les coûts d utilisation de l infrastructure (le coût de cette transformation notamment en termes de cycles de calculs étant considéré comme inférieur au coût de stockage de la matérialisation des données dans le format Pig) Requêtes OLAP Une requête OLAP classique sur ces données est : «Quel est le profit total pour chaque région entre 2000 et 2001?». Une telle requête peut facilement être exprimée à l aide d instructions Pig Latin, comme l illustre l exemple 4. Ainsi, une requête OLAP en Pig se traduit en utilisant trois instructions. La première sélectionne les membres des dimensions (2000 et 2001 sur notre exemple). Une autre permet de regrouper les données (regroupement par année et région pour cet exemple), alors qu une dernière réalise la tâche d agrégation (une somme dans notre cas particulier). Exemple 4. Requête OLAP avec Pig Latin : FILTER et (GROUP, Agrégation) s0001 = FILTER sales BY years=2000 or years=2001 ; groups = GROUP s0001 BY year, region ; results = FOREACH groups GENERATE s0001.region, SUM(profit) ; Optimisation requêtes Contrairement à celles écrites en SQL pour lesquelles le système de gestion de bases de données choisit un plan d exécution à partir d éléments d optimisation, les requêtes en langage Pig Latin correspondent à un ensemble d instructions dont l ordre a un impact direct sur les performances de traitement de la demande. En effet, l implémentation de Pig dans sa version actuelle ne gère que deux optimisations : (1) un pipeline des séquences d enregistrements et (2) l utilisation des propriétés algébriques et distributives de certaines fonctions d agrégation (compte, somme, moyenne) ou de fonctions utilisateurs pour le calcul d agrégations partielles dès que possible. D autres optimisations à base de règles (Rule Based Optimizer ou RBO) ont été envisagées, permettant par exemple des opérations de type projection au plus tôt (Gates et al., 2009). Dans la même idée, nous avons proposé une optimisation simple mais efficace des requêtes OLAP en réécrivant les

13 Entreposage et analyse en ligne dans les nuages avec Pig 153 requêtes Pig. En effet, les requêtes exprimées dans le langage Pig Latin correspondent à un ensemble d instructions. Ainsi, les requêtes OLAP peuvent être formulées de deux manières différentes : (i) FILTER et (GROUP et Agrégation) (comme illustré par l exemple 4), (ii) (GROUP et Agrégation) et FILTER (comme illustré par l exemple 5). Evidemment, une telle séquence influe grandement sur les temps de réponse. Sur un tel exemple, si la taille de la source de données est très grande, agréger tous les résultats et ensuite sélectionner les membres des dimensions peut être très coûteux. C est pourquoi, une optimisation intuitive des requêtes OLAP en Pig Latin consiste à utiliser le patron d interrogation "FILTER, GROUPE, Agrégation". Exemple 5. Requête OLAP avec Pig Latin : (GROUP, Agrégation) et FILTER groups = GROUP sales BY year, region ; avgprof = FOREACH groups GENERATE sales.region, SUM(sales.profit) ; results = FILTER avgprof BY years=2000 or years=2001 ; Opérateur CUBE, ROLLUP et RANK en Pig Latin Pig Latin est disponible comme langage natif de Pig, mais aussi via une API java. Nous avons choisi d implémenter les opérateurs SQL CUBE, ROLLUP et RANK en étendant l API Java. Cela a permis de tester la faisabilité de notre approche et en même temps de faciliter le développement d applications OLAP avec Pig Latin. Il est important de souligner que les opérateurs CUBE, ROLLUP et RANK peuvent être considérés effectivement comme une extension de l algèbre de Pig Latin car ils reçoivent en entrée une relation Pig et fournissent en sortie une autre relation Pig. Nous avons défini une méthode pour chaque opérateur. Par souci de lisibilité, nous détaillons par la suite uniquement l opérateur CUBE et donnons seulement la signature des méthodes ROLLUP et RANK. La méthode cube est définie de la manière suivante : public static void cube(pigserver pigserver, String inputtable, String argum, String agregate, String result) Elle prend en entrée le chemin d accès des données, les n niveaux de dimensions choisis pour l agrégation, la fonction d agrégation, ainsi qu une référence vers le serveur (permettant généralement une exécution parallèle sur un centre de données) de traitement de requêtes. Elle produit ensuite en sortie l ensemble des n-uplets résultats. Un exemple d application de la méthode à l entrepôt de données (ventes) du cas d étude est présenté dans l exemple 6. Exemple 6. Opérateur Cube cube(pigserver,"ventes","year,country","sum(profit )","result");

14 154 RSTI - ISI 16/2011. Qualité des entrepôts de données Le résultat pour le cas d étude considéré est le même que celui présenté précédemment dans le tableau 2. La méthode génère, pour chaque total et sous-total, une relation Pig, avec les valeurs de colonnes associées aux dimensions qui doivent être utilisées pour l agrégation, grâce à l instruction FOREACH GENERATE,,. La valeur NULL du langage Pig Latin est utilisée comme substitut de la valeur ALL de l opérateur SQL CUBE. Elle évite de définir un niveau particulier pour le regroupement sur la dimension considérée et permet alors d agréger sur tous les membres de cette dimension. Les différentes agrégations sont ensuite réalisées pour chaque groupe via les instructions FOREACH GROUP BY et agregate. Ces combinaisons de valeurs sont ensuite rassemblées grâce à l opérateur UNION. Il est à noter que nous utilisons ici la possibilité offerte par le langage Pig Latin de référencer un attribut non pas par son nom (comme présenté précédemment), mais par sa position dans le n-uplet via l opérateur $ (par exemple l expression $0 permettant d accéder au premier attribut du n-uplet, $1 au deuxième et ainsi de suite). Une telle approche facilite la réutilisation du code pour différentes requêtes d agrégation et pour toutes les sources de données. Dans notre cas, les attributs listés seront ceux utilisés pour la création des groupes de données à la base des agrégations. L ensemble des requêtes Pig Latin générées par la méthode CUBE pour l exemple précédent est illustré par l exemple 7. Exemple 7. Requêtes Pig Latin générées par l operateur CUBE a = FOREACH ventes GENERATE null,null,profit; b = GROUP a BY ($0,$1); result = FOREACH b GENERATE group,sum(a.profit); a = FOREACH ventes GENERATE null,country,profit; b = GROUP a BY ($0,$1); c = FOREACH b GENERATE group,sum(a.profit); restemp = FOREACH result GENERATE *; result = UNION c, restemp; a = FOREACH ventes GENERATE year,null,profit; b = GROUP a BY ($0,$1); c = FOREACH b GENERATE group,sum(a.profit); restemp = FOREACH result GENERATE *; result = UNION c, restemp; a = FOREACH ventes GENERATE year,country,profit; b = GROUP a BY ($0,$1); c = FOREACH b GENERATE group,sum(a.profit); restemp = FOREACH result GENERATE *; result = UNION c, restemp;

15 Entreposage et analyse en ligne dans les nuages avec Pig 155 Les méthodes des opérateurs RANK et ROLLUP sont respectivement : public static void rank(string input,string args,string arggroup,string argordre, String Ordre, String output) public static void ROLLUP(PigServer pigserver, String inputfile, String argums, String aggregation, String result) 4. Validation Notre proposition a été validée à l aide d expérimentations. L objectif principal était d illustrer la réduction des coûts de stockage obtenue à l aide de notre approche, sans détériorer les performances, en particulier en termes de temps de réponse. Ces expérimentations visaient de plus à valider les opérateurs OLAP proposés. Les données simulées utilisées représentaient des mesures denses de ventes par régions et par années. La taille de ces données était modifiée en ajoutant ou retirant des mesures par années. Les expérimentations ont été réalisées avec la version de Pig sur deux types d architecture : une machine locale et une grappe virtuelle. La machine locale possède un processeur Intel Core 2 duo à 2,2 GHz et dispose de 4 Go de RAM. La grappe virtuelle est composée de 3 machines virtuelles, chaque machine disposant de 50 Go de disque dur, 2 Go RAM et 4 vcpu. Cette grappe virtuelle est déployée sur une architecture physique composée de deux bi-pro en cluster DRS de 8x2,493 GHz et 32 Go RAM, interconnectés par un réseau 1 Gb/s cuivre et d un bipro avec hyperthreading activé, en dehors du cluster DRS, possédant 16 cœurs logiques à GHz et 72 Go de RAM utilisant un réseau 1 Gb/s cuivre. La section 4.1 s intéresse au stockage, la section 4.2 à la conversion de données, alors que la section 4.3 étudie l impact de notre optimisation sur le temps de réponse, enfin, la section 4.4 présente les premières évaluations de performances des opérateurs OLAP que nous proposons Espace stockage La figure 4 présente la consommation d espace de stockage en Go en fonction du modèle de données, les modèles étudiés étant Pig et les tableaux multidimensionnels. Les résultats montrent très clairement que les tableaux multidimensionnels permettent une réduction drastique (environ 90 %) du volume de stockage nécessaire pour la gestion des sources de données denses. Nous pouvons ainsi conclure que notre système est moins coûteux en termes de stockage. Par exemple, avec la tarification de l infrastructure Amazon EC2 (0,15$ par Go et par

16 156 RSTI - ISI 16/2011. Qualité des entrepôts de données mois) et pour une source de données d un To basée sur le modèle de données relationnel, les coûts seraient d environ 1850 $ par an, alors qu avec notre approche, la facturation serait d environ 230 $. Figure 4. Consommation d espace de stockage 4.2. Conversion de données Figure 5. Conversion des données La figure 5 présente le temps de réponse moyen, sur machine locale, du processus de conversion de tableaux multidimensionnels en données représentées selon le modèle Pig en fonction de la taille de la source de données exprimée en nombre de n- uplets. Une telle expérimentation vise à illustrer les coûts supplémentaires, en particulier en utilisation processeur, induits par notre proposition. Les résultats

17 Entreposage et analyse en ligne dans les nuages avec Pig 157 montrent que l exécution d un tel processus est inférieure à une minute pour une source de données contenant jusqu à dix millions de n-uplets. Par conséquent, ce coût additionnel peut être considéré comme négligeable. En effet, avec la tarification de l infrastructure Amazon EC2 (0,12 $ par heure d utilisation d une instance standard), un tel processus coûterait au pro-rata temporis approximativement 0,001 $ pour une source de données contenant dix millions de n-uplets Optimisation de requêtes La figure 6 représente le temps de réponse moyen, donné en secondes, d une requête OLAP de type Agrégation puis sélection et d'une requête équivalente faisant la sélection d abord, en fonction de la sélectivité, donnée en pourcents, de l interrogation par rapport à la source de données. Les données considérées correspondent aux mesures denses des ventes entre 1991 et La taille de cette source est d environ n-uplets. La requête posée vise à récupérer la moyenne des ventes par région et par année pour une période de temps donnée. La sélectivité peut ainsi être formulée via l intervalle de temps étudié. Par exemple, les périodes , , et après 2011 correspondent respectivement à une sélectivité de 100 %, 50 % et 0 %. Figure 6. Influence de l ordre des instructions Pig sur les performances Les résultats, obtenus sur une machine locale, montrent clairement que l optimisation proposée accélère globalement le processus d évaluation (jusqu à 54 % en cas de forte sélectivité). Il convient néanmoins de noter que cette amélioration des performances diminue lorsque la sélectivité augmente. Notamment, lorsque toutes les données sont concernées par l agrégation, les performances des deux requêtes sont équivalentes.

18 158 RSTI - ISI 16/2011. Qualité des entrepôts de données 4.4. Opérateurs OLAP Les figures 7, 8 et 9 présentent le temps de réponse moyen, donné en secondes, en fonction de la taille de la source de données respectivement pour les opérateurs CUBE, ROLLUP et RANK. Les résultats, obtenus sur la grappe virtuelle, montrent clairement que le temps de réponse des opérateurs augmente linéairement lorsque le volume de données à analyser est de plus en plus important. Figure 7. Performances de l opérateur CUBE D autres mesures sont actuellement en cours sur des volumes de données plus grands, mais également pour étudier l impact du nombre de machines de la grappe sollicitées sur le temps de réponse moyen. L objectif de ces expérimentations est d étudier l élasticité des opérateurs. Figure 8. Performances de l opérateur ROLLUP

19 Entreposage et analyse en ligne dans les nuages avec Pig 159 Figure 9. Performances de l opérateur RANK 5. Perspectives de recherche Cette section dresse une liste de perspectives de recherche que nous considérons comme particulièrement cruciales à aborder afin de fournir des requêtes OLAP, des entrepôts de données performants sur nuages, ainsi que la possibilité d offrir la navigation dans des cubes de données volumineux. 1) Introduction d optimiseurs d exécution pour les requêtes OLAP (Kuznecov et al., 2009) écrites en Pig Latin (Olston et al., 2008). En effet, comme souligné dans l article, les performances des optimisations intégrées au sein de Pig restent trop limitées. Nous pensons que des fortes possibilités d amélioration sont possibles grâce à l adaptation des optimiseurs des SGDB classiques, tels que les optimisations basées sur des règles (Rule Based Optimizer ou RBO) ou des modèles de coût (cost based optimizer ou CBO), au modèle de données de Pig ou les techniques récentes d optimisation sur les scans partagés de fichiers (Agrawal et al., 2008). De tels optimiseurs pourraient alors être intégrés au niveau du client de manière transparente pour les utilisateurs, afin de respecter la propriété de facilité d utilisation des nuages informatiques. 2) Définition d algorithmes de sélection de vues matérialisées basés sur le modèle de facturation à l utilisation. Les vues matérialisées représentent une technique fondamentale pour l optimisation des requêtes OLAP. Plusieurs travaux ont été proposés pour la sélection «intelligente» des vues matérialisées à calculer (Aouiche et al., 2009). Ces approches ne tiennent pas compte du modèle de facturation à l utilisation. Nous pensons donc à définir des techniques de matérialisation, et de «dématérialisation» qui s adaptent aux changements des requêtes des utilisateurs et des coûts de stockage et calcul des fournisseurs des nuages.

20 160 RSTI - ISI 16/2011. Qualité des entrepôts de données 3) Implémentation d index pour les entrepôts de données en utilisant le paradigme MapReduce. Les index tels que bitmap sont utilisés dans les entrepôts de données pour optimiser les opérations coûteuses comme la jointure ou l agrégation (Kimball, 1996). Par conséquent, la parallélisation de ces index à travers le paradigme de MapReduce nous semble être pertinente afin d exploiter toute la puissance des nuages. Pour cela, nous considérons comme fondamentales l extension et/ou l adaptation de l implémentation de ces index dans les architectures OLAP distribuées (Gorawski et al., 2006) en prenant en compte le paradigme MapReduce (Konstantinou et al., 2010) et les particularités des architectures sur nuages : la facilité d utilisation et l élasticité. Enfin, comme pour les vues matérialisées ces index doivent respecter un modèle de coût prenant en compte la facturation à l utilisation. 4) Intégration de caches pour l amélioration de la qualité de service et la réduction des coûts d utilisation. L utilisation de cache est cruciale pour améliorer les performances de nombreux systèmes informatiques et plus particulièrement des systèmes décisionnels (Savary et al., 2007). Notre objectif est de proposer des techniques de caches sophistiquées et plus précisément des caches sémantiques (Keller et al., 1996), (Dar et al., 1996) afin d améliorer la qualité de service (réduction des temps de réponse et augmentation de la disponibilité) et de réduire les coûts. De tels mécanismes seraient utilisés pour copier les requêtes fréquemment posées (et ainsi économiser les cycles de calcul et la consommation de bande passante). Un premier travail dans ce sens est proposé par (Kim et al., 2010) qui définit un système de cache pour réduire le coût des entrées/sorties dans MapReduce. 5) Implantation des propriétés avancées de modélisation multidimensionnelle grâce à Pig. Les applications multidimensionnelles peuvent présenter des caractéristiques de modélisation avancées, comme les relations n-n entre faits et dimensions, les mesures complexes, etc. (Pedersen et al., 2001) qui sont difficiles à implémenter dans les SGBD relationnels (Malinowski et al., 2008). L exploitation de la puissance du modèle de données de Pig (en ce qui concerne les concepts de bag, map, requêtes imbriquées, etc. (cf. section 3.2)) pour la modélisation avancée des entrepôts de données reste une piste importante. Cela peut nous permettra de définir des patrons de modélisation basés sur les performances des requêtes OLAP, et donc de définir un cadre théorique (i.e. normalisation multidimensionnelle, modèle conceptuel, etc.) et d implémentation (i.e. index de jointure, etc.) pour les entrepôts de données et l analyse en ligne avec Pig et Pig Latin. 6) Définition des opérateurs SQL pour OLAP comme opérateurs de Pig Latin. En effet, une des caractéristiques les plus importantes des nuages est la facilité d utilisation. Comme illustré dans cet article, la définition des requêtes OLAP sur Pig Latin n est pas immédiate, nous pensons donc à étendre Pig Latin avec les agrégations pour les données numériques et complexes (spatiales, etc.). Cela nous permettra d introduire des fonctionnalités typiques du serveur OLAP directement dans le gestionnaire de données sur nuages en facilitant l utilisation et la définition des systèmes pour l analyse en ligne dans les nuages.

Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages

Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages Laurent d Orazio, Sandro Bimonte Université Blaise Pascal - LIMOS Campus des Cézeaux 63173 Aubière Cedex,

Plus en détail

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes Khaled Dehdouh Fadila Bentayeb Nadia Kabachi Omar Boussaid Laboratoire ERIC, Université de Lyon 2 5 avenue Pierre Mendes-France,

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

BI2 : Un profil UML pour les Indicateurs Décisionnels

BI2 : Un profil UML pour les Indicateurs Décisionnels BI2 : Un profil UML pour les Indicateurs Décisionnels Sandro Bimonte Irstea, TSCF, 9 Av. Blaise Pascal, 63178, Aubière, France sandro.bimonte@irstea.fr Thème de Recherche MOTIVE www.irstea.fr 2 Plan Motivations

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

Fouille de Données : OLAP & Data Warehousing

Fouille de Données : OLAP & Data Warehousing Fouille de Données : OLAP & Data Warehousing Nicolas Pasquier Université de Nice Sophia-Antipolis Laboratoire I3S Chapitre 2. Data warehousing Définition : qu est-ce que le data warehousing? Entrepôt de

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Bases de données multidimensionnelles et mise en œuvre dans Oracle Bases de données multidimensionnelles et mise en œuvre dans Oracle 1 Introduction et Description générale Les bases de données relationnelles sont très performantes pour les systèmes opérationnels (ou

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Entrepôts de données multidimensionnelles NoSQL

Entrepôts de données multidimensionnelles NoSQL Entrepôts de données multidimensionnelles NoSQL Max Chevalier, Mohammed El Malki, Arlind Kopliku, Olivier Teste, Ronan Tournier Université de Toulouse, IRIT UMR 5505, Toulouse, France http://www.irit.fr

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Urbanisation des SI-NFE107

Urbanisation des SI-NFE107 OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

palais des congrès Paris 7, 8 et 9 février 2012

palais des congrès Paris 7, 8 et 9 février 2012 palais des congrès Paris 7, 8 et 9 février 2012 Analysis Services 2012 BI Personnelle, couche sémantique, cube, quelle(s) solution(s) pour un nouveau projet décisionnel? 08/02/2012 Aurélien KOPPEL Microsoft

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK Oracle Décisionnel : Modèle OLAP et Vue matérialisée SOMMAIRE Introduction Le modèle en étoiles Requêtes OLAP Vue matérialisée Fonctions Roll up et Cube Application Introduction Data Warehouse Moteur OLAP

Plus en détail

Modélisation d objets mobiles dans un entrepôt de données

Modélisation d objets mobiles dans un entrepôt de données Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France Tao.Wan@prism.uvsq.fr, Karine.Zeitouni@prism.uvsq.fr http://www.prism.uvsq.fr/users/karima/

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Change the game with smart innovation

Change the game with smart innovation Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Bases de Données OLAP

Bases de Données OLAP Bases de Données OLAP Hiver 2013/2014 Melanie Herschel melanie.herschel@lri.fr Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse Datawarehouse 1 Plan Ce qu est le datawarehouse? Un modèle multidimensionnel Architecture d un datawarehouse Implémentation d un datawarehouse Autres développements de la technologie data cube 2 Ce qu

Plus en détail

La place de la Géomatique Décisionnelle dans le processus de décision

La place de la Géomatique Décisionnelle dans le processus de décision Géomatique décisionnelle La place de la Géomatique Décisionnelle dans le processus de décision - Arnaud Van De Casteele Mines ParisTech - CRC Arnaud {dot} van_de_casteele {at} mines-paristech.fr Les rencontres

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Techniques d optimisation des requêtes dans les data warehouses

Techniques d optimisation des requêtes dans les data warehouses Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE bellatreche@ensma.fr Résumé Un entrepôt de données

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Présenté par Hana Gara Kort Sous la direction de Dr Jalel Akaichi Maître de conférences 1 1.Introduction

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Jean-François Boulicaut & Mohand-Saïd Hacid

Jean-François Boulicaut & Mohand-Saïd Hacid e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS John Samuel LIMOS (Laboratoire d Informatique, de Modélisation et d Optimisation

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1

Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1 CARI 12 Architecture répartie à large échelle pour le traitement parallèle de requêtes de biodiversité Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1 1 Département de mathématique-informatique

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

MÉMOIRE DE STAGE DE MASTER M2

MÉMOIRE DE STAGE DE MASTER M2 Académie de Montpellier Université Montpellier II Sciences et Techniques du Languedoc MÉMOIRE DE STAGE DE MASTER M2 effectué à Montréal Spécialité : Professionelle et Recherche unifiée en Informatique

Plus en détail

Bases de données avancées Introduction

Bases de données avancées Introduction Bases de données avancées Introduction Dan VODISLAV Université de Cergy-Pontoise Master Informatique M1 Cours BDA Plan Objectifs et contenu du cours Rappels BD relationnelles Bibliographie Cours BDA (UCP/M1)

Plus en détail

M2 GL UE DOC «In memory analytics»

M2 GL UE DOC «In memory analytics» M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

17/07/2013. Décisionnel dans le Nuage. Laboratoire ERIC. Section 1. Équipe d Accueil 3083. Décisionnel dans le Nuage.

17/07/2013. Décisionnel dans le Nuage. Laboratoire ERIC. Section 1. Équipe d Accueil 3083. Décisionnel dans le Nuage. Master 2 FDGC-ECD Année 203-204 Laboratoire ERIC Équipe d Accueil 3083 et Jérôme Darmont eric.univ-lyon2.fr/~jdarmont/ Section Décisionnel dans le Nuage 2 Le meilleur des mondes Du décisionnel à papa datawarehousing0.wikispaces.com

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

FreeAnalysis. Schema Designer. Cubes

FreeAnalysis. Schema Designer. Cubes FreeAnalysis Schema Designer Cubes Charles Martin et Patrick Beaucamp BPM Conseil Contact : charles.martin@bpm-conseil.com, patrick.beaucamp@bpm-conseil.com Janvier 2013 Document : BPM_Vanilla_FreeAnalysisSchemaDesigner_v4.2_FR.odt

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) École Doctorale Sciences et Technologies de l'information et de

Plus en détail

Pourquoi IBM System i for Business Intelligence

Pourquoi IBM System i for Business Intelligence Améliorer les performances et simplifier la gestion de vos applications d aide à la décision (Business Intelligence ou BI) Pourquoi IBM System i for Business Intelligence Points clés Technologie IBM DB2

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Conception des systèmes répartis

Conception des systèmes répartis Conception des systèmes répartis Principes et concepts Gérard Padiou Département Informatique et Mathématiques appliquées ENSEEIHT Octobre 2012 Gérard Padiou Conception des systèmes répartis 1 / 37 plan

Plus en détail

BI = Business Intelligence Master Data-Science

BI = Business Intelligence Master Data-Science BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)

Plus en détail

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Mémoires 2010-2011 www.euranova.eu MÉMOIRES ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Contexte : Aujourd hui la plupart des serveurs d application JEE utilise des niveaux de cache L1

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Introduction aux applications réparties

Introduction aux applications réparties Introduction aux applications réparties Noël De Palma Projet SARDES INRIA Rhône-Alpes http://sardes.inrialpes.fr/~depalma Noel.depalma@inrialpes.fr Applications réparties Def : Application s exécutant

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud Grid and Cloud Computing Problématique Besoins de calcul croissants Simulations d'expériences coûteuses ou dangereuses Résolution de

Plus en détail