Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages
|
|
|
- Jeannine Sergerie
- il y a 10 ans
- Total affichages :
Transcription
1 Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages Laurent d Orazio, Sandro Bimonte Université Blaise Pascal - LIMOS Campus des Cézeaux Aubière Cedex, France [email protected] dorazio/ Cemagref Campus des Cézeaux Aubière Cedex, France [email protected] sbimonte/ Résumé. Les entrepôts de données et les systèmes OLAP correspondent à des technologies d aide à la décision. Ils permettent d analyser à la volée de gros volumes de données représentés en fonction d un modèle multidimensionnel. L informatique dans les nuages, sous l impulsion des grandes compagnies telles que Google, Microsoft ou encore Amazon, a récemment suscité une attention particulière. Considérer l interrogation OLAP et les entrepôts de données au sein de telles infrastructures devient alors un enjeu majeur. Les problèmes devant être considérés sont ceux classiques des systèmes largement distribués (interrogation de gros volumes de données, hétérogénéité sémantique et structurelle ou encore variabilité), mais d un nouveau point de vue devant considérer les spécificités de ces architectures (facturation à l utilisation, élasticité et facilité d utilisation). Dans ce papier nous abordons dans un premier temps les règles de facturation à l utilisation pour le stockage des entrepôts de données. Nous proposons d utiliser des techniques de stockage pour nuages à base de tableaux multidimensionnels. De premières expérimentations montrent l intérêt de notre proposition. Ensuite, nous listons des perspectives de recherche. 1 Introduction Les entrepôts de données et les systèmes OLAP (On-Line Analytical Processing) représentent des technologies d aide à la décision qui permettent l analyse en ligne de gros volumes de données [17]. Dans une architecture Relational OLAP (ROLAP), les systèmes OLAP sont déployés en utilisant des Systèmes de Gestion de Bases de Données relationnels pour stocker et analyser les données. Cette approche est pertinente pour les entrepôts de données peu denses. Quand les données sont denses, l approche Multidimensional OLAP (MOLAP) peut être utilisée [34]. L architecture MOLAP stocke les données à l aide de structures multidimensionnelles
2 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages ad-hoc, tels que des tableaux multidimensionnels, afin de réduire la taille des données stockées. Enfin, il existe une autre typologie qui combine les deux technologies : Hybrid OLAP (HO- LAP). Selon cette approche, une partie des données sont stockées en relationnel et lšautre en utilisant des techniques multidimensionnelles. Les Architectures Hautes Performances visent à faire face aux besoins croissants en terme de calcul et de stockage des applications scientifiques et industrielles [8]. Parmi ces architectures, les nuages informatiques (cloud computing) sous l impulsion d entreprises telles que Google, Microsoft et Amazon suscitent actuellement une attention particulière. Les entrepôts de données et les systèmes OLAP dans les nuages soulèvent différents problèmes liés à la performance du stockage et de l interrogation. Les problèmes à aborder sont ceux classiques des systèmes distribués à grande échelle (interrogation de gros volumes de données, hétérogénéité sémantique et structurelle, variabilité, etc.), notamment abordés par les travaux autour des entrepôts de données sur grilles [24, 15, 21], mais qui doivent être considérés d un nouveau point de vue qui prend en compte les caractéristiques particulières de ces architectures : facturation à l utilisation, élasticité et facilité d utilisation [8]. Certains travaux récents abordent les requêtes complexes, telles que les requêtes spatiales ou OLAP, dans les nuages [23, 31, 33]. Néanmoins, à notre connaissance, aucun travail ne définit un modèle de données pour le stockage de données multidimensionnelles dans les nuages considérant la facturation à la demande, les approches existantes étant basés sur de simples fichiers textes. Ce papier présente une première avancée vers l implémentation d une architecture MO- LAP dans les nuages afin de réduire les coûts de stockage des données. En particulier, nous présentons un algorithme qui transforme les données stockées sous forme de tableaux multidimensionnels suivant le modèle de données Pig [23]. Ceci permet d exécuter les requêtes OLAP en utilisant le paradigme MapReduce [11] et de réduire de manière significative les coûts de stockage. Cet article liste ensuite des perspectives de recherche pour l analyse de données sur nuages informatiques. Ce papier est organisé de la manière suivante. La section 2 présente le contexte de ce travail. La section 3 introduit la proposition de stockage de tableaux multidimensionnels pour nuages. La section 4 présente les expérimentations qui valident notre approche. La section 5 liste des pistes de recherche. Enfin, la section 6 conclut ce papier. 2 Contexte et motivation Cette section présente brièvement les entrepôts de données et OLAP en sous-section 2.1, la gestion de données dans les nuages en sous-section 2.2, puis introduit les motivations de notre travail en sous-section Entrepôts de données et OLAP Les entrepôts de données représentent les données selon le modèle multidimensionnel. Celui-ci définit les concepts de dimension et mesure. Une dimension est composée de hiérarchies et représente l axe d analyse. Une hiérarchie organise les données (membres) dans une structure hiérarchique permettant aux décisionnaires d analyser les mesures à différentes granularités.
3 Laurent d Orazio et Sandro Bimonte Les mesures correspondent à des indicateurs numériques décrivant le sujet d analyse (fait). Les opérateurs OLAP tels que roll-up et drill-down permettent de naviguer au sein des hiérarchies synthétisant les données à l aide des fonctions d agrégation SQL [17]. D autres opérateurs ont été définis pour la sélection d une partie de l entrepôt de données et la permutation des dimensions [27]. Les architectures MOLAP utilisent des structures de données multidimensionnelles telles que les tableaux multidimensionnels construits à partir des données originales, qui sont en général stockées dans des bases de données relationnelles. Les architectures MOLAP permettent d optimiser le stockage pour les entrepôts de données denses à l aide de ce modèle de stockage de données particulier [34]. Les tableaux multidimensionnels permettent de stocker uniquement les mesures car elles sont indexées à l aide des positions des membres des dimensions. Par exemple, la valeur de la mesure à la position tab[2] [3] [4] est associée au second membre de la première dimension, au troisième membre de la deuxième dimension et au quatrième membre de la troisième dimension. Il est important de noter qu il est possible de passer d un tableau multidimensionnel à un tableau uni-dimensionnel avec la formule suivante : Soient d dimensions, N k les membres de la k e me dimension, alors la position de la valeur mesurée dans un tableau à une dimension est : p(i 1,..., i d ) = d j=1 (i jx k = j + 1 d N k ) 2.2 Gestion de données dans les nuages FIG. 1 Architecture de la gestion de données sur nuages La gestion de données sur nuages se base généralement sur une architecture en couches, comme illustré par la figure 1. Le premier niveau correspond à l infrastructure. En général, ce niveau est composé d un ou plusieurs centres de données, utilisé(s) pour l analyse de gros volumes de données et mis à disposition par les fournisseurs de nuages. Microsoft Azure [5] et Amazon EC2 [1] sont des exemples de telles infrastructures. La principale caractéristique de ce niveau est son association au modèle de facturation à l utilisation, où les utilisateurs ne payent que pour les ressources utilisées.
4 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages Le deuxième niveau est dédié au stockage des données. Son objectif principal est de proposer un système qui permet le passage à l échelle et qui soit tolérant aux fautes. Google File System [14], Amazon Simple Storage Service (S3) [2] et Dynamo [12] sont des exemples typiques de ce niveau d architecture. Au sein des nuages, les données sont stockées sous forme de fichiers gérés par de tels systèmes. Le troisième niveau représente l environnement d exécution. L exemple probablement le plus connu dans l informatique dans les nuages est MapReduce [11] de Google et son implémentation de sources libres Hadoop [4], Microsoft proposant un outil similaire appelé Dryad [18]. L objectif de ce niveau est de fournir la propriété d élasticité permettant d ajuster les ressources en fonction des applications, augmentant les capacités de calcul et de stockage en cas de pics d utilisation, les diminuant lors de périodes creuses. Cette propriété évite d une part des investissements lourds permettant à des applications de résister à des pics d utilisation, mais pouvant conduire à une sous-utilisation globale de l infrastructure. Elle permet d assurer d autre part le bon fonctionnement d une application dont le passage à l échelle n aurait pas été prévu correctement, en augmentant les ressources si nécessaire. La dernière couche offre un langage d interrogation à haut niveau. Une telle couche a pour objectif de proposer une certaine facilité d utilisation et une totale transparence des autres couches de l architecture, tout en autorisant le parallélisme. Différents langages d interrogation ont été proposés, tels que Hive de Facebook [31], Scope de Microsoft [9], Sawzall [26] de Google ou encore Map-Reduce-Merge [32], qui sont basés sur des modèles de données particuliers comme le modèle orienté colonne [29] ou des modèles étendant le modèle relationnel [23]. Le modèle de données Pig et son langage Pig Latin en particulier ont été proposés pour offrir un compromis entre un langage déclaratif de type SQL et le style procédural bas niveau de MapReduce. Un système basé sur Pig a été implémenté, permettant la compilation d instructions Pig Latin et leur exécution dans des environnements parallèles. 2.3 Motivation Conformément au principe de facturation à l utilisation, les utilisateurs ne paient que pour les ressources (cycle processeur consommation de bande passante et stockage) qu ils utilisent. Par exemple, sur Microsoft Azure [5] le coût CPU pour une heure d exécution est 0,12 $, le stockage revient à 0,15 $ par Go et par mois, alors que la consommation de bande passante est facturée par Go 0,10 $ en chargement et 0,15 $ en téléchargement. D une part des langages d interrogation de données sur nuages ne permettent qu indirectement la formulation de requêtes OLAP (puisqu aucun opérateur [16] ad-hoc n a été proposé) et d autre part aucun modèle de données associé ne fournit un stockage ad-hoc pour les données multidimensionnelles. C est pourquoi notre travail vise à proposer une organisation spécifique des données multidimensionnelles pour les nuages informatiques afin de réduire les coûts de stockage et de calcul pour les requêtes OLAP en accord avec la contrainte des nuages informatiques de facturation à l utilisation. De plus, l analyse en ligne dans les nuages est un domaine de recherche vraiment nouveau. En effet, si d un côté l Université de Californie [8] a identifié des axes de recherches pour nuages (disponibilité et qualité de service, sécurité, etc.), de l autre côté, personne à notre connaissance n a exploré les différentes pistes de recherche pour l OLAP dans les nuages, si l on excepte quelques produits commerciaux [3] [6] ayant fait leur apparition rapidement et
5 Laurent d Orazio et Sandro Bimonte Year Month Day Country Region Department Profit France Auvergne Puy-de-Dôme France Auvergne Allier France Auvergne Haute-Loire France Rhône-Alpes Isère 2500 TAB. 1 Exemple de données multidimensionnelles représentées à l aide du modèle Pig s9091 = FILTER sales BY years = 1990 or years = 1991 ; groups = GROUP s9091 BY year, region ; results = FOREACH groups GENERATE s9091.region, s9091.month, SUM(profit) ; FIG. 2 Requête OLAP avec Pig : FILTER et (GROUP, Aggrégation) récemment, ne fournissant que peu d informations à leur sujet. Dans ce papier nous détaillerons des perspectives portant sur les performances et la modélisation multidimensionnelle sur les nuages. 3 Tableaux multidimensionnels dans les nuages Dans cette section, nous introduisons un cas d étude et le stockage à l aide de tableaux multidimensionnels (sous-section 3.1). Puis nous présentons un algorithme pour la transformation de tableaux multidimensionnels en données Pig et notre proposition d optimisation des requêtes OLAP en Pig (sous-section 3.2). 3.1 Cas d étude Afin de présenter notre travail, nous nous basons sur un cas d étude simulé portant sur l analyse OLAP des ventes de magasins d une chaîne d approvisionnement, situés dans chaque département français. Dans ce contexte, deux dimensions sont considérées, une dimension spatiale regroupant les départements en régions et une dimension temporelle avec une hiérarchie jour, mois et année, tandis que la mesure est le profit. Le tableau 1 propose un exemple de données, représentées à l aide du modèle Pig. Dans ce papier pour simplifier la présentation de notre contribution, nous considérons une requête OLAP comme une requête qui porte sur un seul niveau d agrégation. En effet, une requête OLAP classique [16] est composée par un ensemble de requêtes sur différents niveaux d agrégation unis par une "union", opérateur qui est également implémenté en Pig Latin. Une requête OLAP classique sur ces données est : "quel est le profit total pour chaque région entre 1990 et 1991?". Une telle requête peut facilement être exprimée à l aide d instructions Pig sur le modèle de données présenté par le tableau 1, comme l illustre la figure 2.
6 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages Dimensions Temps Time_Dim[0]= Time_Dim[1]= Time_Dim[2]= Time_Dim[3]= Time_Dim[1826]= Localisation Location_Dim[0]=France,Auvergne,Puy-de-Dôme Location_Dim[1]=France,Auvergne,Allier Location_Dim[2]=France,Auvergne,Haute-Loire Location_Dim[3]=France,Auvergne,Cantal... Location_Dim[99]=France,Rhône-Alpes,Isère Mesures Facts Profit_Fact[0]=2000 Facts Profit_Fact[1]=500 Facts Profit_Fact[2]= FIG. 3 Exemple de tableaux multidimensionnels Le modèle de données Pig est une extension du modèle relationnel avec les concepts atomiques de Bag (ensemble de valeurs), de Map (fonctions de hachage), des tableaux imbriqués et des UDF (User Defined Functions ou fonctions définies par l utilisateur). Ainsi, une requête OLAP en Pig peut facilement être définie en utilisant trois instructions. La première sélectionne les membres des dimensions (1990 et 1991 sur notre exemple). Une autre permet de regrouper les données (regroupement par année et région pour cet exemple), alors qu une dernière réalise la tâche d agrégation (une somme dans notre cas particulier). Il est à noter que contrairement à celles écrites en SQL pour lesquelles un optimiseur est utilisé afin de choisir un plan d exécution à partir d éléments d optimisation, les requêtes en langage Pig Latin correspondent à un ensemble d instructions dont l ordre est laissé à la responsabilité de l utilisateur, ce qui peut conditionner le temps de calcul et par conséquent le prix à payer. La figure 3 présente les données de la table 1 stockées sous la forme de tableaux multidimensionnels. Un tableau à une dimension est fourni pour chaque dimension et pour les mesures. Les mesures sont alors associées aux membres des dimensions en utilisant leur indice et la formule présentée précédemment en section 2.1. Par exemple, Profit_Fact[0] est la mesure associée aux membres 01/04/2010 (Time_Dim[0]) et France, Auvergne, Puy-de-Dôme (Location_Dim[0]).
7 Laurent d Orazio et Sandro Bimonte 3.2 Pig et tableaux muldimensionnels pour requêtes OLAP Cette section présente comment les tableaux multidimensionnels peuvent être utilisés comme structure de stockage pour Pig et l optimisation de requêtes OLAP écrites en langage Pig Latin. FIG. 4 Aperçu du processus d interrogation Le processus d interrogation, illustré par la figure 4 peut être décomposé en deux étapes : 1. Les données stockées dans des fichiers textes sous forme de tableaux multidimensionnels sont traduites en données Pig via un fichier temporaire. Ceci permet de réduire la taille des fichiers stockés et, par conséquent, le prix à payer par les clients. De plus, ces données peuvent ensuite être manipulées dans un environnement parallèle, à l aide du paradigme MapReduce, respectant ainsi la propriété d élasticité. 2. Les requêtes OLAP formulées en Pig Latin sont optimisées. La conversion des tableaux multidimensionnels en données Pig est faite via l algorithme 1 Les entrées de cet algorithme sont les fichiers stockant les tableaux des dimensions et les mesures (voir figure 3). La sortie correspond à un fichier représentant l entrepôt de données basé sur le modèle de donnée Pig (cf. table 1). Le principe de cet algorithme est de construire le produit cartésien de n 1 dimensions. Un produit cartésien est alors réalisé entre ces données, la dimension n et les valeurs mesurées sont ajoutées pour générer les n-uplets de la manière suivante : le i eme n-uplet avec la i eme valeur du tableau. Nous proposons une optimisation simple mais efficace des requêtes OLAP en réécrivant les requêtes Pig. Les requêtes exprimées dans le langage Pig Latin correspondent à un ensemble d instructions. Le paradigme MapReduce ne fournit pas de moteur d exécution de plan de requête. Ainsi, les requêtes OLAP peuvent être formulées de deux manières différentes : (i) FILTER et (GROUP et Agrégation) (comme illustré par la figure 2), (ii) (GROUP et Agrégation) et FILTER (comme illustré par la figure 5).
8 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages Algorithme 1 Conversion de tableaux multidimensionnels en données Pig ENTRÉES : Fichiers de tableaux SORTIES : Fichier Pig int i 1 ; int n ; file cartprodfile ; {initialisé par le produit cartésien des deux dernières dimensions} file pigfile ; file mafile ; array dimensions ; {ensemble des dimensions} tantque i<=n-1 faire cartprodfile produitcartesien(dimensions[i],cartprodfile); i i + 1 ; fintantque i 0 ; tantque non fin de mafile faire rolapfile.insert (produitcartesien(dimension(n),cartprodfile )+, +mafile(i)) ; i i + 1 ; fintantque retourner pigfile ; groups = GROUP sales BY years ; avgprof = FOREACH groups GENERATE region, SUM(profits) ; results = FILTER avgprof BY years = 1990 or years = 1991 ; FIG. 5 Requête OLAP avec Pig : (GROUP, Aggrégation) et FILTER Evidemment, une telle séquence influe grandement sur les temps de réponse. Sur un tel exemple, si la taille de la source de données est très grande, agréger tous les résultats et ensuite sélectionner les membres des dimensions peut être très coûteux. C est pourquoi, une optimisation intuitive des requêtes OLAP en Pig Latin consiste à utiliser le patron d interrogation "FILTER, GROUPE, Agrégation". 4 Validation Notre proposition a été validée à l aide de données simulées. Toutes les expérimentations ont été réalisées sur un ordinateur possédant un processeur Intel Core 2 duo à 2,2 GHz disposant de 4Go de RAM. L objectif principal de ces expériences était d illustrer la réduction des coûts de stockage obtenue à l aide de notre approche, sans détériorer les performances, en particulier en terme de temps de réponse. La sous-section 4.1 s intéresse ainsi au stockage, la sous-section 4.2 à la conversion de données, alors que la sous-section 4.3 étudie l impact de notre optimisation sur le temps de réponse.
9 Laurent d Orazio et Sandro Bimonte 4.1 Espace de stockage La figure 6 présente la consommation d espace de stockage en Go en fonction du modèle de données, les modèles étudiés étant Pig et les tableaux multidimensionnels. Les résultats montrent très clairement que les tableaux multidimensionnels permettent une réduction drastique (environ 90%) du volume de stockage nécessaire pour la gestion des sources de données denses. Nous pouvons ainsi conclure que notre système est moins coûteux en terme de stockage. Par exemple, avec la tarification de l infrastructure Amazon EC2 (0,15$ par Go et par mois) et pour une source de données d un To basée sur le modèle de données relationnel, les coûts seraient d environ 1850 $ par an, alors qu avec notre approche, la facturation serait d environ 230 $. FIG. 6 Consommation d espace de stockage 4.2 Conversion de données La figure 7 présente le temps de réponse moyen du processus de conversion de tableaux multidimensionnels en données représentées selon le modèle Pig en fonction de la taille de la source de données exprimée en nombre de n-uplets. Une telle expérimentation vise à illustrer les coûts supplémentaires, en particulier en utilisation processeur, induits par notre proposition. Les résultats montrent que l exécution d un tel processus est inférieure à une minute pour une source de données contenant jusqu à dix millions de n-uplets. Par conséquent, ce coût additionnel peut être considéré comme négligeable. En effet, avec la tarification de l infrastructure Amazon EC2 (0,12 $ par heure d utilisation d une instance standard), un tel processus coûterait au pro rata temporis approximativement 0,001 $ pour une source de données contenant dix millions de n-uplets. 4.3 Optimisation de requête Enfin, le tableau 2 illustre l impact de l optimisation des instructions Pig pour les requêtes OLAP. Il présente le temps de réponse pour l évaluation d une requête naïve et d une requête optimisée, sur une source de données contenant environ n-uplets. Les résultats
10 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages FIG. 7 Consommation d espace de stockage montrent clairement que l optimisation proposée accélère le processus d évaluation (dans le contexte d expérimentation étudié, une réduction d environ 30 %). Temps de réponse moyen (secondes) Requête optimisée FILTER, GROUP et Agrégation) 130 Requête naïve GROUP, Agrégation, et FILTER 190 TAB. 2 Influence de l optimisation d une requête Pig sur le temps de réponse 5 Perspectives de recherche Cette section dresse une liste de perspectives de recherche que nous considérons comme particulièrement cruciales à aborder afin de fournir des requêtes OLAP et des entrepôts de données performants sur nuages. Nous décomposons ces pistes selon deux axes : optimisation des performances (sous-section 5.1), puis modélisation et interrogation (sous-section 5.2). 5.1 Optimisation des performances Afin de fournir une amélioration des performances des requêtes OLAP, notamment afin de considérer les problèmes liés à la navigation dans des cubes de données volumineux, les pistes suivantes devraient être abordées : 1. Introduction d optimiseurs de plan d exécution pour les requêtes OLAP écrites en Pig Latin. En effet, comme surligné dans l article, Pig ne définit aucun plan d exécution des requêtes. Nous pensons que des fortes possibilités d amélioration sont possibles grâce à l adaptation des optimiseurs des SGDB classiques au modèle de données de Pig. De tels optimiseurs pourraient alors être intégrés au niveau du client de manière transparente pour les utilisateurs, afin de respecter la propriété de facilité d utilisation des nuages informatiques. 2. Implémentation d index pour les entrepôts de données en utilisant le paradigme MapReduce. Les index tels que bitmap, etc. sont utilisés dans les entrepôts de données
11 Laurent d Orazio et Sandro Bimonte pour optimiser les opérations coûteuses comme la jointure [20] ou l agrégation [30]. Par conséquent, la parallélisation de ces index à travers le paradigme de MapReduce, nous semble être pertinente afin d exploiter toute la puissance des nuages. Pour cela, nous considérons comme fondamentales lšextension et/ou lšadaptation de l implémentation de ces indexes dans les architectures OLAP distribuées [24, 15, 21] en prenant en compte le paradigme MapReduce et les particularités des architectures sur nuages : la facturation à l utilisation, la facilité d utilisation et l élasticité. 3. Définition d algorithmes de sélection de vues matérialisées basés sur le modèle de facturation à l utilisation. Les vues matérialisées représentent une technique fondamentale pour l optimisation des requêtes OLAP dans les architectures ROLAP. Plusieurs travaux ont été proposés pour la sélection "intelligente" des vues matérialisées à calculer [7]. Ces approches ne tiennent pas compte du modèle de facturation à l utilisation. Nous pensons donc à définir des techniques de matérialisation et de "dématérialisation" qui s adaptent aux changements des requêtes des utilisateurs et des coûts de stockage et calcul des fournisseurs des nuages. 4. Intégration de caches pour l amélioration de la qualité de service et la réduction des coûts d utilisation. L utilisation de cache est cruciale pour améliorer les performances de nombreux systèmes informatiques et plus particulièrement des systèmes décisionnels [28]. Notre objectif est de proposer des techniques de caches sophistiquées et plus précisément des caches sémantiques [19, 10] afin d améliorer la qualité de service (réduction des temps de réponse, augmentation de la disponibilité) et de réduire les coûts. De tels mécanismes seraient utilisés pour copier les requêtes fréquemment posées (et ainsi économiser les cycles de calcul et la consommation de bande passante). 5.2 Modélisation et interrogation D un point de vue modélisation et interrogation des entrepôts de données dans les nuages, d autres pistes de recherche restent à explorer : 1. Intégration des opérateurs SQL pour OLAP comme opérateurs natifs de Pig Latin. En effet, une des caractéristiques les plus importantes des nuages est la facilité d utilisation. Donc, puisque, comme montré dans ce papier, la définition des requêtes OLAP sur Pig Latin n est pas immédiate, nous pensons à intégrer l opérateur Cube [16] dans Pig Latin. Cela nous permettra d introduire des fonctionnalités typiques du serveur OLAP directement dans le gestionnaire de données sur nuages [13] en facilitant l utilisation et la définition des systèmes pour l analyse en ligne dans les nuages. 2. Implantation des propriétés avancées de modélisation multidimensionnelle grâce à Pig. Les applications multidimensionnelles peuvent présenter des caractéristiques de modélisation avancée, comme les relations n-n entre faits et dimensions, les mesures complexes, etc. [25] qui sont difficiles à implémenter dans les SGBD relationnels [22]. L exploration de la puissance du modèle de données de Pig (en ce qui concerne les concepts de bag, map, et nested query) pour la modélisation avancée des entrepôts de données reste une piste importante.
12 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages 6 Conclusion Ce papier présente l intégration des tableaux multidimensionnels dans Pig pour l entreposage de données sur nuages afin de réduire les coûts de stockage. En particulier, nous avons présenté un algorithme qui permet de convertir les données stockées dans les tableaux multidimensionnels en données basées sur le modèle Pig. Ainsi, les requêtes OLAP peuvent facilement être exécutées en utilisant le langage Pig Latin. Enfin, nous avons proposé une optimisation simple et intuitive des requêtes OLAP en ordonnant les instructions Pig Latin. Les premières expérimentations en local sur des données simulées illustrent la pertinence d une telle solution. Les résultats montrent clairement que notre proposition permet de réduire la consommation d espace de stockage et permet ainsi aux utilisateurs des nuages de diminuer les coûts, en utilisant un algorithme de conversion dont le coût est négligeable par rapport aux coûts de l analyse décisionnelle. Nous avons ensuite listé des perspectives de recherche devant être considérées afin d intégrer efficacement au sein des nuages informatiques les requêtes OLAP et des entrepôts de données. Actuellement, nous travaillons sur la parallélisation de la conversion à l aide du paradigme MapReduce afin d exploiter la puissance de calcul des infrastructures, ainsi que sur l évaluation de performance de notre proposition sur des centres de données mis à disposition par les fournisseurs de nuages. Remerciements Merci à Boussad Mebarki, Ilyas Brahmia, Abdelaziz Merabet, ainsi qu aux équipes APIS du LIMOS et COPAIN du cemagref pour les discussions sur les entrepôts de données et les nuages informatiques. Références [1] Amazon ec2. web page. http ://aws.amazon.com/ec2/. [2] Amazon s3. web page. http ://aws.amazon.com/s3/. [3] Gooddata. web page. http :// [4] Hadoop. web page. http ://hadoop.apache.org/. [5] Microsoft azure. web page. http :// [6] Pentaho. web page. http :// [7] K. Aouiche and J. Darmont. Data mining-based materialized view and index selection in data warehouses. Journal of Intelligent Information Systems, 33(1) :65 93, [8] M. Armbrust, A. Fox, R. Griffith, A. D. J. R. H. Katz, A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica, and M. Zaharia. Above the clouds : A berkeley view of cloud computing. Technical Report UCB/EECS , Berkeley, [9] R. Chaiken, B. Jenkins, P.-Å. Larson, B. Ramsey, D. Shakib, S. Weaver, and J. Zhou. Scope : easy and efficient parallel processing of massive data sets. PVLDB, 1(2) : , 2008.
13 Laurent d Orazio et Sandro Bimonte [10] S. Dar, M. J. Franklin, B. T. Jonsson, D. Srivastava, and M. Tan. Semantic data caching and replacement. In Proceedings of the international conference on Very Large Data Bases, pages , Bombay, India, [11] J. Dean and S. Ghemawat. Mapreduce : simplified data processing on large clusters. Communications of the ACM, 51(1) : , [12] G. DeCandia, D. Hastorun, M. Jampani, G. Kakulapati, A. Lakshman, A. Pilchin, S. Sivasubramanian, P. Vosshall, and W. Vogels. Dynamo : amazon s highly available key-value store. In Proceedings of the ACM Symposium on Operating Systems Principles, pages , Stevenson, USA, [13] J.-P. Dittrich, D. Kossmann, and A. Kreutz. Bridging the gap between olap and sql. In Proceedings of the International Conference on Very Large Data Bases, pages , [14] S. Ghemawat, H. Gobioff, and S.-T. Leung. The google file system. In Proceedings of the ACM Symposium on Operating Systems Principles, pages 29 43, Bolton Landing, USA, [15] M. Gorawski and R. Malczok. Materialized ar-tree in distributed spatial data warehouse. Intelligent Data Analysis, 10(4) : , [16] J. Gray, A. Bosworth, A. Layman, and H. Pirahesh. Data cube : A relational aggregation operator generalizing group-by, cross-tab, and sub-total. In Proceedings of the International Conference on Data Engineering, pages , New Orleans, USA, [17] W. Inmon. Building the Data Warehouse. Wiley, New York, [18] M. Isard, M. Budiu, Y. Yu, A. Birrell, and D. Fetterly. Dryad : distributed data-parallel programs from sequential building blocks. In Proceedings of the EuroSys Conference, pages 59 72, Lisbon, Portugal, [19] A. M. Keller and J. Basu. A predicate-based caching scheme for client-server database architectures. The Very Large Data Bases Journal, 5(1) :35 47, [20] R. Kimball. The data warehouse toolkit : practical techniques for building dimensional data warehouses. John Wiley & Sons, Inc., [21] H. Mahboubi and J. Darmont. Enhancing xml data warehouse query performance by fragmentation. In Proceedings of the ACM Symposium on Applied Computing, pages , Honolulu, USA, [22] E. Malinowski and E. Zimnyi. Advanced Data Warehouse Design : From Conventional to Spatial and Temporal Applications (Data-Centric Systems and Applications). Springer Publishing Company, Incorporated, [23] C. Olston, B. Reed, U. Srivastava, R. Kumar, and A. Tomkins. Pig latin : a not-soforeign language for data processing. In Proceedings of the ACM SIGMOD International Conference on Management of Data, pages , [24] D. Papadias, P. Kalnis, J. Zhang, and Y. Tao. Efficient olap operations in spatial data warehouses. In Proceedings of the International Symposium on Advances in Spatial and Temporal Databases, pages , [25] T. B. Pedersen, C. S. Jensen, and C. E. Dyreson. A foundation for capturing and querying complex multidimensional data. Information Systems, 26(5) : , 2001.
14 Tableaux Multidimensionnels pour l Entreposage de Données dans les Nuages [26] R. Pike, S. Dorward, R. Griesemer, and S. Quinlan. Interpreting the data : Parallel analysis with sawzall. Scientific Programming, 13(4) : , [27] M. Rafanelli. Operators for multidimensional aggregate data. In Multidimensional Databases : problems and solutions, pages [28] L. Savary, G. Gardarin, and K. Zeitouni. Geocache : A cache for gml geographical data. IJDWM, 3(1) :67 88, [29] M. Stonebraker, D. J. Abadi, A. Batkin, X. Chen, M. Cherniack, M. Ferreira, E. Lau, A. Lin, S. Madden, E. J. O Neil, P. E. O Neil, A. Rasin, N. Tran, and S. B. Zdonik. C- store : A column-oriented dbms. In Proceedings of the International Conference on Very Large Data Bases, pages , [30] Y. Tao and D. Papadias. Historical spatio-temporal aggregation. ACM Transaction Information Systems, 23(1) :61 102, [31] A. Thusoo, J. S. Sarma, N. Jain, Z. Shao, P. Chakka, S. Anthony, H. Liu, P. Wyckoff, and R. Murthy. Hive - a warehousing solution over a map-reduce framework. PVLDB, 2(2) : , [32] H.-c. Yang, A. Dasdan, R.-L. Hsiao, and D. S. Parker. Map-reduce-merge : simplified relational data processing on large clusters. In Proceedings of the international conference on Management of data, pages , Beijing, China, [33] S. Zhang, J. Han, Z. Liu, K. Wang, and S. Feng. Spatial queries evaluation with mapreduce. In Proceedings of the International Conference on Grid and Cooperative Computing, pages , [34] Y. Zhao, P. Deshpande, and J. F. Naughton. An array-based algorithm for simultaneous multidimensional aggregates. In J. Peckham, editor, Proceedings of the International Conference on Management of Data, pages , Tucson, USA, Summary Data warehouses and OLAP systems are business intelligence technologies. They allow decision-makers to analyze on the fly huge volume of data represented according to the multidimensional model. Cloud computing on the impulse of ICT majors like Google, Microsoft and Amazon, has recently focused the attention. OLAP querying and data warehousing in such a context consists in a major issue. Indeed, problems to be tackled are basic ones for large scale distributed OLAP systems (large amount of data querying, semantic and structural heterogeneity) from a new point of view, considering specificities from these architectures (pay-as-you-go rule, elasticity, and user-friendliness). In this paper we address the pay-asyou-go rules for warehousing data storage. We propose to use the multidimensional arrays storage techniques for clouds. First experiments validate our proposal. Then we list research perspectives.
Entreposage et analyse en ligne dans les nuages avec Pig
Entreposage et analyse en ligne dans les nuages avec Pig Laurent d Orazio* Sandro Bimonte** * Clermont Université Université Blaise Pascal, LIMOS UMR 6158 CNRS ISIMA, Campus des Cézeaux F-63172 Aubière
Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani
Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................
C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes
C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes Khaled Dehdouh Fadila Bentayeb Nadia Kabachi Omar Boussaid Laboratoire ERIC, Université de Lyon 2 5 avenue Pierre Mendes-France,
Les Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
BI2 : Un profil UML pour les Indicateurs Décisionnels
BI2 : Un profil UML pour les Indicateurs Décisionnels Sandro Bimonte Irstea, TSCF, 9 Av. Blaise Pascal, 63178, Aubière, France [email protected] Thème de Recherche MOTIVE www.irstea.fr 2 Plan Motivations
L écosystème Hadoop Nicolas Thiébaud [email protected]. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud [email protected] HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016
Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques
Modélisation d objets mobiles dans un entrepôt de données
Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France [email protected], [email protected] http://www.prism.uvsq.fr/users/karima/
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Entreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Présentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre [email protected] Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise
BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la
et les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Urbanisation des SI-NFE107
OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle
Fouille de Données : OLAP & Data Warehousing
Fouille de Données : OLAP & Data Warehousing Nicolas Pasquier Université de Nice Sophia-Antipolis Laboratoire I3S Chapitre 2. Data warehousing Définition : qu est-ce que le data warehousing? Entrepôt de
Big Data On Line Analytics
Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics
Entrepôts de données multidimensionnelles NoSQL
Entrepôts de données multidimensionnelles NoSQL Max Chevalier, Mohammed El Malki, Arlind Kopliku, Olivier Teste, Ronan Tournier Université de Toulouse, IRIT UMR 5505, Toulouse, France http://www.irit.fr
Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
Bases de Données. Stella MARC-ZWECKER. [email protected]. Maître de conférences Dpt. Informatique - UdS
Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS [email protected] 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions
http://blog.khaledtannir.net
Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net [email protected] 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE
Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK
Oracle Décisionnel : Modèle OLAP et Vue matérialisée SOMMAIRE Introduction Le modèle en étoiles Requêtes OLAP Vue matérialisée Fonctions Roll up et Cube Application Introduction Data Warehouse Moteur OLAP
Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement
Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données
Anticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO [email protected] @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Bases de données multidimensionnelles et mise en œuvre dans Oracle
Bases de données multidimensionnelles et mise en œuvre dans Oracle 1 Introduction et Description générale Les bases de données relationnelles sont très performantes pour les systèmes opérationnels (ou
Introduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
La place de la Géomatique Décisionnelle dans le processus de décision
Géomatique décisionnelle La place de la Géomatique Décisionnelle dans le processus de décision - Arnaud Van De Casteele Mines ParisTech - CRC Arnaud {dot} van_de_casteele {at} mines-paristech.fr Les rencontres
Bases de Données OLAP
Bases de Données OLAP Hiver 2013/2014 Melanie Herschel [email protected] Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre
Cours Bases de données
Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine [email protected] Transparents Disponibles
Le nouveau visage de la Dataviz dans MicroStrategy 10
Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités
Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015
Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder
Hervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
MÉMOIRE DE STAGE DE MASTER M2
Académie de Montpellier Université Montpellier II Sciences et Techniques du Languedoc MÉMOIRE DE STAGE DE MASTER M2 effectué à Montréal Spécialité : Professionelle et Recherche unifiée en Informatique
SQL Server 2012 et SQL Server 2014
SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation
SQL SERVER 2008, BUSINESS INTELLIGENCE
SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business
Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1
CARI 12 Architecture répartie à large échelle pour le traitement parallèle de requêtes de biodiversité Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1 1 Département de mathématique-informatique
Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Techniques d optimisation des requêtes dans les data warehouses
Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE [email protected] Résumé Un entrepôt de données
Business Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Change the game with smart innovation
Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3
Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL
Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Présenté par Hana Gara Kort Sous la direction de Dr Jalel Akaichi Maître de conférences 1 1.Introduction
SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri
Séminaire Partenaires Esri France 7-8 juin 2011 - Paris Cloud Computing Stratégie Esri Gaëtan LAVENU Plan de la présentation Evolution des architectures SIG Qu'est ce que le Cloud Computing? ArcGIS et
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS
Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS John Samuel LIMOS (Laboratoire d Informatique, de Modélisation et d Optimisation
La rencontre du Big Data et du Cloud
La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur
Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France
Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France 2013 SAP AG. All rights reserved. Customer 1 Rôles et Attentes Instantanéité BIG DATA Users IT Real Time SAP HANA
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
DEMARREZ RAPIDEMENT VOTRE EVALUATION
Pentaho Webinar 30 pour 30 DEMARREZ RAPIDEMENT VOTRE EVALUATION Resources & Conseils Sébastien Cognet Ingénieur avant-vente 1 Vous venez de télécharger une plateforme moderne d intégration et d analyses
Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander
Tout ce que vous avez toujours voulu savoir sur SAP HANA Sans avoir jamais osé le demander Agenda Pourquoi SAP HANA? Qu est-ce que SAP HANA? SAP HANA pour l intelligence d affaires SAP HANA pour l analyse
Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
Intégration de données hétérogènes et réparties. Anne Doucet [email protected]
Intégration de données hétérogènes et réparties Anne Doucet [email protected] 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception
Les journées SQL Server 2013
Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne
Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) École Doctorale Sciences et Technologies de l'information et de
Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique
Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché
2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
Chapitre 4: Introduction au Cloud computing
Virtualisation et Cloud Computing Chapitre 4: Introduction au Cloud computing L'évolution d'internet Virt. & Cloud 12/13 2 Définition Le cloud computing est une technologie permettant de délocaliser les
Introduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Le cloud computing au service des applications cartographiques à haute disponibilité
Le cloud computing au service des applications cartographiques à haute disponibilité Claude Philipona Les Rencontres de SIG-la-Lettre, Mai 2010 camptocamp SA / www.camptocamp.com / [email protected]
X2BIRT : Mettez de l interactivité dans vos archives
Présentation Produit Présentation Produit X2BIRT : Mettez de l interactivité dans vos archives L accès à l information est capital pour les affaires. X2BIRT, la dernière innovation d Actuate, prend le
SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)
SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients
ETL Extract - Transform - Load
ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus
Bases de Données Avancées
1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,
Business Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012
CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des
Cloud Computing : Généralités & Concepts de base
Cloud Computing : Généralités & Concepts de base Les 24èmes journées de l UR-SETIT 22 Février 2015 Cette oeuvre, création, site ou texte est sous licence Creative Commons Attribution - Pas d Utilisation
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
Application de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Information utiles. [email protected]. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : [email protected] webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Performances. Gestion des serveurs (2/2) Clustering. Grid Computing
Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des
Business Intelligence : Informatique Décisionnelle
Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données
BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS
BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels
Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse
Datawarehouse 1 Plan Ce qu est le datawarehouse? Un modèle multidimensionnel Architecture d un datawarehouse Implémentation d un datawarehouse Autres développements de la technologie data cube 2 Ce qu
AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL
AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES
L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n
L A B U S I N E S S I N T E L L I G E N C E D U X X I e m e S I E C L E A T A W A D * d a t a g i n f o r m a t i o n g a c t i o n domaines d expertise : Modélisation des données Intégration des données
Business & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 09 : CC : Cloud Computing Sommaire Introduction... 2 Définition... 2 Les différentes
FreeAnalysis. Schema Designer. Cubes
FreeAnalysis Schema Designer Cubes Charles Martin et Patrick Beaucamp BPM Conseil Contact : [email protected], [email protected] Janvier 2013 Document : BPM_Vanilla_FreeAnalysisSchemaDesigner_v4.2_FR.odt
17/07/2013. Décisionnel dans le Nuage. Laboratoire ERIC. Section 1. Équipe d Accueil 3083. Décisionnel dans le Nuage.
Master 2 FDGC-ECD Année 203-204 Laboratoire ERIC Équipe d Accueil 3083 et Jérôme Darmont eric.univ-lyon2.fr/~jdarmont/ Section Décisionnel dans le Nuage 2 Le meilleur des mondes Du décisionnel à papa datawarehousing0.wikispaces.com
Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence
É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions
Introduction aux applications réparties
Introduction aux applications réparties Noël De Palma Projet SARDES INRIA Rhône-Alpes http://sardes.inrialpes.fr/~depalma [email protected] Applications réparties Def : Application s exécutant
Documentation d information technique spécifique Education. PGI Open Line PRO
Documentation d information technique spécifique Education PGI Open Line PRO EBP Informatique SA Rue de Cutesson - ZA du Bel Air BP 95 78513 Rambouillet Cedex www.ebp.com Equipe Education : 01 34 94 83
Jean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste
Christian Soutou Avec la participation d Olivier Teste SQL pour Oracle 4 e édition Groupe eyrolles, 2004, 2005, 2008, 2010, is BN : 978-2-212-12794-2 Partie III SQL avancé La table suivante organisée en
Programmation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Introduction aux bases de données
Introduction aux bases de données Références bibliographiques Jeff Ullman,Jennifer Widom, «A First Course in Database systems», Prentice-Hall, 3rd Edition, 2008 Hector Garcia-Molina, Jeff Ullman, Jennifer
Bases de données avancées Introduction
Bases de données avancées Introduction Dan VODISLAV Université de Cergy-Pontoise Master Informatique M1 Cours BDA Plan Objectifs et contenu du cours Rappels BD relationnelles Bibliographie Cours BDA (UCP/M1)
Cartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Hébergement MMI SEMESTRE 4
Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources
Les technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence
L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant
palais des congrès Paris 7, 8 et 9 février 2012
palais des congrès Paris 7, 8 et 9 février 2012 Analysis Services 2012 BI Personnelle, couche sémantique, cube, quelle(s) solution(s) pour un nouveau projet décisionnel? 08/02/2012 Aurélien KOPPEL Microsoft
BIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1
La Geo-Business Intelligence selon GALIGEO avec ESRI 2005 session «Décisionnel» 26/10/2005 1 La Business Intelligence : Une Définition La Business intelligence permet l utilisation des données opérationnelles
