Interrogation OLAP d un entrepôt de données XML

Dimension: px
Commencer à balayer dès la page:

Download "Interrogation OLAP d un entrepôt de données XML"

Transcription

1 Remy Choquet, Omar BoussaÔd Laboratoire ERIC - Université Lyon II Campus Porte des Alpes, Bron Cedex Remy.Choquet@gmail.com Omar.Boussaid@univ-lyon2.fr Résumé. XML (extended Markup Language) est aujourd hui un standard d échange de données inter applicatives, nous pensons que ce formalisme structuré va devenir un standard pour le stockage des données. Dans Boussaid et al. (2006), nous avons présenté XML-Wharehousing, une approche complète pour le stockage de cubes OLAP (On Line Analytical Processing) dans un entrepôt de données XML (exist). Nous avons défini un modèle pour la structuration des faits et la validation des documents XML à l entrée de l entrepôt. Il était donc logique d étendre notre approche à l interrogation de ces faits (ou cubes) sur base XML native. Nous aborderons celle-ci suivant 4 axes: modélisation, stockage, interrogation et indexation. 1 Introduction Il est en premier lieu important de situer ce travail dans le monde des bases de données. De nos jours, les bases relationnelles sont capables d effectuer des opérations OLAP sur cubes avec d excellents temps de réponse (< 1s) sur de très grands volumes de données. Cependant, ces systèmes sont peu flexibles, et permettent difficilement de prendre en compte les métadonnées. Comme nous l avons montré dans Boussaid et al. (2006), le formalisme XML nous permet de restructurer les données "à la volée" ainsi que de définir et de valider les axes d analyse basés sur les instructions utilisateur. Dans la continuité de notre travail sur l analyse de données sur documents XML, ce papier va présenter une approche d interrogation des données XML en utilisant la terminologie OLAP. A titre de rappel, dans Boussaid et al. (2006), nous avons présenté 3 concepts : les arbres d attributs(golfarelli et al. (1998)). l arbre minimum d analyse. la modélisation des cubes de données XML. Ces concepts ont mené à la construction d un entrepôt de données XML basé sur des cubes XML. Après le stockage des cubes dans exist, nous allons proposer une solution d interrogation de ces cubes en observant 4 axes : Modélisation : Nous définissons un cube XML comme un seul document XML structuré selon la demande d analyse définie par l utilisateur : schéma en étoile, en flocon de neige, etc...

2 Stockage : exist, est à ce jour la solution de stockage XML native la plus aboutie. Elle a été développée de manière conforme aux recommandations W3C et en respectant les spécifications DOM (Document Object Model) Interrogation : XQuery et XPath sont deux standards W3C pour interroger des documents XML Indexation : Les requêtes OLAP doivent être très performantes, c est un point essentiel de recherche à ce jour. Dans ce papier, nous allons revoir les travaux déjà effectués en section 2. Dans la section 3, nous allons aborder les méthodologies basées sur les 4 axes décrits ci-dessus. Nous allons ensuite mettre en place une plate-forme de test pour valider notre méthodologie en section 4. Nous proposerons des axes de recherche en conclusion. 2 Etat de l ART Depuis que XML est reconnu comme standard pour le transport de données, certaines recherches ont été effectuées pour utiliser XML à l entrée et à la sortie d entrepôts relationnels en construisant des couches logiques pour adapter et transformer les flux XML. Le projet XCube (H mmer et al. (2003)) présente un système d échange en utilisant le formalisme XML : les cubes de données (XCubeFact), les hiérarchies (XCubeDimensions) et les schémas (XCubeSchema). XMLA, dans Borkar et Carey (2001), développé par Hypérion, Microsoft, SAS et SAP, est une spécification proposant de standardiser l accès au moteur OLAP via des Web Services basés sur XML et SOAP (Simple Object Access Protocol). Ces deux propositions sont similaires puisqu elles utilisent XML comme outil de transport plutôt que comme un outil de stockage. Bordawekar et Lang (2005) introduit un entrepôt de données XML natif après avoir démontré les limites des modèles multidimensionnels pour l entreposage XML. Ils suggèrent de renverser l arbre XML habituellement utilisé dans le modèle relationnel. Pokorny (2001) propose une structure de données : XMLStar schema, composé de hiérarchies de dimension utilisant des DTDs pour décrire la structure des objets, il propose aussi un mécanisme de vérification d intégrité référentielle XML. Nassis et al. (2004) présentent une approche orientée objet avec XDW en utilisant des dimensions virtuelles et des vues conceptuelles. Baril et BellahsËne présentent DAWAX, un entrepôt XML basé sur un concept de vues modélisées en créant des vues sur des fragments de données, puis en les stockant dans une base relationnelle. En 2005, nous proposons dans dans Boussaid et al. (2006), une solution d entreposage de données XML avec XML-Warehousing. Nous proposons le concept d arbre minimum d analyse et la modélisation des cubes XML par faits. Chaque fait étant stocké and un fichier XML unique. Celui-ci sera validé en utilisant les algorithmes de transformation d arbre proposés par Golfarelli et al. (1998).

3 R. Choquet et O. Boussaid 3 Méthodologie d interrogation 3.1 Modélisation Le terme OLAP à été proposé par Codd et al. (1993). Il définit 12 règles pour la construction d entrepôts de données. Nous allons mettre en avant dans ce papier les règles suivantes : vue multidimensionnelle, consistance des temps de réponse, indépendance des dimensions et un nombre illimité de dimensions. FIG. 1 Un cube de données OLAP Nous définissons un cube comme un groupe de données agrégeable suivant une dimension (Fig. 1). Une dimension étant un attribut structurel de la donnée sur le cube (ex : product). Une mesure est une dimension spécifique représentée par une valeur numérique (ex : price). Une mesure peut être agrégée sur chaque dimension du cube. Dans dans Boussaid et al. (2006), nous définissons un fait (ou cube) comme étant un document XML unique. Chacun d eux étant alors stockés dans une collection de documents XML que l on nommera un cube XML. Un document XML est constitué de différentes structures et sous structures d éléments débutant par un élément racine. Cette modélisation de type arbre de données est conforme aux règles de Codd. Définition 1 (schéma en étoile XML) Soit (F, D) un schéma en étoile, où F est une table de fait ayant m attributs de mesure {F.M q, 1 q m} et D = {D s, 1 s r} est un ensemble où r dimensions indépendantes où chaque D s contient un ensemble de n s attributs {D s.a i, 1 i n s }. Le "schéma en étoile XML" de (F, D) est un schéma XML qui vérifie : F définit l élément racine XML dans le schéma XML ; q {1,..., m}, F.M q définit un attribut XML inclu dans l élément racine XML ; s {1,..., r}, Ds définit autant de sous-éléments de l élément racine XML tant qu ils sont liés à l élément racine ; s {1,..., r} et i {1,..., ns}, D s.a i définit un attribut XML inclu dans l élément XML D s. Dans la Fig. 2, nous remarquerons que chaque arbre XML valide ne comporte pas de clé IDRef pour définir les sommets. En effet, nous utilisons la sous-structure de XML pour définir les liens entre les sommets à travers les hiérarchies. Ici, le fait observé est sell. Les mesures sont price et quantity. Les dimensions sont product, client et seller.

4 FIG. 2 Collection de faits XML En superposant différents fichiers, ou faits, nous obtenons une collection de documents XML que nous nommerons fait XML (Fig. 2). La jointure implicite des dimensions aux faits de chacun des fichiers XML permet de vérifier l intégrité référentielle de l entrepôt. 3.2 Stockage Le projet exist (Meier) est une implémentation open source d un système de gestion de base de données XML native interfaáable à l aide de XPath, XQuery et XUpdate. exist permet de stocker sans schéma des documents XML dans des collections hiérarchiques. Une collection étant un ensemble pouvant contenir d autres collections ou des documents XML. Les documents sont stockés en respectant le modèle DOM (Document Object Model) du W3C. Les données sont séparées du coeur d exist. Tous les appels au système de stockage se font par des brokers. Voici en Fig. 3 une illustration de ce propos. FIG. 3 Architecture d exist

5 R. Choquet et O. Boussaid 3.3 Interrogation XQuery (Melton et S.Muralidhar) est présenté par le W3C en 1998 afin de permettre à la communauté toujours grandissante de XML d interroger ces données de manière plus flexible. XQuery v1.0 sera une extension de XPath 2.0. XQuery opère de manière abstraite sur la structure logique d un document XML plutôt que sur sa syntaxe. XPath est un langage d interrogation basé sur les chemins d arbres. Il permet de localiser facilement des sommets dans un arbre XML. On décrira ces requêtes comme axées. Un étape d expression retournera une séquence de sommets atteignables depuis le sommet de référence du contexte étudié via un axe spécifique. Un bloc de construction type XQuery est une expression composée d une chaóne de caractères décrivant des mots-clés, des symboles ou des opérateurs. Il est possible d encapsuler les expressions dans XQuery. XQuery introduit les expressions FLOWR (For Let Order by Where Return) et est par nature, équivalente en terme de finalité à XPath. Nous pouvons considérer FLOWR comme le select from where de SQL. La Fig. 4 représente le plan d ordonnancement de ce type d expression. Voici un exemple de requête utilisant XPath et XQuery : FLOWR: for $v in $doc//video return $v XPath: $doc//video Ces deux expressions retournent le même résultat. Cependant, il faut distinguer 3 différences de traitement : L opérateur f or est accompagné d une variable $v qui sera utilisée dans la clause return pour référer à chaque élément successif dans la séquence d entrée, alors qu une Path Expression utilise la notion d élément de contexte, auquel on peut se référer comme à ".". Dans cet exemple, //video est la contraction de./root()//video, la référence à l élément contexte est implicite. Avec l opérateur "/", l expression de gauche doit toujours sélectionner des sommets plutôt que des valeurs atomiques. Dans l exemple précédent, //video/count(actorref), l expression de droite retourne un nombre, alors que celle de gauche doit toujours retourner des sommets. Quand une opération sur chemins sélectionne un sommet, ils sont toujours retournés dans l ordre du document, les entrées dupliquées en moins. Par exemple, l expression $doc//section/para retourne chaque élément <para> exactement une fois, même s il apparaót dans plusieurs <section> d éléments. Si on utilise l expression équivalente FLOWR for $s in $doc//section return $s//para, alors <para> qui apparaót plusieurs fois dans des sections différentes, apparaótra autant de fois en sortie. 3.4 Indexation Indexation structurelle Le coeur de la recherche en matière d indexation XML se penche actuellement sur ce type d indexation. Elle se base exclusivement sur une notion de plan de numérotation des sommets.

6 FIG. 4 Ordre d ordonnancement des opérateurs FLOWR Toute la problématique, et les recherches effectuées à ce jour portent sur la manière dont cette numérotation sera effectuée. En généralisant, nous pouvons dire que ce plan est construit en assignant un identificateur unique à chaque sommet de l arbre du document XML en traversant l arbre par niveau. Ces identificateurs sont ensuite utilisés dans le plan d indexation. Il est important dans ce type de plan, de pouvoir rapidement trouver les relations structurelles entre les noeuds, leur nature, leur emplacement. Tous les index d exist sont basés sur des arbres B+ (Bayer et McCreight). Un arbre B+ Tree est un type d arbre structuré pour données qui représente des données triées de telle manière qu on puisse insérer ou enlever des éléments. Les données sont stockées dans les feuilles de l arbre, les autres sommets ne contenant que les clés et les pointeurs. On dira que ce type d indexation est basé sur les valeurs. Depuis fin 2005, le plan d indexation DLN (Dynamic Level Numbers) de Bˆhme et Rahm (2004) est implémenté dans exist. Ce plan permet d indexer n importe quel document XML, qu elle que soit sa taille et sa complexité. Il permet aussi d insérer ou d enlever des éléments sans réindexation complète de l arbre. C est en fait, un plan de numérotation virtuelle par niveau qui a été implémenté. Il est basé sur des k aires : qui est un système de numérotation ou k est le nombre maximum de sommets fils d un élément dans un document XML. Un identificateur unique sera assigné à chaque sommet à l aide d un parcours de l arbre par niveaux. Pour compléter l arbre, des identificateurs vides seront insérés. Le problème majeur du système des k-aires, est que l index aura une structure ayant un maximum, et donc non-évolutive. Cependant, cette technique d indexation permet de retrouver rapidement des sommets via leur affiliation à travers des formules mathématiques élémentaires : parenti = (((i 2)/k) + 1) pour obtenir l identificateur du parent de i parenti, j = k(i 1) + j + 1 pour obtenir l identificateur du jeme fils Afin de garder une flexibilité dans le plan d indexation, les développeurs d exist ont implémenté un plan de numérotation alternatif en lieu et place de la contrainte de complétude

7 R. Choquet et O. Boussaid de l arbre. Le document ne sera plus vu comme un arbre k-aire complet, en fait, le nombre d enfants d un sommet sera recalculé pour chaque niveau de l arbre de cette manière : Pour 2 sommets x et y d un arbre, size(x) = size(y) si level(x) = level(y), où size(n) est le nombre d enfants d un sommet n et level(n) est la longueur du chemin entre le sommet racine et le sommet n. Intuitivement, on sait que plus on descend dans l arbre, plus il y aura de sommets. On augmente de beaucoup la taille des documents indexables de cette manière. Cette technique permet de ne pas ré-indexer un arbre en cas de modification de sa structure, mais garde pour autant les avantages de calcul sur les relations des sommets vus précédemment. Pour organiser ses index et ses données, exist utilise 4 fichiers d index : collections.dbx : gère la hiérarchie de collections comme le système de fichiers UNIX dom.dbx : contient les sommets des documents XML, associé à leur identificateur unique, ce fichier est paginé. elements.dbx : index les éléments et les attributs words.dbx : garde une trace des mots et de leurs occurrences. Plus utilisé en recherche textuelle. Il est important de savoir que tous les indexes pour les éléments, les attributs et les motsclés sont organisés par collection plutôt que par document XML. Ce qui signifie que toutes les occurrences d un élément article dans une collection seront stockées comme une seule entrée dans l index des éléments. Ceci diminue les temps d accès aux données et les performances du moteur d une manière générale. Le magasin XML dom.dbx est le composant central de l architecture de stockage d exist. Il contient tous les sommets des documents XML stockés dans une collection. Il est stocké à l aide d arbres B+ multi-racines dans le même fichier et associe à chaque identificateur de sommet unique sont adresse de stockage dans la partie des données du fichier dom.dbx. Dans ce plan, afin de naviguer rapidement entre les sommets, il n est pas nécessaire de garder une trace des liens entre les sommets (avec un pointeur par exemple) puisque l implémentation DOM dépend entièrement du plan de numérotation pour déterminer les relations structurelles entre les sommets Index de portée Les index de portée sont basés sur les valeurs. Ils sont spécifiques aux types de données des valeurs des sommets d un document XML. A l opposé des indexes structurés, l index de portée est créé par l utilisateur, exist n étant pas capable de déterminer le type des valeurs des noeuds de l arbre XML. Il le pourrait cependant à l aide d un XML Schéma, mais cela n est pas encore à l étude. Ces index sont utilisés au besoin lorsqu une comparaison est explicitement demandée via les opérateurs et fonctions de XPath, si ils sont définis par l utilisateur. Si ce n est pas le cas, exist procède à une inspection en mode brute-force du fichier dom.dbx. Il faut, généralement, respecter 3 conditions pour optimiser la recherche en utilisant ce type d index : L index de portée doit être défini sur tous les éléments sur lesquels porte la requête Le type de données à indexer doit correspondre au type de données testées L argument de droite ne doit pas dépendre du contexte courant

8 4 Mise en pratique Nous allons travailler sur exist, avec un jeu de faits d une base de données fictive de ventes. Celle-ci, assez simple, va aisément nous permettre de mettre en place des requêtes d analyse avec les concepts introduits jusqu ici. Cette base comporte 10 faits au format XML et sont stockés dans une collection exist. Le modèle utilisé est celui présenté en Fig Requête sur 3 axes Voici une requête OLAP simple interrogeant l entrepôt sur les ventes effectuées par produit, vendeur et client : for $p in distinct-values(/vente/produit), $v in distinct-values(/vente/vendeur), $c in distinct-values(/vente/client) let $o := /vente[produit = $p and vendeur = $v and client = $c] order by $p, $v, $c return if (exists($o)) then <group> <produit> {$p} </produit> <vendeur> {$v} </vendeur> <client> {$c} </client> <montant_ventes> {sum($o/prix)} </montant_ventes> </group> else() Voici cette même requête en utilisant les index de portée : for $p in distinct-values(/vente/produit), $v in distinct-values(/vente/vendeur), $c in distinct-values(/vente/client) let $o := /vente[produit = xs:string($p) and vendeur = xs:string($v) and client = xs:string($c)] order by $p, $v, $c return if (exists($o)) then <group> <produit> {$p} </produit> <vendeur> {$v} </vendeur> <client> {$c} </client> <montant_ventes> {sum($o/prix)} </montant_ventes> </group> else() La différence de temps de traitement pour ces deux requêtes est sensible puisqu il faudra 0,2 secondes sans les index de portée, alors qu il suffira de 0,093 secondes avec les index de portée (2 fois plus rapide). 4.2 Slice L opérateur slice permet de découper suivant une tranche, un cube XML. Par exemple, avoir le nombre de ventes en coupant sur le produit= VTT :

9 R. Choquet et O. Boussaid for $v in distinct-values(/vente/vendeur), $c in distinct-values(/vente/client) let $p:= VTT ou let $p:=xs:string( VTT ) en optimisant let $o := /vente[produit/nomproduit = $p and vendeur = $v and client = $c] order by $v, $c return if (exists($o)) then <group> <produit> {$p} </produit> <vendeur> {$v} </vendeur> <client> {$c} </client> <montant_ventes> {sum($o/prix)} </montant_ventes> </group> else() De même, l utilisation d index de portée permet de réduire grandement le co t de traitement de cette requête (1,1690 à 0,0830 c est à dire, 14 fois plus rapide). 4.3 L opérateur GroupBy Afin de valider notre démarche, il est nécessaire d augmenter le nombre de faits dans notre entrepôt. Pour ce faire, nous allons augmenter le nombre de faits à Voici le résultat de nos requêtes : Sur 3 axes : 17 secondes (pour 0,093 secondes sur 10 faits) Slice : 5 secondes (pour 0,0830 secondes sur 10 faits) La limitation de l utilisation des requêtes FLOWR telles qu implémentées dans exist en utilisant l opérateur distinct values qui requière une atomisation des sommets lourde en temps de traitement. L utilisation d un groupby réduirait considérablement le temps de traitement de ce type de requêtes. Dans la Fig. 5, nous constatons que l augmentation du temps de traitement sur des volumétries limitées (4480 faits) est très importante. Encore une fois, l utilisation d un groupby sera indispensable. Bayer et al. (2005) proposent un opérateur group by pour XQuery. Celui-ci s articulant de la manière suivante : FLOWRExpr ::= (ForClause LetClause)+ WhereClause? (GroupByClause LetClause* WhereClause?)? OrderByClause? ReturnClause GroupByClause ::= "group" "by" Expr "into" "$" VarName ("," Expr "into" "$" VarName)* ("nest" Expr "into" "$" VarName ("," Expr "into" "$" VarName)* )? Voici la requête sur 3 axes écrite à l aide de l opérateur groupby de Beyer : for $v in //vente group by $v/vendeur into $v, $v/client into $c, $v/produit into $p return <group> {$v, $c, $p} </group>

10 FIG. 5 Synthèse des tests Malheureusement, la version d exist comportant cet opérateur groupby est toujours en développement (Verhaegen (2006)). Mais l opérateur permettra d effectuer des regroupements avec un temps de traitement constant indépendemment de la volumétrie de la base. FIG. 6 Variation du temps de traitement de 100k éléments entre exist et le nouvel opérateur groupby (script) 4.4 Conclusions et Perspectives L entreposage de données XML native est actuellement en pleine effervescence. Nombre de recherches dans des domaines aussi divers que la modélisation, le stockage, l indexation ou bien le requêtage sont actuellement à l étude.

11 R. Choquet et O. Boussaid X-Warehousing, tel que nous l avons présenté dans Boussaid et al. (2006) propose une solution ETL (Extract Transform Load) XML permettant la génération de faits valides dans un contexte d analyse donné par l utilisateur. Nous avons choisi, dans ce contexte, de profiter de la structure XML sous-jacente à chaque document XML (ou fait) et donc, de ne pas utiliser d IDRef pour établir de relation entre les sommets. La modélisation la plus simple (sans index) est aujourd hui valide en terme d interrogation de données. exist, base de données native XML open-source, est à ce jour le produit le plus évolué et le plus flexible que l on puisse trouver. Dans notre approche full XML, et grâce à la gestion par collection de documents, nous estimons que le stockage de données est convaincant et tout à fait adapté à des besoins d analyse OLAP XML. En terme d index, le système d exist basé sur un plan de numérotation en arbre k-aire par niveau amélioré ne correspond pas directement aux besoins d un entrepôt de données XML qui normalement, est peu amené à évoluer dans le temps au niveau structurel. Si évolution il y a, généralement, on est habitué à reconstruire le plan d indexation entièrement. Il serait peut-être judicieux d utiliser dans exist un système d indexage moins souple en terme de mise à jour, mais plus performant pour des volumes de données importantes. Enfin, concernant XQuery et XPath pour l interrogation de données, nous avons remarqué un manquement important (outre la mise à jour de données) : l opérateur groupby. En effet, le plan d indexage étant trop sollicité lors de l interrogation OLAP, le passage à l échelle (plusieurs giga-octets) posera des problèmes importants si on utilise l imbrication de requêtes for disctinctvalues(). Références Baril, X. et Z. BellahsËne. Data management : Native xml and xml-enabled database systems (first ed.). Bayer, K., D. Chamberlin, L. Colby, F. Ozcan, H. Pirahesh, et Y. Xu (2005). Extending xquery for analytics. IBM Almaden research center. Bayer, R. et E. McCreight. Binary b-trees for virtual memory. Proceedings of the ACM SIGFIDET Workshop. Bordawekar, R. et C. Lang (2005). Analytical processing of xml documents: Opportunities and challenges. Proceedings of the SIGMD. Borkar, V. et M. Carey (2001). Xml for analysis specification. Microsoft Specification. Boussaid, O., R. B. Messaoud, R. Choquet, et S. Anthoard (2006). Conception et construction d entrepùts de donnèes en xml. EDA 06. Bˆhme, T. et E. Rahm (2004). Supporting efficient streaming and insertion of xml data in rdbms. Proceedings of the DIWeb. Codd, E., S. Codd, et C. Salley (1993). Technical report, Arborsoft. Providing olap to user-analysts: An it mandate. Golfarelli, M., D. Maio, et S. Rizzi (1998). Conceptual designs of data wharehouses from e/r schema. HICSS 98: Proceedings of the Thirty-First Annual Hawaii International Conference on Systm Science-Volume 7.

12 H mmer, W., A. Bauer, et G. Harde (2003). Xcube: Xml for data warehouses. DOLAP 2003: ACM Sixth International Workshop on Data Wharehousing and OLAP. Meier, W. exist: An open source native xml database. Proceedings of WWSDS. Melton, J. et S.Muralidhar. Xml syntax for xquery 1.0 (xqueryx). W3C Candidate Recommandation. Nassis, V., R. Rajugan, T. S. Dillon, et J. Rahayu (2004). Conceptual design of xml document warehouses. DAWAK, Volume 3181 of Lecture Notes in Computer Science. Pokorny, J. (2001). Modelling stars using xml. DOLAP 01: Proc of the 4th ACM int. workshop on Data warehousing and OLAP. Verhaegen, B. (2006). Requêtes olap sur documents xml. Summary XML is today a standard for exchanging data between applications, we think that this structured formalism is about to become a standard for data storage. XML-Warehousing was presented in Boussaid et al. (2006), which is a global approach to OLAP cubes storage in a XML data warehouse (exist). We have thus defined a model for structuring facts and validating XML documents that are entering the data warehouse. Consequently, we decided to extend our approach to querying these facts (or cubes) on a XML native database. These queries will be considered according to four axes: modelling, storing, querying and indexing.

Conception et construction d entrepôts en XML

Conception et construction d entrepôts en XML Conception et construction d entrepôts en XML Omar Boussaid, Riadh Ben Messaoud, Rémy Choquet, Stéphane Anthoard Laboratoire ERIC, Université Lyon 2 Campus Porte des Alpes, 69676 Bron Cedex Omar.Boussaid@univ-lyon2.fr,

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

La place de la Géomatique Décisionnelle dans le processus de décision

La place de la Géomatique Décisionnelle dans le processus de décision Géomatique décisionnelle La place de la Géomatique Décisionnelle dans le processus de décision - Arnaud Van De Casteele Mines ParisTech - CRC Arnaud {dot} van_de_casteele {at} mines-paristech.fr Les rencontres

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

XCube XML For Data Warehouses

XCube XML For Data Warehouses XCube XML For Data Warehouses Auteurs : Wolfgang Hümmer Andreas Bauer Gunnar Harde Présenté par : David TA KIM 2005-12-05 Sommaire Sommaire I Introduction au Datawarehouse Sommaire I Introduction au Datawarehouse

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé ESNE Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé I.Cirillo 2010-2011 Introduction Le laboratoire de base de données de l ESNE a mis en place, il y a quelques années,

Plus en détail

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Bases de données multidimensionnelles et mise en œuvre dans Oracle Bases de données multidimensionnelles et mise en œuvre dans Oracle 1 Introduction et Description générale Les bases de données relationnelles sont très performantes pour les systèmes opérationnels (ou

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ; RÈGLES A SUIVRE POUR OPTIMISER LES REQUÊTES SQL Le but de ce rapport est d énumérer quelques règles pratiques à appliquer dans l élaboration des requêtes. Il permettra de comprendre pourquoi certaines

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

FreeAnalysis. Schema Designer. Cubes

FreeAnalysis. Schema Designer. Cubes FreeAnalysis Schema Designer Cubes Charles Martin et Patrick Beaucamp BPM Conseil Contact : charles.martin@bpm-conseil.com, patrick.beaucamp@bpm-conseil.com Janvier 2013 Document : BPM_Vanilla_FreeAnalysisSchemaDesigner_v4.2_FR.odt

Plus en détail

Module BDWEB. Maîtrise d informatique Cours 9 - Xquery. Anne Doucet. anne.doucet@lip6.fr

Module BDWEB. Maîtrise d informatique Cours 9 - Xquery. Anne Doucet. anne.doucet@lip6.fr Module BDWEB Maîtrise d informatique Cours 9 - Xquery Anne Doucet anne.doucet@lip6.fr 1 Langages de requêtes XML Concepts des langages de requêtes XML motivations caractéristiques Navigation dans les documents

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes

Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes Cécile Favre, Fadila Bentayeb, Omar Boussaid Université de Lyon (ERIC Lyon 2) 5 av. Pierre Mendès-France

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition) Présentation du langage XML 1. De SGML à XML 17 2. Les bases de XML 18 2.1 Rappel sur HTML 18 2.2 Votre premier document XML 19 2.3 Les avantages de XML 21 3. La syntaxe XML 21 3.1 La première ligne du

Plus en détail

Langage SQL (1) 4 septembre 2007. IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Langage SQL (1) 4 septembre 2007. IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes Langage SQL (1) Sébastien Limet Denys Duchier IUT Orléans 4 septembre 2007 Notions de base qu est-ce qu une base de données? SGBD différents type de bases de données quelques systèmes existants Définition

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Thèse présentée par Cécile FAVRE pour obtenir le titre de Docteur en Informatique

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

SQL Parser XML Xquery : Approche de détection des injections SQL

SQL Parser XML Xquery : Approche de détection des injections SQL SQL Parser XML Xquery : Approche de détection des injections SQL Ramahefy T.R. 1, Rakotomiraho S. 2, Rabeherimanana L. 3 Laboratoire de Recherche Systèmes Embarqués, Instrumentation et Modélisation des

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Les Entrepôts de Données. (Data Warehouses)

Les Entrepôts de Données. (Data Warehouses) Les Entrepôts de Données (Data Warehouses) Pr. Omar Boussaid Département d'informatique et de Sta5s5que Université Lyon2 - France Les Entrepôts de Données 1. Généralités, sur le décisionnel 2. L'entreposage

Plus en détail

Datawarehouse and OLAP

Datawarehouse and OLAP Datawarehouse and OLAP Datawarehousing Syllabus, materials, notes, etc. See http://www.info.univ-tours.fr/ marcel/dw.html today architecture ETL refreshing warehousing projects architecture architecture

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Bases de données avancées Introduction

Bases de données avancées Introduction Bases de données avancées Introduction Dan VODISLAV Université de Cergy-Pontoise Master Informatique M1 Cours BDA Plan Objectifs et contenu du cours Rappels BD relationnelles Bibliographie Cours BDA (UCP/M1)

Plus en détail

AVERTISSEMENT. D autre part, toute contrefaçon, plagiat, reproduction illicite de ce travail expose à des poursuites pénales.

AVERTISSEMENT. D autre part, toute contrefaçon, plagiat, reproduction illicite de ce travail expose à des poursuites pénales. AVERTISSEMENT Ce document est le fruit d un long travail approuvé par le jury de soutenance et mis à disposition de l ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle

Plus en détail

Analyse comparative entre différents outils de BI (Business Intelligence) :

Analyse comparative entre différents outils de BI (Business Intelligence) : Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment

Plus en détail

Techniques d optimisation des requêtes dans les data warehouses

Techniques d optimisation des requêtes dans les data warehouses Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE bellatreche@ensma.fr Résumé Un entrepôt de données

Plus en détail

Modélisation d objets mobiles dans un entrepôt de données

Modélisation d objets mobiles dans un entrepôt de données Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France Tao.Wan@prism.uvsq.fr, Karine.Zeitouni@prism.uvsq.fr http://www.prism.uvsq.fr/users/karima/

Plus en détail

Entrepôts de données multidimensionnelles NoSQL

Entrepôts de données multidimensionnelles NoSQL Entrepôts de données multidimensionnelles NoSQL Max Chevalier, Mohammed El Malki, Arlind Kopliku, Olivier Teste, Ronan Tournier Université de Toulouse, IRIT UMR 5505, Toulouse, France http://www.irit.fr

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

Langage SQL : créer et interroger une base

Langage SQL : créer et interroger une base Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Bases de Données OLAP

Bases de Données OLAP Bases de Données OLAP Hiver 2013/2014 Melanie Herschel melanie.herschel@lri.fr Université Paris Sud, LRI Chapitre 1 Introduction Détails administratifs Entrepôts de Données Perspective sur le semestre

Plus en détail

Glossaire. base de données géographiques Voir géodatabase (GDB).

Glossaire. base de données géographiques Voir géodatabase (GDB). Glossaire analyse Processus d identification d une question ou d un problème à résoudre, de modélisation de ce problème, de recherche des résultats de modélisation, d interprétation des résultats, d élaboration

Plus en détail

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

16H Cours / 18H TD / 20H TP

16H Cours / 18H TD / 20H TP INTRODUCTION AUX BASES DE DONNEES 16H Cours / 18H TD / 20H TP 1. INTRODUCTION Des Fichiers aux Bases de Données 2. SYSTEME DE GESTION DE BASE DE DONNEES 2.1. INTRODUCTION AUX SYSTEMES DE GESTION DE BASES

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Fouille de Données : OLAP & Data Warehousing

Fouille de Données : OLAP & Data Warehousing Fouille de Données : OLAP & Data Warehousing Nicolas Pasquier Université de Nice Sophia-Antipolis Laboratoire I3S Chapitre 2. Data warehousing Définition : qu est-ce que le data warehousing? Entrepôt de

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE ORACLE DATA INTEGRATOR ENTERPRISE EDITION offre de nombreux avantages : performances de pointe, productivité et souplesse accrues pour un coût total de

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

palais des congrès Paris 7, 8 et 9 février 2012

palais des congrès Paris 7, 8 et 9 février 2012 palais des congrès Paris 7, 8 et 9 février 2012 Analysis Services 2012 BI Personnelle, couche sémantique, cube, quelle(s) solution(s) pour un nouveau projet décisionnel? 08/02/2012 Aurélien KOPPEL Microsoft

Plus en détail

SWISS ORACLE US ER GRO UP. www.soug.ch. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

SWISS ORACLE US ER GRO UP. www.soug.ch. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features SWISS ORACLE US ER GRO UP www.soug.ch Newsletter 5/2014 Sonderausgabe OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features 42 TIPS&TECHNIQUES Alexandre Tacchini, Benjamin Gaillard, Fabien

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 SQL Sommaire : COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 COMMANDES DE MANIPULATION DE DONNEES... 2 COMMANDES DE CONTROLE TRANSACTIONNEL... 2 COMMANDES DE REQUETE DE DONNEES... 2 COMMANDES

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

Découvrir la notion de tableau croisé dynamique

Découvrir la notion de tableau croisé dynamique Découvrir la notion de tableau croisé dynamique Excel 2007 en quelques mots... 11 Travailler avec des données en grande quantité... 14 Les apports des tableaux croisés dynamiques... 21 S ouvrir à l informatique

Plus en détail

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures] Objectif Utiliser les techniques de gestion de la mise en cache pour contrôler et améliorer les performances des requêtes Définir des mesures simples et des mesures calculées pour une table de faits Créer

Plus en détail

Les structures de données. Rajae El Ouazzani

Les structures de données. Rajae El Ouazzani Les structures de données Rajae El Ouazzani Les arbres 2 1- Définition de l arborescence Une arborescence est une collection de nœuds reliés entre eux par des arcs. La collection peut être vide, cad l

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) École Doctorale Sciences et Technologies de l'information et de

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Pourquoi IBM System i for Business Intelligence

Pourquoi IBM System i for Business Intelligence Améliorer les performances et simplifier la gestion de vos applications d aide à la décision (Business Intelligence ou BI) Pourquoi IBM System i for Business Intelligence Points clés Technologie IBM DB2

Plus en détail

Entrepôt de Données. Jean-François Desnos. Jean-Francois.Desnos@grenet.fr ED JFD 1

Entrepôt de Données. Jean-François Desnos. Jean-Francois.Desnos@grenet.fr ED JFD 1 Entrepôt de Données Jean-François Desnos Jean-Francois.Desnos@grenet.fr ED JFD 1 Définition (Bill Inmon 1990) Un entrepôt de données (data warehouse) est une collection de données thématiques, intégrées,

Plus en détail

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position Plan du cours : Le problème : naviguer efficacement une structure de données Ce qui ne marche pas Ce qui marche : les de Huet Exemples Comment dériver des pour tout type de données Pour en savoir plus

Plus en détail

BI2 : Un profil UML pour les Indicateurs Décisionnels

BI2 : Un profil UML pour les Indicateurs Décisionnels BI2 : Un profil UML pour les Indicateurs Décisionnels Sandro Bimonte Irstea, TSCF, 9 Av. Blaise Pascal, 63178, Aubière, France sandro.bimonte@irstea.fr Thème de Recherche MOTIVE www.irstea.fr 2 Plan Motivations

Plus en détail