Cubes Émergents pour l analyse des renversements de tendances dans les bases de données multidimensionnelles

Documents pareils
Fouille de Données : OLAP & Data Warehousing

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

et les Systèmes Multidimensionnels

Entrepôts de données multidimensionnelles NoSQL

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Application de K-means à la définition du nombre de VM optimal dans un cloud

Les Entrepôts de Données

Urbanisation des SI-NFE107

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

arxiv: v1 [cs.db] 9 Jul 2007

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Techniques d optimisation des requêtes dans les data warehouses

Entrepôt de données 1. Introduction

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

2 Serveurs OLAP et introduction au Data Mining

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Bases de Données Avancées

Modélisation d objets mobiles dans un entrepôt de données

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Business & High Technology

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Hervé Couturier EVP, SAP Technology Development

Information utiles. webpage : Google+ : digiusto/

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

Introduction aux bases de données

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

LA GESTION DES VUES 1. INTRODUCTION

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Les entrepôts de données

1 Introduction et installation

Généralisation contextuelle de mesures dans les entrepôts de données

INTRODUCTION AUX BASES de DONNEES

Bases de données. Chapitre 1. Introduction

Intégration des Tableaux Multidimensionnels en Pig pour l Entreposage de Données sur les Nuages

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Bases de données multidimensionnelles et mise en œuvre dans Oracle

Intelligence Economique - Business Intelligence

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Big Data et Graphes : Quelques pistes de recherche

Didier MOUNIEN Samantha MOINEAUX

Encryptions, compression et partitionnement des données

Business Intelligence avec Excel, Power BI et Office 365

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

Plan de cours. 1. Mise en contexte. 2. Place du cours dans le programme. 3. Descripteur du cours

Intégration de données hétérogènes et réparties. Anne Doucet

S8 - INFORMATIQUE COMMERCIALE

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

DESCRIPTIF DE MODULE S5 GSI

Entreposage et analyse en ligne dans les nuages avec Pig

Business Intelligence

MÉMOIRE DE STAGE DE MASTER 2

UE 8 Systèmes d information de gestion Le programme

BI = Business Intelligence Master Data-Science

FreeAnalysis. Schema Designer. Cubes

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Bases de données cours 4 Construction de requêtes en SQL. Catalin Dima

Resolution limit in community detection

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Big Data et Graphes : Quelques pistes de recherche

Chapitre 1 : Introduction aux bases de données

Introduction à la B.I. Avec SQL Server 2008

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Big Data On Line Analytics

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Etude d Algorithmes Parallèles de Data Mining

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

BUSINESS INTELLIGENCE

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Le Langage SQL version Oracle

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Datawarehouse and OLAP

CESI Bases de données

Le langage SQL Rappels

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Business Intelligence : Informatique Décisionnelle

16H Cours / 18H TD / 20H TP

palais des congrès Paris 7, 8 et 9 février 2012

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Bases de Données. Plan

Business Intelligence

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Bases de Données OLAP

Transcription:

Estimation de la taille du Représentations du pour l analyse des renversements de tendances dans les bases de données multidimensionnelles Laboratoire d Informatique Fondamentale de Marseille 23 Novembre 2009

Plan Introduction Estimation de la taille du Représentations du Contexte Motivations Objectifs 1 Introduction Contexte Motivations Objectifs 2 3 Estimation de la taille du 4 Représentations du 5

Contexte Introduction Estimation de la taille du Représentations du Contexte Motivations Objectifs Les entrepôts de données permettent le stockage d énormes volumes de données accumulées au fil du temps dans les bases opérationnelles. Les données sont dites multidimensionnelles car l utilisateur voit et manipule ces données suivant différents critères, nommés attributs dimensions. Pendant le processus d analyse, le décideur a besoin d appréhender ses données suivant plusieurs combinaisons de ces dimensions. Pour que l analyse soit interactive, il faut que la réponse à ces requêtes soit immédiate.

Contexte Introduction Estimation de la taille du Représentations du Contexte Motivations Objectifs C est pour répondre à cette problèmatique que le cube de données a été introduit. Le cube de données est constitué de l ensemble de tous les agrégats possibles. Il permet d extraire les grandes tendances présentes dans un jeu de données et d en comprendre les origines.

Motivations Introduction Estimation de la taille du Représentations du Contexte Motivations Objectifs Le cube de données et ses principales variantes isolent les tendances sur un seul jeu de données. Lors de la comparaison de deux cubes de données, l information nouvelle provient des changements et des évolutions qui se sont produits. La connaissance des changements de tendances qui se produisent entre plusieurs jeux de données permet d ajouter à l analyse un aspect dynamique. Ce type de connaissances est particulièrement pertinent lorsqu il s agit d étudier les données au cours du temps.

Estimation de la taille du Représentations du Relations exemples Contexte Motivations Objectifs Produit Ville Saison Année Quantité 1 Marseille Printemps 2007 100 1 Marseille Été 2007 100 2 Paris Été 2007 100 3 Paris Été 2007 100 2 Marseille Printemps 2008 200 2 Paris Été 2008 100 1 Marseille Printemps 2008 100 3 Paris Été 2008 100 3 Paris Automne 2008 300

Estimation de la taille du Représentations du Relations exemples Contexte Motivations Objectifs Produit Ville Saison Quantité 1 Marseille Printemps 100 1 Marseille Été 100 2 Paris Été 100 3 Paris Été 100 Produit Ville Saison Quantité 2 Marseille Printemps 200 2 Paris Été 100 1 Marseille Printemps 100 3 Paris Été 100 3 Paris Automne 300

Objectifs Introduction Estimation de la taille du Représentations du Contexte Motivations Objectifs Isoler les changements de tendances les plus marqués : les renversements de tendances. Proposer une structure basée sur les concepts associés au treillis cube et aux motifs émergents pour extraire ce type de connaissances. Fournir un panel de représentations réduites qui soient adaptées aux besoins de l utilisateur. Mettre au point des méthodes pour les rendre efficacement calculables.

Plan Introduction Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max 1 Introduction 2 Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max 3 Estimation de la taille du 4 Représentations du 5

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Definition (Espace multidimensionnel) L espace multidimensionnel de la relation r regroupe toutes les combinaisons sémantiquement valides des ensembles de valeurs existant dans r pour les attributs dimensions, enrichis de la valeur ALL. Definition (Ordre de généralisation) Un tuple t est plus petit selon l ordre de généralisation qu un tuple u ssi t contient une information moins détaillée (plus agrégée) que u. Exemple (ALL, Marseille, Printemps)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Definition (Espace multidimensionnel) L espace multidimensionnel de la relation r regroupe toutes les combinaisons sémantiquement valides des ensembles de valeurs existant dans r pour les attributs dimensions, enrichis de la valeur ALL. Definition (Ordre de généralisation) Un tuple t est plus petit selon l ordre de généralisation qu un tuple u ssi t contient une information moins détaillée (plus agrégée) que u. Exemple (ALL, Marseille, ALL) g (ALL, Marseille, Printemps)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max La notion de renversement de tendances est formalisée par le concept d émergence. Un tuple est dit «émergent» s il est non significatif dans r 1 (contrainte C 1 ) mais très significatif dans r 2 (contrainte C 2 ). Définition (Tuple Émergent) un tuple t CL(r 1 r 2 ) est dit émergent de r 1 vers r 2 si et seulement s il satisfait les deux contraintes C 1 et C 2 : { fval (t, r 1 ) < MinThreshold 1 (C 1 ) f val (t, r 2 ) MinThreshold 2 (C 2 ) Exemple Soit MinThreshold 1 = 200 et MinThreshold 2 = 200. Le tuple t = (ALL, Marseille, Printemps) est émergent.

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max La notion de renversement de tendances est formalisée par le concept d émergence. Un tuple est dit «émergent» s il est non significatif dans r 1 (contrainte C 1 ) mais très significatif dans r 2 (contrainte C 2 ). Définition (Tuple Émergent) un tuple t CL(r 1 r 2 ) est dit émergent de r 1 vers r 2 si et seulement s il satisfait les deux contraintes C 1 et C 2 : { fval (t, r 1 ) < MinThreshold 1 (C 1 ) f val (t, r 2 ) MinThreshold 2 (C 2 ) Exemple Soit MinThreshold 1 = 200 et MinThreshold 2 = 200. Le tuple t = (ALL, Marseille, Printemps) est émergent.

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Définition (Taux d Emergence) Pour caractériser la variation de tendance on utilise le taux d émergence, noté ER(t), défini par : 0 si f val (t, r 1 ) = 0 et f val (t, r 2 ) = 0 si f ER(t) = val (t, r 1 ) = 0 et f val (t, r 2 ) 0 f val (t, r 2 ) f val (t, r 1 ) sinon. Tout tuple émergent a un taux d émergence supérieur à MinThreshold 2 MinThreshold 1. Le choix des seuils permet à l utilisateur de se focaliser uniquement sur les renversements de tendances qui l intéressent.

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Nous appelons l ensemble de tous les tuples de CL(r 1 r 2 ) émergents d une relation r 1 vers autre relation r 2. Définition () Le, noté EC(r 1, r 2 ), est défini par : EC(r 1, r 2 ) = {t CL(r 1 r 2 ) C 1 (t) C 2 (t)} avec C 1 (t) = f val (t, r 1 ) < MinThreshold 1 et C 2 (t) = f val (t, r 2 ) MinThreshold 2.

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Tuples Émergents ER (ALL, ALL, Printemps) 3 (ALL, Marseille, Printemps) 3 (2, ALL, ALL) 3 (3, ALL, ALL) 3 (3, Paris, ALL) 3 (ALL, ALL, Automne) (ALL, Paris, Automne) (2, ALL, Printemps) (2, Marseille, ALL) (2, Marseille, Printemps) (3, ALL, Automne) (3, Paris, Automne)

Estimation de la taille du Représentations du Bordures Min/Max Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Étant donnée la nature des contraintes d émergence C 1 (monotone) et C 2 (anti-monotone), le est un espace convexe. Il peut donc classiquement être représenté par deux bordures : La bordure des maximaux (les plus grands selon l ordre de généralisation) satisfaisant la contrainte C 2 notée U. La bordure des minimaux (les plus petits selon l ordre de généralisation) satisfaisant la contrainte C 1 et C 2 notée L. Définition (Bordures [L ;U]) { L = min g ({t CL(r 1 r 2 ) C 1 (t) C 2 (t)}) U = max g ({t CL(r 1 r 2 ) C 1 (t) C 2 (t)})

Estimation de la taille du Représentations du Bordures Min/Max Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Étant donnée la nature des contraintes d émergence C 1 (monotone) et C 2 (anti-monotone), le est un espace convexe. Il peut donc classiquement être représenté par deux bordures : La bordure des maximaux (les plus grands selon l ordre de généralisation) satisfaisant la contrainte C 2 notée U. La bordure des minimaux (les plus petits selon l ordre de généralisation) satisfaisant la contrainte C 1 et C 2 notée L. Définition (Bordures [L ;U]) { L = min g ({t CL(r 1 r 2 ) C 1 (t) C 2 (t)}) U = max g ({t CL(r 1 r 2 ) C 1 (t) C 2 (t)})

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il spécialise un tuple de L (satisfait C 1 et C 2 ) t (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il spécialise un tuple de L (satisfait C 1 et C 2 ) t (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il spécialise un tuple de L (satisfait C 1 et C 2 ) t (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure L du de nos relations exemples : (ALL, ALL, Printemps) (2, ALL, ALL) (3, ALL, ALL) (ALL, ALL, Automne) Exemple

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure L du de nos relations exemples : (ALL, ALL, Printemps) (2, ALL, ALL) (3, ALL, ALL) (ALL, ALL, Automne) Exemple Le tuple (ALL, Marseille, Printemps) est émergent car il généralise (2, Marseille, Printemps) et il spécialise (ALL, ALL, Printemps)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure L du de nos relations exemples : (ALL, ALL, Printemps) (2, ALL, ALL) (3, ALL, ALL) (ALL, ALL, Automne) Exemple Le tuple (ALL, Marseille, ALL) n est pas émergent car il ne spécialise aucun tuple de L

Estimation de la taille du Représentations du Bordures Max/Max Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max La négation d une contrainte monotone est une contrainte anti-monotone. La contrainte C 1 est représentable par l ensemble des plus grands tuples (selon l ordre de généralisation) ne satisfaisant pas C 1. Grâce à cette propriété, nous proposons une nouvelle bordure (U ) qui se substitue à L. Définition (Bordures ]U ;U]) { U = max g ({t CL(r 2 ) C 1 (t) C 2 (t)}) U = max g ({t CL(r 2 ) C 1 (t) C 2 (t)})

Estimation de la taille du Représentations du Bordures Max/Max Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max La négation d une contrainte monotone est une contrainte anti-monotone. La contrainte C 1 est représentable par l ensemble des plus grands tuples (selon l ordre de généralisation) ne satisfaisant pas C 1. Grâce à cette propriété, nous proposons une nouvelle bordure (U ) qui se substitue à L. Définition (Bordures ]U ;U]) { U = max g ({t CL(r 2 ) C 1 (t) C 2 (t)}) U = max g ({t CL(r 2 ) C 1 (t) C 2 (t)})

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U# U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il ne généralise aucun tuple t de U (ne satisfait pas C 1 et satisfait C 2 ) (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U# U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il ne généralise aucun tuple t de U (ne satisfait pas C 1 et satisfait C 2 ) (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max L U# U (Ø,..., Ø) Un tuple t est émergent si et seulement si : 1 il généralise un tuple de U (satisfait C 2 ) 2 il ne généralise aucun tuple t de U (ne satisfait pas C 1 et satisfait C 2 ) (ALL,..., ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure U du de nos relations exemples : (ALL, Marseille, ALL) (ALL, Paris, ALL) Exemple

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure U du de nos relations exemples : (ALL, Marseille, ALL) (ALL, Paris, ALL) Exemple Le tuple (ALL, Marseille, Printemps) est émergent car il généralise (2, Marseille, Printemps) et ne généralise ni (ALL, Marseille, ALL) ni (ALL, Paris, ALL)

Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Bordure U du de nos relations exemples : (2, Marseille, Printemps) (3, Paris, Automne) Bordure U du de nos relations exemples : (ALL, Marseille, ALL) (ALL, Paris, ALL) Exemple Le tuple (ALL, Marseille, ALL) n est pas émergent car il généralise un tuple de U

Estimation de la taille du Représentations du Intérêts des bordures Max/Max Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Utilisent deux bordures de même nature (des maximaux) donc un seul et même algorithme pour calculer le couple de bordures. Expérimentalement bien plus réduites que les bordures Min/Max. Nous ont permis de proposer une caractérisation naturelle de la taille du. Grâce à ces bordures nous avons proposé une représentation sans perte d information extrêmement réduite.

Constats Introduction Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Points négatifs : Le problème de comptages des tuples émergent est P-Complet. L énumération des tuples émergents et l extraction des bordures du sont NP-Difficiles. Point positif : Dans le contexte OLAP le nombre de dimensions est raisonnable (3 Dim 20). Cela nous enseigne : Dans le cas général, les algorithmes de calcul du Cube Émergent (ou de ses bordures) sont inabordables. Mais dans notre cas on peut considérer le problème comme traitable.

Constats Introduction Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Points négatifs : Le problème de comptages des tuples émergent est P-Complet. L énumération des tuples émergents et l extraction des bordures du sont NP-Difficiles. Point positif : Dans le contexte OLAP le nombre de dimensions est raisonnable (3 Dim 20). Cela nous enseigne : Dans le cas général, les algorithmes de calcul du Cube Émergent (ou de ses bordures) sont inabordables. Mais dans notre cas on peut considérer le problème comme traitable.

Constats Introduction Estimation de la taille du Représentations du Cadre formel : Le treillis cube Concepts Bordures Min/Max Bordures Max/Max Points négatifs : Le problème de comptages des tuples émergent est P-Complet. L énumération des tuples émergents et l extraction des bordures du sont NP-Difficiles. Point positif : Dans le contexte OLAP le nombre de dimensions est raisonnable (3 Dim 20). Cela nous enseigne : Dans le cas général, les algorithmes de calcul du Cube Émergent (ou de ses bordures) sont inabordables. Mais dans notre cas on peut considérer le problème comme traitable.

Plan Introduction Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation 1 Introduction 2 3 Estimation de la taille du Taille du Caractérisation de la taille Estimation 4 Représentations du 5

Estimation de la taille du Représentations du Taille du Taille du Caractérisation de la taille Estimation Plus le est petit par rapport au cube de r 2 : Plus l information capturée a une forte sémantique (renversement de tendances les plus pertinents). Plus il sera facilement appréhendable et manipulable par l utilisateur. Plus une approche algorithmique dédiée sera performante. Connaître la taille a priori permet : Pour l utilisateur de calibrer les contraintes pour obtenir un résultat approprié sans faire de calculs inutiles et couteux. Pour le système de choisir l approche algorithmique la plus adaptée. Pour l administrateur prévoir l espace de stockage nécessaire pour le.

Estimation de la taille du Représentations du Problème du calcul Taille du Caractérisation de la taille Estimation Le problème est P-Complet : compter le nombre de tuples émergents est difficile. La seule solution est de parcourir (énumérer) l espace de recherche et pour chaque tuple tester son émergence. Plus le nombre de tests est minimisé plus le comptage sera efficace Les bordures résument l ensemble des tuples émergents. On peut s en servir pour réduire le nombre de tests.

Estimation de la taille du Représentations du Caractérisation de la taille exacte Taille du Caractérisation de la taille Estimation Définition (Idéal d un Ordre) Soit T CL(r) un ensemble de tuples. Un idéal d ordre généré par T est noté T et comprend tous les tuples généralisant au moins un tuple de T. T est défini comme suit : T = {t CL(r) t T t g t } L ensemble des tuples satisfaisant une contrainte anti-monotone forme un idéal d ordre. Cet idéal peut être généré à partir des tuples maximaux satisfaisant la contrainte.

Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation Proposition (Taille du ) Soit ]U, U] les bordures du EC(r 1, r 2 ). La taille de ce dernier peut être exprimée de la manière suivante : EC(r 1, r 2 ) = U U U (Ø,..., Ø) U# (Ø,..., Ø) L (Ø,..., Ø) (ALL,..., ALL) (ALL,..., ALL) (ALL,..., ALL)

Estimation de la taille du Représentations du Caractérisation de la taille exacte Taille du Caractérisation de la taille Estimation Enumérer les éléments d un idéal d ordre peut se faire directement. Avec cette caractérisation on peut calculer la taille exacte d un sans faire aucun test d émergence. Compter le nombre exact d éléments distincts (la cardinalité) d un multi-ensemble demande de conserver en mémoire la liste de tous les éléments déjà rencontrés. Dans notre cas, cette liste ne tient pas en mémoire centrale. Le grand nombre d accès disque générés par les accès aléatoires à cette liste a un coût prohibitif (temps).

Estimation Introduction Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation Calculer la taille exacte du consomme trop de mémoire. Les nombreux accès disque générés rendent ce calcul impratiquable. Connaître la taille exacte n est pas indispensable. La contrainte d exactitude peut être relachée, une bonne approximation suffit. Nous proposons un nouvel algorithme Idea-LogLog qui se base sur le meilleur algorithme d estimation de la cardinalité d un multi-ensemble connu HyperLogLog.

Intérêts Introduction Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation Cet algorithme ne demande qu un seul passage sur les données. Donc les coûts d accès disque sont réduits au minimum. Le temps de réponse dépend principalement du nombre de dimensions. Ce nombre étant dans notre contexte borné (3 Dim 20), l estimation de la taille est efficace. Complexité mémoire très faible (en O(log log N)) avec 1024 octets on peut estimer des cardinalités > 10 9 Expérimentalement, on a constaté que l estimation est tout à fait correcte (taux d erreur inférieur à 5%) et dans un temps plusieurs ordres de grandeur inférieur au temps de calcul du complet.

Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation Tailles exacte et approximative du pour les données météorologiques : 10 8 3.0 Ec(r) 2.5 Estimation de Ec(r) Nombre de tuples 2.0 1.5 1.0 0.5 0.0 40 60 80 100 120 140 160 180 200 MinThreshold 1

Estimation de la taille du Représentations du Taille du Caractérisation de la taille Estimation Estimation et temps de calcul du pour les données météorologiques : Temps d exécution en s 10 3 10 2 10 1 10 0 Temps de calcul de Ec(r) Temps d estimation de Ec(r) 10 1 40 60 80 100 120 140 160 180 200 MinThreshold 1

5 Plan Introduction Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales 1 Introduction 2 3 Estimation de la taille du 4 Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales

Estimation de la taille du Représentations du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Dans un contexte OLAP, la valeur du taux d émergence doit être retrouvée. Les bordures ne suffisent plus. Le a une taille du même ordre de grandeur que le data cube complet. Il est donc important d avoir une structure la plus réduite possible, pour restreindre le problème du stockage. En se basant sur le travail fait sur les bordures nous proposons plusieurs représentations sans perte d information (taux d émergence).

Estimation de la taille du Représentations du Cubes Fermés Émergents Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Fermeture Cubique) Soit T CL(r) un ensemble de tuples, l opérateur de Fermeture Cubique C : CL(r) CL(r) selon T peut être défini comme suit : C(t, T ) = (,..., ) + t T,t g t t Un tuple t est dit fermé sur r si et seulement si C(t, r) = t. L ensemble des tuples fermés d une relation r forme une couverture du cube de données pour les fonctions mesures compatibles avec la fermeture (comme SUM ou COUNT) grâce à la propriété suivante : f val (t, r) = f val (C(t, r), r)

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Couverture du ) Un ensemble de tuples T est une couverture du (basée sur la fermeture cubique) ssi t CL(r 1 r 2 ) : 1 on peut décider si t est un tuple émergent. 2 si t est émergent alors C(t, T ) = C(t, r 1 r 2 ) Définition (Tuple Fermé Émergent) Soit t CL(r 1 r 2 ) un tuple, t est un tuple fermé émergent ssi : 1 t est un tuple émergent ; 2 C(t, r 1 r 2 ) = t.

Estimation de la taille du Représentations du L-Cubes Fermés Émergents Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L ensemble des tuples fermés émergents n est pas une couverture du car même si on peut calculer correctement la fermeture, il existe des tuples pour lesquels on ne peut pas décider s ils sont émergents ou non. Afin de résoudre le problème d appartenance et ainsi obtenir une couverture du (basée sur la fermeture cubique), nous combinons les tuples fermés émergents avec les bordures. Définition (L-Cube Fermé Émergent) L-ECC(r 1, r 2 ) = {t CL(r 1 r 2 ) t est un tuple fermé émergent} L

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L-Cube Fermé Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (*, 1, 1) :3 (2, *, *) :3 (3, 2, *) :3 (*, *, 1) :3 (2, *, *) :3 (3, *, *) : (*, *, 3) :3

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L-Cube Fermé Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (*, 1, 1) :3 (2, *, *) :3 (3, 2, *) :3 (*, *, 1) :3 (2, *, *) :3 (3, *, *) : (*, *, 3) :3

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L-Cube Fermé Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (*, 1, 1) :3 (2, *, *) :3 (3, 2, *) :3 (*, *, 1) :3 (2, *, *) :3 (3, *, *) : (*, *, 3) :3

Estimation de la taille du Représentations du U -Cubes Fermés Émergents Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales La bordure L ne contient pas que des tuples fermés. Pour obtenir une couverture uniquement à base de fermés on remplace la bordure L par U. La nouvelle représentation bénéficie de tous les avantages de la bordure U (compacité et calcul efficace) Définition (U -Cube Fermé Émergent) U -ECC(r 1, r 2 ) = {t CL(r 1 r 2 ) t tuple fermé émergent} U

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales U -Cube Fermé Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (*, 1, 1) :3 (2, *, *) :3 (3, 2, *) :3 (*, 1, *) (*, 2, *)

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales U -Cube Fermé Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (*, 1, 1) :3 (2, *, *) :3 (3, 2, *) :3 (*, 1, *) (*, 2, *)

Estimation de la taille du Représentations du Fermés Réduits Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Pour obtenir une couverture du nous avons enrichi l ensemble des tuples fermés d une bordure. Peut-on réduire l information ajoutée aux fermés émergents tout en conservant une couverture? Avant de répondre à cette question. Il faut savoir quel est le rôle exact de l information ajoutée.

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Proposition t CL(r 1 r 2 ), t est un tuple émergent si et seulement si : C(t, U -ECC(r 1, r 2 )) U -ECC(r 1, r 2 )\U L ajout de U permet donc de décider si un tuple t est émergent uniquement en calculant sa fermeture. Définition (Tuple Fermé Émergent Redondant) t U, t est un tuple fermé redondant si et seulement si C(t, U -ECC(r 1, r 2 )\{t}) = t. En d autres termes un tuple de U est redondant ssi sa suppression du U -Cube Fermé Emergent ne change pas le système de fermeture.

Estimation de la taille du Représentations du Fermés Réduits Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Bordure Réduite U ) La bordure U Réduite, notée U, est la bordure U purgée de tous les tuples fermés redondants. U = {t U tel que t n est pas un tuple fermé redondant} Définition (U -Cube Fermé Émergent Réduit) Le U -Cube Fermé Émergent Réduit est défini comme suit : R-ECC(r 1, r 2 ) = {t CL(r 2 ) t est un tuple émergent fermé} U

Estimation de la taille du Représentations du Cube Quotient Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Les Cubes Fermés Émergents sont des représentations du Cube Émergent qui permettent pour chaque tuple de dériver sa mesure. Mais les opérateurs de navigation (Roll-Up/ Drill-Down) ne sont pas préservés. Pour proposer une couverture du préservant la sémantique de navigation nous adaptons le Cube Quotient pour le en faisant le lien entre Cube Quotient et la fermeture cubique.

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Relation d équivalence quotient) Soit f une fonction mesure. La relation d équivalence f est dite relation d équivalence quotient si et seulement si elle satisfait la propriété de congruence faible : t, t, u, u CL(r), si t f t, u f u, t g u et u g t, alors t f u. Définition (Cube Quotient) Soit CL(r) le treillis cube de la relation r et f une relation d équivalence quotient. Le Cube Quotient de r, noté QuotientCube(r, f ), est défini comme suit : QuotientCube(r, f ) = {([t] f, f val (t, r)) tel que t CL(r)}. Le Cube Quotient de r est une partition convexe de CL(r).

Estimation de la taille du Représentations du Sémantique basée sur la fermeture Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Relation de Couverture) Soit t CL(r), la couverture de t est un ensemble de tuples de r qui sont généralisés par t (i.e. cov(t, r) = {t r tel que t g t }). Deux tuples t, t CL(r) sont dits équivalents selon la relation de couverture sur r, t cov t, s ils ont la même couverture. Proposition Soit t, t CL(r), t est équivalent selon la couverture à t sur r si et seulement si t et t partagent la même fermeture cubique. Cette proposition montre le lien fort qu il existe entre le Cube Quotient et la fermeture cubique. Il est ainsi possible de définir un Cube Quotient à partir de l opérateur de fermeture.

Estimation de la taille du Représentations du Cubes Quotient Émergent Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Définition (Cube Quotient Émergent) Nous appelons Cube Quotient Émergent l ensemble des classes d équivalence de CL(r 1 r 2 ) émergeant de r 1 vers r 2 : EQC(r 1, r 2 ) = {([t] C, ER(t)) tel que [t] C QuotientCube(r 1 r 2, C ) et t est émergent}. Il est important de remarquer que les bordures [L; U] sont incluses dans le Cube Quotient Émergent. Le lien avec la fermeture cubique garantit que pour tout tuple émergent la valeur de la mesure puisse être retrouvée. Le Cube Quotient Émergent est donc une représentation sans perte de mesure du.

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Le Cube Quotient Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (, 1, 1) : 3 (2,, 1) : (2, 1, ) : (3,, 3) : (3, 2, ) : 3 (, 2, 3) : (,, 1) : 3 (2,, ) : 3 (,, 3) : (3,, ) : 3

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Le Cube Quotient Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (, 1, 1) : 3 (2,, 1) : (2, 1, ) : (3, 2, ) : 3 (,, 1) : 3 (2,, ) : 3 (,, 3) : (3,, ) : 3

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Le Cube Quotient Émergent de notre exemple : (,, ) (2, 1, 1) : (3, 2, 3) : (, 1, 1) : 3 (2,, 1) : (2, 1, ) : (3, 2, ) : 3 (,, 1) : 3 (2,, ) : 3 (,, 3) : (3,, ) : 3

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Plusieurs structures ont été proposées pour représenter le Cube Émergent. Chacune a été conçue dans un objectif précis : Les bordures pour tester l émergence. Les Cubes Fermés Émergents pour les requêtes OLAP. Le Cube Quotient Émergent pour la navigation. Théorème Soit [L; U], L-ECC and EQC des représentations pour le Cube Émergent (EC) de deux relations r 1 et r 2. Nous avons alors : [L; U] L-ECC EQC EC Ce théorème confirme l intuition selon laquelle plus l utilisateur a besoin de fonctionnalités, plus le volume d informations à préserver est important.

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Plusieurs structures ont été proposées pour représenter le Cube Émergent. Chacune a été conçue dans un objectif précis : Les bordures pour tester l émergence. Les Cubes Fermés Émergents pour les requêtes OLAP. Le Cube Quotient Émergent pour la navigation. Théorème Soit [L; U], L-ECC and EQC des représentations pour le Cube Émergent (EC) de deux relations r 1 et r 2. Nous avons alors : [L; U] L-ECC EQC EC Ce théorème confirme l intuition selon laquelle plus l utilisateur a besoin de fonctionnalités, plus le volume d informations à préserver est important.

Estimation de la taille du Représentations du Approche algorithmique Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Pour que le soit un opérateur directement exploitable par l utilisateur, les algorithmes de calcul que nous proposons sont intégrables directement dans les SGBD. Avec une approche relationnelle intégrable, il est possible de tirer pleinement partie des outils d analyse ROLAP existants. Le ne sera ainsi qu un cube particulier et, comme on le fait déjà avec le cube de données originel, il sera possible de l interroger, l explorer, y naviguer.

Estimation de la taille du Représentations du Approche algorithmique Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L U# U (Ø,..., Ø) P3 P2 P1 (ALL,..., ALL) Sens du parcours de E-IDEA Les algorithmes parcourent le treillis cube de bas en haut et partitionne-agrége recursivement l entrée (à la BUC). Le parcours comporte trois phases : P 1 : tuples non émergents (le parcours doit continuer) P 2 : tuples émergents (phase principale) P 3 : tuples non émergents (arrêt du parcours)

Estimation de la taille du Représentations du Approche algorithmique Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales L U# U (Ø,..., Ø) P3 C 1 (t) C 2 (t) P2 P1 Sens du parcours de E-IDEA C 1 (t) C 2 (t) début P 1 C 1 (t) C 2 (t) P 2 C 2 (t) C 2 (t) P 3 (ALL,..., ALL)

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Plateforme IDEA (Intégrable DatabasE Algorithms) Nous avons proposé un ensemble de concepts autour du Cube Émergent. Pour chacun de ces concepts nous avons proposé un algorithme. Tous ces algorithmes forment la plateforme logicielle IDEA. E-Idea : calcule le complet. F-Idea : calcule les différentes bordures du. C-Idea : calcule les représentations du basées sur la fermeture cubique. K-Idea : calcule le Cube Quotient Émergent. Idea-LogLog : estime la taille du.

Estimation de la taille du Représentations du Évaluations expérimentales Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Pour valider toutes nos propositions (représentations et algorithmes), nous les avons évaluées expérimentalement sur des jeux de données : synthétiques en modifiant plusieurs paramêtres comme le nombre de dimensions, la taille des relations, la taille des domaines des attributs dimensions ou encore le biais. réélles en faisant varier la contrainte d émergence. Les résultats obtenus sont convainquants et confirment les résultats théoriques.

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Ratios de réduction pour les relations de données météorologiques : Facteur de réduction 0.6 0.5 0.4 0.3 0.2 L-Ecc(r) U -Ecc(r) R-Ecc(r) Eqc(r) 0.1 0.0 40 60 80 100 120 140 160 180 200 MinThreshold 1

Estimation de la taille du Représentations du Cubes Fermés Émergents Cube Quotient Émergent Liens entre les différentes représentations Approche algorithmique Évaluations expérimentales Temps de calcul des bordures L et U pour les relations de données météorologiques : 14 12 F-Idea Mafia Temps d exécution en s 10 8 6 4 2 40 60 80 100 120 140 160 180 200 MinThreshold 1

Plan Introduction Estimation de la taille du Représentations du Bilan des contributions Perspectives 1 Introduction 2 3 Estimation de la taille du 4 Représentations du 5 Bilan des contributions Perspectives

Estimation de la taille du Représentations du Bilan des contributions Perspectives Définition d un nouveau concept, le, permettant de capturer les renversements de tendances entre plusieurs ensembles de données. Mise au point une méthode d estimation de la taille pour que l utilisateur puisse calibrer ses contraintes. Proposition d un panel de représentations visant à réduire le coût de stockage en fonction des besoins des utilisateurs. Dévelopement d une plateforme algorithmique intégrable au sein des SGBD. Évaluation expérimentale de touts les algorithmes et représentation.

Estimation de la taille du Représentations du Bilan des contributions Perspectives Évaluation des temps d exécution des requêtes OLAP sur les représentations proposées et gestion du cycle de vie du Cube Émergent. Intégration des hiérarchies. Généralisation des concepts du aux Cubes Contraints. Adaptation de C-Idea pour calculer n importe quel système de fermeture sur le treillis des parties[].

Estimation de la taille du Représentations du Bilan des contributions Perspectives Merci de votre attention.

Plan Bibliographie Estimation de la taille du Représentations du 6 Bibliographie 7 8 Estimation de la taille du 9 Représentations du

Bibliographie Estimation de la taille du Représentations du Sameet Agarwal, Rakesh Agrawal, Prasad Deshpande, Ashish Gupta, Jeffrey F. Naughton, Raghu Ramakrishnan et Sunita Sarawagi : On the computation of multidimensional aggregates. In International Conference on Very Large Data Bases, pages 506 521, 1996. Francesco Bonchi et Claudio Lucchese : On closed constrained frequent pattern mining. In International Conference on Data Mining, pages 35 42, 2004. Kevin S. Beyer et Raghu Ramakrishnan : Bottom-up computation of sparse and iceberg cubes. In SIGMOD 1999, pages 359 370, 1999.

Bibliographie Estimation de la taille du Représentations du Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Cube lattices : A framework for multidimensional data mining. In SIAM International Conference on Data Mining, 2003. Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Extracting semantics from data cubes using cube transversals and closures. In International Conference on Knowledge Discovery and Data Mining, pages 69 78, 2003. Alain Casali, Sébastien Nedjar, Rosine Cicchetti, Lotfi Lakhal et Noel Novelli : Lossless reduction of datacubes using partitions. IJDWM, 5(1):18 35, 2009.

Bibliographie Estimation de la taille du Représentations du Alain Casali, Sébastien Nedjar, Rosine Cicchetti et Lotfi Lakhal : Convex cube : Towards a unified structure for multidimensional databases. In Database and Expert Systems Applications, pages 572 581, 2007. Alain Casali, Sébastien Nedjar, Rosine Cicchetti et Lotfi Lakhal : Closed cube lattices. Annals of Information Systems, pages 145 164, 2009. Guozhu Dong et Jinyan Li : Mining border descriptions of emerging patterns from dataset pairs. Knowl. Inf. Syst., 8(2):178 202, 2005.

Bibliographie Estimation de la taille du Représentations du Philippe Flajolet, Eric Fusy, Olivier Gandouet et Frédéric Meunier : Hyperloglog : the analysis of a near-optimal cardinality estimation algorithm. In Proceedings of the Conference on Analysis of Algorithms, AofA 07, pages 127 146, 2007. Jim Gray, Surajit Chaudhuri, Adam Bosworth, Andrew Layman, Don Reichart, Murali Venkatrao, Frank Pellow et Hamid Pirahesh : Data cube : A relational aggregation operator generalizing group-by, cross-tab, and sub totals. Data Min. Knowl. Discov., 1(1):29 53, 1997.

Bibliographie Estimation de la taille du Représentations du Jiawei Han, Jian Pei, Guozhu Dong et Ke Wang : Efficient computation of iceberg cubes with complex measures. In SIGMOD Conference, pages 1 12, 2001. Venky Harinarayan, Anand Rajaraman et Jeffrey D. Ullman : Implementing data cubes efficiently. In International Conference on Management of Data, pages 205 216, 1996. Marc Laporte, Noel Novelli, Rosine Cicchetti et Lotfi Lakhal : Computing full and iceberg datacubes using partitions. In ISMIS, pages 244 254, 2002.

Bibliographie Estimation de la taille du Représentations du Laks V. S. Lakshmanan, Jian Pei et Jiawei Han : Quotient cube : How to summarize the semantics of a data cube. In International Conference on Very Large Data Bases, pages 778 789, 2002. Konstantinos Morfonios et Yannis E. Ioannidis : Supporting the data cube lifecycle : the power of rolap. VLDB J., 17(4):729 764, 2008. Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Cocktail de cubes. In Dominique Laurent, éditeur : 22èmes Journées Bases de Données Avancées, 2006.

Bibliographie Estimation de la taille du Représentations du Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Cubes convexes. Ingénierie des Systèmes d Information, 11(6):11 31, 2006. Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Emerging cubes for trends analysis in olap databases. In Data Warehousing and Knowledge Discovery. Springer, 2007. Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Résumés du cube emergent. In 23èmes Journées Bases de Données Avancées,, 2007.

Bibliographie Estimation de la taille du Représentations du Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Upper borders for emerging cubes. In Data Warehousing and Knowledge Discovery, pages 45 54, 2008. Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Emerging cubes : Borders, size estimations and lossless reductions. Information Systems, 34(6):536 550, 2009.

Bibliographie Estimation de la taille du Représentations du Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Cubes fermés / quotients Émergents. In Extraction et gestion des connaissances, Revue des Nouvelles Technologies de l Information, 2010. à paraitre. Sébastien Nedjar, Alain Casali, Rosine Cicchetti et Lotfi Lakhal : Reduced representations of emerging cubes for olap database mining. IJBIDM, 5(1):268 300, 2010.

Bibliographie Estimation de la taille du Représentations du Sébastien Nedjar : Exact and approximate sizes of convex datacubes. In Data Warehousing and Knowledge Discovery, pages 204 215, 2009. Dong Xin, Jiawei Han, Xiaolei Li, Zheng Shao et Benjamin W. Wah : Computing iceberg cubes by top-down and bottom-up integration : The starcubing approach. IEEE Trans. Knowl. Data Eng., 19(1):111 126, 2007. Guizhen Yang : The complexity of mining maximal frequent itemsets and maximal frequent patterns. In International Conference on Knowledge Discovery and Data Mining, pages 344 353, 2004.

Bibliographie Estimation de la taille du Représentations du Guizhen Yang : Computational aspects of mining maximal frequent patterns. Theor. Comput. Sci., 362(1-3):63 85, 2006. Xiuzhen Zhang, Pauline Lienhua Chou et Guozhu Dong : Efficient computation of iceberg cubes by bounding aggregate functions. IEEE Trans. Knowl. Data Eng., 19(7):903 918, 2007.

Plan Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures 6 Bibliographie 7 Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures 8 Estimation de la taille du 9 Représentations du

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Taille du et de ses bordures [L; U] et ]U ; U] avec D = 10, C = 100, S = 0 10 8 1.0 Ec(r) 0.8 [L; U] ]U ; U] Nombre de tuples 0.6 0.4 0.2 0.0 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Taille de la relation r

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Taille du et de ses bordures [L; U] et ]U ; U] avec D = 10, T = 1000K, S = 0 10 7 9 Ec(r) Nombre de tuples 8 7 6 5 4 3 [L; U] ]U ; U] 2 1 0 0 200 400 600 800 1000 Cardinalité de chaque dimension

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Taille du et de ses bordures [L; U] et ]U ; U] avec D = 10, C = 100, T = 1000K 10 7 1.4 Ec(r) Nombre de tuples 1.2 1.0 0.8 0.6 0.4 [L; U] ]U ; U] 0.2 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Biais

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Taille du et de ses bordures [L; U] et ]U ; U] pour les relations de données météorologiques 10 8 3.0 Ec(r) Nombre de tuples 2.5 2.0 1.5 1.0 [L; U] ]U ; U] 0.5 0.0 40 60 80 100 120 140 160 180 200 MinThreshold 1

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul du avec D = 10, C = 100, S = 0 1000 800 E-Idea requête Sql Temps d exécution en s 600 400 200 0 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Taille de la relation r

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul du avec D = 10, T = 1000K, S = 0 Temps d exécution en s 800 700 600 500 400 300 200 E-Idea requête Sql 100 0 0 200 400 600 800 1000 Cardinalité de chaque dimension

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul du avec D = 10, C = 100, T = 1000K 140 120 E-Idea requête Sql Temps d exécution en s 100 80 60 40 20 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Biais

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul du pour les relations de données météorologiques 3000 2500 E-Idea requête Sql Temps d exécution en s 2000 1500 1000 500 0 40 60 80 100 120 140 160 180 200 MinThreshold 1

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul des bordures L et U avec D = 10, C = 100, S = 0 Temps d exécution en s 28 26 24 22 20 18 16 F-Idea Mafia 14 12 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Taille de la relation r

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul des bordures L et U avec D = 10, T = 1000K, S = 0 14 12 F-Idea Mafia Temps d exécution en s 10 8 6 4 2 0 200 400 600 800 1000 Cardinalité de chaque dimension

Bibliographie Estimation de la taille du Représentations du Taille du et de ses bordures Temps de calcul du Temps de calcul des bordures Temps de calcul des bordures L et U avec D = 10, C = 100, T = 1000K Temps d exécution en s 0.8 0.7 0.6 0.5 0.4 0.3 0.2 F-Idea Mafia 0.1 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Biais

Plan Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du 6 Bibliographie 7 8 Estimation de la taille du Tailles exacte et approximative du Estimation et temps de calcul du 9 Représentations du

Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du Tailles exacte et approximative du avec D=10, C=100, T =1000K : 10 7 1.4 Ec(r) 1.2 Estimation de Ec(r) Nombre de tuples 1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Biais

Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du Tailles exacte et approximative du avec D=10, T =1000K, S=0 : 10 7 9 Ec(r) 8 7 Estimation de Ec(r) Nombre de tuples 6 5 4 3 2 1 0 200 400 600 800 1000 Cardinalité de chaque dimension

Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du Tailles exacte et approximative du avec D=10, C=100, S=0 : 10 8 1.00 Ec(r) 0.95 0.90 Estimation de Ec(r) Nombre de tuples 0.85 0.80 0.75 0.70 0.65 0.60 0.55 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Taille de la relation r

Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du Estimation et temps de calcul du avec D=10, C=100, T =1000K : Temps d exécution en s 10 2 10 1 10 0 10 1 Temps de calcul de Ec(r) Temps d estimation de Ec(r) 10 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Biais

Bibliographie Estimation de la taille du Représentations du Tailles exacte et approximative du Estimation et temps de calcul du Estimation et temps de calcul du avec D=10, T =1000K, S=0 : 10 2 Temps de calcul de Ec(r) Temps d estimation de Ec(r) Temps d exécution en s 10 1 10 0 10 1 0 200 400 600 800 1000 Cardinalité de chaque dimension