Mémoire. En vue de l obtention du diplôme de Magister en Informatique. Option : SIC (Systèmes d Information et de Connaissances)



Documents pareils
Techniques d optimisation des requêtes dans les data warehouses

et les Systèmes Multidimensionnels

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Chapitre 9 : Informatique décisionnelle

Entrepôt de données 1. Introduction

Ministère de l Enseignement Supérieur et de la Recherche Scientifique. Ecole nationale Supérieure d Informatique (ESI) (Oued Semar, Alger) Mémoire

Les Entrepôts de Données

UNIVERSITÉ MOHAMMED V AGDAL. FACULTÉ DES SCIENCES Rabat THÈSE DE DOCTORAT. Présentée par ELhoussaine ZIYATI Discipline : Sciences de l ingénieur

Business Intelligence : Informatique Décisionnelle

Introduction à la B.I. Avec SQL Server 2008

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Oracle Décisionnel : Modèle OLAP et Vue matérialisée D BILEK

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Bases de Données Avancées

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Présentation du module Base de données spatio-temporelles

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Bases de données multidimensionnelles et mise en œuvre dans Oracle

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Urbanisation des SI-NFE107

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

La place de la Géomatique Décisionnelle dans le processus de décision

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

LES ENTREPOTS DE DONNEES

Intelligence Economique - Business Intelligence

Business & High Technology

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

2 Serveurs OLAP et introduction au Data Mining

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Méthodologie de conceptualisation BI

Les entrepôts de données

Dossier I Découverte de Base d Open Office

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Les Entrepôts de Données. (Data Warehouses)

QU EST-CE QUE LE DECISIONNEL?

ETL Extract - Transform - Load

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Business Intelligence

Apprentissage Automatique

et les Systèmes Multidimensionnels

BI = Business Intelligence Master Data-ScienceCours 3 - Data

TP Bases de données réparties

Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Master Exploration Informatique des données DataWareHouse

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Fouille de Données : OLAP & Data Warehousing

Encryptions, compression et partitionnement des données

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

1 Introduction et installation

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Datawarehouse and OLAP

FreeAnalysis. Schema Designer. Cubes

La problématique. La philosophie ' ) * )

SWISS ORACLE US ER GRO UP. Newsletter 5/2014 Sonderausgabe. OBIF DB licensing with VMware Delphix 12c: SQL Plan / Security Features

MYXTRACTION La Business Intelligence en temps réel

SAP BusinessObjects Web Intelligence (WebI) BI 4

Présentations personnelles. filière IL

Le Langage SQL version Oracle

4.2 Unités d enseignement du M1

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Business Intelligence avec Excel, Power BI et Office 365

UE 8 Systèmes d information de gestion Le programme

Big Data On Line Analytics

Hervé Couturier EVP, SAP Technology Development

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Bases de Données OLAP

Intégration de données hétérogènes et réparties. Anne Doucet

Bases de Données. Plan

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Le langage SQL Rappels

Pourquoi IBM System i for Business Intelligence

Ici, le titre de la. Tableaux de bords de conférence

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Big Data et Graphes : Quelques pistes de recherche

SQL SERVER 2008, BUSINESS INTELLIGENCE

Big Data et Graphes : Quelques pistes de recherche

Structure fonctionnelle d un SGBD

BUSINESS INTELLIGENCE

Entrepôt de Données. Jean-François Desnos. ED JFD 1

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

TP Conception de Datawarehouse Initiation à ORACLE WAREHOUSE BUILDER Cédric du Mouza

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Catalogue Formation «Vanilla»

Entreposage de données complexes pour la médecine d anticipation personnalisée

Concevoir et déployer un data warehouse

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Cours Bases de données

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

Module BDR Master d Informatique (SAR)

Option OLAP d'oracle Database 10g

Le Data Warehouse. Fait Vente. temps produit promotion. magasin. revenu ... Produit réf. libellé volume catégorie poids. Temps jour semaine date ...

Transcription:

République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique E.S.I (Ecole nationale Supérieure d Informatique) (ex. INI) Mémoire En vue de l obtention du diplôme de Magister en Informatique Option : SIC (Systèmes d Information et de Connaissances) Approche dirigée par les fourmis pour la fragmentation horizontale des entrepôts de données relationnels Présenté par Dirigé par : Mohamed BARR : Mr. Ladjel BELLATRECHE, Maître de conférences Université Poitiers, France Devant le jury : Mr. A. BALLA, Maître de conférences ESI (Ex INI), Alger Mme. A.R BENATCHBA, Maître de conférences ESI (Ex INI), Alger Mr. A.R GHOMARI, Maître de conférences ESI (Ex INI), Alger Mr. K. BOUKHALFA, Maître de conférences USTHB, Alger Président Examinatrice Examinateur Examinateur Année universitaire: 2008-2009

Dédicaces «Louange à Dieu le tout puissant qui nous a aidé à achever ce travail de recherche, et que le salut soit sur son prophète Mohamed». A mes chers parents et beau-père à titre posthume ; A mes (belles) sœurs et (beaux) frères. A ma petite famille : «ma femme, mes enfants : Raid Salaheddine, Moaied Billah Mohamed, Selsabil, Tesnime, et Iyed Seif Elaqsa», et à ma belle-mère ; A ceux qui croient que la science est la seule voie pour accéder à une parfaite civilisation ; Et à ceux qui m ont aidé moralement et concrètement, de près ou de loin, pour réussir notre effort ; Je dédie cet humble mémoire.

Remerciements Je tiens à remercier vivement Monsieur BELLATRECHE Ladjel de m avoir proposé ce sujet qui s intègre dans une activité (Biomimétique) prometteuse qui aide à solutionner pas mal de problèmes qui restaient longtemps difficiles. Je n oublie pas mes gratitudes reconnaissances aux Docteurs BOUKHALFA Kamel, GHOMARI Réda Abdessamed et BOUKRA Abderrazek, pour leurs précieuses aides et orientations. Mes sincères salutations sont cordialement présentées à tous les membres de jury, composé de : - Mr. Amar BALLA de m avoir honoré par sa présidence du jury. Je le remercie également pour l intérêt qu il porte à ce travail. - Mme BENATCHBA, et Mrs Réda Abdessamed GHOMARI et Kamel BOUKHALFA d avoir accepté de faire partie du jury. Leur participation m honore.

Résumé Le sujet abordé rentre dans le cadre d utilisation de la biomimétique appliquée à l optimisation des entrepôts de données relationnels. Il consiste à utiliser l algorithme basé sur les colonies de fourmis pour la sélection d une technique d optimisation dans un entrepôt de données relationnel. La technique étudiée est celle de la fragmentation horizontale qui représente l une des techniques d optimisation non redondantes. Le caractère NP-Complet caractérisant cette technique justifie le recours aux méthodes approchées ou «méta heuristiques» pour résoudre ce problème en un temps fini. En effet, l intelligence collective des fourmis artificielles dans la résolution des problèmes d optimisation combinatoire NP-Complets est une activité très prometteuse. Cette approche tire sa capacité par le transfert d apprentissage au sein de la colonie d une manière stigmergique qui utilise l environnement pour communiquer le choix de bonnes solutions en se basant sur la visibilité et le dépôt de phéromone. L émergence vers les solutions optimales, en un temps fini, a fait de cette méthode approchée une possibilité de recours convenable. A travers notre travail, nous avons modélisé notre problème de sélection d un schéma de fragmentation horizontale pour être pris en charge par l approche basée sur les colonies de fourmis tout en définissant les variables d entrées qui sont : l entrepôt de données non fragmenté, la charge de requêtes fréquemment utilisées et le nombre maximal de fragments exigé par l administrateur de l entrepôt de données. Le résultat en sortie est le schéma de fragmentation horizontale qui minimise le coût global de la charge de requêtes. Le paramétrage approprié de dépôt de la phéromone, et l expression significative de l heuristique qui représente la visibilité, nous ont permis d obtenir des résultats très satisfaisants comparables aux résultats déjà obtenus en utilisant l algorithme génétique qui a fait ses preuves pour résoudre ce problème de fragmentation horizontale dans les entrepôts de données relationnels. L expérimentation de notre approche en utilisant un Benchmark (APB1 dans notre cas) est un moyen important pour vérifier l efficacité de la méthode proposée d une part, et de pouvoir la situer par rapport à d autres méthodes qui existent dans ce domaine, d autre part. Mots clés : Biomimétique, Entrepôt de données, Structures non redondantes, Optimisation, Problème NP-Complet, Métaheuristique, Colonie de fourmis.

Abstract The subject matter falls within the scope of use of biomimetic applied to the optimization of relational data warehouses. It involves using the algorithm based on ant colony for the selection of an optimization technique in a relational data warehouse. The horizontal fragmentation is a non-redundant technique. The NP-complete nature characterizing the selection of this technique justifies the use of approximate methods or metaheuristics to solve this problem in a finite time. Indeed the collective intelligence of artificial ants in solving combinatorial optimization problems NP- Complete is a highly promising. This approach draws its capacity through the transfer of learning within the colony in a manner that uses stigmergy environment to communicate the choice of good solutions based on visibility and depositing pheromone. The rise to optimal solutions in a finite time has made this method an approximate proper recourse. Through our work we have modeled the problem of selecting a horizontal fragmentation pattern to be supported by the ants approach with the following input variables: the unfragmented data warehouse, the query load frequently used, the maximum number of fragments required by the administrator of the data warehouse. The result output is a horizontal fragmentation pattern that minimizes the overall cost of the query load. Setting proper filing of the pheromone, and significant expression of heuristics which represents the visibility; we have obtained satisfactory results comparable to the ones already obtained using the genetic algorithm which is used to solve the problem of horizontal fragmentation in relational data warehouses. The testing of our approach according to a Benchmark (APB1 in our case) is an important way to verify the effectiveness of the method used on the one hand, and to situate it in relation to other methods that exist in this area on the other hand. Keywords: Biomimetics, Data Warehouse, Non-redundant structures, Optimization, NP-Complete problem, Metaheuristics, Ant-colony.

Sommaire Dédicaces... 2 Remerciements... 3 Résumé... 4 Liste des tableaux... 11 Liste des algorithmes... 12 Chapitre I. Introduction générale... 13 I.1. Problématique... 13 I.2. Motivations pour l utilisation de la métaheuristique basée sur les colonies de fourmis... 14 I.3. Notre approche... 15 I.4. Organisation du mémoire... 15 Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel... 17 II.1. Introduction... 17 II.2. Notion d entrepôt de données... 18 II.3. Modèle de données pour les entrepôts... 23 II.4. Opérations liées à la structure... 24 II.5. Opérations associées à la granularité... 25 II.6. Les implémentations des modèles multidimensionnels... 26 II.7. Structures d optimisation d un entrepôt de données... 27 II.7.1. Les index... 28 II.8. Les vues matérialisées... 32 II.9. Sélection simultanée d index et des vues matérialisées... 38 II.10. Fragmentation... 40 II.11. Aperçu sur les travaux de fragmentation verticale... 42 II.12. Conclusion... 42 Chapitre III. Fragmentation Horizontale... 43 III.1. Introduction... 43 III.2. Fragmentation horizontale dans les entrepôts de données... 44 III.3. Méthodologie de fragmentation horizontale dans les entrepôts de données... 52 III.4. La complexité de la procédure de fragmentation... 53 III.5. Méthodes de fragmentation horizontale... 54

III.6. Processus de fragmentation horizontale... 55 III.7. Optimisation avec contraintes... 56 III.8. Estimation de la sélectivité des prédicats... 58 III.9. Estimation de la sélectivité des prédicats complexes... 59 Chapitre IV. Les Méta heuristiques. Cas particulier : méta heuristiques basées sur les fourmis... 60 IV.1. Introduction... 60 IV.2. Généralités sur la notion d optimisation... 60 IV.3. Etat de l art sur les méta-heuristiques... 63 IV.4. Colonies de fourmis... 69 IV.5. Fourmis artificielles... 70 IV.6. Inspiration dans le domaine de robotique... 73 IV.7. Les fourmis et l optimisation combinatoire... 73 IV.8. Méta heuristique basée sur les fourmis... 74 IV.9. Applications de la métaheuristique de fourmis... 74 IV.10. Les fourmis et le problème de classification... 76 IV.11. Méthodes de partitionnement et les fourmis... 79 IV.12. Hybridation des méthodes de Colonie de fourmis avec d autres heuristiques... 79 IV.13. Efficacité de l Algorithme basé sur les fourmis ACS (Ant colonies system)... 80 IV.14. Optimisation à base de Colonie de Fourmis (ACO) appliquées dans les bases de données... 81 Chapitre V. Approche dirigée par les fourmis pour la sélection de la fragmentation horizontale pour l optimisation d un entrepôt de données relationnel.. 85 V.1. Introduction... 85 V.2. Architecture générale de la solution... 87 V.3. Définition du problème de sac à dos... 88 V.4. Formulation Mathématique... 89 V.5. Formalisation de notre problème de fragmentation horizontale en utilisant le problème du sac à dos... 90 V.6. Définition des paramètres nécessaires pour l application de l Algorithme de Colonie de Fourmis... 96 V.7. Schéma de l entrepôt de données (en étoile)... 98 V.8. Implémentation de la solution... 100 V.9. Evaluation des résultats... 106

V.10. Résultats d expérimentation... 109 V.11. Validation sous Oracle 10g... 112 V.12. Etude comparative entre l Algorithme Génétique et L Algorithme de Colonie de Fourmis... 120 V.13. Interprétation des résultats obtenus relativement aux deux méthodes... 128 Chapitre VI. Conclusion générale... 129 Bibliographie... 132 Annexe-1... 137 Annexe-2... 159

Liste des figures Figure 1. Architecture générale d un Datawarehouse [GOGLIN, 2000]... 20 Figure 2. Schéma de l entrepôt (Modèle Conceptuel de Données MCD)... 22 Figure 3. Un exemple de cube... 24 Figure 4. Classification des techniques d optimisation... 28 Figure 5. Exemple d'expression AND-DAG [AOUICHE, 2005]... 36 Figure 6. Recommandation de technique d optimisation de RIZZI et SALTARELLI [DARMONT, 2006]... 39 Figure 7. Schéma d une recherche locale [CANEGHEM, 2002]... 64 Figure 8. Exemple d un voisinage 2 opt [CANEGHEM, 2002]... 65 Figure 9. Exemple d un voisinage 3 opt [CANEGHEM, 2002]... 65 Figure 10. Évolution des publications sur les fourmis artificielles [MONMARCHE, 2007]... 69 Figure 11. Emergence des fourmis en fonction de dépôt de phéromone... 73 Figure 12. Architecture générale de la solution retenue... 87 Figure 13. Quel objet à mettre dans le sac?... 88 Figure 14. Graphe des prédicats de sélection... 91 Figure 15. Modèle Logique de Données de l entrepôt du Benchmark APB1... 98 Figure 16. Menu principal du logiciel... 101 Figure 17. Fenêtre principale du logiciel... 102 Figure 18. Paramètres d utilisation... 103 Figure 19. Lancement du logiciel... 104 Figure 20. Visualisation des résultats... 105 Figure 21. Sauvegarde des résultats... 106 Figure 22. Capture d écran du schéma de fragmentation plus l indication des tailles des partitions obtenues par le logiciel... 108 Figure 23. Evolution du nombre d'e/s en fonction du nombre de fragments... 109 Figure 24. Gains en nombre d'entrées/sorties en fonction du nombre de fragments... 110 Figure 25. Dégradation de la solution pour la négligence du facteur Bêta de l heuristique... 112 Figure 26. Capture d écran : taille de la table des faits actvars du Benchmark, avant fragmentation... 114 Figure 27. Capture d écran : taille des partitions de la table des faits partitionnée appelée «actvars_partitionné_by_list» du Benchmark, après fragmentation... 116 Figure 28. Comparaison entre l AG et l Approche des Fourmis (Nombre d Entrées/Sorties) en fonction des nombres de fragments... 124 Figure 29. Comparaisons des Résultats (gains en Entrées/Sorties) avant répartition... 125 Figure 30. Comparaison des résultats entre l AG et l Approche des Fourmis... 126 Figure 31. Comparaison des gains en nombre d entrées/sorties entre l AG et l AF suite à la répartition du fragment volumineux... 127

Figure 32. Capture d écran de création de la table partitionnée sous oracle 10g et l outil PLSQL- Developper... 172 Figure 33. Capture d écran de visualisation de la table de travail t0 sous Discoverer oracle 10g. 172 Figure 34. Histogramme de la requête Q1 avant fragmentation... 174 Figure 35. Histogramme de la requête Q1 après fragmentation... 175 Figure 36. Interface de l outil de Business Intelligence «Oracle Discoverer Administrator :... 176 Figure 37. Interface de l outil de Business Intelligence «Oracle Discoverer desctop : partie client» pour visualisation des résultats de la requête 1 après fragmentation... 176 Figure 38. Visualisation des résultats de la requête 1 après fragmentation sous Oracle Discoverer... 177 Figure 39. Capture d écran de visualisation des résultats de la requête 32 après fragmentation Sous PLSQL-Developper... 179 Figure 40. Capture d écran de visualisation des résultats de la requête 32 après fragmentation. 179 Figure 41. Histogramme requête 55 avant fragmentation... 180 Figure 42. Requête 55 après fragmentation... 181 Figure 43. Résultats obtenus à base de l Algorithme Génétique (32 fragments) [BOUKHALFA, 2005]... 181

Liste des tableaux Tableau 1. Comparaison entre les deux systèmes : ROLAP et MOLAP... 26 Tableau 2. Calcul de la pertinence entre deux vues matérialisées... 35 Tableau 3. Problèmes combinatoires traités par les fourmis [DORIGO, 2001]... 72 Tableau 4. Mapping entre le sac à dos et le problème de sélection de la fragmentation horizontale... 92 Tableau 5 Cardinalité des tables du Benchmark... 99 Tableau 6. Alimentation du logiciel des sélectivités des prédicats d attributs de l entrepôt de données du Benchmark pour évaluation des charges... 108 Tableau 7. Taux d amélioration en fonction du nombre de fragments... 109 Tableau 8. Nouveau gain en nombre d Entrées/Sorties après répartition de la partition volumineuse... 119 Tableau 9. Taux d amélioration suite à la répartition du fragment volumineux part_0... 120 Tableau 10. Tableau comparatif entre l Algorithme Génétique et l Algorithme de Colonie de Fourmis... 123 Tableau 11. Tableau comparatif des résultats entre L Approche des Fourmis et l Algorithme Génétique avant répartition des fragments volumineux... 124 Tableau 12. Comparaisons des Résultats (gains en Entrées/Sorties) avant répartition... 125 Tableau 13. Points forts et points faibles des deux méthodes (Ag et Approche des Fourmis)... 128 Tableau 14. Légende utilisée... 159 Tableau 15. Tableau d usage des prédicats simples par rapport aux requêtes de la charge... 160 Tableau 16. Tableau de mise en évidence des tailles relatives aux prédicats, dans la table des faits du Benchmark... 162 Tableau 17. Tableau de sélectivités des prédicats contenus dans la charge du Benchmark... 163 Tableau 18. Alimentation du logiciel par les sélectivités de tous les prédicats simples pour sélectionner les meilleurs sous ensembles de prédicats en termes d optimisation... 164 Tableau 19. Représentation des 32 fragments obtenus... 165 Tableau 20. Répartition d un prédicat sur plusieurs fragments... 169 Tableau 21. Evaluation du gain en nombre d Entrées/Sorties pour un schéma de 32 fragments. 170 Tableau 22. Eclatement de la partition volumineuse en sous partitions de tailles raisonnables en fonction de l attribut Mois_level... 171 Tableau 23. Feuille de calcul extraite des résultats via l outil Oracle Discoverer... 180

Liste des algorithmes Algorithme 1 : Algorithme de construction d un index bitmap [FAVRE, 2003]... 30 Algorithme 2 : Algorithme de sélection de vues basée sur la pertinence [AOUICHE, 2005]... 37 Algorithme 3 :Algorithme de Hill Climbing [CANEGHEM, 2002]... 64 Algorithme 4 : Algorithme de Recuit simulé [CANEGHEM, 2002]... 67 Algorithme 5 : Algorithme Tabou [BREZELLEC, 1992]... 68 Algorithme 6 : Algorithmes génétiques [CANEGHEM, 2002]... 69 Algorithme 7 : Algorithme AS-TSP [DORIGO & AL., 2002]... 75 Algorithme 8 : Algorithme de détection d un graphe hamiltonien à base des fourmis [CANEGHEM, 2002].... 76 Algorithme 9 : Algorithme ACS-LK [TADUNFOCK & AL., 2006]... 80 Algorithme 10 : Pseudo code de l algorithme de fourmis [MANIEZZO & AL., 2001]... 83 Algorithme 11 : Algorithme ACO générique adapté pour le Sac A Dos [ALAYA & AL. 2005]... 95

Chapitre I. Introduction Générale Chapitre I. Introduction générale I.1. Problématique Les entrepôts de données sont des bases de données destinées à contenir les informations de prise de décisions qui sont utiles aux managers des entreprises. Les entrepôts de données peuvent être multidimensionnels ou relationnels. Ces derniers sont conçus suivant une architecture en étoile ou en flacon de neiges. Suivant ces deux architectures, les entrepôts sont construits autour d une table de faits, souvent très volumineuse, qui peut atteindre plusieurs téraoctets, entourée de plusieurs tables de dimensions qui contiennent les axes d analyse relativement aux indicateurs ou mesures contenus dans la table des faits. La volumétrie de la table de faits et la multitude de jointures entre elles et les tables de dimensions rendent l extraction des informations, via des requêtes décisionnelles, une tâche coûteuse en temps et en espace. Pour réduire le temps de réponse des requêtes décisionnelles, il y a lieu d utiliser des structures et des techniques d optimisation, comme les index, les vues matérialisées, les techniques de fragmentation horizontale, etc. Dans [AOUICHE., 2005], il a été démontré que le problème de sélection d une telle structure ou technique de fragmentation est un problème NP-complet. Cette caractéristique de l opération de sélection a obligé les chercheurs à recourir à des méthodes approchées ou «métaheuristiques» pour résoudre ce problème en un temps fini. Parmi ces métaheuristiques, qui sont déjà utilisées dans ce contexte, nous citons le travail présenté dans [BOUKHALFA & AL., 2005] basé sur les algorithmes génétiques. Notre travail se base sur l approche des colonies de fourmis pour exploiter l intelligence collective de ces dernières afin de sélectionner un schéma de fragmentation horizontale qui soit le plus optimal possible. La particularité de notre contribution est quelle n applique pas directement un algorithme, comme le font les approches existantes, pour solutionner le problème de fragmentation, mais elle effectue un mapping entre notre problème et celui du sac à dos, qui sont tous les deux NP-complets. La résolution du problème de sac à dos à l aide de l approche des fourmis [ALAYA & AL. 2005], nous a facilité la modélisation et la résolution de notre problème tout en adaptant et paramétrant l algorithme sur le problème 13

Chapitre I. Introduction Générale de fragmentation horizontale. Nous nous sommes basés sur un modèle de coût pour estimer le coût de la fonction objectif qui consiste, dans le cadre de notre contribution, à minimiser le nombre d entrées/sorties entre le disque et la mémoire centrale lors de l exécution des requêtes décisionnelles. Nous avons supposé également que les tailles des tables de dimensions et les coûts de jointure sont négligeables Enfin, les expérimentations que nous avons mené sur le Benchmark APB1 des entrepôts de données relationnels ainsi que la comparaison des résultats obtenus par rapport à ceux obtenus en utilisant les algorithmes génétiques, sont deux facteurs d intérêt capital pour juger de la pertinence de l approche proposée dans ce magister. I.2. Motivations pour l utilisation de la métaheuristique basée sur les colonies de fourmis L approche basée sur les colonies de fourmis tire sa force des éléments suivants : Le transfert de l apprentissage au sein de la colonie de fourmis d une manière stigmergique (en utilisant l environnement) en fonction de la matière ou «phéromone» déposée par les différentes fourmis afin de guider les fourmis qui suivent. La considération de la visibilité des points de choix dans l espace de recherche, qui aide à la résolution du problème des optimums locaux. Le procédé par exploration de la méthode en fonction de l heuristique utilisée, et par exploitation d une manière stigmergique à l aide de dépôt de phéromone, a fait d elle une approche de construction et d amélioration de solution à la fois [DREO & AL, 2003]. En effet, l application de cette approche a donné de bons résultats dans l optimisation des structures de bases de données. Les travaux menés dans [BOUKRA & AL, 2007] et [MANIEZZO & AL., 2001], sont deux exemples types de l illustration de la performance de la méthode. Ils concernent respectivement les vues matérialisées et la fragmentation verticale. Dans le premier travail, les auteurs ont justifié la performance de la méthode par le phénomène d émergence dans l organisation des fourmis provoquée par le transfert de l apprentissage intelligent par rapport à des générations aléatoires utilisées dans le cadre 14

Chapitre I. Introduction Générale des algorithmes génétiques. La même conclusion peut être faite dans le cadre du deuxième travail surtout dans le cas d un nombre important de requêtes de petite taille. I.3. Notre approche Nous nous intéressons dans le présent travail à la Fragmentation Horizontale, en particulier le problème de sélection d'un schéma de fragmentation horizontale. Nous proposons une approche de sélection basée sur les colonies de fourmis. Les étapes d adaptation de notre problème d optimisation sont les suivantes : Identifier les éléments (prédicats ou fragments dans notre cas) candidats qui peuvent participer aux solutions ; Construire des solutions en fonction des éléments ou objets candidats ; Procéder aux améliorations de la fonction objectif ; Mener des expérimentations en utilisant un Benchmark ; Evaluer la démarche ; Analyser les résultats ; Comparer la méthode avec l heuristique basée sur les algorithmes génétiques ; Tirer des conclusions et projeter des perspectives. I.4. Organisation du mémoire Ce mémoire est organisé de la manière suivante : Le chapitre II présente les structures d optimisation dans un entrepôt de données dans le but de donner une idée sur les structures d optimisation déjà utilisées et rappeler les contraintes de leurs usages. Le chapitre III est consacré au principal volet de notre travail qui est «la fragmentation horizontale». Dans ce chapitre un rappel sur la complexité du problème de fragmentation est présenté, et le processus de fragmentation horizontale est discuté. La difficulté du problème de sélection de la fragmentation horizontale, comme une technique de performance et d optimisation dans un entrepôt relationnel, a conduit au recours aux solutions approchées pour résoudre ce problème. 15

Chapitre I. Introduction Générale Dans le chapitre IV, un état de l art sur les métaheuristiques est présenté. Ces métaheuristiques sont illustrées par leurs algorithmes associés, afin de mettre en évidence les variables d entrée et les résultats retournés par chaque algorithme. Une étude plus détaillée a impliqué la métaheuristique basée sur les colonies de fourmis. C est cette approche que nous avons utilisé dans le cadre de notre travail pour prendre en charge le problème de sélection de la fragmentation horizontale. Dans le chapitre V, nous présentons la modélisation du problème de sélection de la Fragmentation Horizontale en utilisant une approche basée sur les colonies de fourmis. Le formalisme retenu a fait l objet d une expérimentation basée sur l utilisation du Benchmark APB1. Les résultats obtenus ont fait l objet d une évaluation et d une analyse pour montrer la bonne configuration de l algorithme. Enfin, et pour situer notre contribution par rapport aux méthodes existantes, nous avons procédé à une comparaison entre un algorithme génétique (AG) et celui basé sur les colonies de fourmis pour déterminer tous les aspects relatifs à l utilisation des deux algorithmes. Enfin, une conclusion rappelle la problématique étudiée ainsi que les résultats obtenus. Cette conclusion nous a permis de lister quelques perspectives de prolongement de nos travaux. 16

Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel II.1. Introduction Le projet d informatique décisionnelle (ou Business Intelligence) constitue le pond qui relie la stratégie business et la stratégie technologie d information d une entreprise.[tea, 2004] Les entrepôts de données sont les bases qui contiennent les informations de prise de décision. Ces entrepôts peuvent être conçus d une manière multidimensionnelle ou relationnelle. Par rapport au modèle relationnel, les entrepôts de données sont de deux types en flocon de neiges ou en étoile. Et suivant l architecture en étoile, l entrepôt est constitué d une table de faits volumineuse, entourée de plusieurs tables de dimensions qui contiennent les axes d analyse. Pour extraire les indicateurs contenus dans les tables de faits, nous avons besoin d écrire des requêtes décisionnelles complexes caractérisées par une multitude de jointures entre la table des faits et les tables de dimensions. La conception physique des entrepôts de données est une préoccupation majeure des chercheurs dans le domaine de l informatique décisionnelle. [BELLATRECHE, 2007] Parmi les sujets qui rentrent dans le cadre de mise en place des entrepôts de données, nous trouvons les structures d optimisation ayant pour objectif fondamental la gestion des données des entrepôts d une manière performante. Ces techniques ou structures de données peuvent être des index, des vues matérialisées, ou la technique de la fragmentation (horizontale ou verticale). Certaines de ces structures présentent des avantages et/ou des inconvénients par rapport aux autres. L objectif prioritaire de ces techniques ou structures est de fournir des formes d optimisation par rapport aux différents critères tels que (le volume de stockage, la rapidité d accès, le coût de maintenance, etc..). 17

Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel La sélection d une configuration d optimisation quelconque de ces structures est un problème NP-Complet. La difficulté de sélection d une telle structure peut être résolue par des méthodes exactes ou des approches approchées. Les limitations des méthodes exactes ont obligé les chercheurs à utiliser des approches approximatives appelées «métaheuristiques». Parmi les métaheuristiques les plus récentes, nous trouvons celle basée sur les fourmis, qui a été appliqué pour résoudre plusieurs problèmes NP-Complets. Notre contribution à travers ce mémoire, consistera à appliquer l algorithme de la colonie des fourmis pour résoudre le problème NP-Complet de la technique de «Fragmentation Horizontale» dans un entrepôt de données relationnel. [BELLATRECHE & AL., 2009] A travers ce chapitre, nous allons relater l état de l art des différentes structures et techniques d optimisation dans les entrepôts de données. Puis nous présentons quelques algorithmes utilisés pour sélectionner ces techniques ou structures. II.2. Notion d entrepôt de données II.2.1. Définitions Dans [INMON, 1994], l auteur considéré comme le père du concept «datawarehouse», le définit comme suit : Le data warhouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d un processus d aide à la décision». Dans [FROMAN & AL., 2003], une deuxième définition est donnée : «Un entrepôt de données sert à consolider les données stratégiques de l organisation et les mettre à la disposition des gestionnaires à des fins d aide à la décision. Les nombreuses données accumulées dans les fichiers et les bases de données des systèmes transactionnels sont souvent dispersées, disparates, incohérentes, mal connues, et leur mise à jour n est pas toujours synchronisée. Il s agit alors de réorganiser ces grandes masses de données opérationnelles en fonction 18

Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel de quatre caractéristiques: intégration, orientation sujet, sensibilité au temps, nonvolatilité, et d un objectif: l aide à la décision». «Structure informatique dans laquelle est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les bases de données internes). L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision». Et enfin dans [KERKRI & AL., 1998], un entrepôt de données est défini comme suit : «Un entrepôt de données est défini comme étant une collection de technologies décisionnelles formant un environnement permettant aux décideurs de prendre des décisions plus pertinentes et plus rapides. Pour cela, l'entrepôt de données doit faciliter l'accès aux informations de l'entreprise, assurer la cohérence des informations et permettre le découpage des données. Ces objectifs impliquent l'intégration d'outils de requête, d'analyse et de présentation d'informations. De même les données doivent être soigneusement rassemblées à partir de différentes sources d'informations puis nettoyées et filtrées et n'être diffusées qu'après validation de leur qualité. Ainsi, l'information fournie par un entrepôt de données n'est pas une donnée brute mais une information qui éclaire le décideur ; elle est orientée sujet, agrégée, facile d'accès, fiable et pertinente, non volatile et possède un contexte temporel spécifique. Le Data Warehousing repose sur l'idée d'extraire des informations utiles et de les combiner dans un ensemble cohérent, le Data Warehouse ou entrepôt de données. La cohérence des données est mesurée globalement, elle est jugée du point de vue du manager qui cherche à savoir si par exemple un chargement de données en cours est bien un ensemble de données complet et cohérent» Ces définitions mettent l accent sur les caractéristiques suivantes des informations incluses dans l entrepôt, à savoir : 1- L information doit être thématique, c est-à-dire liée à un métier par exemple finances, ressources humaines, production, etc. 2- Elle doit être organisée pour aider à la décision. 19

Chapitre II. Les Structures d optimisation dans un Entrepôt De Données Relationnel 3- Elle doit être historiée pour permettre au décideur d aller dans le temps et faire des comparaisons et des projections dans le temps pour pouvoir donner des explications et des interprétations relativement à, l évolution de cette information. II.2.2. Entrepôt de données et bases de données opérationnelles L entrepôt de données étant la structure destinée à contenir les informations de prise de décision. Dans un système d information décisionnel séparé conceptuellement par rapport aux applications de production et dépendant pour son alimentation. Pour cet effet, le système d information décisionnel est un mécanisme à double face parce que : Il consomme des données d origines diverses, généralement opérationnelles ; Il produit des informations pour des objectifs bien définis. Figure 1. Architecture générale d un Datawarehouse [GOGLIN, 2000] II.2.3. Facteurs de succès d un Entrepôt de données Les caractéristiques le plus souvent associés à la réussite d un datawarehouse sont : des objectifs clairs à atteindre, d où la mesurabilité des phénomènes à prendre en charge, 20