Etude d Algorithmes Parallèles de Data Mining

Documents pareils

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

République Algérienne Démocratique et Populaire

Application de K-means à la définition du nombre de VM optimal dans un cloud

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

Introduction à la Programmation Parallèle: MPI

Analyse de grandes bases de données en santé

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Rapport d activité. Mathieu Souchaud Juin 2007

Tutoriel. Votre site web en 30 minutes

Limitations of the Playstation 3 for High Performance Cluster Computing

Initiation à LabView : Les exemples d applications :

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

TP Bases de données réparties

UNIVERSITE HASSAN II DE CASABLANCA. FACULTE DES SCIENCES & TECHNIQUES MOHAMMEDIA Département Génie Electrique

Algorithmique et structures de données I

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Gestion de mémoire secondaire F. Boyer, Laboratoire Sardes

Initiation au HPC - Généralités

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Le théorème de Thalès et sa réciproque

Information utiles. webpage : Google+ : digiusto/

OBSERVATOIRE DE L EPARGNE EUROPEENNE

Livre blanc. Au cœur de Diskeeper 2010 avec IntelliWrite

Aspects théoriques et algorithmiques du calcul réparti L agglomération

Technologie SDS (Software-Defined Storage) de DataCore

Les diagrammes de modélisation

Raisonnement probabiliste

Jean-François Boulicaut & Mohand-Saïd Hacid

ITIL V2 Processus : La Gestion des Configurations

Big Data et Graphes : Quelques pistes de recherche

Programmation parallèle et distribuée

NETWORK & SOFTWARE ENGINEERING MANUEL D UTILISATEUR. Logiciel TIJARA. NETWORK AND SOFTWARE ENGINEERING Manuel d'utilisateur "TIJARA" 1

Asynchronisme : Cadres continu et discret

CURRICULUM VITAE. Informations Personnelles

Projet Active Object

Introduction au maillage pour le calcul scientifique

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Panorama des solutions analytiques existantes

Bases de données Cours 1 : Généralités sur les bases de données

Infolettre #18 : Les graphiques avec Excel 2010

Guide de configuration de SQL Server pour BusinessObjects Planning

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Solutions de stockage réseau

Activités numériques [13 Points]

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Etude comparative de différents motifs utilisés pour le lancé de rayon

Découverte du tableur CellSheet

CHAPITRE 1 ARCHITECTURE

DES SAUVEGARDES ET DES RESTAURATIONS DE DONNEES SANS CONTRAINTES DE LIEU NI DE TEMPS

Initiation à l algorithmique

Haute disponibilité avec PostgreSQL

11 Février 2014 Paris nidays.fr. france.ni.com

Parallélisme et Répartition

Licences Windows Server 2012 R2 dans le cadre de la virtualisation

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

TSTI 2D CH X : Exemples de lois à densité 1

Les bases de données Page 1 / 8

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Tune Sweeper Manuel de l'utilisateur

FAQ sur le Service courriel d affaires TELUS

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Didier MOUNIEN Samantha MOINEAUX

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Les suites numériques

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Tests de performance du matériel

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Oracle Maximum Availability Architecture

Les algorithmes SLIQ et SSDM

S inscrire et ouvrir une session sur le site Web du nouveau FamilySearch

GL Processus de développement Cycles de vie

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Algèbre binaire et Circuits logiques ( )

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Présentation de la majeure ISN. ESILV - 18 avril 2013

agility made possible

Runtime. Gestion de la réactivité des communications réseau. François Trahay Runtime, LaBRI sous la direction d'alexandre Denis Université Bordeaux I

CORRECTION EXERCICES ALGORITHME 1

10 façons d optimiser votre réseau en toute sécurité

SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Problèmes liés à la concurrence

1. Aménagements technologiques 2. Installation de Microsoft SQL Server 2012

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Big Data et Graphes : Quelques pistes de recherche

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

EMC Data Domain Boost for Oracle Recovery Manager (RMAN)

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Transcription:

REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE PROJET DE FIN D ETUDES D INGENIEURS EN INFORMATIQUE Etude d Algorithmes Parallèles de Data Mining Organisme d accueil : Faculté des Sciences de Tunis. Réalisé par : Heithem ABBES. Majed CHATTI. Encadré par : Mr. Mohamed JEMNI. Mme. Khadija ARROUR. Mr. Yahia SLIMANI. ANNEE UNIVERSITAIRE 2002/2003

Plan Conclusion et perspectives. 2/44

Introduction 3/44

Introduction Augmentation des volumes des bases de données Extraction d informations implicites. Emergence de nouvelles techniques. Knowledge Discovery in Databases (KDD). Data Mining, Text Mining, Web Mining, Multimedia Mining. Intérêts du Data Mining : Marketing, Médecine Algorithmes séquentiels de recherche de règles associatives. Problèmes de performances Nouvelles approches parallèles. 4/44

Algorithmes séquentiels Règles Associatives. Algorithme Apriori. Exemple. 5/44

Règles associatives Règles associatives (Agrawal). A B Exemple: Age > 25 & Revenu < 8000 modèle_voiture=populaire Concepts de base: Support : nombre d apparitions / nombre de transactions. Soit supmin le support minimum accepté. Support de la règle : sup(a B) = sup(a U B) Confidence : pourcentage des transactions contenant B sachant qu elles contiennent A. Confidence de la règle : conf(a B) = sup (A U B) / sup(a) Recherche de Règles associatives. Décomposition du problème: Générer l ensemble des items fréquents. Déduire les règles associatives. 6/44

Algorithme Apriori L algorithme Apriori (Agrawal) Déterminer l ensemble des 1-itemsets_fréquents. Générer l ensemble des k-itemsets_candidats à partir de l ensemble des (k-1)-itemsets_fréquents. Calculer les supports des items candidats. Déterminer l ensemble des k-itemsets_fréquents (minsup). L algorithme AprioriTID Représente une amélioration de l algorithme Apriori. Moins d accès à la base de données. Remplacer la base de données par un ensemble intermédiaire. 7/44

Exemple (1/3) minsup = 2 Tid 1 2 3 4 5 6 Items A C D E AB C A B C ABE BE BC Base de données 8/44

Exemple (2/3) Calcul des supports des 1-itemset_candidats. Items A B C D E Support 4 5 4 1 3 Génération de l ensemble des 1-itemsets_frequents. Items Support Génération de l ensemble des 2-itemsets_candidats. Items AB AC AE BC BE CE Support 3 3 2 3 2 1 9/44

Exemple (3/3) Items AB AC AE BC BE Support 3 3 2 3 2 Génération de l ensemble des 2-itemsets_frequents. CE 1 Items Support Génération de l ensemble des 3-itemsets_candidats. Génération de l ensemble {ABC, ABE, ACE, BCE}. Elimination des items : ACE, BCE car CE n est pas fréquent. Items Support ABC 2 ABE 1 Génération de l ensemble des 3-itemsets_frequents = ABC. Ensemble des candidats = Ø FIN. 10/44

Conclusion Caractéristiques des algorithmes séquentiels Coût Exponentiel Plusieurs scans de la base de données Très mauvaises performances Solution Parallélisme? 11/44

Algorithmes parallèles Count Distribution (CD). Data Distribution(DD). Intelligent Data Distribution(IDD). 12/44

Count Distribution (CD) (1/2) Agrawal & Shafer. Répartition de la base de données sur les processeurs. Pas de division de l ensemble des candidats. Redondance de traitement. Accès à la base. Calcul des supports. Communication à la fin du calcul. Count Distribution (CD) Opération de réduction globale. 13/44

Count Distribution (CD) (2/2) Etape préliminaire : générer l ensemble des items fréquents. Première étape : générer l ensemble des items candidats à partir de l ensemble des items fréquents générés à l itération précédente. Deuxième étape : calculer les support des items candidats. Troisième étape : échanger des supports calculés entre les différents processeurs. Quatrième étape: générer l ensemble des items fréquents. Cinquième étape : terminer / revenir à la première étape. 14/44

Data Distribution (DD) (1/2) Agrawal & Shafer. Partitionne la base de données. Partitionne l ensemble des candidats (Aléatoire). Echange de buffers de données. Communication de type ALL-TO-ALL. Data Distribution (DD) 15/44

Data Distribution (DD) (2/2) Etape préliminaire : générer de l ensemble des items fréquents. Première étape : - générer l ensemble items candidats. - répartir cet ensemble sur les processeurs. Deuxième étape : calculer les supports des candidats locaux. Troisième étape : former l ensemble local des items fréquents. Quatrième étape : échanger ces ensembles entre les processeurs. 16/44

Intelligent Data Distribution (IDD) Amélioration de DD. Processus de communication en anneau logique. Intelligent Data Distribution (IDD) 17/44

Implémentations parallèles Data Distribution. Processus de communication. Programme. Intelligent Data Distribution Processus de communication. Programme. 18/44

Data Distribution (1/4) Processus de communication: Chaque processeur transmet ses données à tous les autres. P 0 Quatre processeurs P 0,P 1,P 2,P 3 P 0 transmet ses données à P 1,P 2,P 3. P 3 P 1 P 1 transmet ses données à P 0,P 2,P 3. P 2 transmet ses données à P 0,P 1,P 3. P 2 P 3 transmet ses données à P 0,P 1,P 2. Communication ALL_TO_ALL 19/44

Data Distribution (2/4) Programme: Etape préliminaire Oui C vide Non Calcule support Recherche items fréquents Comp Non Oui Collecte items fréquents Générer candidats Déterminer les items distincts, leurs supports, puis éliminer les items non fréquents et générer l ensemble Ce test est candidat vrai s il e n taille y a plus 2. de candidats. Accède à la base locale et les autres bases pour calculer les Condition supports = le nombre des items d apparitions candidats est supérieur au support minimum. Ce test est vrai lorsque le nombre de candidats est supérieur au nombre de processeurs. Chaque processeur transmet son calcul local à tous les autres pour construire l ensemble global des items fréquents. Génération de l ensemble des candidats de taille k+1 Fin 20/44

Intelligent Data Distribution(1/2) Processus de communication: Deux communications point à point : émission et réception. Copie du contenu du buffer de réception dans le buffer d émission. Copie RBuf SBuf P 0 SBuf RBuf Copie P 3 P 1 Copie RBuf SBuf SBuf P 2 RBuf Copie Communication en anneau logique 21/44

Intelligent Data Distribution (2/2) Fonction calcul support: Ouverture du fichier de base de données Oui Fin Fichier? Non Remplir buffer SBuf Comp Non Déclencher l émission de SBuf Déclencher la réception dans RBuf Traiter SBuf Wait Copier RBuf dans SBuf Incrémenter compt Oui Emission asynchrone non bloquante (MPI_Isend) Réception asynchrone non bloquante (MPI_Irecv) Attendre la fin des opérations de communication asynchrones Copier RBuf dans Sbuf pour une nouvelle communication Ces opérations sont répétées (p-1) fois Fin 22/44

Evaluation expérimentale Environnement de travail. Machine parallèle SP2. Bibliothèque MPI. Exécution séquentielle. Exécution parallèle de DD. Exécution parallèle de IDD. Comparaison entre DD et IDD. Synthèse. 23/44

Environnement de travail Machine parallèle SP2. 8 nœuds. 4 processeurs par nœuds. Entre nœuds: mémoire distribuée. Au sein d un même nœud: mémoire partagée. Bibliothèque MPI Interface de communication entre processus. Base de données synthétique d IBM de 100000 transactions. 24/44

Exécution séquentielle DD/IDD sur un seul processeur. Nécessaire pour calculer les paramètres du parallélisme. Accélération : temps séquentiel/temps parallèle.. Efficacité : accélération/nombre de processeurs. temps d'execution 5000 4500 4000 3500 3000 seq 2500 2000 1500 1000 500 0 10% 9% 8% 7% 6% 5% support Temps d exécution augmente lorsque le support diminue. 25/44

Exécution parallèle de DD (1/2) Temps d'exécution 4750 4500 4250 4000 3750 3500 3250 3000 2750 2500 2250 2000 1750 1500 1250 1000 750 500 250 0 Sequentielle 2 procs 4 procs 8 procs 12 procs 16 procs 10% 9% 8% 7% 6% 5% Support Supports 10%, 9%, 8% : communication importante/traitement. pas de communication au sein d un même nœud. Meilleur temps d exécution obtenu avec 4 processeurs. Support 7% : Traitement augmente légèrement. Apport du parallélisme non apparent Meilleur résultat obtenu avec 8 processeurs. 26/44

Exécution parallèle de DD (2/2) Temps d'exécution 4750 4500 4250 4000 3750 3500 3250 3000 2750 2500 2250 2000 1750 1500 1250 1000 750 500 250 0 Sequentielle 2 procs 4 procs 8 procs 12 procs 16 procs 10% 9% 8% 7% 6% 5% Support Support 6% : Part de traitement augmente. Inutile de passer jusqu à 16 processeurs. Meilleur temps d exécution obtenu avec 12 processeurs. Support 5% : Apport du parallélisme est nettement perceptible. Meilleur temps d exécution obtenu avec 16 processeurs. 27/44

Exécution parallèle de IDD 4750 4500 4250 4000 3750 3500 3250 sequentiel 2 procs 4 procs 8 procs Supports 10%, 9%, 8% : Meilleur temps donné par 8 processeurs grâce au mode de communication. Temps d'exécution 3000 2750 2500 2250 2000 1750 12 procs 16 procs Support 7% : Plus de traitement. Meilleur temps de réponse donné par 12 processeurs 1500 1250 1000 750 Supports 6% et 5%: l exécution sur 16 processeurs donne le meilleur temps de réponse. 500 250 0 10% 9% 8% 7% 6% 5% Support 28/44

Comparaison entre DD et IDD (1/14) Cas de deux processeurs: temps d exécution: T em ps d'ex écutio n 3500 3000 2500 2000 1500 1000 500 0 DD IDD 10% 9% 8% 7% 6% 5% support Deux processeurs de même nœud. Communication à travers la mémoire partagée Différence entre DD et IDD Processus de communication Même résultat pour DD et IDD. Courbes d exécution de DD et IDD sur 2 processeurs 29/44

Comparaison entre DD et IDD (2/14) Cas de deux processeurs : Accélération : acceleration 1,75 1,7 IDD 1,65 DD 1,6 1,55 1,5 1,45 1,4 1,35 10% 9% 8% 7% 6% 5% support Courbes d accélération de DD et IDD sur 2 processeurs Support diminue => traitement augmente. Plus de synchronisations. accélération diminue légèrement. Même temps d exécution pour DD et IDD. Même accélération pour DD et IDD 30/44

Comparaison entre DD et IDD (3/14) Cas de quatre processeurs: Temps exécution Accélération T e m p s d 'e 'e x é c u ti ti o n 2000 1800 1600 1400 1200 1000 800 600 400 200 0 DD IDD 10% 9% 8% 7% 6% 5% support a ccelera tio n 3,5 3 2,5 2 1,5 1 0,5 0 IDD DD 10% 9% 8% 7% 6% 5% support Courbes d exécution de DD et IDD sur 4 processeurs Courbes d accélération de DD et IDD sur 4 processeurs Quatre processeurs de même nœud. Même constatations que sur 2 processeurs. Plus de synchronisations => décélération plus importante. 31/44

Comparaison entre DD et IDD (4/14) Cas de huit processeurs: Temps d exécution: T em ps d'éx ecutio n 1200 1100 1000 900 800 700 600 500 400 300 200 100 0 DD IDD 10% 9% 8% 7% 6% 5% support IDD meilleur que DD Différence négligeable. Courbes d exécution de DD et IDD sur 8 processeurs 32/44

Comparaison entre DD et IDD (5/14) Cas de huit processeurs: Accélération: support 10% 9% 8% 7% 6% 5% Accélération DD 1,59 1,67 2,19 3,14 3,93 4,19 Accélération IDD 3,47 3,32 3,53 4,73 4,62 4,51 Tableau d accélérations du DD et IDD Pour les support élevés: DD donne des accélérations faibles. DD s améliore pour les supports faibles. IDD donne de meilleures accélérations même sur 10% et 9%. Apport de IDD au niveau de la communication par rapport à DD. 33/44

Comparaison entre DD et IDD (6/14) acceleration 8 7 6 5 4 3 2 1 Cas de huit processeurs: IDD DD Pour IDD : Supports 10%, 9%, 8%: Communication élevée. Faible accélération. Support 7% : Nombre de candidats augmente. Traitement augmente. Meilleure accélération. 0 10% 9% 8% 7% 6% 5% support Courbes d accélération de DD et IDD sur 8 processeurs Supports 6% et 5% : Légère diminution de l accélération. Nombre de processeurs insuffisants. 34/44

Comparaison entre DD et IDD (7/14) Cas de huit processeurs: Pour DD : acceleration 8 7 6 5 4 3 IDD 2 DD 1 0 10% 9% 8% 7% 6% 5% support Courbes d accélération de DD et IDD sur 8 processeurs Processus de Communication non performant. Accélération médiocre pour les supports élevés. Support diminue =>Accélération augmente. Accélération ne dépasse jamais celle de IDD. 35/44

Comparaison entre DD et IDD (8/14) Cas de douze processeurs: Temps d exécution: T em ps d'ex ecutio n 1000 900 800 700 600 500 400 300 200 100 0 DD IDD 10% 9% 8% 7% 6% 5% support Plus de communication. La différence entre DD et IDD est plus importante. Courbes d exécution de DD et IDD sur 12 processeurs 36/44

Comparaison entre DD et IDD (9/14) Cas de douze processeurs: Accélération: support Accélération DD Accélération IDD 10% 0,85 2,26 DD donne des résultats médiocres 9% 0,95 2,52 8% 1,27 2,79 7% 2,47 5,43 Tableau d accélérations du DD et IDD 6% 4,15 6,32 5% 5,19 6,27 DD moins performant que l algorithme séquentiel pour 10% et 9%. IDD donne une faible accélération pour 10% et 9% mais nettement meilleure que celle de DD. Pour les supports 6% et 5% la différence entre DD et IDD diminue. La part de traitement est plus importante par rapport à celle de communication. 37/44

Comparaison entre DD et IDD (10/14) Cas de douze processeurs: Accélération: acceleration 8 7 6 5 4 3 2 1 0 IDD DD 10% 9% 8% 7% 6% 5% support Courbes d accélération de DD et IDD sur 12 processeurs Pour IDD : Passage de 8% à 7% Amélioration importante de l accélération. Nombre de processeurs insuffisants à partir de 6%. Légère atténuation de la courbe. Pour DD : Support diminue=>accélération augmente. Accélération ne dépasse jamais celle de IDD 38/44

Comparaison entre DD et IDD (11/14) Cas de seize processeurs : Temps d exécution : Support 10% 9% 8% 7% 6% 5% Temps séquentiel 206,75 233,13 355,69 758,11 1960,99 4495,86 Temps parallèle DD 356,44 360,11 379,79 400,75 560,44 855,11 Temps parallèle IDD 138,74 145,49 144,56 159,47 310,54 600,89 Tableau d accélérations du DD et IDD DD est moins performant que l algorithme séquentiel pour les supports suivants : 10%, 9% et 8%. IDD donne de mauvais temps de réponses pour ces supports mais ne dépasse pas le temps séquentiel. 39/44

Comparaison entre DD et IDD (12/14) Cas de seize processeurs : Temps d exécution : Temps d'exécution 900 800 700 600 500 400 300 200 100 0 DD IDD 10% 9% 8% 7% 6% 5% support Courbes d exécution de DD et IDD sur 16 processeurs La différence entre DD et IDD est plus perceptible. 40/44

Comparaison entre DD et IDD (13/14) Cas de seize processeurs : Accélération : support 10% 9% 8% 7% 6% 5% Accélération DD 0,58 0,65 0,94 1,89 3,50 5,26 Accélération IDD 1,49 1,60 2,46 4,75 6,31 7,48 Tableau d accélérations du DD et IDD Sur 16 processeurs : apport net de IDD par rapport à DD. Pour 10% : accélération très faible. Pour 5% : bonne accélération. 41/44

Comparaison entre DD et IDD (14/14) Cas de seize processeurs : Accélération : acceleration 8 7 6 5 4 3 2 1 0 IDD DD 10% 9% 8% 7% 6% 5% support Pour IDD : Pas d atténuation de la courbe. Pour DD : accélération s améliore de plus en plus que le support diminue. Ne dépasse jamais celle de IDD. Courbes d accélération de DD et IDD sur 16 processeurs 42/44

Synthèse Pour DD, avec des support élevés, les meilleurs temps de réponse sont donnés par l exécution sur 4 processeurs. Pour des supports faibles, 4 processeurs ne suffisent plus. Si nous augmentons le nombre de processeurs sans diminuer le support, DD devient moins performant que l algorithme séquentiel à partir de 12 processeurs. L apport de IDD est d autant plus perceptible que le support est faible et que le nombre de processeur est élevé. Les résultats données par IDD sont toujours plus meilleurs que ceux donnés par DD. IDD est bien meilleur que DD. Accès disque + réseaux non rapide Dégradation des performances des deux algorithmes 43/44

Conclusion et Perspectives Conclusion : Les techniques de Data Mining suscitent de plus en plus d intérêt. Les algorithmes séquentiel on un coût exponentiel. Les améliorations faites sur ces algorithmes ne sont pas intéressantes. Le recours à des techniques de parallélisme semble être la meilleure solution. Les algorithmes de recherche de règles associatives réalisent plusieurs passes sur la base de données. Perspectives : Prévoir une nouvelle approche qui réduit les accès au disque. Prévoir une nouvelle Parallélisation de l algorithme Apriori. 44/44

PROJET DE FIN D ETUDES D INGENIEURS EN INFORMATIQUE Etude d Algorithmes Parallèles de Data Mining Réalisé par Heithem ABBES. Majed CHATTI. Encadré par Mr. Mohamed JEMNI. Mme. Khadija ARROUR. Mr. Yahia SLIMANI MERCI POUR VOTRE ATTENTION Pour plus d informations veuillez contacter: a_heithem@yahoo.fr & c_majed@yahoo.fr 45/44

PROJET DE FIN D ETUDES D INGENIEURS EN INFORMATIQUE Etude d Algorithmes Parallèles de Data Mining Réalisé par Heithem ABBES. Majed CHATTI. Encadré par Mr. Mohamed JEMNI. Mme. Khadija ARROUR. Mr. Yahia SLIMANI MERCI POUR VOTRE ATTENTION Pour plus d informations veuillez contacter: a_heithem@yahoo.fr & c_majed@yahoo.fr 46/44