ABS : Adaptive Borders Search

Documents pareils
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

2.4 Représentation graphique, tableau de Karnaugh

Etude d Algorithmes Parallèles de Data Mining

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Quatrième partie IV. Test. Test 15 février / 71

Limitations of the Playstation 3 for High Performance Cluster Computing

Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites

INFORMATIONS DIVERSES

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

République Algérienne Démocratique et Populaire

Deux disques dans un carré

Séquence 10. Géométrie dans l espace. Sommaire

1S Modèles de rédaction Enoncés

OUTILS EN INFORMATIQUE

Activités numériques [13 Points]

Le théorème de Thalès et sa réciproque

Vecteurs. I Translation. 1. Définition :

CONJUGUÉ D'UN POINT PAR RAPPORT À UN TRIANGLE

Continuité et dérivabilité d une fonction

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

Peut-on perdre sa dignité?

Consortium de recherche Value Stream Mapping Formation

Algèbre binaire et Circuits logiques ( )

5 ème Chapitre 4 Triangles

SYSTEME D EXPLOITATION : MS-DOS

TUTORAT UE5 spé PB Anatomie Séance n 1 CORRECTION.

315 et 495 sont dans la table de 5. 5 est un diviseur commun. Leur PGCD n est pas 1. Il ne sont pas premiers entre eux

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

Documentation SecurBdF

Big Data et Graphes : Quelques pistes de recherche

... /5. Bases de Données I (J. Wijsen) 23 janvier 2009 NOM + PRENOM : Orientation + Année : Cet examen contient 11 questions.

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Correction : E = Soit E = -1,6. F = 12 Soit F = y = 11. et G = -2z + 4y G = 2 6 = 3 G = G =

1 Première section: La construction générale

Jeux de caracte res et encodage (par Michel Michaud 2014)

Sylvain Meille. Étude du comportement mécanique du plâtre pris en relation avec sa microstructure.

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Si deux droites sont parallèles à une même troisième. alors les deux droites sont parallèles entre elles. alors

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Test de logiciel dans les méthodes agiles

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Sommaire de la séquence 12

Audit 360. Votre Data Center peut-il vraiment répondre à vos objectifs? À quelles conditions? Avec quelles priorités? Pour quels budgets?

Note de cours. Introduction à Excel 2007

Développer, factoriser pour résoudre

Introduction au maillage pour le calcul scientifique


!" #$#% #"& ' ( &)(*"% * $*' )#""*(+#%(' $#),")- '(*+.%#"'#/* "'") $'

Endroit Texte existant Proposition Observations Index des 30 occurrences

Le centre de gestion a le plaisir de vous adresser les statistiques professionnelles élaborées à partir des dossiers de gestion 2013.

IFT1215 Introduction aux systèmes informatiques

Cahier des clauses techniques particulières (C.C.T.P.)

CHAPITRE 10. Jacobien, changement de coordonnées.

Amélioration des indicateurs techniques pour l analyse du marché financier

Fonction quadratique et trajectoire

Conception de réseaux de télécommunications : optimisation et expérimentations

D 155 Annex 16, page 1. Projet : D155 Sous-classe : B42D Office européen des brevets, Direction de la Classification

Exercices de géométrie

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes

D 155 Annex 20, page 1. Projet : D155 Sous-classe : B42D Office européen des brevets, Direction de la Classification

Docteur José LABARERE

Chapitre. Conquérant est une toile de 1930 qui se trouve au Centre Paul Klee à Berne (Suisse). Paul Klee (1879-

INF601 : Algorithme et Structure de données

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Campus Afrique Centrale Un Centre d Excellence pour la Formation Professionnelle aux métiers de l eau, de l énergie et de l environnement

Brevet 2007 L intégrale d avril 2007 à mars 2008

Évaluation d une architecture de stockage RDF distribuée

Big Data et Graphes : Quelques pistes de recherche

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

TUTORAT UE Anatomie Correction Séance n 6 Semaine du 11/03/2013

LE MAGASIN DE FOURNIMENT DU REGIMENT ROYAL DE L ARTILLERIE CANADIENNE

# $!%$!&$'(!(!()! $(! *)#%!"$'!+!%(!**&%',&-#.*!* /!01+'$*2333

BD et XML : Exercices

Contributions aux techniques de Prise de Décision et de Valorisation Financière

La circulation méconnue de l épargne règlementée en France!

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Evolutions du Relevé de Compte 120 caractères pour les opérations de virements et de prélèvements SEPA

COMPTE RENDU GROUPE CHARTE DE LA DIVERSITE 6 JUIN 2013

L AIDE AUX ATELIERS D ARTISTES :

Chapitre 5 : Flot maximal dans un graphe

SPECIFICATION DES ECHANGES DE DONNEES INFORMATISES (E.D.I.)

Cahier des Clauses Techniques Particulières

L innovation technologique des entreprises françaises au Brésil

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Comparaison de fonctions Développements limités. Chapitre 10

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

6 ème. Rallye mathématique de la Sarthe 2013/ ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

Le seul ami de Batman

DADSU-CTL-V01X09 Version 2.1.8

Cours Premier semestre

CHEQUE DOMICILE. PAIEMENT EN LIGNE d un intervenant ou d un prestataire

Cours d Analyse. Fonctions de plusieurs variables

ÉCONOMIE. Financement des PME : les banques en première ligne 5 PAGES D OFFRES D EMPLOI. Supplément Étudiant

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

CULTURE GÉNÉRALE Histoire de l Art (RC) Philosophie (FB)

Transcription:

ABS : Adaptive Borders Search Frédéric Flouvat 1 Travail réalisé avec Fabien De Marchi 2 et Jean-Marc Petit 1 1 LIMOS - Université Blaise Pascal Clermont-Ferrand, France 2 LIRIS Université Claude Bernard Lyon, France

Introduction Travail en cours Deuxième année de thèse Objectif : Découverte des motifs fréquents maximaux d une base de données de transactions Généralisable à d autres problèmes de fouille de données [MANNILA ET TOIVONEN 97] représentable par des ensembles prédicat anti-monotone 2

Les motifs fréquents maximaux par rapport à l inclusion Permet de représenter l ensemble des fréquents FI Bordure positive Bd + (FI) Ensemble des motifs fréquents de FI maximaux (MFI) par rapport à l inclusion Bordure négative Bd - (FI) Ensemble des motifs non fréquents minimaux par rapport à l inclusion 3

Problématique Performance des algorithmes de découverte des MFI workshop Frequent Itemset Mining Implementations 2003 (ICDM 03): Apriori reste compétitif pour découvrir les MFI lorsque la taille des MFI reste «petite» Problème quand de grands MFI existent Idée d ABS: «lorsque Apriori rencontre des difficultés, on change de stratégie» Deux principaux problèmes : Comment décidé dynamiquement «lorsque Apriori rencontre des difficultés» Quelle stratégie? 4

Exemple de découverte des MFI avec Apriori Bd + (FI) ABCDEG ABCDE ABCDG ABCEG ABDEG ACDEG BCDEG ABCDF ABCD ABCE ABCF ABCG ABDE ABDF ABDG ABEG ACDE ACDF ACDG ADEG BCDE BCDF BCDG BCEG BDEG CDEG Bd - 2 (FI) ABC ABD ABE ABF ABG ACD ACE ACF ACG ADE ADF ADG AEG BCD BCE BCF BCG BDE BDF BDG BEG CDE CDF CDG CEG DEG AB AC AD AE AF AG BC BD BE BF BG CD CE CF CG DE DF DG EF EG FG A B C D E F G 5

Exemple utilisant les informations déjà découvertes ABCDEG ABCDF Bd + (FI) => 1 itération au lieu de 4 iterations avec Apriori Recherche des plus grands motifs ne comprenant pas {EF, FG} AB AC AD AE AF AG BC BD BE BF BG CD CE CF CG DE DF DG EF EG FG A B C D E F G Apriori 6

Résultats théoriques sur les bordures (1) Liens entre les bordures Transversaux minimaux d un hypergraphe [MANNILA ET TOIVONEN 97] NFI Bd - ( FI ) FI = { X R X est fréquent } NFI = { X R X est non fréquent } Bd - ( FI ) = TrMin( Bd + ( FI ) ) Bd + ( FI ) FI 7

Résultats théoriques sur les bordures (2) TrMin( TrMin( H ) ) = H [BERGE 74] avec H un hypergraphe Caractérisation de la bordure positive : Bd + ( F I ) = TrMin( Bd - ( F I ) ) 8

Stratégie fondée sur des dualisations Dualisation = calcul des transversaux minimaux Dans le même esprit que l algorithme Dualize and Advance [GUNOPOULOS D. et al. 03] Stratégie choisie à ce jour: alterne des dualisations entre les deux bordures 9

Intérêts de ABS Caractérisation exacte de la bordure positive optimiste Approche non fondée sur une heuristique comme MaxMiner, Mafia, GenMax Prix à payer : le coût de la dualisation Approche adaptative Remarque: très sensible à la première dualisation 10

Comportement adaptatif Quand Apriori doit-il s arrêter? Comportement adaptatif s appuyant sur les informations déjà découvertes Principaux paramètres pour un niveau k Taille de la bordure négative Bd - k < F k ou Bd - k F k coût de la dualisation vs coût de générer et compter avec Apriori Ratio F k / C k Si proche de 1, dualiser doit être intéressant L algorithme peut ne faire aucune dualisation, i.e. ABS = Apriori 11

Caractérisation des bordures (1) Bordure positive optimiste Bd + opt : Bd + opt = TrMin( Bd - k( FI ) ) avec Bd - k( FI ) l ensemble des motifs de la bordure négative découverts à l itération k X Bd + opt, X appartient au MFI ou X couvre un MFI Rq: plus le nombre de motifs de Bd - ( FI ) trouvés est important, plus on va tendre vers Bd + ( FI) 12

Caractérisation des bordures (2) Motifs candidats C i+1 : C i+1 = TrMin( Bd + i ( FI ) ) - U j i C j avec Bd + i ( FI ) l ensemble des MFI découverts jusqu à l itération i Ensemble des plus petits motifs ne faisant pas partie d une partie de l espace de recherche déjà caractérisé 13

Une nouvelle stratégie Bordure positive optimiste Bd + opt Bd + (à découvrir) k dualisation basée sur Bd - k Bd - Apriori 14

Une nouvelle stratégie Bordure positive optimiste Bd + opt Bd + (à découvrir) Des motifs non fréquents ont été trouvés => réitère dualisation basée sur les MFI trouvés k C k+1 Bd - 15

Une nouvelle stratégie Bd + (à découvrir) Bordure positive optimiste Bd + opt k C k+1 dualisation basée sur Bd - k+1 Bd - 16 14

Une nouvelle stratégie Bordure positive optimiste Bd + opt Bd + (à découvrir) Des motifs non fréquents ont été trouvés => réitère dualisation basée sur les MFI trouvés k C k+2 Bd - 17 14

Une nouvelle stratégie Bd + (à découvrir) Bordure positive optimiste Bd + opt k C k+2 dualisation basée sur Bd - k+2 Bd - 18 14

Etat de l art (1) MaxMiner [BAYARDO R.J. 98] Parcours par niveaux "sauts" : test le support du plus grand motif apparaissant dans le sous-arbre du motif en cours Calcul d une borne inférieure pour le support des candidats Mafia [BURDICK D. et al. 01] et Genmax [GOUDA K. et ZAKI M. 01] Parcours en profondeur Stratégies effectuant des sauts approximatifs Différentes optimisations pour le stockage de la base de données et pour limiter la taille de l arbre 19 15

Etat de l art (2) Dualize and Advance [GUNOPOULOS D. et al. 03] Dualisation à partir de motifs fréquents À partir du premier motif fréquent trouvé, recherche du motif fréquent maximal le couvrant par un parcours en profondeur Autant d itérations que de motifs fréquents maximaux 20 16

Quelques résultats expérimentaux (1) Implémentation en C++ s appuyant sur les implémentations d Apriori de C. Borgelt et B. Goethals Utilisation des arbres préfixés (trie) pour représenter les ensembles de motifs Jeux de données réels et synthétiques (FIMI) Pas la meilleure implémentation (FIMI 04) Travail en cours Comptage, dualisation pas assez performants 21 17

Quelques résultats expérimentaux (2) Mais a de meilleures performances que IBE (FIMI 03) Algorithme dérivé de Dualize and Advance Seule implémentation disponible utilisant le concept de dualisation Le nombre de dualisation peut être amélioré ABS = Apriori sur le jeu de données Retail Aucune dualisation n est faite ABS peut améliorer Apriori par un facteur 10 sur Connect, Pumsb* 22 18

Conclusion Nouvelle approche adaptative qui combine la force des algorithmes Apriori Dualize and Advance Coût élevé de la dualisation pour de grands ensembles Meilleure performance avec des heuristiques Approche générique pouvant être utilisé dans d autres problèmes de fouille de données représentable par des ensembles prédicat anti-monotone Amélioration d Apriori 23 19

Perspectives Améliorer les aspects adaptatifs 1ère dualisation Utiliser les MFI «presque vrais» Principal goulot d étranglement pour les MFI : Coût de la dualisation Tirer avantage des informations découvertes avant la première dualisation E.g. règles d association exactes, motifs fermés fréquents 24 20

Questions? 25 21