Mesurer l intérêt des règles d association



Documents pareils
Un système de visualisation pour l extraction, l évaluation, et l exploration interactives des règles d association

Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Etude d Algorithmes Parallèles de Data Mining

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Application de K-means à la définition du nombre de VM optimal dans un cloud

Troisième Atelier Qualité des Données et des Connaissances

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

LES FONDEMENTS DE L'ANALYSE STATISTIQUE IMPLICATIVE ET QUELQUES PROLONGEMENTS POUR LA FOUILLE DE DONNÉES

La classification automatique de données quantitatives

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Mesure agnostique de la qualité des images.

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Spécificités, Applications et Outils

Raisonnement par récurrence Suites numériques

Visualisation en Fouille de Données

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction à l approche bootstrap

IC2. Interaction, Cognition and Complexity Département INFRES. Talel Abdessalem. Institut Mines-Télécom

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

ESIEA PARIS

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Évaluation de la régression bornée

Introduction au Data-Mining

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

NON-LINEARITE ET RESEAUX NEURONAUX

Item 169 : Évaluation thérapeutique et niveau de preuve

: seul le dossier dossier sera cherché, tous les sousdomaines

Interception des signaux issus de communications MIMO

Entreposage de données complexes pour la médecine d anticipation personnalisée

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Sélection de Caractéristiques pour le Filtrage de Spams

Les algorithmes SLIQ et SSDM

Etude comparative de différents motifs utilisés pour le lancé de rayon

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

Principe d un test statistique

Laboratoire 4 Développement d un système intelligent

Du e-commerce au m-commerce : vers une recommandation incrémentale

Test de terrain ou test de laboratoire pour la performance en endurance?

SDLS08 - Modes propres d'une plaque carrée calculés sur base réduite

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Gestion des bases de données

Filtrage stochastique non linéaire par la théorie de représentation des martingales

FORMATION CONTINUE. La Grande Ecole des Télécommunications. et des Technologies de l Information

BIBLIOGRAPHIE ASI - Analyse Statistique Implicative - CHIC

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Analyse de situations contextuelles métiers : application à la documentation de maintenance dans l'aéronautique

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

arxiv: v1 [cs.db] 9 Jul 2007

INF6304 Interfaces Intelligentes

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Big Data et Graphes : Quelques pistes de recherche

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Présentation BAI -CITC

Comment rendre un site d e-commerce intelligent

Introduction au datamining

Les critères d identification des pays les moins avancés

F.N.M.F. Direction des Systèmes d'information CAHIER DES ANNEXES. des normes RM-TPG et RM-EH

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Why Software Projects Escalate: The Importance of Project Management Constructs

BMO Société d assurance-vie. Glossaire d aide juin 2009

Programmation Par Contraintes

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Travail de projet sur VBA

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Data Mining. Master 1 Informatique - Mathématiques UAG

La fraude à la carte bancaire

République Algérienne Démocratique et Populaire

Resolution limit in community detection

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Analyse des réclamations d allocataires de la CAF : un cas d étude en fouille de données

TABLE DES MATIERES. C Exercices complémentaires 42

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Analyse dialectométrique des parlers berbères de Kabylie

Introduction au Data-Mining

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

TEXT MINING ET INTELLIGENCE ECONOMIQUE : AUJOURD HUI ET DEMAIN

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Quel business model pour mon entreprise

De la mesure à l analyse des risques

Big Data et Graphes : Quelques pistes de recherche

Cours L environnement politique. INTRODUCTION AU MARCHÉ DES CHANGES : Le marché au comptant

Indications méthodologiques pour compléter l annexe sur l état de la dette présentant la répartition de l encours selon la typologie établie par la

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Transcription:

Mesurer l intérêt des règles d association Benoît Vaillant, Patrick Meyer, Elie Prudhomme, Stéphane Lallich, Philippe Lenca, Sébastien Bigaret GET ENST Bretagne / Département LUSSI UMR 2872 CNRS TAMCIC {prenom.nom}@enst-bretagne.fr Laboratoire ERIC - Université Lumière - Lyon 2 lallich@univ-lyon2.fr Faculté de Droit, d Economie et de Finance, Université du Luxembourg, patrick.meyer@uni.lu Atelier DKQ EGC 05, 18 Janvier 2005 Benoît Vaillant, Patrick Meyer, Elie Prudhomme, Stéphane Lallich, Philippe Lenca, Sébastien Bigaret Mesurer l intérêt des règles d association

Résumé/Contexte Action Spécifique STIC Fouille de Bases de Données (GaFoDonnées), animée par R. Cicchetti et M. Sebag (2002) Groupe de travail sur les Mesures de Qualité (GaFoQualité), animé par F. Guillet (2002) laboratoires LUSSI (ENST Bretagne) et ERIC (Université Lyon 2) engagent une collaboration sur le thème de l intérêt des règles d association Synthèse des travaux réalisés sur ce thème par les deux parties.

Plan Synthèse des travaux réalisés sur ce thème par les deux parties. Vingt mesures, huit propriétés. Contrôle du risque. Etude formelle des mesures selon les propriétés. Etude de comportement, en situation (plate-forme herbs) Confrontation des typologies formelle et expérimentale. Assistance au choix d une mesure de qualité.

Pour des mesures d intérêt des règles d association Qu est-ce qu une règle d association? focalise sur les coprésences [Agrawal et al., 1993] règle d association, implication, équivalence et corrélation Règles admissibles : Support Confiance Extraction des règles : But : extraire les règles admissibles en totalité Algorithme : Apriori et dérivés Problème : trop de règles, certaines sans intérêt Une nécessité : mesurer l intérêt des règles d association

Mesures Soit n = E, le nombre total d enregistrements Pour A B, on note : n a = A, le nombre d enregistrements vérifiant A. n b = B, le nombre d enregistrements vérifiant B. n ab = A B, le nombre d exemples de la règle. n a b = A B, le nombre de contre-exemples à la règle. A B est évaluée à l aide de mesures généralement monotones décroissantes en fonction de n = a b na n ab. A B est jugée intéressante selon la mesure µ lorsque µ(a B) α, α devant être fixé par l utilisateur. Pour X E, on remplace n X /n par p X lorsque l on considère les fréquences relatives plutôt que les fréquences absolues.

Mesures Mesure Abréviation Définition na n support Sup a b n confidence Conf 1 n a b na nn linear correlation coefficient r ab nan b nn an b nā.n b nn centred confidence ConfCen ab nan b nna conviction Conv nan b nn a b Piatetsky-Shapiro PS 1 n ( n an b n n ) a b Loevinger Loe 1 nn a b nan b information gain GI log( nn ab ) nan b na n Sebag-Schoenauer Seb a b n nn a b lift Lift ab nan b

Mesures Mesure Abréviation Définition n Laplace Lap ab +1 na+2 n least contradiction MoCo ab n a b n b odd multiplier MC (na n )n b a b n b n a b example and counter example rate Tec na 2n a b na n a b Kappa IQC 2 nn a nn nan a b b nna+nn b 2nan b Zhang Zhang nn ab nan b max{n ab n b,n b n a b } nn implication index -IndImp n a b an b nn h an b intensity of implication IntImp P poisson` n an b n na bi entropic intensity of implication IIE [(1 h1 ( n a b n ) 2 ) (1 h 2 ( n a b n ) 2 )] 1/4 IntImp 1/2 probabilistic discriminant index IPD P hn (0, 1) >IndImp CR/Bi

Propriétés Distinguer A B et A B. Expression des mesures en fonction de la confiance. Relation d équivalence classer comme... Sémantique Valeurs Compétence g 1 non symétrie 2 E a g 2 décroissance avec n b 2 E a g 3 situation à l indépendance 2 E a g 4 situation à la règle logique 2 E a g 5 non-linéarité autour de 0 + 3 E r g 6 prise en compte de n 2 E r g 7 facilité à fixer un seuil 2 E a et E r g 8 intelligibilité 3 E r [Lallich, 2002], [Gras et al., 2004], [Lenca et al., 2004]

Contrôle du risque multiple, [Teytaud et Lallich, 2001], [Lallich et al., 2004] règle significative : p b/a significativement supérieur à p b on teste H 0 : p b/a = p b contre H 1 : p b/a > p b statistique de test : r(a, B), où nr 2 = χ 2 (A, B) sous H 0 : r(a, B) N(0, 1/ n) règle de décision : rejet H 0 au risque α 0 r(a, B) n > u 1 α0 problème : inflation de fausses découvertes à 5% Nécessité : contrôle du risque multiple! Pour 10 000 règles, même si aucune n est pertinente, on doit s attendre à sélectionner 500 règles à tort

Contrôle du risque multiple Réa. \ Déc. Acc. Rej. Tot. H 0 vraie 1 α α 1 H 1 vraie β 1 β 1 = Réa. \ Déc. Acc. Rej. Tot. H 0 vraie U V m 0 H 1 vraie T S m 1 total W R m nouveau critère : V 0 fausses découvertes au risque δ FWER = P(V > 0) UAFWER = P(V > V 0), algorithme : BS FD fondé sur le bootstrap pour évaluer la marge de fluctuation de la mesure et assurer UAFWER = δ complexité : en O(lmn), où l constante due au bootstrap expériences : jusqu à 50% de règles éliminées suivant la base Perspectives Règles différentiellement exprimées.

herbs : une plate-forme d expérimentation Développements à poursuivre... herbs V1.0 [Vaillant, 2002], GaFoQualité herbs V2.0 [, 2005], démonstration à egc 05 Deux types d analyse : intra-mesure inter-mesures Post-analyse : données et règles sont des entrées format c4.5, apriori et csv

herbs : une plate-forme d expérimentation Etude d une mesure : évaluation des objets au moyen de quelques grandeurs : nombre de cas et de règles, taux de couverture, indice de recouvrement, et nombre de règles particulières sélection de l ensemble des N meilleures règles tracé de la distribution des valeurs prises par la mesure

herbs : une plate-forme d expérimentation Comparaison de mesures : extraction de l ensemble des règles classées k fois parmi les N meilleures par p mesures. comparaison des préordres induits par deux mesures. tracé des distributions croisées des valeurs de deux mesures.

Typologie formelle Typologie formelle Classification formelle des mesures : construction d une matrice de distance entre les mesures (matrice de décision sous forme disjonctive complète carré des distances euclidiennes) classification ascendante hiérarchique avec le critère de Ward Quatre classes principales : {PS, IQC, GI, ConfCen, Lift, r, -IndImp, IPD} {IntImp, IIE, Loe, Zhang, MC, Conv} {Conf, Seb, Tec} {Lap, MoCo, Sup}

Typologie expérimentale Typologie expérimentale coefficients d accords entre préordres 10 bases (UCI Repository of machine learning databases) réarrangement de l ordre des lignes et des colonnes afin de mieux mettre en évidence les structures de blocs (amado, [Chauchat et Risson, 1998]) classification expérimentale des mesures de qualité

Typologie expérimentale Typologie expérimentale

Confrontation Confrontation Du point de vue expérimental, seule la classe 3 présente de forts désaccords avec les résultats formels : For. \ Exp. Classe 1 Classe 2 Classe 3 Classe 4 PS, IQC, GI Classe 1 ConfCen, Lift, r -IndImp, IPD Classe 2 IntImp IIE Loe, Zhang, MC, Conv Classe 3 Conf, Seb, Tec Classe 4 Lap MoCo, Sup

Assistance au choix des mesures Sélectionner les bonnes règles c est aussi sélectionner les bonnes mesures [Lenca et al., 2002], [Lenca et al., 2003] : Aide Multicritère à la Décision six éléments définissant le contexte : l ensemble de données, l ensemble de règles, l ensemble de mesures, l ensemble de propriétés des mesures, l ensemble de préférences de l utilisateur, l ensemble de critères de décision [Lenca et al., 2004] diverses méthodes : sous-ensemble de bonnes mesures, classement des mesures

Assistance au choix des mesures g 1 g 2 g 3 g 4 g 5 g 6 g 7 g 8 Sup 0 0 0 0 1 0 1 2 Conf 1 0 0 1 1 0 1 2 r 0 1 1 0 1 0 1 1 ConfCen 1 1 1 0 1 0 1 2 PS 0 1 1 0 1 1 1 1 Loe 1 1 1 1 1 0 1 1 Zhang 1 1 1 1 2 0 0 0 - IndImp 1 1 1 0 1 1 1 0 Lift 0 1 1 0 1 0 1 1 MoCo 1 1 0 0 1 0 1 1 Seb 1 0 0 1 0 0 1 1 MC 1 1 1 1 0 0 1 2 Conv 1 1 1 1 0 0 1 1 Tec 1 0 0 1 2 0 1 1 IQC 0 1 1 0 1 0 1 0 GI 0 1 1 0 2 0 1 0 IntImp 1 1 1 1 2 1 1 0 IIE 1 1 1 1 2 1 0 0 IPD 1 1 1 0 1 1 1 0 Lap 1 0 0 0 1 0 1 0 g 1 non symétrie g 2 décroissance avec n b g 3 situation à l indépendance g 4 situation à la règle logique g 5 non-linéarité autour de 0 + g 6 prise en compte de n g 7 facilité à fixer un seuil g 8 intelligibilité Matrice de décision

Assistance au choix des mesures deux scénarios utilisateur (tolérance Sc1 ou non Sc2 de l apparition de contre-exemples dans les règles) ; [Gras et al., 2004] rangements totaux pour Sc1 et Sc2 poids égaux PROMETHEE [Brans et Mareschal, 1994] Rang: 1 2 3 4 5 6 7 Sc1: IntImp Loe MC ConfCen Conv -IndImp,IPD Sc2: MC Conv Loe ConfCen IntImp -IndImp, IPD Rang: 8 9 10 11 12 13 14 Sc1: IIE,Zhang PS Tec Conf GI r, Lift Sc2: PS Seb Conf r, Lift MoCo IIE Rang: 15 16 17 18 19 20 Sc1: MoCo Seb IQC Sup Lap Sc2: Zhang IQC Tec Sup GI Lap

Conclusion Double approche à la fois formelle et expérimentale. Diverses extensions à développer : capacité discriminante d une mesure résistance au bruit autres mesures... Une collaboration fructueuse!

Références Agrawal, R., Imielinski, T., et Swami, A. (1993). Mining association rules between sets of items in large databases. In Buneman, P. et Jajodia, S., editors, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pages 207 216, Washington, D.C. Brans, J. et Mareschal, B. (1994). The promethee-gaia decision support system for multicriteria investigations. Investigation Operativa, 4(2):102 117. Chauchat, J.-H. et Risson, A. (1998). Visualization of Categorical Data, chapter 3, pages 37 45. Blasius J. & Greenacre M. ed. New York : Academic Press. Gras, R., Couturier, R., Bernadet, M., Blanchard, J., Briand, H., Guillet, F., Kuntz, P., Lehn, R., et Peter, P. (2004). Quelques critères pour une mesure de qualité de règles d association - un exemple : l intensité d implication. Revue des Nouvelles Technologies de l Information. A paraître. Lallich, S. (2002). Mesure et validation en extraction des connaissances à partir des données. Habilitation à Diriger des Recherches Université Lyon 2. Lallich, S., Prudhomme, E., et Teytaud, O. (2004). Mesurer l intérêt Contrôle des règles du d association risque multiple (DKQ en2005) sélection de règles d association significatives.