Post-élagage Indirect des Arbres de Décision dans le Data Mining



Documents pareils
Arbres binaires de décision

Méthodes d apprentissage statistique «Machine Learning»

Application de K-means à la définition du nombre de VM optimal dans un cloud

Etude d Algorithmes Parallèles de Data Mining

données en connaissance et en actions?

Arbres de Décision. 1 Introduction

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au datamining

Travaux pratiques avec RapidMiner

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Pourquoi l apprentissage?

T de Student Khi-deux Corrélation

Algorithmes d'apprentissage

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Principe d un test statistique

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Les algorithmes de fouille de données

Fast and furious decision tree induction

Travailler avec les télécommunications

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

CURRICULUM VITAE. Informations Personnelles

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Introduction au Data-Mining

1 Modélisation d être mauvais payeur

Coup de Projecteur sur les Réseaux de Neurones

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Principe de symétrisation pour la construction d un test adaptatif

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Leçon N 4 : Statistiques à deux variables

TP N 57. Déploiement et renouvellement d une constellation de satellites

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004

Les structures de données. Rajae El Ouazzani

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Arbres binaires de recherche

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

La classification automatique de données quantitatives

Annexe 6. Notions d ordonnancement.

Introduction au Data-Mining

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Améliorer la Performance des Fournisseurs

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Classification Automatique de messages : une approche hybride

INF6304 Interfaces Intelligentes

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

Ebauche Rapport finale

Item 169 : Évaluation thérapeutique et niveau de preuve

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LES GENERATEURS DE NOMBRES ALEATOIRES

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

DATA MINING SPATIAL UN PROBLEME DE DATA MINING MULTI-TABLES

EXCEL TUTORIEL 2012/2013

LE PROBLEME DU PLUS COURT CHEMIN

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3. Les distributions à deux variables

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

LES DECIMALES DE π BERNARD EGGER

Etude Benchmarking 2010 sur les formations existantes apparentées au métier de Business Developer en Innovation

NF26 Data warehouse et Outils Décisionnels Printemps 2010

Utilisation du backtrack intelligent dans un branch-and-bound Application au problème d Open-Shop

Système immunitaire artificiel

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Format de l avis d efficience

Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1

Analyse de grandes bases de données en santé

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

Évaluation de la régression bornée

Laboratoire 4 Développement d un système intelligent

Système de management H.A.C.C.P.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

sentée e et soutenue publiquement pour le Doctorat de l Universitl

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

Entrepôt de données 1. Introduction

EXCEL PERFECTIONNEMENT CALCULS AVANCES

ARBRES BINAIRES DE RECHERCHE

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source :

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

FORMATION À LA GESTION DES ARCHIVES

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Transcription:

SETIT 2007 4 th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 25-29, 2007 TUNISIA Post-élagage Indirect des Arbres de Décision dans le Data Mining Mansour Mededjel *, Hafida Belbachir ** * Département d Informatique, Faculté des Sciences et Sciences de l Ingénieur, Université Abdelhamid Ibn Badis Mostaganem, Algérie. mededjel_mansour@yahoo.fr ** Département d Informatique, Faculté des Sciences, Université des Sciences et de la Technologie - Mohamed Boudiaf Oran, Algérie. h_belbach@yahoo.fr Résumé : Cet article présente une approche d élagage qui porte sur les règles générées à partir d un arbre de décision. Dans ce contexte, deux approches seront proposées. La première, est une méthode de simplification de règles par le test d indépendance statistique ; et la deuxième, utilise des critères de validation inspirés de la technique de découverte des règles d association. Mots-clés : Arbres de décision, Data mining, Elagage, Règles de décision. INTRODUCTION Les arbres de décision constituent une technique préliminaire puissante de data mining, qui consiste à extraire des connaissances potentielles à partir des données dans un but de description ou de prédiction. Les arbres de décision sont l une des techniques de classification, qui peut être utilisée pour prédire les classes des nouveaux cas. Cependant, un des inconvénients de cette technique, est l utilisation fréquente des variables moins pertinentes pour l étape de construction de l arbre (sur-apprentissage). Ce problème est résolu par l étape d élagage qui consiste à supprimer les sous-arbres superflus ou trop liés aux données, dans le but d améliorer l aspect prédictif de l arbre d une part, et réduire sa complexité d autre part. Plusieurs méthodes d élagage existent dans la littérature, telles que : MCCP (Minimal Cost-Complexity Pruning) de BRIEMAN pour l algorithme CART [BFOS84], cette méthode consiste à construire une suite emboîtée de sous-arbres en utilisant une formulation dite complexité de coût minimale. En fonction du coût de mauvaise classification et la taille de l arbre, on dérive un ordre des arbres de complexité décroissante, commençant de l arbre complet. Cette séquence est récursivement crée en sélectionnant le dernier arbre dans la séquence (initialement, l arbre complet) ; examinant chacun de ses sous-arbres, et sélectionnant celui avec la moindre métrique de complexité de coût et faisant celui-ci le prochain sous-arbre dans la séquence. Le processus s arrête quand le sous-arbre final est juste le nœud racine. Une fois cette séquence est produite, on fait le choix d un arbre optimal en fonction du critère suivant : on calcule l'erreur apparente (estimation de l erreur réelle) de chaque sous-arbre, celui qui minimise cette mesure, est choisi comme modèle final. REP (Reduced Error Pruning) qui consiste à estimer l'erreur réelle d'un sous-arbre donné sur un ensemble d élagage ou de test. Plus algorithmiquement, l élagage se fait comme suit : Tant qu'il existe un arbre que l'on peut remplacer par une feuille sans faire croître l estimation de l'erreur réelle alors élaguer cet arbre. Cette technique donne un arbre légèrement conforme dans le sens où certains exemples seront peut être mal classifiés. PEP (Pessimistic Error Pruning), afin de pallier les inconvénients de la méthode précédente, QUINLAN [Qui87] a proposé une stratégie d élagage qui fait le recours à un seul ensemble de construction et d élagage de l arbre. L arbre est élagué en examinant le taux d erreur à chaque nœud et assumant que le vrai taux d erreur est considérablement pire. Si un nœud donné contient N enregistrements dans lesquels E parmi eux, sont mal classifiés, alors le taux d erreur est estimé à E/N. La préoccupation centrale de l algorithme, est de minimiser cette estimation, en - 1 -

considérant ce taux d erreur comme une version très optimiste du taux d erreur réel. [BL04] [Bro05] MEP (Minimum Error Pruning) de NIBLETT et BRATKO [NB87], CVP (Critical Value Pruning) de MINGERS [Min87], et EBP (Error Based Pruning) proposée par QUINLAN comme une amélioration de la méthode PEP, pour l algorithme C4.5 [Qui93]. Toutes ces méthodes diffèrent par leur stratégie d élagage (ascendante ou descendante), échantillon d élagage utilisé (même échantillon utilisé pour la construction, ou un autre), et le type d élagage considéré : pré -élagage (élagage au moment de la construction de l arbre) ou post-élagage (élagage après la construction de l arbre). Les résultats d application de ces méthodes, diffèrent ainsi du point de vue performance de généralisation, et de la taille de l arbre obtenu. Un des problèmes majeur de ces méthodes, est l utilisation des critères qui ne sont pas très significatifs pour la décision d élagage. Quoique le taux d erreur puisse être un critère important pour l évaluation du modèle construit, mais il reste toujours biaisé par la nature et la qualité du modèle obtenu. Dans cet article, nous présentons une approche d élagage qui porte sur les règles générées à partir de l arbre de décision. Dans ce contexte, deux approches seront proposées. La première, est une méthode de simplification de règles par le test d indépendance statistique, qui sera proposée pour modifier le mécanisme d élagage de l algorithme CHAID. Et la deuxième, utilise des critères de validation inspirés de la technique de découverte des règles d association. 1. Règles issues des arbres de décision et élagage Un arbre de décision, une fois construit, peut être converti en un ensemble de règles équivalent, où chaque chemin, du nœud racine au nœud feuille, sera exprimé par une règle, en enregistrant les tests comme antécédents (prémisses), et la classe du nœud feuille comme conséquent (conclusion). Ces règles doivent être par la suite, simplifiées. La conversion d un arbre de décision en un ensemble de règles avant l élagage, a les avantages suivants [Win92]: Elle permet de distinguer parmi les différents contextes, dans quel cas un nœud de décision est utilisé. Puisque chaque chemin produit une règle distincte, la décision d élagage concernant un test peut être prise différemment pour chaque chemin. En revanche, si l arbre celui même est élagué, les deux seuls choix seraient : - enlever le n œud de décision complètement, ou - le maintenir tel qu il est. Elle enlève la distinction entre les tests d attributs qui se produisent près de la racine et les autres, qui se produisent près des feuilles. Elle améliore la lisibilité sans perte d information. Notre approche consiste à transformer l arbre de décision en un ensemble de règles, et d appliquer ensuite l élagage ; on parlera donc de «post-élagage indirect». Nous présentons deux variantes de ce type d élagage : celui basé sur le test d indépendance statistique, et celui basé sur les mesures d association. 2. L élagage basé sur le test d indépendance Ce type d élagage est tiré des travaux de WINSTON [Win92]. L ensemble de règles conçu d une construction maximale d un arbre de décision, est simplifié en éliminant les antécédents des règles (non nécessaires) par le procédé suivant : On construit les tables de contingence, que nous expliciterons par la suite, pour chaque règle composée de plus d un antécédent (des règles avec un seul antécédent, ne peuvent pas être encore simplifiées). On élimine les antécédents qui n ont aucun effet sur la conclusion atteinte par la règle. L indépendance d une conclusion d un antécédent est vérifiée en utilisant un test d indépendance statistique. Nous expliciterons cette étape dans ce qui suit. Une fois que les différentes règles sont simplifiées par élimination des antécédents redondants, on simplifie l ensemble entier par élimination de quelques règles non pertinentes. 2.1. Table de contingence La table de contingence est une représentation tabulaire d une règle (voir tableau 1). C 1 C 2 L 1 x 11 x 12 L 1T = x 11 + x 12 L 2 x 21 x 22 L 2T = x 21 + x 22 C T1 = x 11 + x 21 C T2 = x 12 + x 22 T = x 11 + x 12 + x 21 + x 22 Tableau 1. Table de contingence d une règle L 1 et L 2 représentent les états booléens d un antécédent pour les conclusions C 1 et C 2, (C 1 est la négation de C 2 ). x 11, x 12, x 21 et x 22 représentent les fréquences de chaque paire antécédent-conséquent. L 1T, L 2T, C T1 et C T2 sont les sommes marginales des lignes et des colonnes, respectivement. T est la somme totale de la table, elle est utilisée avec les sommes marginales pour calculer les valeurs prévues des cellules dans la deuxième étape du test d indépendance. 2.2. Test d indépendance Pour vérifier l indépendance d un antécédent d une règle, de sa conclusion, on procède comme suit. - 2 -

1. On forme la table de contingence de dimension : l x c (lignes x colonnes) ; 2. On calcule la valeur de Chi² (observé) par la formule suivante : Chi 2 ( x e ) = e i j 2 (1) Où x (1 i l et 1 j c) représente la valeur observée de la cellule dans la table de contingence, et e représente la valeur prévue de la cellule, donnée par : e L. C it Tj = (2) T L it est la somme des colonnes pour la i ème ligne, et C Tj est la somme des lignes pour la j ème colonne. 3. On utilise la table statistique 1 avec les valeurs : Chi²α (théorique) et ddl 2, correspondantes à un niveau de signification α choisi par l utilisateur (qui représente le risque d erreur, par exemple α =25%), pour déterminer si la conclusion est indépendante de l antécédent selon le test suivant : Si Chi 2 > Chi 2 α ; on rejette l hypothèse nulle de l indépendance et on accepte l hypothèse alternative ; on garde l antécédent puisqu il y a une dépendance avec la conclusion. Si Chi 2 Chi 2 α ; on accepte l hypothèse nulle de l indépendance ; on rejette l antécédent puisqu il est indépendant de la conclusion. 2.3. Proposition d application du post-élagage indirect à CHAID Le principe de l algorithme CHAID [Kas80], s appuie sur le mécanisme de pré-élagage qui consiste à arrêter la croissance de l arbre en fixant un critère d arrêt local, basé sur le test d indépendance statistique, dont l hypothèse nulle est l indépendance de la variable de division avec l attribut cible. L un des inconvénients de ce principe de pré-élagage, est d arrêter prématurément la construction de l arbre. Nous proposons de modifier l élagage dans CHAID en appliquant un post-élagage basé sur les règles selon le mécanisme d élagage décrit ci-dessus. Cette solution vise à éviter le risque d un arrêt prématuré de la construction de l arbre (avant que le sur-apprentissage se produise) d un coté, et à exploiter les avantages du post-élagage indirect, d un autre coté. 1 Table de Chi² (ou Khi²) fournie dans les annexes de statistique. 2 ddl (degré de liberté) = (l - 1) x (c - 1). 2.4. Limites Bien que le test de Chi² (utilisé dans ce mécanisme), donne souvent de bons résultats ; il ne faut pas négliger son aspect statistique, c.-à-d. que la qualité des résultats est influencée par la nature et le volume de données étudiées. Le seul paramètre qui permet à l utilisateur d intervenir, est bien sûr le choix du seuil d erreurα. Ce paramètre peut être un avantage du fait qu il permet d ajuster l algorithme et de le contrôler suivant par exemple, le domaine étudié et les résultats souhaités. Mais d un autre coté, il peut poser un autre problème, du fait qu un mauvais choix de ce paramètre, peut conduire à des résultats inexplicables. Donc la présence d un expert humain est un atout exigé. L approche d élagage basé sur le test d indépendance, souffre ainsi du caractère instable de ce test, lié étroitement à la taille de l ensemble d apprentissage (des expériences faites, nous ont montré qu avec le même seuil d erreur fixé, les règles générées (après l élagage) à partir d un ensemble de données, diffèrent de celles générées à partir du même ensemble multiplié k fois). Une autre limite est l aspect symétrique du test du fait que les mesures d indépendance d une affectation et sa négation, sont égales. Afin de remédier à ces restrictions, une deuxième contribution, tout à fait nouvelle, consiste à appliquer une autre méthode suivant le même principe de post-élagage des règles générées, mais en utilisant des tests différents, basés sur les mesures d association. 3. L élagage basé sur les mesures d association Dans cette section, nous considérons un autre type d élagage basé sur les critères d évaluation utilisés par la technique de découverte de règles d association. Avant d entrer dans les détails, il sera fondamental de donner quelques éclaircissements relatifs à cette technique afin de familiariser le lecteur et l aider à cerner le contexte de cette vue. 3.1. Que sont les règles d association? La principale application de cette technique est «l analyse du panier de la ménagère» qui consiste comme l indique son nom, en la recherche d associations entre les objets. La méthode peut être appliquée à tout secteur d activité pour lequel, il est intéressant de rechercher des groupements potentiels de produits ou de services. Elle utilise un certain nombre d algorithmes, tel que l algorithme APRIORI d AGRAWAL [AS94]. Une règle d association est de la forme «Si A Alors B», où A et B sont des conjonctions d attributs. A est la condition ou la prémisse de la règle, et B est la conclusion. On peut distinguer deux étapes élémentaires pour cette technique : la première consiste en la génération des itemsets fréquents, et la deuxième consiste en la génération de règles d association entre ces itemsets, qui seront par la suite, évaluées et validées. Tout cela étant fait avec une concentration particulière sur un - 3 -

certain nombre de mesures. Notre préoccupation principale, est d appliquer ces mesures sur les règles de décision pour évaluer leur pertinence vis -à-vis de l ensemble de données sur lesquelles, elles vont être appliquées. Les règles d association comme les règles de décision, visent à prédire la classe moyennant un ensemble de conditions, appelées aussi itemsets. Cependant la principale différence, est que la prédiction associée à la conclusion de la règle associative, n'est pas limitée à une seule classe d'attribut, mais peut être associée à une ou plusieurs combinaisons d'attributs. Dans ce qui suit, nous présentons les principaux critères utilisés et leurs définitions relatives aux règles associatives. Ensuite, des interprétations relatives aux règles décisionnelles, seront fournies. 3.2 Les mesures d association La pertinence des règles associatives est mesurée sur la base de deux métriques, le «Support» et la «Confiance», définies comme suit [SAJ05] : Le Support : correspond au nombre de fois, où l association A => B est présente, rapporté au nombre de règles contenant A ou B. cette métrique permet de mesurer la fréquence d apparition d une règle. S = fréquence ( condition résultat ) (3) La Confiance : correspond au nombre de fois où l association A => B est présente, rapporté au nombre de présences de A. cette métrique permet de mesurer la force de l association. C = fréquence ( condition résultat fréquence ( condition ) ) (4) Ces deux critères sont considérés conjointement avec des seuils minimaux (minsup et minconf). Mais dans certains cas, ces mesures ne sont plus suffisantes, et ainsi, la confiance n est pas toujours un critère de jugement efficace, il doit être supérieur à la probabilité d avoir le résultat lui-même [Lem04]. Cette condition est vérifiée par le critère de l intérêt suivant. L Intérêt : appelé aussi l amélioration, est un autre critère qui permet de mesurer la notion de dépendance. I = fréquence ( condition résultat ) fréquence ( condition) fréquence ( résultat ) Lorsque la condition est totalement indépendante du résultat, on a : P(condition et résultat) = P(condition) x P(résultat), et donc l amélioration est égale à l unité. (5) Plus la condition et le résultat sont dépendants, plus cette mesure est éloignée de l unité. La Conviction : ce critère permet de résoudre le problème de symétrie de l intérêt : ( I( A B) = I( B A) ). Conv = fréquence ( condition) fréquence ( résultat ) fréquence ( condition résultat ) (6) Mais cette mesure est symétrique à son complément : ( Conv( A B) = Conv( A B) ). La Fiabilité : ce critère a été proposé par K. M. AHMED, N. M. EL-MAKKY et Y. TAHA [AE- MT00], comme solution aux problèmes précédents. Pour une règle d association A =>B, la fiabilité se mesure comme suit : F = Confiance fréquence (résultat ) (7) Cette mesure n a pas l inconvénient de la symétrie, ( F ( A B) F( B A) ). Elle mesure l effet potentiel de l information disponible de A sur la probabilité de rencontrer B. Plus cette différence absolue est grande, plus forte est l association. [Lem04] 3.3. Proposition d application des mesures d association pour le post-élagage indirect Dans cette section, nous allons essayer d interpréter chacun des critères précédents, suivant le contexte de notre cas relatif aux règles décisionnelles. La caractéristique principale et la plus importante est que ces règles soient exhaustives et mutuellement exclusives. Cela signifie que pour tout enregistrement, une et une seule règle s'applique. Ce caractère ne reste plus valable après l élagage, du fait de la suppression partielle ou complète de certaines règles. Et donc, on doit fixer un certain ordre entre les règles élaguées, suivant leurs pertinences, et ainsi définir une classe par défaut pour les exemples non couverts. Les métriques précédentes restent valides sous les contraintes suivantes : Le Support : est calculé de la même façon que pour les règles associatives, mais on remarque que la notion de fréquence n est pas très importante pour les règles décisionnelles, ayant un ensemble fini de valeurs pour cette mesure. Donc, on peut utiliser cette mesure secondairement pour définir l ordonnancement des règles élaguées. La Confiance : cette mesure est dans la plupart des cas unitaires pour la majorité des règles, mais la propriété de supériorité par rapport à la fréquence de résultat, reste valide. Pour cela, on va se baser sur le critère suivant. L Intérêt : est le critère le plus important, puisqu il permet de vérifier la propriété précédente et évaluer l intérêt de la règle. Cette mesure doit être supérieure à 1 (Si I(R) 1, la règle R sera inutile). Ce critère sera utilisé pour définir la notion de priorité selon la propriété suivante : plus la condition et le résultat sont dépendants, plus cette mesure est éloigné de l unité. La Conviction : ce critère ne sera pas pris en considération dans notre cas, puisque toutes les règles générées sont unidirectionnelles. La Fiabilité : ce critère est intéressant car il permet de mesurer la force de l association. Par conséquent, on peut l utiliser avec les autres critères pour la notion de - 4 -

priorité selon la propriété suivante : plus la différence absolue entre la confiance et la fréquence de résultat, est grande ; plus forte est l association. 3.3.1. Algorithme L algorithme d application de cette méthode, est très simple, il s appuie sur le même principe de base de l approche précédente. Une fois un arbre de décision est construit, on procède comme suit : 1. On génère l ensemble de règles de la même manière expliquée dans la section 2 ; 2. Pour chaque règle, on applique les mesures d association, et suivant les résultats obtenus ; une règle est élaguée (supprimée), si la mesure d intérêt associée, est inférieure à 1. sinon pour chaque règle, on applique les mêmes mesures sur chaque item de la condition ; un item est élagué, s il n améliore pas l intérêt de sa règle. 3. Ensuite, en recalculant les mêmes mesures pour les nouvelles règles obtenues après l élagage, on trie ces règles selon les valeurs descendantes en considérant les métriques : Intérêt, Fiabilité, Confiance, et Support, respectivement. Les nouvelles règles seront donc appliquées par priorité associée à cet ordre. 3.3.2. Exemple Pour bien éclaircir l algorithme défini ci-dessus, on considère l arbre de décision de la figure 1, qui explique le niveau de risque routier en fonction de l âge et du type de véhicule (tableau 2). < 25 Élevé Âge = Sport 25 Type véhicule Sport L arbre de la figure 1, nous permet de générer l ensemble des règles suivant : 1) Si Age < 25 Alors Risque = Elevé 2) Si Age 25 et Type véhicule = Sport Alors Risque = Elevé 3) Si Age 25 et Type véhicule Sport Alors Risque = Faible La deuxième étape consiste à appliquer les mesures d association pour l évaluation de chacune de ces trois règles. Les résultats obtenus sont illustrés dans le tableau 3. On remarque que toutes les règles sont utiles (Intérêt > 1) et donc, aucune règle à supprimer. On passe maintenant à l évaluation des différents items présents dans les conditions de ces règles. Les résultats obtenus, sont présentés dans le tableau 4. Une simple comparaison entre les deux tableaux ci-dessous (tableaux 3 et 4), nous permettra de remarquer que pour la deuxième règle, l item «Type véhicule = Sport» a la même valeur d amélioration que sa règle. Par conséquent, on peut enlever l autre item («Age 25») de cette règle, puisqu il n apporte aucune amélioration. L ensemble de règles devient : 1) Si Age < 25 Alors Risque = Elevé 2) Si Type véhicule = Sport Alors Risque = Elevé 3) Si Age 25 et Type véhicule Sport Alors Risque = Faible Maintenant, pour définir la notion de priorité, on utilise le tableau 5 contenant les nouvelles mesures associées aux règles obtenues après l élagage. En triant ce tableau suivant les valeurs descendantes des mesures prises dans l ordre défini dans la troisième étape de l algorithme, les règles seront considérées dans l ordre suivant : (3), (1) et (2). Ceci signifie que la troisième règle est la plus prioritaire, alors que la deuxième est la moindre. Élevé Faible Figure 1. Arbre de décision «risque routier» Âge Type véhicule Risque 23 familial Élevé 18 sport Élevé 43 sport Élevé 68 familial Faible 32 camion Faible 20 Familial Élevé Tableau 2. Données «risque routier» - 5 -

Règle Support Confiance Intérêt Fiabilité (1) 0.5 1 1.5 0.33 (2) 0.16 1 1.5 0.33 (3) 0.33 1 3 0.66 Tableau 3. Evaluation des règles Règle Item Support Confiance Intérêt Fiabilité (1) Age<25 0.5 1 1.5 0.33 (2) (3) Age 25 0.16 0.33 0.55 0.33 Type véhicule = Sport 0.33 1 1.5 0.33 Age 25 0.33 0.66 2 0.33 Type véhicule Sport 0.33 0.5 0.75 0.16 Tableau 4. Evaluation des items Règle Support Confiance Intérêt Fiabilité (1) 0.5 1 1.5 0.33 (2) 0.33 1 1.5 0.33 (3) 0.33 1 3 0.66 Tableau 5. Evaluation des règles élaguées 4. Conclusion La simplification (ou l élagage) des règles extraites d un arbre de décision, constitue une alternative puissante aux processus d élagage de cet outil. Nous avons cité quelques avantages de cette approche, dont la lisibilité peut être le critère le plus important, puisque la transformation d un arbre de décision en un ensemble de règles, se fait simplement et permet d améliorer son intelligibilité, même pour des non spécialistes. Nous avons présenté deux méthodes d élagage basées sur les règles générées à partir d un arbre de décision. La première méthode s appuie sur le test d indépendance statistique de Chi², qui a été proposée comme une modification du mécanisme d élagage (pré - élagage) de l algorithme CHAID. L application de cette méthode sur des données réelles, a donné des résultats acceptables. Cependant, plusieurs limites ont été détectées. La limite majeure réside dans l instabilité des résultats avec la variation de la taille de données d une part, et la notion de symétrie propre au test, d autre part. L autre ennui était bien sûr le choix du seuil d erreur α requis pour ce type de tes t. La deuxième méthode est proposée comme une alternative de la méthode précédente, elle s appuie sur le même principe mais avec des tests différents inspirés de la technique de règles d association. Cette approche n a pas les limites de la méthode précédente et en plus, elle permet de définir la notion de priorité entre les règles, ce qui permet d appliquer les règles suivant un ordre qui empêche toute confusion résultant de la perte de disjonction de règles, après l élagage. Un autre problème qui persiste, concerne la perte de la notion d exhaustivité associée aux règles de l arbre de décision, cette notion ne reste plus valide après l élagage, ce qui permet d avoir un ensemble de cas non couverts par les règles obtenues. Une solution simple consiste à définir une classe par défaut pour cet ensemble, comme c est le cas pour la plupart des algorithmes d induction de règles. L introduction de ce type d élagage sur les arbres de décision, permet davantage d améliorer leur lisibilité à travers leur conversion en un ensemble de règles équivalent sans perte d information, et l amélioration de leur capacité de traitement des valeurs manquantes : par l élagage de quelques items, il sera possible de classifier facilement des exemples dont les valeurs correspondantes à ces items, étaient absentes. Un autre avantage est la capacité d intégrer facilement ces outils (règles de décision) dans des systèmes de raisonnement ou d interrogation avancés ; la base de règles d un système expert, est un exemple pragmatique. REFERENCES [AS94] R. AGRAWAL et R. SKIRANT (1994). Fast algorithms for mining association rules. In Proceedings of the 20th Int'l Conference on VLDB, pages 478-499. - 6 -

[AE-MT00] K.M. AHMED, N.M. EL-MAKKY et Y. TAHA (2000). A Note on Beyond Market Baskets: Generalizing Association Rules to Correlations. SIGKDD Explorations, 1, pp.46-48. [BFOS84] L. BREIMAN, J.H. FRIEDMAN, R.A. OLSHEN, et C.J. STONE (1984). Classification and Regression Trees. Wadsworth, Belmont. [BL04] MICHAEL J.A. BERRY and GORDON LINOFF (2004). Data Mining Techniques for Marketing, Sales, and Customer Relationship Management. Second Edition, Wiley Publishing, Inc. [Bro05] YVES BROSTAUX (2005). Etude du classement par forêts aléatoires d échantillons perturbés à forte structure d interaction. Thèse de doctorat, Faculté Universitaire des Sciences agronomiques de Gembloux - Belgique. [Kas80] G. KASS (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29(2), 119-127. [Lem04] A. LEMMENS (2004). Le Data Mining comme outil de «customer relationship management» en marketing. Mémoire d ingéniorat, Université libre de Bruxelles. [Min87] J. MINGERS (1987). Experts systems - rule induction with statistical data. Journal of the Operational Research Society, 38(1), 39-47. [NB87] T. NIBLETT et I. BRATKO (1987). Learning Decision Rules in Noisy Domains. Expert Systems 86, Cambridge University Press. [Qui87] J.R. QUINLAN (1987). Simplifying decision trees. Int. J. Man-Machine Studies, 27, 221-234. [Qui93] J.R. QUINLAN (1993). C4.5: Programs for Machine Learning. Morgan Kaufman, San Mateo, CA. [SAJ05] Y. SLIMANI, K. AROUR et M. JEMNI (2005). Informatique répartie, Chapitre 8 : Découverte parallèle de règles associatives. Edition : Hermès - Lavoisier, ISBN : 2-7462-0857-1. [Win92] P. WINSTON (1992). Artificial Intelligence. Addison Wesley. - 7 -