Mesure d entropie asymétrique et consistante



Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

La classification automatique de données quantitatives

Arbres binaires de décision

Introduction au datamining

Méthodes d apprentissage statistique «Machine Learning»

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Chapitre 2 Le problème de l unicité des solutions

Exemple PLS avec SAS

Introduction au Data-Mining

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Théorèmes de Point Fixe et Applications 1

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Transmission d informations sur le réseau électrique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

1 Modélisation d être mauvais payeur

Image d un intervalle par une fonction continue

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Les indices à surplus constant

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction au Data-Mining

CHAPITRE 5. Stratégies Mixtes

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

FIMA, 7 juillet 2005

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Évaluation de la régression bornée

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Arbres de Décision. 1 Introduction

Corps des nombres complexes, J Paul Tsasa

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

INF6304 Interfaces Intelligentes

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Programmation linéaire

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Né le 13/06/1984 Russe Célibataire Langues : Russe, Anglais,

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

LE PROBLEME DU PLUS COURT CHEMIN

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Etude comparative de différents motifs utilisés pour le lancé de rayon

Suites numériques 3. 1 Convergence et limite d une suite

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Limites finies en un point

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Moments des variables aléatoires réelles

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Introduction à l étude des Corps Finis

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Big Data et Graphes : Quelques pistes de recherche

données en connaissance et en actions?

6. Les différents types de démonstrations

statique J. Bertrand To cite this version: HAL Id: jpa

Le scoring est-il la nouvelle révolution du microcrédit?

Chapitre 3 : INFERENCE

Face Recognition Performance: Man vs. Machine

Programmation linéaire et Optimisation. Didier Smets

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

PRIME D UNE OPTION D ACHAT OU DE VENTE

Théorème du point fixe - Théorème de l inversion locale

Chapitre 5 : Flot maximal dans un graphe

Laboratoire 4 Développement d un système intelligent

Pourquoi l apprentissage?

Préparer un état de l art

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications


ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

ISO/CEI NORME INTERNATIONALE

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Résolution de systèmes linéaires par des méthodes directes

LES GENERATEURS DE NOMBRES ALEATOIRES

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Modélisation géostatistique des débits le long des cours d eau.

Annexe 6. Notions d ordonnancement.

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Economie de l Incertain et des Incitations

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Application de K-means à la définition du nombre de VM optimal dans un cloud

Multi-catégorisation de textes juridiques et retour de pertinence

Économétrie, causalité et analyse des politiques

Agrégation des portefeuilles de contrats d assurance vie

Classification Automatique de messages : une approche hybride

I. Polynômes de Tchebychev

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Big Data et Graphes : Quelques pistes de recherche

Transcription:

Djamel A. Zighed, Simon Marcellin Gilbert Ritschard Université Lumière Lyon 2, Laboratoire ERIC {abdelkader.zighed,simon.marcellin}@univ-lyon2.fr http://eric.univ-lyon2.fr Université de Genève, Département d économétrie, Suisse gilbert.ritschard@unige.ch Résumé. Les mesures d entropie, dont la plus connue est celle de Shannon, ont été proposées dans un contexte de codage et de transmission d information. Néanmoins, dès le milieu des années soixante, elles ont été utilisées dans d autres domaines comme l apprentissage et plus particulièrement pour construire des graphes d induction et des arbres de décision. L usage brut de ces mesures n est cependant pas toujours bien approprié pour engendrer des modèles de prédiction ou d explication pertinents. Cette faiblesse résulte des propriétés des entropies, en particulier le maximum nécessairement atteint pour la distribution uniforme et l insensibilité à la taille de l échantillon. Nous commençons par rappeler ces propriétés classiques. Nous définissons ensuite une nouvelle axiomatique mieux adaptée à nos besoins et proposons une mesure empirique d entropie plus flexible vérifiant ces axiomes. 1 Introduction Dans les méthodes qui génèrent des règles de décision du type Si condition Alors Conclusion comme les arbres de décision (Breiman et al., 1984; Quinlan, 1993), les graphes d induction (Zighed et Rakotomalala, 2000),... les mesures d entropie sont fréquemment utilisées. Or celles-ci reposent sur de nombreuses hypothèses implicites qui ne sont pas toujours justifiées. Les mesures d entropie ont été définies mathématiquement par un ensemble d axiomes en dehors du contexte de l apprentissage machine. On peut trouver des travaux détaillés dans Rényi (1960), et Aczél et Daróczy (1975). Leur transfert vers l apprentissage s est fait de manière peut-être hâtive et mérite d être revu en détail. Le présent travail examine et discute des propriétés des entropies dans le cadre des arbres d induction. Dans la section suivante, nous fixons quelques notations et rappelons le contexte d utilisation des mesures d entropie. Dans la section 3, nous présentons les mesures d entropie et discutons leurs propriétés et leurs conséquences dans les processus d induction. Dans la section 4, nous proposons une axiomatique conduisant à une nouvelle mesure d entropie.

2 Notations, définitions et concepts de base Nous nous plaçons dans le cadre des arbres de décision qui font explicitement appel aux entropies pour mesurer la qualité de la partition induite en apprentissage. Soit Ω la population concernée par le problème d apprentissage. Le profil de tout individu ω de Ω est décrit par p variables, X 1,..., X p, dites variables exogènes ou variables explicatives. Ces variables peuvent être qualitatives ou quantitatives. Nous considérons également la variable à prédire C, parfois appelée variable endogène ou variable classe ou encore variable réponse. L ensemble des valeurs prises par cette variable sur la population est un ensemble discret et fini noté C. On note par m j le nombre de valeurs différentes prises par X j et par n le nombre de modalités de C. Ainsi, C = {c 1,..., c n }. Et s il n y a pas d ambiguïté, on notera la classe c i simplement par i. L objectif d un algorithme d induction d arbre est de générer un modèle φ(x 1,..., X p ) de prédiction de C que l on représente par un arbre de décision. Chaque branche de l arbre représente une règle. L ensemble des règles forme le modèle de prédiction qui permet de calculer, pour un nouvel individu dont on ne connaît que les variables exogènes, l état de la variable endogène. Le développement de l arbre s effectue selon un schéma simple : l ensemble d apprentissage Ω a est segmenté itérativement, à chaque fois selon une des variables exogènes X j ; j = 1,...p de sorte à engendrer la partition de plus faible entropie sur la distribution de C. Les sommets obtenus à chaque itération définissent une partition sur Ω a. Plus l arbre grandit, plus la partition devient fine. Le sommet à la racine de l arbre représente la partition grossière. Chaque sommet s d une partition S est caractérisé par une distribution de probabilités des modalités de la variable endogène C : p(i/s); i = 1,..., n. Dans les arbres d induction, l entropie H sur la partition S à minimiser est généralement une entropie moyenne calculée comme suit : H(S) = s S p(s)h(p(1/s),..., p(i/s),..., p(n/s)) (1) où h(p(1/s),..., p(i/s),..., p(n/s)) est par exemple l entropie de Shannon dont l expression est donnée plus loin, et p(s) la proportion de cas dans le sommet s. 3 Mesures d entropie 3.1 Point historique Le concept d entropie a été introduit par Hartley (1928) mais fut réellement promu et développé par Shannon (1948) et Shannon et Weaver (1949) dans les années 1940. Ils ont proposé une mesure d information qui est l entropie générale d une distribution finie de probabilités. Suivant le théorème qui caractérise l entropie de Shannon, plusieurs auteurs comme Khinchin (1957), Forte (1973) et Aczél (1973) ont fondé une axiomatique. 3.2 Entropie de Shannon Soit une expérience E avec les événements possibles e 1, e 2,..., e n de probabilités respectives p 1, p 2,..., p n. On suppose que n i p i = 1 et p i 0 pour i = 1,..., n. L entropie de

D.A. Zighed et al. Shannon de la distribution de probabilité est donnée par la formule : H n (p 1, p 2,..., p n ) = n p i log 2 p i (2) Par continuité on pose 0 log 2 0 = 0. D autres mesures d entropie existent (Zighed et Rakotomalala, 2000). i=1 3.3 Propriétés théoriques des mesures d entropie On considère que (p 1, p 2,..., p n ) pour n 2 est pris dans un ensemble fini de distributions de probabilités et on considère le simplexe d ordre n Γ n = {(p 1, p 2,..., p n ) : Une mesure d entropie est définie comme suit : n p i = 1; p i 0} (3) i h : Γ n R (4) avec les propriétés suivantes : Non négativité h(p 1, p 2,..., p n ) 0 (5) Symétrie L entropie est insensible à toute permutation au sein d un vecteur (p 1,..., p n ) de Γ n. h(p 1, p 2,..., p n ) = h(p σ(1), p σ(2),..., p σ(n) ) (6) où σ est une permutation quelconque sur (p 1, p 2,..., p n ). Minimalité S il existe k tel que p k = 1 et p i = 0 pour tout i k alors h(p 1, p 2,..., p n ) = 0 (7) Maximalité h(p 1, p 2,..., p n ) h( 1 n, 1 n,..., 1 n ) (8) Stricte concavité La fonction h(p 1, p 2,..., p n ) est strictement concave. Ainsi, l évaluation de l entropie h d une partition S nécessite la connaissance de p(i/s); i = 1,..., n; s S. 4 Mesure d entropie pour l apprentissage inductif Les propriétés des mesures d entropie que l on vient de lister ne nous paraissent pas adaptées à l apprentissage inductif. En effet, d une part l incertitude maximale ne correspond pas nécessairement à la distribution uniforme, ainsi dans le cadre de la détection de transactions frauduleuses peu fréquentes il peut par exemple être opportun de conclure à une fraude dès

que la probabilité de celle-ci dépasse un seuil de disons 10%, voire moins. D autre part, dans la pratique, le calcul de l entropie repose sur des probabilités estimées et devrait donc tenir compte de leur précision et donc de la taille de l échantillon. C est pourquoi nous proposons une nouvelle axiomatique que nous justifions très brièvement et dont l objectif est d aboutir à une entropie, que l on pourrait qualifier d empirique, qui tient mieux compte de ces considérations pratiques. 4.1 Propriétés requises Soit la nouvelle fonction d entropie que nous voulons bâtir. Nous voulons qu elle soit empirique, c est-à-dire fonction des fréquences f(i/.), sensible à la taille N de l échantillon sur lequel elles sont calculées et qu elle soit également paramétrée par une distribution W = (w 1,..., w j,..., w p ) où elle sera maximale. : N Γ 2 n R + (9) On notera, pour une distribution W fixée, W (N, f 1,..., f i,..., f n ). Nous souhaitons que possède les propriétés suivantes : P1 : Non négativité La fonction doit être à valeur non négative W (N, f 1,..., f j,..., f n ) 0 (10) P2 : Maximalité Soit W = (w 1, w 2,..., w n ) une distribution fixée par l utilisateur comme étant la moins souhaitée et donc d entropie maximale. Ainsi, pour N fixé, W (N, f 1,..., f n ) W (N, w 1,..., w n ) (11) pour toute distribution (f 1,..., f n ) de taille n. P3 : Asymétrie La nouvelle propriété de maximalité remet en cause l axiome de symétrie requis par les entropies classiques. Par conséquent, certaines permutations σ pourraient affecter la valeur de l entropie : (f 1,..., f n ) (f σ1,..., f σn ). On peut facilement identifier les conditions dans lesquelles la symétrie serait conservée comme par exemple les cas où certains w i seraient identiques et a fortiori dans le cas de la distribution uniforme. P4 : Minimalité Dans le contexte classique, l entropie est nulle dans le cas où la distribution est concentrée en une seule classe, les autres étant vides, c est-à-dire lorsqu il existe j tel que p j = 1 et que p i = 0 pour tout i j. Cette propriété doit en effet demeurer valide sur le plan théorique. Seulement, en apprentissage ces probabilités sont inconnues. Il serait quand même gênant de dire que l entropie est nulle dès lors que la distribution est concentrée en une classe. Il faut prendre en considération la taille de l échantillon qui sert à estimer les p j. On exige simplement que l entropie d une distribution empirique pour laquelle il existe j tel que f j = 1, tende vers 0 quand N devient grand, soit lim W (N, 0,..., 0, 1, 0..., 0) = 0 (12) N P5 : Consistance Pour un W donné et à distribution fixée, l entropie devrait être plus faible sur un effectif plus grand. W (N + 1, f 1,..., f j,..., f n ) W (N, f 1,..., f j,..., f n ) (13)

D.A. Zighed et al. Entropie Probabilité FIG. 1 Entropie pour l apprentissage inductif, 2 classes et w = 0.3 4.2 Formules d entropie pour apprentissage inductif On note λ i N+n l estimateur de Laplace de p i. Soit W = (w 1, w 2,...,, w n ) le vecteur d entropie maximale et N la taille de l échantillon. Nous donnons sans démonstration le théorème suivant : Théorème = Nfi+1 h W (N, f 1, f 2,..., f n ) = n i=1 λ i (1 λ i ) ( 2w i + 1)λ i + w 2 i est une mesure d entropie pour processus d apprentissage inductif qui vérifie les propriétés P1 à P5. Le graphique 1 visualise la forme de cette entropie pour deux classes avec un vecteur de maximalité W = (0.3; 0.7) et différentes valeurs de N = 5, 10, 50,... 5 Conclusion Dans ce travail nous avons défini une nouvelle fonction d entropie qui possède, sur un plan théorique et algorithmique de bonnes propriétés. Cette fonction repose sur le choix du paramètre W. L idée la plus simple pour fixer W est de prendre la distribution a priori observée sur l échantillon d apprentissage. En effet, si l utilisateur met en œuvre des techniques d apprentissage c est pour s éloigner le plus possible de la distribution a priori. Il est donc naturel qu elle soit associée à la plus forte entropie. Faute de place, nous n avons pas pu reporter toutes les critiques que nous pouvons formuler sur l utilisation des entropies classiques en apprentissage. L intérêt de notre approche est qu elle permet de répondre de façon assez simple et sans trop de

bidouillage à de nombreux problèmes comme la sous représentation des classes, l asymétrie des coûts des classes, la sensibilité à la taille de l échantillon qui évite le sur-apprentissage et l élagage comme dans CART par exemple. Références Aczél, J. (1973). On Shannon inequality, optimal coding, and characterization of Shannon s and Rényi s entropies. In On Information Theory. 1st Alta Mat. Roma. Symp. Math., Volume XVIII, New York. Academic Press. Aczél, J. et Z. Daróczy (1975). On measures of information and their characterizations. New York: Academic Press. Breiman, L., J. H. Friedman, R. A. Olshen, et C. J. Stone (1984). Classification And Regression Trees. New York: Chapman and Hall. Forte, B. (1973). Why Shannon entropy? In On Information Theory. 1st Alta Mat. Roma. Symp. Math., Volume XVIII, New York. Academic Press. Hartley, R. V. (1928). Transmission of information. Bell System Technological Journal (7), 535 563. Khinchin, A. I. (1957). Mathematical foundation of information theory, Chapter Entropy Concept in Probability Theory, pp. 1 28. New York: Dover Pub. Inc. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo: Morgan Kaufmann. Rényi, A. (1960). On measures of entropy and information. In Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability, Volume 1, Berkeley, pp. 547 561. University of California Press. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technological Journal (27), 379 423, 623 656. Shannon, C. E. et W. Weaver (1949). The Mathematical Theory of Communication. Urbana: University of Illinois Press. Zighed, D. A. et R. Rakotomalala (2000). Graphes d induction : apprentissage et data mining. Paris : Hermes Science Publications. Summary Initially, entropy measures such as Shannon s entropy have been introduced to deal with coding and information transmission. Since the middle of the sixteens, they have, however, been used in many other fields. For instance, in machine learning they are nowadays widely used in decision trees and induction graphs. Nevertheless, entropy measures are not always well suited for building reliable explanatory or prediction models. Their limitations lie mainly in their properties, especially the maximum value that is necessarily reached at the uniform distribution and their insensitiveness to the sample size. We start by recalling these classical properties. We then define a new set of best suited axioms and propose a more flexible empirical entropy measure that fits these axioms.