Khiops: discrétisation des attributs numériques pour le Data Mining

Documents pareils

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Statistique descriptive bidimensionnelle

Dénombrement. Chapitre Enoncés des exercices

UNIVERSITÉ DE SFAX École Supérieure de Commerce

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Limites des Suites numériques

STATISTIQUE : TESTS D HYPOTHESES

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Chap. 5 : Les intérêts (Les calculs financiers)

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Comportement d'une suite

1 Mesure et intégrale

Les algorithmes de tri

Chapitre 3 : Transistor bipolaire à jonction

Les Nombres Parfaits.

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

20. Algorithmique & Mathématiques

SÉRIES STATISTIQUES À DEUX VARIABLES

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Principes et Méthodes Statistiques

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Séquence 5. La fonction logarithme népérien. Sommaire

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Formation d un ester à partir d un acide et d un alcool

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

EXERCICES : DÉNOMBREMENT

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Cours 5 : ESTIMATION PONCTUELLE

Module 3 : Inversion de matrices

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Université Pierre et Marie Curie. Biostatistique PACES - UE

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

14 Chapitre 14. Théorème du point fixe

STATISTIQUE AVANCÉE : MÉTHODES

CHAPITRE 2 SÉRIES ENTIÈRES

Cours de Statistiques inférentielles

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Sommaire Chapitre 1 - L interface de Windows 7 9

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

55 - EXEMPLES D UTILISATION DU TABLEUR.

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Etude de la fonction ζ de Riemann

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Processus et martingales en temps continu

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Initiation à l analyse factorielle des correspondances

Donnez de la liberté à vos données. BiBOARD.

Une action! Un message!

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Séries réelles ou complexes

4 Approximation des fonctions

Probabilités et statistique pour le CAPES

Neolane Message Center. Neolane v6.0

Statistique Numérique et Analyse des Données

Suites et séries de fonctions

Mécanismes de protection contre les vers

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Gérer les applications

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Comment les Canadiens classent-ils leur système de soins de santé?

Le chef d entreprise développe les services funéraires de l entreprise, en

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Création et développement d une fonction audit interne*

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Neolane Leads. Neolane v6.0

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Compte Sélect Banque Manuvie Guide du débutant

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Simulations interactives de convertisseurs en électronique de puissance

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Processus géométrique généralisé et applications en fiabilité

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exercices de mathématiques

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Guide des logiciels de l ordinateur HP Media Center

La maladie rénale chronique

GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

MESURE DE L'INFORMATION

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Opérations bancaires avec l étranger *

Transcription:

Note Techique NT/FTR&D/7339 6 septembre 00 Vu, pour accord le Khiops: discrétisatio des attributs umériques pour le Data Miig directeur de DTL JM. Pitié Marc Boullé (DTL/DLI) Vu, le chef du départemet DLI JF. Cloarec Date : 6 septembre 00 Résumé : Das le domaie de l appretissage supervisé, certais modèles sot adaptés uiquemet au doées qualitatives. Ces modèles procèdet alors à ue étape de discrétisatio des attributs umériques pour pouvoir les predre e compte. De ombreuses méthodes de discrétisatio ot été proposées das la bibliographie, qui se baset sur des critères statistiques, iformatioels ou ecore d autres critères dédiés. Nous proposos ici ue ouvelle méthode de discrétisatio, Khiops, basée sur la statistique du Khi. Cotrairemet au méthodes de discrétisatio apparetées ChiMerge et ChiSplit, cette méthode optimise le critère du Khi globalemet sur l esemble du domaie de discrétisatio et e écessite aucu paramétrage de critère d arrêt de la discrétisatio. Ue étude théorique complétée par des epérimetatios motre la robustesse de la méthode et la qualité prédictive des discrétisatios obteues. Mots clés : aalyse itelligete doée ; appretissage automatique ; discrétisatio. Domaie : Traitemet de l'iformatio et des coaissaces Le préset documet cotiet des iformatios qui sot la propriété de Frace Télécom R&D. L acceptatio de ce documet par so destiataire implique, de la part de ce derier, la recoaissace du caractère cofidetiel de so coteu et l egagemet de e faire aucue reproductio, aucue trasmissio à des tiers, aucue divulgatio et aucue utilisatio commerciale sas l accord préalable écrit de Frace Télécom R&D. 00 Frace Télécom. Tous droits de reproductio, traductio, et adaptatio réservés pour tous pays Frace Télécom R&D Brache Développemet 38-40 rue du Gééral Leclerc 9794 Issy-les Moulieau Cede9 Frace Téléphoe : 0 45 9 44 44 Téléphoe iteratioal : 33 45 9 44 44 44

NT/FTR&D/7339 3/50 TABLE DES MATIERES INTRODUCTION... 4. LE TEST D INDEPENDANCE DU KHI : PRINCIPES... 6. METHODE DE DISCRETISATION KHIOPS... 9.. ALGORITHME... 9.. EFFECTIF MINIMUM PAR INTERVALLE... 9.3. EXEMPLE... 0.4. COMPLEXITE ALGORITHMIQUE....5. PROPRIETES DE LA FUSION DES LIGNES DE KHI... 3.6. DE LA METHODE A SON IMPLEMENTATION... 4 3. COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI... 6 3.. COMPARAISON AVEC CHIMERGE... 6 3.. COMPARAISON AVEC CHISPLIT... 9 4. EXPERIMENTATIONS... 4.. DESCRIPTION DES EXPERIMENTATIONS MENEES... 4.. RESULTATS D EXPERIMENTATION... 7 4.3. COMPARAISON AVEC D AUTRES METHODES DE DISCRETISATION... 3 CONCLUSION... 3 REFERENCES... 33 5. ANNEXE : APPROXIMATION DU DELTAKHI POUR LA METHODE KHIOPS... 34 INTRODUCTION... 34 5.. LOI DU KHI ET LOI GAMMA... 34 5.. EQUIPROBABILITE POUR X=N... 35 5.3. CALCUL DU LOGARITHME DE PROBABILITE DU KHI... 36 5.3.. Calcul de l(q(,))... 36 5.3.. Calcul de l(q(,))... 37 5.3.3. Calcul de l(q(,)) pour >... 37 5.4. CALCUL DU DELTAKHI... 37 5.4.. Itroductio... 37 5.4.. Calcul de DeltaKhi pour u écart de degrés de liberté... 39 5.4.3. Calcul de DeltaKhi pour u écart de degré de liberté... 44 5.5. EVALUATION NUMERIQUE... 46 5.5.. L(Q(,)... 46 5.5.. Comparaiso de plusieurs méthodes d approimatio de DeltaKhi... 47 5.5.3. DK(,,)... 48 5.6. EXEMPLES DE FUSIONS... 48 CONCLUSION... 50 REFERENCES... 50 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 4/50 INTRODUCTION La discrétisatio des attributs umériques est u suet largemet traité das la bibliographie (Zighed et Rakotomalala 000). Ue partie des modèles d appretissage est basée sur le traitemet des attributs à valeurs discrètes. Il est doc écessaire de discrétiser les attributs umériques, c est à dire de découper leur domaie e u ombre fii d itervalles idetifiés chacu par u code. Aisi, tous les modèles prédictifs à base d arbre de décisio utiliset ue méthode de discrétisatio pour traiter les attributs umériques. C4.5 (Quila 993) utilise le gai iformatioel basé sur l etropie de Shao, CART (Breima 984) utilise l idice de Gii (ue mesure de l impureté des itervalles), CHAID (Kass 980) s appuie sur ue méthode de type ChiMerge, SIPINA (Zighed 996) utilise le critère Fusiter (Zighed 998) basé sur des mesures d icertitude sesibles au effectifs. Parmi les méthodes de discrétisatio, il eiste des méthodes descedates et ascedates. Les méthodes descedates partet de l itervalle complet à discrétiser et cherchet le meilleur poit de coupure de l itervalle e optimisat le critère choisi. La méthode est appliquée itérativemet au deu sous itervalles usqu à ce qu u critère d arrêt soit recotré. Les méthodes ascedates partet d itervalles élémetaires et cherchet la meilleure fusio de deu itervalles adacets e optimisat le critère choisi. La méthode est appliquée itérativemet au itervalles restat usqu à ce qu u critère d arrêt soit recotré. Certaies de ces méthodes écessitet u paramétrage utilisateur pour modifier le comportemet du critère de choi du poit de discrétisatio ou pour fier u seuil pour le critère d arrêt. Le problème de la discrétisatio est u problème de compromis etre qualité iformatioelle (itervalles homogèes vis à vis de la variable à prédire) et qualité statistique (effectif suffisat das chaque itervalle pour assurer ue gééralisatio efficace). Les critères de type Khi privilégiet l aspect statistique tadis que ceu basés sur la mesure de l etropie privilégiet l aspect iformatioel. D autres critères (idice d impureté de Gii, mesure d icertitude de Fusiter ) tetet de cocilier les deu aspects e état à la fois sesible au effectifs et à la distributio de la variable à prédire. Le critère MDL (Miimum Descriptio Legth) (Fayyad 99) est ue approche origiale qui cherche à optimiser la quatité totale d iformatio coteue das le modèle et les eceptios au modèle. La méthode de discrétisatio Khiops est ue méthode ascedate basée sur l optimisatio globale du Khi. Les méthodes eistates les plus proches sot les méthodes descedates et ascedates utilisat le critère du Khi, mais de faço locale. La méthode descedate basée sur le Khi est ChiSplit. Elle recherche le meilleur poit de coupure d u itervalle, e maimisat le critère du Khi appliqué au deu sous-itervalles de part et d autre du poit de coupure : o coupe u itervalle si les deu sous-itervalles présetet des différeces sigificatives statistiquemet. Le critère d arrêt est ue probabilité d idépedace maimum à respecter (calculée d après la loi du Khi). La méthode ascedate basée sur le Khi est ChiMerge (Kerber 99). Elle recherche la meilleure fusio d itervalles adacets e miimisat le critère du Khi : o fusioe deu itervalles adacets s ils sot similaires statistiquemet. Le critère d arrêt est ue probabilité d idépedace miimum à respecter (calculée d après la loi du Khi). La méthode Khiops commece la discrétisatio à partir des itervalles élémetaires réduits à u idividu. Elle évalue toutes les fusios d itervalles adacets et choisit celle qui maimise le critère du Khi appliqué à la distributio de l esemble des itervalles. Le critère d arrêt est basé sur la probabilité d idépedace associée au Khi. La méthode s arrête automatiquemet dès que la probabilité d idépedace e décroit plus. La méthode Khiops optimise u critère d évaluatio global de la partitio du domaie e itervalles, et o u critère local appliqué à deu itervalles adacets comme das ChiSplit ou ChiMerge. So absece complète de paramétrage la red très souple à utiliser et permet d aboutir à des partitios de grade qualité sas itervetio utilisateur. Nous motreros qu e dépit de cette approche globale, l algorithme associé à la méthode Khiops est e Nlog(N) ou N est le ombre d idividus à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 5/50 Cette compleité algorithmique est la même que pour l algorithme ChiMerge optimisé. Nous compareros la méthode Khiops avec d autres méthodes de discrétisatio et procéderos à des epérimetatios. Efi, ous étudieros les problèmes umériques liés au calcul de la loi du Khi pour u paramétrage etrême (très grad ombre de degrés de liberté et très grade valeur du Khi). Le documet est orgaisé de la faço suivate. La partie rappelle les pricipes du test du Khi et étudie quelques ues de ses propriétés. La partie présete l algorithme Khiops et ses propriétés fodametales. La partie 3 compare la méthode Khiops avec les méthodes apparetées ChiMerge et ChiSplit d u poit de vue théorique. La partie 4 procède à des epérimetatios. L aee étudie les problèmes de sesibilité umérique liés à l approimatio de la loi du Khi. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 6/50. LE TEST D INDEPENDANCE DU KHI : PRINCIPES Soit S ue variable source, et T ue variable cible. O cherche à savoir si les variables S et T sot idépedates. O costruit le tableau de cotigece, comptat le ombre d idividus pour chaque couple de valeurs de S et T. Das le tableau par eemple, le couple de valeur (d, B) a été observé 0 fois. S\T A B C a 0 b c 3 8 0 d 5 0 e 8 9 Tableau : Eemple de tableau de cotigece Le test du Khi permet de tester l hypothèse d idépedace des deu lois. Le Khi est calculé à partir du tableau de cotigece. S\T A B C Total a 3. b 3. c 3 3 33 3. d 4 4 43 4. e 5 5 53 5. Total...3 N Tableau : Tableau de cotigece utilisé pour le calcul du Khi i : Nombre d idividus pour la i ème valeur de la variable S et la ème valeur de la variable T i. : Nombre total d idividus pour la i ème valeur de la variable S. : Nombre total d idividus pour la ème valeur de la variable T N : Nombre total d idividus I : Nombre de modalités de la variables T (ici 3) J : Nombre de modalités de la variable S (ici 5) Soit e i = i. *. / N. e i représete le ombre d idividus de la case (i, ) si les lois étaiet idépedates. e i est l effectif théorique de la case (i,). La valeur du Khi est ue mesure sur l esemble du tableau de l écart etre les ombres d idividus observés (effectif observé) et les ombres d idividus théoriques (effectif théorique) si les lois étaiet idépedates. La valeur du Khi est doc ue mesure de l écart à l hypothèse d idépedace des variables. ( ) = i ei Khi i ei Sous l hypothèse ulle d idépedace, la valeur du Khi suit ue loi du Khi à (I-)*(J-) degrés de liberté, ce qui permet de costruire u test reetat l hypothèse quad la valeur du Khi est suffisammet grade. Plus la valeur du Khi est importate, mois l hypothèse d idépedace des variables est probable. Par abus de lagage, o parlera das la suite de probabilité d idépedace des variables. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 7/50 Proba Degrés 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,0 0,0 0,05 0,0 0,0 0,00 0,000 0,0008 0,0039 0,058 0,06 0,5 0,45,07,64,7 3,84 5,4 6,63 0,83 0,0 0,04 0,0 0, 0,45 0,7,39,4 3, 4,6 5,99 7,8 9, 3,8 3 0, 0,8 0,35 0,58,0,4,37 3,66 4,64 6,5 7,8 9,84,34 6,7 4 0,30 0,43 0,7,06,65,9 3,36 4,88 5,99 7,78 9,49,67 3,8 8,47 5 0,55 0,75,5,6,34 3,00 4,35 6,06 7,9 9,4,07 3,39 5,09 0,5 6 0,87,3,64,0 3,07 3,83 5,35 7,3 8,56 0,64,59 5,03 6,8,46 7,4,56,7,83 3,8 4,67 6,35 8,38 9,80,0 4,07 6,6 8,48 4,3 8,65,03,73 3,49 4,59 5,53 7,34 9,5,03 3,36 5,5 8,7 0,09 6, 9,09,53 3,33 4,7 5,38 6,39 8,34 0,66,4 4,68 6,9 9,68,67 7,88 0,56 3,06 3,94 4,87 6,8 7,7 9,34,78 3,44 5,99 8,3,6 3, 9,59 Tableau 3 : Table du Khi etre et 0 degrés de liberté. Par eemple, pour u tableau de cotigece de dimesio 5*3, le ombre de degrés de liberté de la loi du Khi associée est 8. Si o trouve ue valeur de Khi de 0, cela sigifie que l hypothèse d idépedace des variables à ue probabilité d eviro %. Il est doc raisoable de reeter l hypothèse d idépedace das ce cas. Sesibilité à l idépedace des variables Plus les variables sot idépedates, plus les effectifs observés sot proches des effectifs théoriques. Das ce cas la valeur du Khi est faible et la probabilité d idépedace est doc forte. Sesibilité au effectifs Si o multiplie tous les effectifs par u facteur costat k e gardat les mêmes proportios de modalités cibles, la ouvelle valeur du Khi est multipliée par k. ( k i k ei ) NewKhi = = k. Khi k e i i La probabilité d idépedace dimiue alors très rapidemet avec la taille de la populatio. Cette propriété proviet du caractère statistique du test. Avec ue petite populatio, ue distributio o homogèe est relativemet fréquete, mais est peu fiable pour reeter l hypothèse d idépedace des variables. Pour ue populatio plus grade, il deviet de mois e mois probable qu ue ohomogééité de la distributio soit due au hasard. Sesibilité au proportios observées de modalités cibles Soit ue distributio des modalités cible p, p, p J. = Etudios l ifluece d ue lige de Khi, d effectif, pour des proportios sur la lige de modalités cibles a. = a Les effectifs observés et théoriques de la lige de Khi sot a et p. La cotributio de la lige au Khi est doc ( ( p a ) Khil = p ( p a ) a Khil = = p p Le Khi lige est proportioel à l effectif lige, et varie comme ue combiaiso des carrés des écarts etre les proportios théoriques et observées de modalités cibles, podérées par l iverse des proportios cibles. L écart au modalités cibles de faibles proportios est doc favorisé. Sesibilité de la loi du Khi O a vu que la valeur du Khi varie de faço liéaire avec les effectifs, et approimativemet de faço quadratique avec les écarts etre les proportios observées et théoriques. Par cotre, e se basat sur la p La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 8/50 table du Khi du tableau 3, o observe que la probabilité d idépedace varie de faço epoetielle avec la valeur du Khi. Des variatios faibles de la valeur du Khi etraîet des variatios importates de la probabilité d idépedace correspodate. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 9/50. METHODE DE DISCRETISATION KHIOPS.. Algorithme Le test du Khi est à la fois sesible au effectifs et au proportios des modalités cibles. Il s agit doc d u critère itéressat a priori pour les méthodes de discrétisatio. La loi du Khi déped du ombre de modalités (par le paramétrage du ombre de degrés de liberté). Cepedat, e passat de la valeur du Khi à la valeur de la probabilité d idépedace associée, o peut comparer deu discrétisatios basées sur des ombres d itervalles différets. O va chercher à miimiser la probabilité d idépedace etre la loi discrétisée et la loi cible e passat par la loi du Khi. Les coditios d applicatio du test du Khi imposet que l o ait u effectif théorique miimum das chaque cellule du tableau de Khi. Cette cotraite devra être prise e compte das l optimisatio. La méthode d optimisatio utilisée est ue méthode gloutoe de type ascedate. O part des itervalles élémetaires, et l o recherche la meilleure fusio possible, c est à dire celle qui etraîe e priorité u meilleur respect des cotraites d effectifs miimum, et à respect de cotraite égal, celle qui miimise la probabilité d idépedace etre loi discrétisée et loi cible. O s arrête quad toutes les cotraites sot respectées et qu aucue fusio supplémetaire e dimiue la probabilité d idépedace etre loi discrétisée et loi cible. Algorithme Khiops Iitialisatio Tri des valeurs de la loi source Créatio d u itervalle élémetaire par valeur de la loi source Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible Optimisatio de la discrétisatio Répéter Evaluer toutes les fusios possibles d itervalles adacets Calcul du Khi associé à la ouvelle loi discrétisée résultat de la fusio Chercher la meilleure fusio Fusios améliorat le respect des cotraites e priorité Maimum du Khi Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio).. Effectif miimum par itervalle La covetio la plus courate est d eiger que les effectifs théoriques soiet au mois égau à 5 pour chaque case du tableau de cotigece. Cette covetio doit être respectée pour des raisos de fiabilité de la loi du Khi. Cet effectif théorique miimum par case est équivalet à u effectif miimum par lige du tableau du Khi, et doc à u effectif miimum par itervalle de la discrétisatio. Das le cadre de la discrétisatio, o procède à des regroupemets de valeurs adhoc e espérat approimer les proportios des modalités cibles à partir des régularités observées das l échatillo. Ces régularités provieet e fait o seulemet de la loi de distributio, mais égalemet du hasard lié à l échatillo. Afi de e pas se baser à tort sur des régularités qui proviedraiet uiquemet du hasard, c est à dire de sur-appredre l échatillo, ue solutio est d augmeter la valeur de l effectif miimum La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 0/50 par itervalle, afi de lisser les effets du hasard. O predra pour valeur de l effectif miimum par itervalle aisi redéfii la racie carrée de la taille de l échatillo. Cette valeur permet d ue part d améliorer la fiabilité statistique de l évaluatio de la loi de distributio sur chaque itervalle discrétisé, d autre part d augmeter le ombre d itervalles potetiels et doc la fiesse de la discrétisatio quad la taille de l échatillo augmete. E défiitive, o predra pour effectif miimum par itervalle le maimum du résultat des deu calculs pour assurer à la fois la fiabilité statistique du test du Khi et préveir les problèmes de sur-appretissage..3. Eemple O va illustrer le déroulemet de l algorithme sur la base Iris proveat des bases d appretissage de l UCI Irvie (Blake 998). La base Iris est composée de 50 istaces. Les istaces représetat des fleurs de la famille des Iris sot décrites par 5 attributs : sepal legth e cm sepal width e cm petal legth e cm petal width e cm class: Iris setosa, Iris versicolor, Iris virgiica La variable à prédire est la classe. O va discrétiser l attribut sepal width, qui état le mois corrélé avec la variable cible est le plus itéressat pour illustrer la méthode. Le tableau de cotigece associé au valeurs de l attribut sepal width est le suivat: Valeur Iris Sepal width versicolor Iris Iris Virgiica setosa Total Itervalle fusioé Khi Résultat 0 0 ] - ;,5] 87,86, 0 3 ],0;,35] 87,44,3 3 0 4 ],5;,45] 87,7,4 3 0 0 3 ],35;,55] 85,09,5 4 4 0 8 ],45;,65] 88,8,6 3 0 5 ],55;,75] 88,33,7 5 4 0 9 ],65;,85] 87,83,8 6 8 0 4 ],75;,95] 84,49,9 7 0 ],85; 3,05] 83,8 3 8 6 6 ],95; 3,5] 87,03 3, 3 4 5 ]3,05; 3,5] 88,9 3, 3 5 5 3 ]3,5; 3,35] 88, 3,3 3 6 ]3,5; 3,45] 84,86 3,4 9 ]3,35; 3,55] 87,0 3,5 0 0 6 6 ]3,45; 3,65] 87,03 3,6 0 3 ]3,55; 3,75] 87,36 3,7 0 0 3 3 ]3,65; 3,85] 87,03 3,8 0 4 6 ]3,75; 3,95] 87,36 3,9 0 0 ]3,85; 4,05] 88,36 4 0 0 ]3,95; 4,5] 88,36 4, 0 0 ]4,05; 4,5] 88,36 4, 0 0 ]4,5 ; [ 88,36 4,4 0 0 Total 50 50 50 50 Tableau 4 : Table de cotigece pour l attribut sepal width de la base Iris. Evaluatio des fusios. Lors de l iitialisatio, o costitue les 3 itervalles élémetaires ]- ;,], ],;,5] ]4,5; 4,3], ]4,3; [. La valeur du Khi associée est de 88,36. E preat la loi du Khi à 44 degrés de liberté correspodate (44=(3-)*(3-)), o obtiet ue probabilité d idépedace de 8,3 0-5. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 /50 O calcule alors le Khi résultat de chaque fusio d itervalles. Par eemple, la fusio des itervalles ]- ;,], ],;,5] doe u ouvel itervalle ]- ;,5] et le Khi résultat de la ouvelle table (avec u itervalle e mois) a ue valeur de 87,86. O cherche alors la fusio qui maimise le Khi. Ici, la valeur ma du Khi résultat d ue fusio est de 88,36, atteite par eemple pour la fusio des deu deriers itervalles ]4,5; 4,3] et ]4,3; [. E preat la loi du Khi à 4 degrés de liberté correspodate (il y a u itervalle e mois), o obtiet ue probabilité d idépedace de 3,8 0-5. La probabilité d idépedace dimiuat, la discrétisatio est améliorée et o réalise la fusio correspodate. O recommece ces étapes tat qu il y a amélioratio de la discrétisatio. Le tableau 5 illustre la liste des étapes successive de la méthode de discrétisatio. Pour chaque itervalle costitué, o a rappelé les effectifs observés correspodats. Au départ, les itervalles sot fusioés pour arriver à respecter la cotraite des effectifs miimau par itervalle, tout e optimisat le critère de discrétisatio. Ue fois la cotraite satisfaite, les fusios d itervalles se fot uiquemet pour optimiser le critère de discrétisatio. Comme les trois modalités cibles sot équidistribuées, il faut u effectif lige observé de 5 pour satisfaire la cotraite d effectif théorique par case de 5. Cette valeur état supérieure à racie de 50 (cotraite pour éviter le sur-appretissage), o utilise ici u effectif miimum par itervalle de 5. Valeur Iris Sepal width versicolor Iris virgiica Iris setosa Total 0 0 3--0 9-- 34--, 0 3,3 3 0 4 6-0-,4 3 0 0 3,5 4 4 0 8-0-0 8-8-0 5-0-,6 3 0 5 8-6-0,7 5 4 0 9,8 6 8 0 4,9 7 0 3 8 6 6 5-4-8 3, 3 4 5 6-9-0 7-- 3, 3 5 5 3 3,3 3 6 3,4 9 --5-5-4-5-30 3,5 0 0 6 6 3,6 0 3 0--5 0-3-9 3,7 0 0 3 3 3,8 0 4 6 3,9 0 0 0-0-6 4 0 0 0-0- 0-0-4 4, 0 0 4, 0 0 0-0- 4,4 0 0 Total 50 50 50 50 Tableau 5 : Fusios successives des itervalles pour arriver à ue discrétisatio e trois itervalles Au bout d ue vigtaie d étapes, o arrive à la loi discrétisée suivate: Valeur Sepal width Iris-versicolor Iris-virgiica Iris-setosa Total Itervalle Fusioé Khi Résultat ]- ;.95[ 34 57 ] - ; 3,35] 54,7 [.95; 3.35[ 5 4 8 57 ],95 ; ] 43,97 [3.35; [ 5 30 36 Total 50 50 50 50 Tableau 6 : Table de cotigece pour l attribut sepal width discrétisé de la base Iris Le Khi associé à la loi discrétisée a ue valeur de 70,74, ce qui correspod à ue probabilité d idépedace de,66 0-4 (loi du Khi à 4 degrés de liberté). Deu fusios d itervalles sot ecore La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 /50 possibles. La meilleure d etre elles est la première fusio, qui correspod à u Khi de valeur 54,7. La probabilité d idépedace associée est,73 0 - (loi du Khi à degrés de liberté). Cette fusio qui etraîe ue croissace de la probabilité d idépedace est doc refusée. La variable sepal width a doc été discrétisée e trois itervalles. Das le premier itervalle, la classe Iris setosa est très rare. Das le secod, il y a équilibre etre les trois classes. Das le derier itervalle, la classe Iris setosa est de loi la plus fréquete..4. Compleité algorithmique O va évaluer la compleité algorithmique de la méthode de discrétisatio Khiops par rapport au ombre d idividus N de la base de doées de travail. Das le pire des cas, les idividus preet des valeurs toutes différetes pour la variable à discrétiser. Si l o se base sur les étapes de l algorithme Khiops, o obtiet ue compleité algorithmique e N 3. Iitialisatio: e Nlog(N) Optimisatio de la discrétisatio Répéter (au plus N étapes) Evaluer toutes les fusios possibles d itervalles adacets : N évaluatio de Khi (e N) Chercher la meilleure fusio : e N Evaluer la coditio d arrêt : e O va motrer que l o peut optimiser l algorithme et le rameer à ue compleité algorithmique e Nlog(N). Le calcul du Khi sur u tableau de cotigece complet demade N étapes de calcul de Khi lige. Khi = Khil i i Le calcul du Khi correspodat à la fusio de deu liges i et i (i =i) peut s écrire de la faço suivate : KhiF = Khil Khil Khi l Khi ii' k ii' k k< i k> i' Fii' = Khilk Khilii' Khili Khili' k Fii' = Khi DeltaKhiii' Khi Grâce à l additivité du critère du Khi, le Khi lié à ue fusio d itervalles peut être évalué e ue seule étape si l o coaît le Khi iitial. Si l o mémorise toutes les valeurs de Khi lige et de DeltaKhi, la recherche de la meilleure fusio se fait e recherchat le meilleur DeltaKhi. Après ue fusio d itervalles, seuls les itervalles adacets à l itervalle fusioé doivet être mis à our pour préparer l étape suivate. La partie critique de l algorithme deviet alors la recherche de la meilleure fusio à chaque étape. Cette recherche est e N. Si l o trie préalablemet la liste des fusios possibles, et que l o maitiet cette liste triée au cours de l optimisatio de la discrétisatio, la recherche du meilleur élémet est e, au pri du coût de gestio de la liste triée. Les arbres biaires de recherche équilibrés (AVL Biary Search Tree par eemple) permettet de gérer ue telle liste triée e maiteat l ordre das la liste lors d isertios/supressios à u coût logarithmique. E se basat sur la mémorisatio des KhiLige et des DeltaKhi, sur le calcul icrémetal des Khi et sur l utilisatio d ue liste triée de type arbre biaire de recherche équilibré, o arrive alors à ue compleité globale de Nlog(N). Algorithme Khiops optimisé Iitialisatio Tri des valeurs de la loi source : e Nlog(N) Créatio d u itervalle élémetaire par valeur de la loi source : e N La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 3/50 Calcul des Khi lige et du Khi iitial : e N Calcul des DeltaKhi : e N Tri des fusios par valeur de DeltaKhi : e Nlog(N) Calcul de la probabilité d idépedace etre la loi discrétisée et la loi cible : e Optimisatio de la discrétisatio Répéter: N étapes Chercher la meilleure fusio : e e preat le premier élémet de la liste triée Evaluer la coditio d arrêt Arrêter si toutes les cotraites sot respectées ou si la probabilité d idépedace augmete suite à la fusio Cotiuer sio (et effectuer la meilleure fusio) Si cotiuer : effectuer la fusio d itervalle Calcul du KhiLige pour le ouvel itervalle : e Calcul des DeltaKhi pour les deu itervalles adacets au ouvel itervalle Mise à our de la liste triée des DeltaKhi : e log(n) Suppressio du DeltaKhi du ouvel itervalle Suppressio des acies DeltaKhi des itervalles adacets au deu sous itervalles sources du ouvel itervalle Aout des ouveau DeltaKhi des itervalles adacets au ouvel itervalle O peut oter que l occupatio mémoire écessaire pour l algorithme est égalemet e Nlog(N). O doit e effet mémoriser N Khi liges, N DeltaKhi, et ue structure de liste triée de type arbre biaire de recherche équilibré qui a ue occupatio mémoire de Nlog(N). La versio optimisée de l algorithme Khiops a la même compleité que la versio optimisée de l algorithme ChiMerge, ce qui red la méthode utilisable y compris sur des bases de doées très volumieuses (de 00000 à 000000 d idividus)..5. Propriétés de la fusio des liges de Khi Soit ue distributio des modalités cible p, p, p J. = Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. a Les Khi liges sot b Khi l = et Khi l' = ' p. p O evisage la fusio des deu liges de Khi. Les effectifs observés et théoriques de la lige fusioée sot a b et p ( ). a b ' Le Khi lige de la fusio est ( ) ' Khil" = ' p Le regroupemet des deu liges etraîe ue modificatio du Khi, DeltaKhi = Khil Khil Khil. p a b La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 4/50 DeltaKhi = ( ' ) ' DeltaKhi = ' a b ' ' p ( a ) b p a ' b La fusio de deu liges de Khi e peut que faire décroître la valeur du Khi. La loi du Khi a cepedat mois de degrés de liberté. Si le Khi décroît suffisammet faiblemet (voire e décroît pas), la probabilité d idépedace correspodate dimiue. Sio, cette probabilité augmete. Si les deu liges ot eactemet les mêmes proportios de modalités cibles (a = b ), alors la fusio de ces deu liges e fait pas dimiuer le Khi. La fusio de deu liges au proportios idetiques (ou très proches) dimiue doc la valeur de la probabilité d idépedace. Pour dimiuer la probabilité d idépedace, il est plus importat d être similaire pour les petits p que pour les grads p. Pour u rapport d effectifs costat, la décroissace du Khi est proportioelle à l effectif global des deu liges. Les fusios avec effectifs faibles ot plus de chace de dimiuer la probabilité d idépedace Pour u effectif global des deu liges costat, la décroissace du Khi est maimale quad les effectifs des deu liges sot idetiques. Les fusios avec effectifs différets dimiue doc davatage la probabilité d idépedace. E résumé, la probabilité d idépedace dimiue (le Khi décroît le mois) selo les facteurs suivats : - faibles effectifs sur les liges - effectifs différets etre les liges - proportios similaires etre les liges (surtout pour les petits p ) 000 ' 00 0 DeltaKhi = DeltaKhi = 0 DeltaKhi = 00 0,8 0,6 b 0,4 DeltaKhi = 0 DeltaKhi = 0,0 DeltaKhi = 0, DeltaKhi = 0,4 0, 0 00 000 Figure : Ifluece des effectifs 0 0 0, 0,4 0,6 0,8 a Figure : Ifluece des proportios Remarque Les fusios de liges ayat les même proportios de modalités cibles sot optimales pour l algorithme et serot doc effectuées les premières (au cotraites d effectif miimum près). Toutes les valeurs adacetes ayat même modalité cible peuvet doc être regroupées pour costituer les itervalles iitiau lors de la phase d iitialisatio de l algorithme..6. De la méthode à so implémetatio Il faut dissocier la méthode de l algorithme et de so implémetatio. Le pricipe de la méthode est de rechercher parmi tous les regroupemets e itervalles possibles celui qui miimise la probabilité d idépedace etre la loi discrétisée et la loi cible. Cette probabilité est La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 5/50 mesurée par la loi du Khi appliquée au tableau de cotigece etre loi discrétisée et loi cible. Pour améliorer la fiabilité statistique de l algorithme, u effectif miimum dépedat de la taille de l échatillo est aouté pour cotraidre la recherche de la meilleure partitio e itervalles. A ce iveau de pricipe, la méthode Khiops paraît robuste. Le calcul de l effectif miimal théorique doit teir compte plus précisémet des lois cibles à plusieurs modalités pour forcer le regroupemet d itervalles qui e paraisset dissemblables que par le hasard de l échatillo. Ce calcul a ici été fait qu approimativemet. L algorithme de recherche est u algorithme glouto qui pred e compte la cotraite d effectif miimum de la faço la plus souple possible. Cette heuristique garatit u temps d eécutio superliéaire, ce qui est idispesable dès que l o s attaque à des problèmes de data miig tirés du mode réel. Par cotre, il est clair que l algorithme e coduit pas forcémet à la solutio optimale et que l o peut même costruire des eemples le mettat e défaut, otammet e ce qui cocere la prise e compte des cotraites d effectif miimum. Il est éamois ievisageable de rechercher la solutio optimale du problème de la discrétisatio optimale. L algorithme écessite ue boe approimatio de la loi du Khi pour des valeurs très importates de ombre de degrés de liberté et de Khi. L évaluatio eacte de la loi du Khi serait l idéal, mais elle est pas dispoible das la pratique. De plus, o arrive au limites de la précisio umérique des ordiateurs pour des probabilités d idépedace proche de zéro. Les limites de la méthode provieet d avatage de so implémetatio que de so pricipe. Le problème le plus critique est celui de l évaluatio de la loi du Khi. Nous motreros que l approimatio de l effectif miimal et l heuristique gloutoe utilisée permettet d obteir des résultats de très boe qualité avec des temps de calcul très rapides. Nous étudierot égalemet e aee de ouvelles méthodes umériques permettat d approimer le logarithme de la probabilité associée au Khi et de calculer de faço très précise les variatios du Khi cotrôlat le critère d arrêt de l algorithme Khiops, et ce pour de très larges domaies de valeurs. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 6/50 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D. 3. COMPARAISON THEORIQUE AVEC LES METHODES BASEES SUR LE KHI 3.. Comparaiso avec ChiMerge Soit ue distributio des modalités cible p, p, p J. = p Soit ue première lige de Khi, d effectif, pour des proportios de modalités cibles a. = a Soit ue secode lige de Khi, d effectif, pour des proportios de modalités cibles b. = b Les effectifs observés et théoriques de la première lige de Khi sot a et p. Les effectifs observés et théoriques de la secode lige de Khi sot b et p. Les Khi liges sot = p a l Khi et = ' " p b l Khi. O a vu que pour la méthode Khiops, le calcul du DeltaKhi résultat de la fusio de deu liges coduit à : ( ) = p b a DeltaKhi ' ' Pour la méthode ChiMerge, o cosidère le tableau du Khi local au deu liges. Das ce cotete local, la distributio des modalités cibles q, q, q J a pour valeurs ' ' b a q =. Pour évaluer l itérêt de la fusio des deu liges, o calcule le Khi de cette table locale du Khi. = ' q b q a l SommeKhi ( )( ) ( ) ( ) ' ' ' ' b a b a l SommeKhi = ( ) ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) ( ) ( ) ' ' ' ' b a b a b a l SommeKhi = ( ) = q b a l SommeKhi ' ' Le calcul du critère d arrêt pour les méthodes Khiops et ChiMerge coduit doc a ue epressio mathématique idetique. L iterprétatio du critère est radicalemet différete. La distributio des modalités cibles est globale a toute la table pour Khiops (proportios p i ), alors qu elle est locale au deu liges adacetes de la table pour ChiMerge (proportios q i ). Pour Khiops, o s arrête si : Proba(KhiDeltaKhi, (-)*(J-)) < Proba(Khi, (-)*(J-)) Pour ChiMerge (paramétré par ue valeur ProbaSeuil), o s arrête si : Proba(SommeKhil, J-) > ProbaSeuil

NT/FTR&D/7339 7/50 Cela illustre ue différece fodametale etre les deu méthodes. ChiMerge foctioe de faço locale, alors que Khiops tiet compte des proportios de modalités cibles globales, du ombre d itervalles global et de la valeur globale du Khi. 0 9 8 7 ProbLevel 6 5 4 3 0 0 5 0 5 0 5 30 35 40 Khi Figure 3 : Loi du Khi à u degré de liberté O va predre l eemple de la fusio des deu liges de même effectif ayat des proportios de modalités cibles légèremet différetes pour ue loi cible à deu modalités équiréparties. (p-e) (-pe) (pe) (-p-e) p (-p) Les probabilités locales au tableau du Khi des deu liges sot p et -p. La différece d effectifs observés etre les deu liges est D=e pour ue même modalité cible D e D Das ce cas, o a DeltaKhi = 8e = et SommeKhil = =. p( p) p( p) Les seuils d acceptatio usuels du DeltaKhi varie de à 0 quad Khi/(Ndl) varie de à 00 (cf. aee). Cela sigifie que pour l algorithme Khiops, la fusio de deu liges est acceptée dès que la différece des effectifs observés etre les deu liges est au maimum de l ordre de racie de. Cette différece augmete avec le Khi global. Pour avoir u comportemet équivalet das ChiMerge, il faut que p=0,5. Das ce cas, il faut fier u seuil de Khi etre 0,3 (Khi = ) et 0,00 (Khi = 0). Par ailleurs, l algorithme du ChiMerge est très sesible au probabilités cibles p locales au deu liges. Si l o passe à p=0, au lieu de 0,5, le calcul SommeKhil doe u résultat presque trois fois supérieur. Pour u résultat équivalet, il faut alors auster leur seuil de Khi etre 0, (Khi = 3) et 0,000000 (Khi = 30). Le comportemet «ituitif» de la méthode Khiops qui cosiste à autoriser toute fusio de deu liges «similaires» est pas reproductible avec l algorithme ChiMerge. O va predre la table suivate pour illustrer la difficulté de choisir u seuil de Khi pour l algorithme ChiMerge : La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 8/50 Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil 6 94-0,7 6,9 0,03 6 94 4 76-6,48,7 0,000 30 70-0,7 0,9 0,339 54 46 47 53-5,78 6,0 0,03 53 47-0,7 0,7 0,396 00 00 70 30-5,78 6,0 0,03 76 4-0,7 0,9 0,339 46 54 94 6-6,48,7 0,000 00 0-0,7 6,9 0,03 94 6 Tableau 7 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O a ici u Khi total pour la table globale de 449, égale à eviro 50 fois le ombre de degrés de liberté. E se référat à la table des DeltaKhi e aee, les fusios de DeltaKhi supérieur à -5 sot acceptées, les autres sot refusées. Pour l algorithme Khiops, les ciq fusios «évidetes» sot acceptées et cosidérées comme équivaletes. Pour ChiMerge, les fusios cetrales (autour de p=0,5) sot largemet préférées au fusios etrêmes (p = 0,03 ou 0,97). La fusio etre les liges 30-70 et 47-53 est même préférée à la fusio etre les liges 0-00 et 6-94. Das ce cadre, il est difficile de choisir le bo seuil pour l algorithme ChiMerge. E fait ici, e choisissat le seuil à 0,0 (pour accepter la fusio etre 0-00 et 6-94), l algorithme ChiMerge va doer u résultat cohéret : les premières fusios vot e effet avoir pour effet d iterdire la fusio etre les liges 30-70 (fusioée avec 4-76) et 47-53 (fusioée avec 53-47). Les deu méthodes aboutisset das ce cas à la même table fiale. Das l eemple suivat (Khi total=378), seul l algorithme Khiops permet d aboutir au fusios aturelles. Pour ChiMerge, la fusio etre les liges 33-67 et 50-50 est préférée à la fusio «aturelle» etre les liges 0-00 et 6-94 quel que soit le seuil choisi. Table iitiale Khiops ChiMerge Table fiale 0 00 DeltaKhil SommeKhil Seuil 6 94-0,7 6,9 0,03 6 94 33 67-4,58 3, 0,000 33 67 50 50-5,78 5,95 0,05 50 50 67 33-5,78 5,95 0,05 67 33 94 6-4,58 3, 0,000 00 0-0,7 6,9 0,03 94 6 Tableau 8 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge O va utiliser le derier eemple suivat (Khi total=3800) pour illustrer la prise e compte des facteurs d échelle. Das la méthode Khiops, o se trouve ici à u iveau de Khi/(Ndl) supérieur à 600. A ce iveau de Khi, les fusios aturelles etre 0-000 et 50-950 sot acceptées, les autres sot largemet écartées. Pour ChiMerge, la fusio etre 350-650 et 500-500 est systématiquemet préférée à la fusio etre 0-000 et 50-950 quel que soit le seuil choisi. Il faut oter que ce seuil pour ChiMerge est ici de l ordre de 0 -. Il déped doc fortemet des effectifs e eu, ce qui red so austemet mauel etrêmemet délicat. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 9/50 Table iitiale Khiops ChiMerge Table fiale 0 000 DeltaKhil SommeKhil Seuil 50 950-5 5,8 8,00E-3 50 950 350 650-80 8,5 4,0E-63 350 650 500 500-45 46,04,6E- 500 500 650 350-45 46,04,6E- 650 350 950 50-80 8,5 4,0E-63 000 0-5 5,8 8,00E-3 950 50 Tableau 9 : Choi de la meilleure fusio d itervalle pour Khiops et ChiMerge E coclusio, la méthode ChiMerge comporte plusieurs faiblesses itrisèques qui sot résolues par la méthode Khiops. Les caractéristiques puremet locales de ChiMerge etraîet des difficultés pour trouver u paramétrage du seuil de Khi optimal. Tout seuil fié par l utilisateur e sera pertiet qu à certaies étapes de l algorithme (problèmes d échelles liées à la taille de l échatillo iitial et au ombre d itervalles) et avatagera à tort les fusios d itervalles dot les proportios locales sot proches de l équipartitio. Le critère global utilisé das Khiops résout ces problèmes e calculat u critère d arrêt auto-adaptatif e foctio de la taille de l échatillo et des spécificités locales des itervalles évaluées équitablemet parmi l esemble de toutes les fusios possibles. 3.. Comparaiso avec ChiSplit Khiops est u algorithme ascedat et ChiSplit est u algorithme descedat, ce qui red la comparaiso etre les deu méthodes plus difficile que pour ChiMerge. Preos l eemple d ue loi cible à deu modalités équiréparties, pour laquelle seule ue lige de la table du Khi présete des proportios de modalités cibles différetes des proportios globales. p (-p) p (-p) p (-p) (p-e) (- pe) p (-p) p (-p) p (-p) (Ip-e) (I- I Ipe) O va calculer le critère du ChiSplit pour u premier itervalle costitué de i liges de type p-(-p) et u secod itervalle coteat le reste de la table. ( ip i( p e / I)) ( i( p) i( p e / I)) KhiSpliti = i( p e / I) i( p e / I) ( (( I i) p e) ( I i)( p e / I)) ( (( I i)( p) e) ( I i)( p e / I)) ( I i)( p e / I ) ( I i)( p e / I ) ( e / I ) i KhiSplit i = ( p e / I)( p e / I ) I i Si la lige sigulière est e i 0 avec i 0 <= I/, la valeur du critère croît usqu à i 0 puis décroît esuite (la lige sigulière état passée de l autre côté du poit de coupure, il faut utiliser la formule avec I-i). La La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 0/50 coupure se fait uste au ras de la lige sigulière, qui sera isolée e ré-appliquat l algorithme sur le sous itervalle comportat cette lige. La méthode ChiSplit arrive doc à isoler correctemet la sigularité. Le calcul du ChiSplit met éamois e lumière ses problèmes d utilisatio. Le critère d arrêt est très délicat à auster car il déped de facteurs d échelle (ombre de liges du tableau), de l importace des sigularités à détecter, et de la positio de la sigularité das la table du Khi. E effet, la valeur de KhiSplit (maimale au poit de coupure) varie du simple (sigularité e i 0 =) au double (sigularité e i 0 =I/) selo la positio de la sigularité, ce qui red u austemet optimal impossible das le cas de plusieurs sigularités présetes à des positios différetes. O va repredre le premier eemple utilisé pour ChiMerge pour illustrer l esemble de ces problèmes. Table iitiale Khiops ChiSplit Table fiale 0 00 DeltaKhil KhiSplit Seuil 6 94-0,7, 5,59E-6 6 94 4 76-6,48 0,90 5,76E-50 30 70-0,7 74,9,3E-6 54 46 47 53-5,78 36,67 5,E-73 53 47-0,7 37,8 3,95E-73 00 00 70 30-5,78 36,67 5,E-73 76 4-0,7 74,9,3E-6 46 54 94 6-6,48 0,90 5,76E-50 00 0-0,7, 5,59E-6 94 6 Tableau 0 : Choi de la meilleure fusio d itervalle pour Khiops et ChiSplit O est ici das des ordres de gradeur de 0-5 à 0-75 pour le seuil de Khi à utiliser. Pour des échatillos de taille supérieure (de l ordre de 0000 idividus), o se retrouverait au limites de la précisio umérique des machies (de l ordre de 0-300 ), ce qui redrait impossible le choi d u seuil. Par ailleurs, la coupure optimale trouvée par ChiSplit est de découper au milieu du tableau du Khi. E effet, cette coupure doe deu liges d effectifs 07-393 et 393-07, qui costitue ue ecellete coupure de l esemble e deu itervalles. Mais de ce fait, la coupure a séparé irrémédiablemet les liges 47-53 et 53-47 qui seraiet ituitivemet à fusioer. L approche de l algorithme ChiSplit qui combie recherche des structures globales et algorithme glouto costitue doc ue faiblesse itrisèque pour l idetificatio des régularités locales de la variable à discrétiser. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 /50 4. EXPERIMENTATIONS 4.. Descriptio des epérimetatios meées Nous avos effectué ue série de test sur des eu d essai théoriques parfaitemet cous, à savoir le mélage de deu classes suivat chacue ue loi de distributio gaussiee. L obectif est d étudier le comportemet de la méthode de discrétisatio Khiops e foctio de la taille de l échatillo et du degré de séparabilité des deu classes, austable par l écart type des gaussiees. Les eu d essai sot costitués de la faço suivate : Chaque eu d essai correspod à u échatillo paramétré u écart type ET et ue taille d échatillo Taille. Chaque idividu est représeté par ue variable cotiue Value et ue variable cible Class à prédire. La variable à prédire Class a deu valeurs 0 et équiréparties. La loi de distributio des 0 est ue gaussiee de moyee 0 et d écart type ET. La loi de distributio des est ue gaussiee de moyee et d écart type ET. O étudie la discrétisatio de l'attribut Value pour l'attribut à prédire Class. Afi d obteir des valeurs statistiquemet fiables, l epérimetatio est répétée 00 fois pour chaque couple de valeur (ET, Taille). Les écarts types étudiés sot 0,, 0,, 0,5, 0,3, 0,4, 0,5, 0,6,,, 0, ce qui permet de passer progressivemet de classes presque parfaitemet séparables à des classes pratiquemet mélagées aléatoiremet. Les tailles d échatillo étudiées sot 00, 000, 0000, 00000, 000000, ce qui permet de passer d échatillos peu fiables statistiquemet à des échatillos très volumieu, correspodat surtout à des tests de volumétrie. La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 /50 4,00,50 3,50,00 Class0 Class Total 3,00 0,50 0,00 -,00 -,00 0,00,00,00 3,00,50,00,50 ET=0, ET=0, ET=0,5 ET=0,3 ET=0,4 ET=0,5 ET=0,6 ET= ET= ET=0 Figure 5 : Mélage de deu gaussiees d écart type 0,5,00 Class0 0,50 Class Total 0,00 -,00 -,00 0,00,00,00 3,00 Figure 6 : Mélage de deu gaussiees d écart type 0,5,00 0,50 Class0 Class Total 0,50 0,00 -,00 -,00 0,00,00,00 Figure 4: Lois gaussiees utilisées pour l epérimetatio 0,00 -,00 -,00 0,00,00,00 3,00 Figure 7 : Mélage de deu gaussiees d écart type 0,50 0,00 -,00 -,00 0,00,00,00 3,00 Figure 8 : Mélage de deu gaussiees d écart type Class0 Class Total La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 3/50 Ue autre faço de préseter le problème du mélage des gaussiees est de visualiser la proportio de la classe 0 (par eemple) e foctio de la valeur de la variable cotiue à discrétiser. Les classes sot équiréparties pour la valeur 0,5, et la trasitio etre la zoe où la classe 0 est maoritaire et celle où la classe est maoritaire est d autat plus rapide que l écart type des gaussiee est faible.,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 ET=0,5 ET=0,50 ET=,00 ET=,00 0,0 0,0 0,00 -,00 -,00 0,00,00,00 3,00 Figure 9 : Proportio de la classe 0 pour différets écarts types des gaussiees Pour illustrer la variabilité statistique des échatillos, o va visualiser la proportio de la classe 0 sur des histogrammes costitués de partiles de taille 5 et 00 pour la séparatio de deu gaussiees d écart type sur u échatillo de taille 000. Ces histogrammes costituet des discrétisatios o supervisées et motret l impact du choi des effectifs par itervalle. O voit clairemet qu ue taille d effectif par itervalle trop petite coduit à refléter trop fidélemet les aléas de l échatillo, alors qu ue taille trop importate (à la limite deu itervalles uiquemet) coduirait à approimer trop grossièremet la courbe de répartitio réelle. 0,9 0,8 0,7 0,6 0,5 0,4 Histo5 Histo00 Répartitio 0,3 0, 0, 0-3 - - 0 3 4 Figure 0 : Proportio de la classe 0 et histogrammes par partiles pour deu gaussiees d écart type sur u échatillo de taille 000 La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 4/50 Pour chaque eu de paramètres, o a mesuré les idicateurs suivats : Temps de discrétisatio Idicateur ProbLevel Nombre d itervalles Etropie Etropie mutuelle Erreur théorique Erreur e appretissage Erreur e validatio Distace à la loi Temps de discrétisatio Le temps de discrétisatio est mesuré sur u PC Petium II 500 Mhz, 384 Mo RAM, sous Widow/NT 4.0. Seul le temps de discrétisatio a été pris e compte. Le chargemet des doées e mémoire a pas été comptabilisé. ProbLevel Le ProbLevel est l idicateur utilisé par la méthode Khiops. Il correspod à la probabilité que la loi de la variable discrétisée et la loi cible soiet idépedates pour la valeur du Khi observé (e fait l opposé du logarithme base 0 pour avoir ue valeur positive avec des plages de valeurs facilemet iterprétables). Nombre d itervalles Le ombre d itervalles résulte directemet de la discrétisatio. Etropie L etropie est la mesure de la quatité d iformatio (ombre de bits) présete das la variable discrétisée. Etropie mutuelle L etropie mutuelle représete la quatité d iformatio commue etre la variable discrétisée et la variable cible (qui a ici ue etropie de ). Erreur théorique Le prédicteur optimal est celui qui prédit la classe maoritaire e chaque poit. Das otre cas, le prédicteur optimal est basé sur la séparatio optimale des deu gaussiees, c est à dire sur la médiae des moyees des deu gaussiees qui ot même écart type (séparatio e 0,5 pour les eu d essai). L erreur théorique correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur optimal, c est à dire au rapport de l aire de l itersectio des deu gaussiees sur l aire de la somme des deu gaussiees. Erreur e appretissage L erreur e appretissage est l erreur mesurée sur la discrétisatio si l o se sert de la discrétisatio comme d u prédicteur. Pour chaque itervalle, o prédit la classe maoritaire mesurée sur l échatillo. L erreur e appretissage est égale à la somme des effectifs des classes mioritaires de chaque itervalle de discrétisatio divisée par l effectif global de l échatillo. L erreur e appretissage résulte doc d u comptage dot la fiabilité statistique déped de la taille de l échatillo. Erreur e validatio L erreur e validatio de la discrétisatio correspod au pourcetage de mauvaise prédictio e se basat sur le prédicteur lié à la discrétisatio. Cette erreur e validatio peut être calculée de faço eacte car o coaît la loi de distributio eacte de chaque classe. Il est pas écessaire de l estimer sur u esemble de validatio. Pour cela, o calcule pour chaque itervalle l aire erroée sous la gaussiee de la classe prédite à tort. O fait le cumul de ces aires erroées, divisé par l aire de la somme des deu gaussiees. Pour ue discrétisatio qui se baserait sur eactemet deu itervalles ]- ; 0,5] et ]0,5; [ et prédirait la classe 0 sur le premier itervalle et la classe sur le secod itervalle, l erreur e validatio coïciderait avec l erreur théorique. Cela est logique, car das ce cas le prédicteur basé sur la discrétisatio est égal au prédicteur optimal. Distace à la loi La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.

NT/FTR&D/7339 5/50 O itroduit ce derier critère pour évaluer plus fiemet que par l erreur e validatio la qualité d ue discrétisatio. E effet, si par eemple l o désire fait du scorig, il faut pouvoir classer les idividus par probabilité décroissate d apparteir à ue classe, et doc évaluer cette probabilité plus fiemet que par ue discrétisatio à deu itervalles. Soit ue loi de distributio des classes 0 et défiie e tout poit de la variable Value par p 0 () et p () les probabilités d apparteir à la classe 0 ou, et par la desité de probabilité D(). E tout poit, p 0 () p () = et D ( ) d =. O cherche à comparer cette loi de distributio avec ue secode loi basée sur la même desité de probabilité des idividus, mais pour des proportios p 0 () et p () différetes. O défiit la distace etre les deu distributios de la faço suivate : Distace( ( p ) ( )) 0, p, p' 0, p' = ( p0( ) p' 0 ( ) p( ) p' ( ) ) D( ) d Comme il y a que deu modalités cibles, o a : ((, p ), ( p', p' )) p ( ) p' ( ) Distace p 0 0 = 0 0 D( ) d La distace aisi défiie est doc ulle si et seulemet si les deu distributios sot cofodues. Elle est borée par et cette bore est atteite si par eemple p 0 () = -p 0 () et p 0 () e pred que des valeurs 0 ou. Graphiquemet cette distace peut être vue comme l aire comprise etre deu distributios (podérée éamois par la desité de la distributio e chaque poit). Ceci est illustré ci-dessous pour le cas d ue loi réelle et de sa discrétisatio sur la figure suivate. 0,8 0,6 0,4 Loi discrétisée Loi réelle 0, 0-3 - 3 Figure : Visualisatio de la distace etre ue loi réelle et ue loi discrétisée Das otre cas, la loi de distributio est basée sur l utilisatio de deu gaussiees G(, 0, ET) et G(,, ET). p 0 ()=G(, 0, ET)/D(), p ()=G(,, ET)/D() et D(X) = G(, 0, ET) et G(,, ET). La loi de distributio basée sur ue discrétisatio est la suivate : - Même desité de probabilité D() - Sur chaque itervalle ]if i ; sup i ], o a p 0 () = p 0i () calculé par comptage de la proportio das l itervalle des idividus de la classe 0 e se basat sur l échatillo ayat servi à la discrétisatio supi G(,0, ET) Distace ( LoiReelle, LoiDiscretisee) = p0 i ( ) D( ) d ifi D( X ) Distace i supi ( LoiReelle, LoiDiscretisee) = G(,0, ET )( p ( ) ) G(,, ET p ( ) Pour la discrétisatio optimale à deu itervalles, o a : i if i 0 i ) 0i d La commuicatio de ce documet est soumise à autorisatio de Frace Télécom R&D.