Induction d arbres de décision Induction d arbres de décision. Apprentissage d une fonction de discrimination entre les formes de plusieurs classes

Documents pareils
Arbres binaires de décision

Algorithmes d'apprentissage

Programmation linéaire

Cours de Master Recherche

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Chapitre 7. Récurrences

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Pourquoi l apprentissage?

Stratégie de recherche adaptative en programmation par contrainte

DATAMINING C4.5 - DBSCAN

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Votre Réseau est-il prêt?

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Arbres de Décision. 1 Introduction

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Traitement bas-niveau

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Probabilités sur un univers fini

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Coup de Projecteur sur les Réseaux de Neurones

TD 11. Les trois montages fondamentaux E.C, B.C, C.C ; comparaisons et propriétés. Association d étages. *** :exercice traité en classe.

Quantification Scalaire et Prédictive

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Rappels sur les suites - Algorithme

Intégration de la dimension sémantique dans les réseaux sociaux

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Fast and furious decision tree induction

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Intelligence Artificielle Planification

Qualité du logiciel: Méthodes de test

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Optimisation for Cloud Computing and Big Data

Diagrammes de Package, de déploiement et de composants UML

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Intérêt du découpage en sous-bandes pour l analyse spectrale

Donner les limites de validité de la relation obtenue.

Représentation d un entier en base b

1. Structure d un programme C. 2. Commentaire: /*..texte */ On utilise aussi le commentaire du C++ qui est valable pour C: 3.

Estimation et tests statistiques, TD 5. Solutions

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

Loi binomiale Lois normales

Quatrième partie IV. Test. Test 15 février / 71

Représentation d une distribution

L apprentissage automatique

Méthodes d apprentissage statistique «Machine Learning»

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cours d analyse numérique SMI-S4

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

TSTI 2D CH X : Exemples de lois à densité 1

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

«Cours Statistique et logiciel R»

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Systèmes de transmission

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

chapitre 4 Nombres de Catalan

Logiciel XLSTAT version rue Damrémont PARIS

Windows Server 2008 Administration et exploitation

Connexion sur REDLION G-308 avec le modem GSM GDW-11 pour envoi de SMS

Version 6.0 du 07/11/06. Comment décloisonner mes services et les faire travailler ensemble vers les mêmes objectifs?

Algorithme. Table des matières

MIS 102 Initiation à l Informatique

Processus d Informatisation

Chapitre 5 : Flot maximal dans un graphe

Transmission d informations sur le réseau électrique

Application de K-means à la définition du nombre de VM optimal dans un cloud

Apprentissage Automatique

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Plus courts chemins, programmation dynamique

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Probabilités sur un univers fini

L exclusion mutuelle distribuée

Introduction à l étude des Corps Finis

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2011/26

La classification automatique de données quantitatives

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

Découverte et analyse de dépendances dans des réseaux d entreprise

Contrainte de flot pour RCPSP avec temps de transfert

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Algorithmes de recherche

LE PROBLEME DU PLUS COURT CHEMIN

Les devoirs en Première STMG

Transcription:

Induction d arbres de décision 1 La tâche Apprentissage d une fonction de discrimination entre les formes de plusieurs classes Le protocole Apprentissage supervisé par approximation itérative gloutonne 2 1 Les arbres de décision : exemple Les arbres de décision sont des classifieurs pour des instances représentées dans un formalisme attribut/valeur Les noeuds de l arbre testent les attributs Il y a une branche pour chaque valeur de l attribut testé Les feuilles spécifient les catégories (deux ou plus) 3 Antoine Cornuéjols (antoine@lri.fr) Le critère de succès Le taux d erreur en classification abdomen gorge douleur? poitrine aucune I.I.E. & L.R.I., Université d Orsay Les entrées Données en attributsvaleurs (espace à N dimensions) Les fonctions cibles Arbres de décision appendicite fievre? infarctus toux? rhume mal de gorge rien non rhume oui fievre? refroidissement 1 Les arbres de décision : le problème 4 1 Les arbres de décision : pouvoir de représentation 5 1 Les arbres de décision : pouvoir de représentation 6 Chaque instance est décrite par un vecteur d attributs/valeurs Toux Fièvre Poids Douleur Marie non oui normal gorge Fred non oui normal abdomen Julie oui oui maigre aucune Elvis obese poitrine En entrée : un ensemble d instances et leur classe (correctement associées par un professeur ou expert ) Toux Fièvre Poids Douleur Diagnostic Marie non oui normal gorge rhume Fred non oui normal abdomen appendicite... L algorithme d apprentissage doit construire un arbre de décision E.g. Un arbre de décision pour le diagnostic Une des principales applications de l apprentissage! Le choix des attributs est très important! Si un attribut crucial n est pas représenté on ne pourra pas trouver d arbre de décision qui apprenne les exemples correctement. Si deux instances ont la même représentation mais appartiennent à deux classes différentes, le langage des instances (les attributs) est dit inadéquat. Toux Fièvre Poids Douleur Diagnostic Marie non oui normal abdomen rhume Polo non oui normal abdomen appendicite... langage inadéquat Toute fonction booléenne peut se représenter comme un arbre de décision Rappel: avec 6 attributs booléens, on peut définir environ 2 milliards de fonctions booléenes.. Selon les fonctions à représenter les arbres sont plus ou moins grands E.g. Pour les fonctions parité et majorité, la taille de l arbre peut grandir exponentiellement! Pour d autres fonctions, un seul nœud peut parfois suffire... Limité à la logique des propositions (on ne représente pas de relations) Un arbre peut se représenter par une disjonction de règles DT4 (Si Plumes = non Alors Classe= pasoiseau) ou (Si Plumes = oui & Couleu r= brun Alors Classe= pasoiseau) ou (Si Plumes = oui & Couleu r= B&N Alors Classe= oiseau) ou (Si Plumes = oui & Couleu r= jaune Alors Classe= oiseau) 2 Les arbres de décision : le choix d un arbre 7 2 Les arbres de décision : le choix d un arbre 8 2 Quel modèle pour la généralisation? 9 Couleur Ailes Plumes Sonar Concept Faucon jaune oui oiseau Pigeon B&N oui oiseau chauvesouris brun oui pas oiseau Quatre arbres de décision cohérents avec les données: DT1 Plumes? DT3 oiseau pas oiseau Couleur? brun jaune Plumes? B&N pas oiseau oiseau Couleur? pas oiseau DT2 Sonar? oiseau pas oiseau oiseau brun jaune B&N pas oiseau oiseau oiseau DT4 Si le langage est adéquat, il est toujours possible de construire un arbre de décision qui classe correctement les exemples d apprentissage. Il y a le plus souvent de nombreux arbres de décision possibles corrects. Quelle valeur attribuer à un arbre? Impossibilité de procéder par énumération / évaluation (NPcomplet) A i VA i 4 attributs & 3 valeurs / attribut : 55296 arbres Nécessité d une démarche constructive itérative Parmi toutes les hypothèses cohérentes possibles, laquelle fautil choisir en vue d une bonne généralisation? La réponse intuitive...... estelle confirmée par la théorie? Un peu de théorie de l apprenabilité [Vapnik,82,89,95] La consistance de la minimisation du risque empirique (ERM) Le principe de minimisation du risque structurel (SRM) Bref, il faut faire bref... Comment? Méthodes d induction d arbres de décision

10 3 : Exemple [Quinlan,86] 3 11 3 : exemple 12 Attributs Pif Temp Humid Vent Valeurs possibles soleil,couvert,pluie chaud,bon,frais normale,haute vrai,faux N Pif Temp Humid Vent Golf 1 soleil chaud haute faux NePasJouer 2 soleil chaud haute vrai NePasJouer 3 couvert chaud haute faux Jouer 4 pluie bon haute faux Jouer 5 pluie frais normale faux Jouer 6 pluie frais normale vrai NePasJouer 7 couvert frais normale vrai Jouer 8 soleil bon haute faux NePasJouer 9 soleil frais normale faux Jouer 10 pluie bon normale faux Jouer 11 soleil bon normale vrai Jouer 12 couvert bon haute vrai Jouer 13 couvert chaud normale faux Jouer 14 pluie bon haute vrai NePasJouer la classe Stratégie : Induction descendante : TDIDT Recherche en meilleur d abord sans retour arrière (gradient) avec une fonction d évaluation Choix récursif d un attribut de test jusqu à critère d arrêt Fonctionnement : On choisit le premier attribut à utiliser pour l arbre : le plus informatif Après ce choix, on se trouve face au problème initial sur des sousensembles d exemples. D où un algorithme récursif. Si on choisissait l attribut Temp?... J3,J13 J1,J2 J3,J4,J5,J7,J9,J10,J11,J12,J13 J1,J2, J6,J8,J14 Temp? chaud bon frais J4,J10,J11,J13 J8,J14 N Pif Temp Humid Vent Golf 1 soleil chaud haute faux NePasJouer 2 soleil chaud haute vrai NePasJouer 3 couvert chaud haute faux Jouer 4 pluie bon haute faux Jouer 5 pluie frais normale faux Jouer 6 pluie frais normale vrai NePasJouer 7 couvert frais normale vrai Jouer 8 soleil bon haute faux NePasJouer 9 soleil frais normale faux Jouer 10 pluie bon normale faux Jouer 11 soleil bon normale vrai Jouer 12 couvert bon haute vrai Jouer 13 couvert chaud normale faux Jouer 14 pluie bon haute vrai NePasJouer J5,J7,J9 J6 3 : algorithme TDIDT 13 3 : sélection de l attribut 14 3 La sélection d un bon attribut de test 15 PROCEDURE AAD(T,E) SI tous les exemples de E sont dans la même classe Ci ALORS affecter l'étiquette Ci au noeud courant FIN SINON sélectionner un attribut A avec les valeurs v 1...v n Partitionner E selon v 1...v n en E 1,...,E n Pour j=1 à n AAD(T j, E j ). J7,J11,J12 J2,J6,J14 J3,J4,J5,J7,J9,J10,J11,J12,J13 J1,J2, J6,J8,J14 vrai Vent? faux J3,J4,J5,J9,10,J13 J1,J8 Comment obtenir un arbre simple? Arbre simple : Minimise l espl espérance du nombre de tests pour classer un nouvel objet Comment traduire ce critère global en une procédure de choix locale? Critères de choix de chaque noeud v 1 E v 2 T v n A={v 1...v n } E=E 1.. E n J3,J4,J5,J7,J9,J10,J11,J12,J13 J1,J2, J6,J8,J14 Pif? On ne sait pas associer un critère local au critère global objectif Recours à des heuristiques La notion de mesure d impureté E 1 T 1 E 2 T 2 E n T n J3,J13,J7,J12 couvert pluie soleil J4,J5,J10 J6,J14 J9,J11 J1,J8,J2 Index Gini Critère entropique (ID3, C4.5, C5.0)... 3 Mesure d impureté : le critère Gini 16 3 Le critère entropique (1/3) 17 3 Le critère entropique (2/3) 18 Idéalement : Mesure nulle si les populations sont homogènes Mesure maximale si les populations sont maximalement mélangées Index Gini [Breiman et al.,84] L entropie de Boltzmann...... et de Shannon Shannon en 1949 a proposé une mesure d entropie valable pour les distributions discrètes de probabilité. Elle exprime la quantité d information, c est à dire le nombre de bits nécessaire pour spécifier la distribution L entropie d'information est: où p i est la probabilité de la classe C i. I= p i log(p 2 i)..k Entropie d'information de S (en C classes) : C I(S) = p(c i ) log p(c i ) p(c i ) : probabilité de la classe c i Nulle quand il n y a qu une classe D autant plus grande que les classes sont équiprobables Vaut log 2 (k) quand les k classes sont équiprobables Unité: le bit d information

3 Le critère entropique (3/3) : le cas de deux classes 19 3 Gain entropique associé à un attribut 20 21 3 Exemple (1/4 1,00 0,90 Pour C=2 on a : I(S) = p x log 2 (p ) p x log 2 (p ) D après l hypothèse on a p = p/ (pn) et p = n/ (pn) I(S) d où I(S) = p log ( p ) n log( n ) (pn) (pn) (pn) (pn) et I(S) = P log P (1P) log(1p) Gain(S,A) = I(S) S v S I(S) v v valeurs(a) Entropie de l ensemble initial d exemples I(p,n) = 9/14 log 2 (9/14) 5/14 log 2 (5/14) Entropie des sousarbres associés au test sur Pif? p 1 = 4 n 1 = 0 : I(p 1,n 1 ) = 0 p 2 = 2 n 2 = 3 : I(p 2,n 2 ) = 0.971 0,80 0,70 0,60 0,50 S v : taille de la souspopulation dans la branche v de A p 3 = 3 n 3 = 2 : I(p 3,n 3 ) = 0.971 Entropie des sousarbres associés au test sur Temp? 0,40 0,30 0,20 0,10 0,00 0 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 P P=p/(pn)=n/(np)=0.5 équiprobable En quoi la connaissance de la valeur de l attribut A m apporte une information sur la classe d un exemple p 1 = 2 n 1 = 2 : I(p 1,n 1 ) = 1 p 2 = 4 n 2 = 2 : I(p 2,n 2 ) = 0.918 p 3 = 3 n 3 = 1 : I(p 3,n 3 ) = 0.811 3 Exemple (2/4 I(S) N objets np=n 22 23 3 Exemple (3/4 Pour les exemples initiaux 3 Exemple (4/4) Arbre final obtenu : 24 Attribut A I(S) = 9/14 log 2 (9/14) 5/14 log 2 (5/14) N1 objets n1p1=n1 val1 val2 val3 N2 objets n2p2=n2 N3 objets n3p3=n3 E(N,A)= N1/N x I(p1,n1) N2/N xi(p2,n2) N3/N x I(p3,n3) N1N2N3=N Entropie de l arbre associé au test sur Pif? E(Pif) = 4/14 I(p 1,n 1 ) 5/14 I(p 2,n 2 ) 5/14 I(p 3,n 3 ) Gain(Pif) = 0.940 0.694 = 0.246 bits Gain(Temp) = 0.029 bits Gain(Humid) = 0.151 bits jouer couvert Humid Pif soleil normal haute jouer ne pas jouer pluie jouer non Vent oui ne pas jouer Gain(Vent) = 0.048 bits Le gain d entropie de A vaut: GAIN(A)= I(S)E(N,A) Choix de l attribut Pif pour le premier test 3 Des systèmes TDIDT 25 4 Les problèmes potentiels 26 4.1. Discrétisation des attributs à valeur continue 27 Entrée : vecteur d'attributs valués associés à chaque exemple Sortie : arbre de décision CLS (Hunt, 1966) [analyse de données] ID3 (Quinlan 1979) ACLS (Paterson& Niblett 1983) ASSISTANT (Bratko 1984) C4.5 (Quinlan 1986) CART (Breiman, Friedman, Ohlson, Stone, 1984) 1. Attributs à valeur continue 2. Attributs à facteurs de branchement différents 3. Valeurs manquantes 4. Surapprentissage 5. Recherche gloutonne 6. Le choix des attributs 7. Variance des résultats : arbres différents à partir de données peu différentes 6 C 8 C 14 C 18 C 20 C 28 C 32 C Non Non Non Oui Oui Ici, deux seuils candidats : 16 C et 30 C L attribut Temp >16 C est le plus informatif, on le retient Temp. Oui Non Jouer au golf

4.2. Facteurs de branchement différents 28 4.3. Traitement des valeurs manquantes 29 5 Le problème de la généralisation 30 Problème: le critère re de gain entropique favorise les attributs ayant un facteur de branchement plus élevé Deux solutions : Rendre tous les attributs binaires Soit un exemple x, c(x) dont on ne connaît pas la valeur pour l attribut A Comment calculer gain(s,a)? 1. Prendre comme valeur la valeur la plus fréquente dans S totale Aton appris un bon arbre de décision? Ensemble d apprentissage. Ensemble test. Mais perte d intelligibité des résultatsr 2. Prendre comme valeur la valeur la plus fréquente à ce noeud Courbe d apprentissage Introduire un facteur de normalisation dans le calcul Gain_norm(S,A) = Gain(S, A) S i S log S i S nb valeurs de A 3. Partager l exemple en exemples fictifs suivant les différentes valeurs possibles de A pondérés par leur fréquence respective E.g. si 6 exemples à ce noeud prennent la valeur A=a 1 et 4 la valeur A=a 2 A(x) = a 1 avec prob=0.6 et A(x) = a 2 avec prob=0.4 En prédiction, classer l exemple par l étiquette de la feuille la plus probable Méthodes d évaluation de la généralisation Sur un ensemble test Validation croisée Leaveoneout 5.1. Surapprentissage : Effet du bruit sur l induction 31 32 5.1. Surapprentissage : Le problème de la généralisation 5.1. Contrôle de l espace H : motivations & stratégies 33 Types de bruits Le surapprentissage (overfitting) Motivations : Erreurs de description Erreurs de classification Risque empirique faible. Risque réel élevé. Améliorer la performance en généralisation (SRM) Fournir un modèle compréhensible des données (pour les experts) clashes valeurs manquantes Le principe SRM (Minimisation du Risque Structurel) Justification [Vapnik,71,79,82,95] Notion de capacité de l espace des hypothèses Dimension de VapnikChervonenkis Stratégies : 1. Contrôler directement la taille de l arbre induit : élagage 2. Modifier l espace d états (arbres) dans lequel se fait la recherche Effet Arbre trop développé : «touffus», trop profond Il faut contrôler l espace l d hypothd hypothèses 3. Modifier l algorithme de recherche 4. Restreindre la base de données 5. Traduire les arbres obtenus dans une autre représentation 5.2. Surapprentissage : Contrôle de la taille par préélagage 34 5.2. Exemple : le test du chi2 35 5.3. Surapprentissage : Contrôle de la taille par postélagage 36 Idée : modifier le critère de terminaison Profondeur seuil (e.g.[holte,93]: seuil =1 ou 2) Test du chi2 Erreur Laplacienne Faible gain d information Faible nombre d exemples Population d exemples non statistiquement significative Comparaison entre l erreur statique et l erreur dynamique Problème : souvent trop myope Soit un attribut binaire A P (n) = (n 1,n 2 ) A g d (1P) (n g1,n g2 ) (n d1,n d2 ) Hypothèse nulle (n) = (n 1,n 2 ) A g d (ne g1,ne g2 ) (ne d1,ne d2 ) n 1 = n g1 n d1 n 2 = n g2 n d2 ne g1 = Pn 1 ; ne d1 = (1P)n 1 ne g2 = Pn 2 ; ne d2 = (1P)n 2 χ 2 = 2 (n gi Pn i ) 2 Pn i P (1P) Idée : Elaguer après la construction de l arbre entier, en remplaçant les sousarbres optimisant un critère d élagage par un noeud. Nombreuses méthodes. Encore beaucoup de recherches. Minimal CostComplexity Pruning (MCCP) (Breiman et al.,84) Reduced Error Pruning (REP) (Quinlan,87,93) Minimum Error Pruning (MEP) (Niblett & Bratko,86) Critical Value Pruning (CVP) (Mingers,87) Pessimistic Error Pruning (PEP) (Quinlan,87) ErrorBased Pruning (EBP) (Quinlan,93) (utilisé dans C4.5)...

5.3 CostComplexity pruning 37 5.3. Postélagage par traitement en règles 38 6. Recherche en avant 39 [Breiman et al.,84] Costcomplexity pour un arbre : 1. Traduire chaque branche par une règle 2. Pour chaque règle, retirer les conditions qui permettent un accroissement de la performance en généralisation (ens. de test) 3. Ordonner les règles par performance décroissante et les tester dans cet ordre lors de la prédiction Avantages supplémentaires : lisibilité des résultats souvent plus grande stabilité du résultat Plutôt que de faire une recherche gloutonne, on peut faire une recherche à n coups en avant Si je sélectionne d abord tel attribut puis ensuite tel autre plutôt que... Mais augmentation exponentielle de la complexité 6. Modification de la stratégie de recherche 40 7. Modification de l espace de recherche 41 7. Arbres obliques 42 Idée : ne plus utiliser une recherche en profondeur Modification des tests dans les noeuds x 2 x 1 < 0.70 Méthodes utilisant une autre mesure: Utilisation du principe de description minimale (MDLp) Pour remédier aux effets d une représentation inadaptée Méthodes d induction constructive (e.g. multivariate tests) x 2 < 0.30 x 2 < 0.88 Mesure de la complexité de l arbre Mesure de la complexité des exemples non codés par l arbre Garder l arbre minimisant la somme de ces mesures Mesure de la théorie de l apprenabilité faible Mesure de KolmogorovSmirnoff Séparation de classes E.g. Arbres de décision obliques Méthodes: Opérateurs numériques Perceptron trees Arbres et Programmation Génétique x 1 x 1 < 0.17 1.1x 1 x 2 < 0.2 x 2 < 0.62 c 2 c 1 c 2 c 1 c 2 c 1 Mesures hybrides de sélection de tests Opérateurs logiques c 2 c 1 7. Induction d arbres obliques 43 8. Traduction dans d autres représentations 44 9. Conclusions 45 Autre cause d arbres touffus : une représentation inadaptée Solutions : Demander à l expert (e.g. finale aux échecs [Quinlan,83]) Faire préalablement une ACP Autre méthode de sélection d attributs Appliquer de l induction constructive Induction d arbres d obliques Idée: Traduire un arbre complexe dans une représentation où le résultat est plus simple Traduction en graphes de décision Traduction en ensemble de règles Approprié pour : Classification de formes décrites en attributsvaleurs Attributs à valeurs discrètes Résistant au bruit Stratégie : Recherche par construction incrémentale d hypothèse Critère local (gradient) fondé sur critère statistique Engendre Arbre de décision interprétable (e.g. règles de production) Nécessite contrôle de la taille de l arbre

Restriction de la base d apprentissage 46 Idée : simplifier les arbres en simplifiant la base d apprentissage Méthodes de sélection d exemples Méthodes d élimination d attributs