Présentation de l algorithme CART

Documents pareils
Arbres binaires de décision

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Programmation linéaire

Chapitre 5 : Flot maximal dans un graphe

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Algorithmes d'apprentissage

Cours de Master Recherche

Température corporelle d un castor (une petite introduction aux séries temporelles)

Introduction à l étude des Corps Finis

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Programmation Linéaire - Cours 1

Introduction au Data-Mining

Introduction au Data-Mining

Optimisation Discrète

Programmation linéaire

Résolution d équations non linéaires

Quantification Scalaire et Prédictive

Plus courts chemins, programmation dynamique

Sujet 4: Programmation stochastique propriétés de fonction de recours

Apprentissage non paramétrique en régression

Calcul intégral élémentaire en plusieurs variables

Problème 1 : applications du plan affine

Modèles et Méthodes de Réservation

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Commande Prédictive des. Convertisseurs Statiques

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Optimisation, traitement d image et éclipse de Soleil

VI. Tests non paramétriques sur un échantillon

Loi d une variable discrète

Optimisation for Cloud Computing and Big Data

Optimisation des fonctions de plusieurs variables

Théorie et codage de l information

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Cours d analyse numérique SMI-S4

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Principe de symétrisation pour la construction d un test adaptatif

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Chapitre 3. Les distributions à deux variables

Chapitre 2 Le problème de l unicité des solutions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

chapitre 4 Nombres de Catalan

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Probabilités sur un univers fini

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

OPTIMISATION À UNE VARIABLE

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

3. Conditionnement P (B)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Les algorithmes de base du graphisme

F411 - Courbes Paramétrées, Polaires

Espérance conditionnelle

Etude des propriétés empiriques du lasso par simulations

Cours Fonctions de deux variables

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Cours d Analyse. Fonctions de plusieurs variables

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Université Paris-Dauphine DUMI2E 1ère année, Applications

Analyse en Composantes Principales

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Big Data et Graphes : Quelques pistes de recherche

FORMULAIRE DE STATISTIQUES

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

STATISTIQUES. UE Modélisation pour la biologie

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Big Data et Graphes : Quelques pistes de recherche

Ordonnancement temps réel

Théorèmes de Point Fixe et Applications 1

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Simulation de variables aléatoires

Modélisation et Simulation

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Université de La Rochelle. Réseaux TD n 6

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Une forme générale de la conjecture abc

Programmation linéaire et Optimisation. Didier Smets

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Moments des variables aléatoires réelles

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Classification non supervisée

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Lagrange, où λ 1 est pour la contrainte sur µ p ).

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Fonctions de plusieurs variables. Sébastien Tordeux

Méthodes d apprentissage statistique «Machine Learning»

Algorithmes pour la planification de mouvements en robotique non-holonome

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Cours de mathématiques

Fast and furious decision tree induction

Continuité et dérivabilité d une fonction

Transcription:

1/32 Présentation de l algorithme CART C. Tuleau-Malot

2/32 Plan 1 Contexte

2/32 Plan 1 Contexte 2 CART

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal 4 Elagage

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal 4 Elagage 5 Sélection Finale

3/32 Contexte d étude On dispose d un échantillon d apprentissage L = {(X i,y i ) i {1,...,n} } où : (X i,y i ) i {1,...,n} sont n réalisations indépendantes d un couple de variables (X,Y) X Y i {1,...,n}, X i = (x 1 i,...,xp i ) vecteur de taille p contenant les observations pour l individu i des p variables explicatives Y i est l observation pour l individu i de la variable à expliquer Deux cadres d étude : régression : Y R et le modèle est Y = s(x)+ε (ε étant une variable de bruit généralement supposée gaussienne centrée) classification : Y J et Y = s(x)

4/32 Contexte d étude (2) L expression de la fonction s est connue régression : s(x) = E[Y X = x] classification : s(x) = argmaxp(y = j X = x) j J Remarque : il y a le cas particulier de la classification binaire où η(x) = P(Y = 1 X = x) s(x) = 1 η(x) 1/2 Mais s est en pratique inconnue estimation

5/32 Etat de l art Pour estimer s, il existe différentes méthodes : régression : Moindres carrés ordinaires (OLS : projection sur l espace vectoriel engendré par les variables explicatives de Y), les méthodes Ridge et Lasso (versions pénalisées de OLS) + méthodes non paramétriques classification : k-plus proches voisins, SVM,... Alternative : arbre de décision modélisation non linéaire CART (Classification And Regression Trees)

6/32 historique CART : algorithme développé par Breiman, Friedman, Olshen et Stone (1984) estimateurs par histogramme de la fonction cible s partitionnement récursif et dyadique de l espace des observations (X)

7/32 algorithme Algorithme de construction d un arbre CART : 3 étapes successives Construction de l arbre maximal Elagage Sélection finale

Contexte CART Construction de l arbre maximal Elagage S election Finale repr esentation Voici l aspect d un arbre CART : 8/32

9/32 représentation (2) Quelques questions se posent : Comment définir les divisions successives? critère de construction Quand arrêter le principe de division? règle d arrêt Comment définir les réponses? règle d assignation Une difficulté supplémentaire : les réponses peuvent être différentes selon le cadre d étude

10/32 critère de construction Les divisions : question binaire de la forme X i a ou X i C détermination de i et de a ou C idée : tester toutes les divisions possibles et retenir la meilleure selon un critère

11/32 critère de construction (2) Cadre de la classification : J = {1,...,J} Notations : π j probabilité à priori de la classe j. Peut être estimée par N j n avec N j = Card{(x k,y k ) y k = j} soit t un noeud de l arbre, N(t) = Card{(x k,y k ) x k t} nombre d observations de L dans t soit t un noeud de l arbre et j J, N j (t) = Card{(x k,y k ) x k t et y k = j} nombre d observations de L dans t et de classe j

12/32 critère de construction (3) Estimations : P(j,t) : probabilité qu une observation soit dans le noeud t et de classe j estimée par p(j,t) = π j N j (t) N j P(t) : probabilité qu une observation soit dans le noeud t estimée par p(t) = j p(j,t) P(j t) : probabilité a posteriori dans t de la classe j estimée par p(j,t) p(t)

13/32 critère de construction (4) définition : Soit h une fonction de {(p 1,...,p J ) p i 0, j p j = 1} dans R. h est une fonction dite d hétérogénéité si : h est symétrique en p 1,...,p J h est maximale en ( 1 J,..., 1 J ) h est minimale en (1,0,...,0), (0,1,0,...,0),..., (0,...,0,1) définition : Soit t un noeud. On définit l hétérogénéité de t par : i(t) = h(p(1 t),...,p(j t)) avec h une fonction d hétérogénéité Exemples de fonction d hétérogénéité : Gini h(p 1,...,p J ) = i j p ip j Shanon h(p 1,...,p J ) = j p jlog(p j )

14/32 critère de construction (5) Principe de construction d une division : Soit t un noeud de l arbre. Soit t d son descendant droite et t g son descendant gauche, descendants engendrés par une division δ. On note p g = p(tg) p(t) et p d = p(t d) p(t) : proportion d observations envoyées respectivement dans t g et t d. La variation d hétérogénéité générée par δ est définie par : i(δ,t) = i(t) p g i(t g ) p d i(t d ) La division optimale du noeud t est donnée par : δ (t) := δ = argmax i(δ,t) δ division

15/32 critère de construction (6) La construction ne sera valide que si h est une fonction concave i(δ,t) 0 (*) Exercices : Montrer que la focntion d hétérogénéité de Gini est concave Montrer que si h est concave alors i(δ,t) 0 La propriété (*) est essentielle pour valider la procédure d optimisation globale par des étapes locales. définition : Soit T un arbre. On note T l ensemble des feuilles de T. L hétérogénéité de l arbre T est définie par : I(T) = t T i(t)p(t)

16/32 critère de construction (7) propriété : Soit T un arbre. Soit t une feuille de T. Soit δ une division possible de t et soit T l arbre résultant de la division δ. Alors, on a : I(T) I(T ) = p( t) i( δ, t) Exercice : Montrer cette propriété.

17/32 règle d arrêt Par récursivité, la construction de l arbre devient évidente. règle d arrêt : Un noeud t d un arbre est déclaré terminal si : Une seule observation dans le noeud t Que des observations dans t avec un même label Partition minimale de l espace X.

18/32 règle d assignation définition : Soit t un noeud dont la réponse associée est j(t). La probabilité de mauvais classement du noeud t, évaluée par substitution, est définie par : r(t) = p(j t) j j(t) définition : Soit t un noeud. La réponse j(t) associée est définie par : j(t) = argmax j J p(j t)

19/32 règle d assignation (2) propriété : Cette définition de j(t) est telle que r(t) est minimale. Exercice : Montrer la propriété précédente. Soit R(T) = t T p(t)r(t). Soit T un arbre issu de T (un arbre plus développé). Montrer que R(T ) R(T).

20/32 critère de construction (8) Cadre de la régression : Cadre beaucoup plus simple définition : Soit d un prédicteur de s induit par un arbre T. Son erreur est : Cette erreur est estimée par : R (d) = E[(d(X) Y) 2 ] R(d) = 1 n n (Y i d(x i )) 2 i=1 propriété : Le prédicteur d issu de l arbre T est celui qui minimise R(d) parmi l ensemble des prédicteurs issus d un arbre. Donc d(x) = t T avec a(t) = 1 N(t) X i t Y i := Ȳt. a(t)1 x t

21/32 critère de construction (9) Construction d une division On définit pour un arbre T : R(T) = t T R(t) où R(t) = 1 n X i t (Y i Ȳt) 2. Soit T un arbre et t une feuille de T. Soit δ une division de t en t g et t d. On pose : R(t,δ) = R(t) R(t g ) R(t d ). On définit la division optimale de t, notée δ par : δ = argmax δ R(t, δ)

22/32 critère de construction (10) Exercices : Montrer que R(t,δ) 0 Soit T un arbre. Soit t une feuille de T. Soit δ une division possible de t et soit T l arbre résultant de la division δ. Alors, on a : R(T) R(T ) = R( δ, t)

23/32 Pourquoi Nous avons à présent un arbre maximal T. Problème : arbre en général inexploitable nombre de feuilles trop grand abre trop fidèle aux données d apprentissage Créer une suite de sous-arbres à l aide d un critère pénalisé

24/32 Sous suite de Breiman Notations : Soit T un arbre et t un noeud non terminal de T. Elaguer T à partir de t consiste à créer un nouvel arbre T qui n est autre que T privé de tous les descendants de t. Tout arbre T obtenu par élagage de T est un sous-arbre de T, ce que l on note T T. Critère d élagage : crit α (T) = R(T)+α T

25/32 Sous suite de Breiman (2) Proposition : Pour chaque valeur de α, il existe un unique sous-arbre de T max, noté T α, tel que : T α = argmin T T max crit α (T) si crit α T α = crit α (T), alors T α T. proposition : Soit α 1 et α 2 deux réels positifs avec α 1 α 2. Alors T α2 T α1.

26/32 Sous suite de Breiman (3) Détermination du premier élément de la suite : Soit T 0 le premier élément de la suite associé à α = 0. T 0 est le sous-arbre de T m ax obtenu en élagant tous les noeuds t pour lesquels R(t) = R(t g )+R(t d ). Ainsi T 0 satisfait : crit 0 (T 0 ) = 0 pour tout noeud t de T 0, R(t) > R(t d )+R(t g ).

27/32 Sous suite de Breiman (4) Détermination du deuxième élément de la suite : Par définition de T 0, on a pour tout noeud t de T 0, crit 0 (t) > crit 0 (T0 t ), soit R(t) > R(T0 t). De ce fait, tant que α demeurera suffisamment petit, on aura : R(t)+α > R(T t 0 )+α Tt 0 α suffisamment petit signifie α < R(t) R(Tt 0 ) T0 t 1 = s(t,t0 t ) pour tout noeud t de T 0. Lorsque α atteint un seuil, cela signifie que crit α (t) = crit α (T0 t) et que le noeud t devient préférable à la branche issue de t. Posons α 1 = min t noeud de T t 0 s(t,t t 0 ) et définissons T 1 := T α1 comme étant le sous-arbre de T 0 obtenu en élagant toutes les branches issues de noeuds minimisant s(t,t t 0 ). T 1 est le deuxième élément de la sous-suite.

28/32 Sous suite de Breiman (6) Théorème : Il existe une suite finie strictement croissante de réels positifs notée (α k ) {k {0,...,K}} telle que : k {0,...,K 1}, si α [α k, α k+1 [, T α = T αk := T k

29/32 Pourquoi A la fin de la phase d élagage, nous disposons de plusieurs sous-arbres et donc de plusieurs estimateurs. En sélectionner un Deux méthodes : Echantillon test Validation croisée

30/32 Echantillon test Nouvel échantillon : L = {(X 1,Y 1 ),...,(X m,y m )} On évalue l erreur associée à chacun des sous-arbres : en régression : R(T k ) = 1 m m i=1 (Y i T k (X i ))2 en classification : R(T k ) = 1 m i,j J Nk i,j où Nk i,j est le nombre d observations de L de classe i classées j par le sous-arbre T k. L arbre final retenu est celui avec la plus faible erreur estimée.

31/32 Echantillon test (2) Inconvénient : il faut pouvoir diviser l échantillon en deux

32/32 Validation croisée Principe : chaque observation sert à la fois à apprendre et à tester! On découpe L en une partition équilibrée à V morceaux. A l étape i on utilise tous les morceaux sauf le numéro i, pour construire une sous-suite dont on évalue l erreur à l aide du morceaux i. On fait cela pour i variant de 1 à V et on fait la moyenne des erreurs.