Présentation de l algorithme CART

1/32 Présentation de l algorithme CART C. Tuleau-Malot

2/32 Plan 1 Contexte

2/32 Plan 1 Contexte 2 CART

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal 4 Elagage

2/32 Plan 1 Contexte 2 CART 3 Construction de l arbre maximal 4 Elagage 5 Sélection Finale

3/32 Contexte d étude On dispose d un échantillon d apprentissage L = {(X i,y i ) i {1,...,n} } où : (X i,y i ) i {1,...,n} sont n réalisations indépendantes d un couple de variables (X,Y) X Y i {1,...,n}, X i = (x 1 i,...,xp i ) vecteur de taille p contenant les observations pour l individu i des p variables explicatives Y i est l observation pour l individu i de la variable à expliquer Deux cadres d étude : régression : Y R et le modèle est Y = s(x)+ε (ε étant une variable de bruit généralement supposée gaussienne centrée) classification : Y J et Y = s(x)

4/32 Contexte d étude (2) L expression de la fonction s est connue régression : s(x) = E[Y X = x] classification : s(x) = argmaxp(y = j X = x) j J Remarque : il y a le cas particulier de la classification binaire où η(x) = P(Y = 1 X = x) s(x) = 1 η(x) 1/2 Mais s est en pratique inconnue estimation

5/32 Etat de l art Pour estimer s, il existe différentes méthodes : régression : Moindres carrés ordinaires (OLS : projection sur l espace vectoriel engendré par les variables explicatives de Y), les méthodes Ridge et Lasso (versions pénalisées de OLS) + méthodes non paramétriques classification : k-plus proches voisins, SVM,... Alternative : arbre de décision modélisation non linéaire CART (Classification And Regression Trees)

6/32 historique CART : algorithme développé par Breiman, Friedman, Olshen et Stone (1984) estimateurs par histogramme de la fonction cible s partitionnement récursif et dyadique de l espace des observations (X)

7/32 algorithme Algorithme de construction d un arbre CART : 3 étapes successives Construction de l arbre maximal Elagage Sélection finale

Contexte CART Construction de l arbre maximal Elagage S election Finale repr esentation Voici l aspect d un arbre CART : 8/32

9/32 représentation (2) Quelques questions se posent : Comment définir les divisions successives? critère de construction Quand arrêter le principe de division? règle d arrêt Comment définir les réponses? règle d assignation Une difficulté supplémentaire : les réponses peuvent être différentes selon le cadre d étude

10/32 critère de construction Les divisions : question binaire de la forme X i a ou X i C détermination de i et de a ou C idée : tester toutes les divisions possibles et retenir la meilleure selon un critère

11/32 critère de construction (2) Cadre de la classification : J = {1,...,J} Notations : π j probabilité à priori de la classe j. Peut être estimée par N j n avec N j = Card{(x k,y k ) y k = j} soit t un noeud de l arbre, N(t) = Card{(x k,y k ) x k t} nombre d observations de L dans t soit t un noeud de l arbre et j J, N j (t) = Card{(x k,y k ) x k t et y k = j} nombre d observations de L dans t et de classe j

12/32 critère de construction (3) Estimations : P(j,t) : probabilité qu une observation soit dans le noeud t et de classe j estimée par p(j,t) = π j N j (t) N j P(t) : probabilité qu une observation soit dans le noeud t estimée par p(t) = j p(j,t) P(j t) : probabilité a posteriori dans t de la classe j estimée par p(j,t) p(t)

13/32 critère de construction (4) définition : Soit h une fonction de {(p 1,...,p J ) p i 0, j p j = 1} dans R. h est une fonction dite d hétérogénéité si : h est symétrique en p 1,...,p J h est maximale en ( 1 J,..., 1 J ) h est minimale en (1,0,...,0), (0,1,0,...,0),..., (0,...,0,1) définition : Soit t un noeud. On définit l hétérogénéité de t par : i(t) = h(p(1 t),...,p(j t)) avec h une fonction d hétérogénéité Exemples de fonction d hétérogénéité : Gini h(p 1,...,p J ) = i j p ip j Shanon h(p 1,...,p J ) = j p jlog(p j )

14/32 critère de construction (5) Principe de construction d une division : Soit t un noeud de l arbre. Soit t d son descendant droite et t g son descendant gauche, descendants engendrés par une division δ. On note p g = p(tg) p(t) et p d = p(t d) p(t) : proportion d observations envoyées respectivement dans t g et t d. La variation d hétérogénéité générée par δ est définie par : i(δ,t) = i(t) p g i(t g ) p d i(t d ) La division optimale du noeud t est donnée par : δ (t) := δ = argmax i(δ,t) δ division

15/32 critère de construction (6) La construction ne sera valide que si h est une fonction concave i(δ,t) 0 (*) Exercices : Montrer que la focntion d hétérogénéité de Gini est concave Montrer que si h est concave alors i(δ,t) 0 La propriété (*) est essentielle pour valider la procédure d optimisation globale par des étapes locales. définition : Soit T un arbre. On note T l ensemble des feuilles de T. L hétérogénéité de l arbre T est définie par : I(T) = t T i(t)p(t)

16/32 critère de construction (7) propriété : Soit T un arbre. Soit t une feuille de T. Soit δ une division possible de t et soit T l arbre résultant de la division δ. Alors, on a : I(T) I(T ) = p( t) i( δ, t) Exercice : Montrer cette propriété.

17/32 règle d arrêt Par récursivité, la construction de l arbre devient évidente. règle d arrêt : Un noeud t d un arbre est déclaré terminal si : Une seule observation dans le noeud t Que des observations dans t avec un même label Partition minimale de l espace X.

18/32 règle d assignation définition : Soit t un noeud dont la réponse associée est j(t). La probabilité de mauvais classement du noeud t, évaluée par substitution, est définie par : r(t) = p(j t) j j(t) définition : Soit t un noeud. La réponse j(t) associée est définie par : j(t) = argmax j J p(j t)

19/32 règle d assignation (2) propriété : Cette définition de j(t) est telle que r(t) est minimale. Exercice : Montrer la propriété précédente. Soit R(T) = t T p(t)r(t). Soit T un arbre issu de T (un arbre plus développé). Montrer que R(T ) R(T).

20/32 critère de construction (8) Cadre de la régression : Cadre beaucoup plus simple définition : Soit d un prédicteur de s induit par un arbre T. Son erreur est : Cette erreur est estimée par : R (d) = E[(d(X) Y) 2 ] R(d) = 1 n n (Y i d(x i )) 2 i=1 propriété : Le prédicteur d issu de l arbre T est celui qui minimise R(d) parmi l ensemble des prédicteurs issus d un arbre. Donc d(x) = t T avec a(t) = 1 N(t) X i t Y i := Ȳt. a(t)1 x t

21/32 critère de construction (9) Construction d une division On définit pour un arbre T : R(T) = t T R(t) où R(t) = 1 n X i t (Y i Ȳt) 2. Soit T un arbre et t une feuille de T. Soit δ une division de t en t g et t d. On pose : R(t,δ) = R(t) R(t g ) R(t d ). On définit la division optimale de t, notée δ par : δ = argmax δ R(t, δ)

22/32 critère de construction (10) Exercices : Montrer que R(t,δ) 0 Soit T un arbre. Soit t une feuille de T. Soit δ une division possible de t et soit T l arbre résultant de la division δ. Alors, on a : R(T) R(T ) = R( δ, t)

23/32 Pourquoi Nous avons à présent un arbre maximal T. Problème : arbre en général inexploitable nombre de feuilles trop grand abre trop fidèle aux données d apprentissage Créer une suite de sous-arbres à l aide d un critère pénalisé

24/32 Sous suite de Breiman Notations : Soit T un arbre et t un noeud non terminal de T. Elaguer T à partir de t consiste à créer un nouvel arbre T qui n est autre que T privé de tous les descendants de t. Tout arbre T obtenu par élagage de T est un sous-arbre de T, ce que l on note T T. Critère d élagage : crit α (T) = R(T)+α T

25/32 Sous suite de Breiman (2) Proposition : Pour chaque valeur de α, il existe un unique sous-arbre de T max, noté T α, tel que : T α = argmin T T max crit α (T) si crit α T α = crit α (T), alors T α T. proposition : Soit α 1 et α 2 deux réels positifs avec α 1 α 2. Alors T α2 T α1.

26/32 Sous suite de Breiman (3) Détermination du premier élément de la suite : Soit T 0 le premier élément de la suite associé à α = 0. T 0 est le sous-arbre de T m ax obtenu en élagant tous les noeuds t pour lesquels R(t) = R(t g )+R(t d ). Ainsi T 0 satisfait : crit 0 (T 0 ) = 0 pour tout noeud t de T 0, R(t) > R(t d )+R(t g ).

27/32 Sous suite de Breiman (4) Détermination du deuxième élément de la suite : Par définition de T 0, on a pour tout noeud t de T 0, crit 0 (t) > crit 0 (T0 t ), soit R(t) > R(T0 t). De ce fait, tant que α demeurera suffisamment petit, on aura : R(t)+α > R(T t 0 )+α Tt 0 α suffisamment petit signifie α < R(t) R(Tt 0 ) T0 t 1 = s(t,t0 t ) pour tout noeud t de T 0. Lorsque α atteint un seuil, cela signifie que crit α (t) = crit α (T0 t) et que le noeud t devient préférable à la branche issue de t. Posons α 1 = min t noeud de T t 0 s(t,t t 0 ) et définissons T 1 := T α1 comme étant le sous-arbre de T 0 obtenu en élagant toutes les branches issues de noeuds minimisant s(t,t t 0 ). T 1 est le deuxième élément de la sous-suite.

28/32 Sous suite de Breiman (6) Théorème : Il existe une suite finie strictement croissante de réels positifs notée (α k ) {k {0,...,K}} telle que : k {0,...,K 1}, si α [α k, α k+1 [, T α = T αk := T k

29/32 Pourquoi A la fin de la phase d élagage, nous disposons de plusieurs sous-arbres et donc de plusieurs estimateurs. En sélectionner un Deux méthodes : Echantillon test Validation croisée

30/32 Echantillon test Nouvel échantillon : L = {(X 1,Y 1 ),...,(X m,y m )} On évalue l erreur associée à chacun des sous-arbres : en régression : R(T k ) = 1 m m i=1 (Y i T k (X i ))2 en classification : R(T k ) = 1 m i,j J Nk i,j où Nk i,j est le nombre d observations de L de classe i classées j par le sous-arbre T k. L arbre final retenu est celui avec la plus faible erreur estimée.

31/32 Echantillon test (2) Inconvénient : il faut pouvoir diviser l échantillon en deux

32/32 Validation croisée Principe : chaque observation sert à la fois à apprendre et à tester! On découpe L en une partition équilibrée à V morceaux. A l étape i on utilise tous les morceaux sauf le numéro i, pour construire une sous-suite dont on évalue l erreur à l aide du morceaux i. On fait cela pour i variant de 1 à V et on fait la moyenne des erreurs.