BOOSTING : TROIS TH MES STATISTIQUES AUTOUR. Servane Gey

BORNES DE RISQUE, D TECTION DE RUPTURES, BOOSTING : TROIS TH MES STATISTIQUES AUTOUR DE CART EN R GRESSION Servane Gey

TABLE DES MATI RES Table des mati res 1 Pr sentation G n rale 9 1.1 Contexte...................................... 9 1.2 A Propos de CART et de la S lection de Mod le............... 11 1.2.1 CART en R gression........................... 11 1.2.2 S lection de Mod le........................... 13 1.3 Validation de l'algorithme d'elagage dans deux Cadres de R gression... 16 1.3.1 Le Probl me............................... 16 1.3.2 Le Cadre................................. 16 1.3.3 Les R sultats............................... 17 1.4 Application la D tection de Ruptures dans la Moyenne d'un Signal Gaussien 20 1.4.1 Le Probl me............................... 20 1.4.2 Deux Algorithmes............................ 20 1.4.3 L'Algorithme Hybride.......................... 21 1.5 Am lioration des Performances de CART par R chantillonnage Adaptatif. 22 1.5.1 Le Contexte et le Probl me....................... 22 1.5.2 Analyse du Boosting........................... 24 1.5.3 Instabilit et Boosting.......................... 24 1.5.4 Boosting et Donn es Atypiques..................... 26 2 CART en R gression 29 2.1 Mod le et Notations............................... 30 2.2 Arbres de R gression............................... 31 3

TABLE DES MATI RES 2.3 Construction de l'arbre Maximal........................ 34 2.3.1 R gle de D coupage........................... 34 2.3.2 R gles d'arr t.............................. 35 2.4 Elagage de l'arbre Maximal........................... 36 2.4.1 SousArbres Elagu s........................... 36 2.4.2 Crit re P nalis.............................. 38 2.4.3 Algorithme d'elagage.......................... 40 2.5 Choix de l'estimateur Final........................... 43 2.5.1 Choix par EchantillonT moin..................... 44 2.5.2 Choix par Validation Crois e...................... 44 2.6 D monstrations des Th or mes et Propositions................ 45 2.6.1 D monstration de la Proposition 2.4.4................. 46 2.6.2 D monstration de la Proposition 2.4.5................. 47 2.6.3 D monstration du Th or me 2.4.6................... 48 2.6.3.1 R sultats Pr liminaires.................... 49 2.6.3.2 D monstration du Th or me................. 50 3 Model Selection for CART Regression Trees 53 3.1 Introduction.................................... 54 3.2 Preliminaries and Main Result......................... 56 3.2.1 The CART Algorithm.......................... 56 3.2.1.1 The Growing Procedure.................... 57 3.2.1.2 The Pruning Procedure.................... 57 3.2.2 Main Result................................ 59 3.3 Gaussian Regression............................... 62 3.3.1 Validation of the pruning algorithm................... 62 3.3.1.1 s constructed via M1..................... 62 3.3.1.2 s constructed via M2..................... 63 3.3.2 Final Selection.............................. 64 4

TABLE DES MATI RES 3.4 Bounded Regression............................... 65 3.4.1 Validation of the pruning algorithm................... 65 3.4.1.1 s constructed via M1..................... 66 3.4.1.2 s constructed via M2..................... 66 3.4.2 Final Selection.............................. 67 3.5 Open questions.................................. 67 3.6 Appendix A.................................... 68 3.6.1 Local bound for some empirical processes............... 68 3.6.2 A complexity bound........................... 71 3.7 Appendix B.................................... 72 3.7.1 Proof of Proposition 3.3.1........................ 72 3.7.2 Proof of Proposition 3.3.2........................ 73 3.7.3 Proof of Proposition 3.3.3........................ 78 3.8 Appendix C.................................... 79 3.8.1 Proof of Proposition 3.4.1........................ 79 3.8.2 Proof of Proposition 3.4.2........................ 80 3.8.3 Proof of Proposition 3.4.3........................ 85 4 Using CART to Detect Multiple Change Points in the Mean 87 4.1 Introduction.................................... 89 4.2 Preliminaries and Notations........................... 90 4.3 How to generate Good Partitions?....................... 92 4.3.1 Exhaustive Search............................ 92 4.3.2 CART Regression Trees......................... 93 4.4 Motivations for an hybrid algorithm...................... 94 4.5 Penalization.................................... 96 4.5.1 Penalty Function for Exhaustive Search................ 97 4.5.2 Penalty Function for CART Regression Trees............. 97 4.6 How to choose the nal partition?....................... 97 5

TABLE DES MATI RES 4.6.1 Heuristic method : General Idea..................... 97 4.6.2 The Heuristic applied to each Algorithm................ 98 4.7 Illustration of the Hybrid Algorithm...................... 100 4.8 Simulation study and Computational Complexities.............. 103 4.8.1 Simulation study............................. 103 4.8.2 Additional discussion........................... 105 4.8.3 Computational complexities....................... 107 4.9 Conclusion..................................... 108 4.10 Appendix..................................... 108 5 Boosting and Instability for Regression Trees 111 5.1 Introduction.................................... 113 5.2 Model and estimation method.......................... 115 5.2.1 Model and notations........................... 115 5.2.2 CART regression trees.......................... 115 5.3 Algorithms.................................... 117 5.3.1 Bagging algorithm............................ 117 5.3.2 Boosting algorithms........................... 118 5.4 Data sets and global performance........................ 120 5.4.1 Data sets................................. 120 5.4.2 Global performance........................... 122 5.5 Analysis of the Boosting predictors sequence.................. 124 5.5.1 The weights ( k ) and the prediction errors............... 125 5.5.2 The probability distributions (p k ).................... 126 5.5.3 The plateau................................ 127 5.6 Bagging, boosting and instability........................ 129 5.6.1 Bagging and instability......................... 129 5.6.1.1 Instability index........................ 129 5.6.1.2 Instability for data sets.................... 130 6

5.6.2 Boosting and instability......................... 131 5.6.2.1 Incremental instability index................. 131 5.6.2.2 Incremental instability for data sets............. 132 5.6.2.3 More about the training errors................ 134 5.6.3 Instability and nested models...................... 136 5.7 Outliers and hard observations......................... 138 5.7.1 Outliers.................................. 138 5.7.2 Hard observations............................ 141 5.8 Boosting variants................................. 144 5.8.1 Aggregation using weighted mean.................... 144 5.8.2 Space adaptive aggregation....................... 145 5.8.3 Using a threshold to update probabilities............... 145 5.9 Concluding remarks............................... 146 6 En Guise de Conclusion 149 6.1 Bornes de Risque................................. 149 6.2 Boosting...................................... 150 R f rences 151

Chapitre 1. Pr sentation G n rale Chapitre 1 Pr sentation G n rale 1.1 Contexte Les travaux constituant cette th se se situent dans le domaine de la statistique nonparam trique et portent sur divers probl mes rattach s l'algorithme CART (Classication And Regression Trees) d Breiman, Friedman, Olshen et Stone [15] en 1984. CART est une m thode d'estimation non-lin aire pour les probl mes de classication et de r gression permettant de construire des estimateurs constants par morceaux sur des partitions obtenues, partir des donn es, par des d coupes dyadiques r cursives de l'ensemble des variables explicatives. Cette m thode, robuste, simple impl menter et fournissant des estimateurs facilement interpr tables, est largement appliqu e dans des domaines vari s et est pr sente dans de nombreux logiciels statistiques. Par exemple, le livre de Breiman et al. [15] contient des exemples d'application en m decine, en biochimie, en m t orologie, en reconnaissance de caract res ou encore un exemple de vie quotidienne comme l'immobilier. Depuis, de nombreux praticiens utilisent CART, citons par exemple Gueguen et al. [36] pour les probl mes de discrimination, Ghattas [33] pour l'analyse et la pr vision de la pollution, ou encore Chou et al. [21] pour le codage d'images et Wernecke et al. [61] pour des probl mes de classication en m decine et en biologie. A l'heure actuelle, CART demeure consid r comme un algorithme ecace et simple et conna t un succ s grandissant gr ce entre autres la diusion des id es et des outils du Data Mining (cf. Hastie et al. [38]). Cependant, la m thode CART est instable et fournit des estimateurs manquant de r gularit, dont l'analyse statistique th orique reste dicile, de par leur construction m me. L'int r t pour l' tude de CART, de ce point de vue, est relativement r cente. Par exemple, apr s les r sultats de consistance donn s par Breiman et al. dans leur livre en 1984, des r sultats asymptotiques sont obtenus par Nobel [49] en 1996 pour des m thodes de construction du m me type que CART en r gression, et par Engel [25] en 1994 et Donoho [23] en 1997 pour des estimateurs construits partir d'un ensemble de partitions x au pr alable (et donc ind pendant des donn es) sur lequel CART est appliqu pour choisir en fonction des donn es une partition convenable. 9

Chapitre 1. Pr sentation G n rale Nous proposons dans cette th se de mettre en vidence certaines propri t s statistiques int ressantes de CART en r gression. Les trois th mes abord s dans ce document sont les suivants :. Le premier est th orique et s'int resse l' tape d' lagage de l'algorithme CART. Il valide la forme de la p nalit utilis e dans cette tape, qui peut tre vue comme une tape de s lection de mod les. En outre, il fournit des bornes de risque nonasymptotiques pour l'estimateur engendr par CART.. Le deuxi me est une application de l'algorithme CART dans un contexte inhabituel. On s'int resse au probl me, classique en traitement statistique du signal, de la d tection de ruptures dans la moyenne. Dans ce cadre, CART est utilis pour fournir rapidement un ensemble de candidats, permettant d'en d duire un ensemble de congurations, dans lequel on s lectionne, gr ce une recherche exhaustive, la conguration nale.. Le troisi me est pratique et porte sur des algorithmes appel s Boosting issus des m thodes d'apprentissage et se situant au carrefour de l'informatique et de la statistique. Leur principe est de fabriquer un pr dicteur par agr gation de pr dicteurs obtenus par r chantillonnage adaptatif. On tudie, sur des donn es simul es et r elles, le comportement du Boosting en insistant particuli rement sur l'instabilit du pr dicteur de base (CART dans ce cas), pour laquelle on introduit deux indices clairant les performances obtenues. On s'int resse au probl me de r gression suivant : on dispose de n r alisations ind pendantes L = f(x 1 ; Y 1 ); : : : ; (X n ; Y n )g, appel chantillon d'apprentissage, de la variable al atoire (X; Y ) 2 X R qui v rie la relation (1.1.1) Y = f (X) + ": L'espace X est mesurable (typiquement X = R p ), le bruit additif " est centr conditionnellement X, de variance 2 inconnue, et on cherche reconstruire (ou estimer) f, la fonction de r gression inconnue, l'aide de l' chantillon d'apprentissage L. Sauf mention contraire, la loi de probabilit P X de X ainsi que la loi de probabilit du bruit conditionnellement X sont inconnues. La structure de la th se est la suivante : outre cette introduction, le chapitre 2 est consacr la pr sentation de la m thode CART en r gression. Le lecteur connaissant d j CART pourra donc passer directement au chapitre 3. Les chapitres 3 5 abordent successivement les trois th mes pr sent s ci-dessus. Chaque chapitre est constitu d'une courte pr sentation et d'un article. 10

Chapitre 1. Pr sentation G n rale Dans cette introduction g n rale, avant de pr senter les trois articles, nous rappelons rapidement quelques l ments concernant d'une part la m thode CART et d'autre part les m thodes de s lection de mod le par p nalisation dimensionnelle. Par souci de coh rence avec les ouvrages pr sentant ces m thodes, nous utilisons les m mes notations que celles adopt es dans ces r f rences. 1.2 A Propos de CART et de la S lection de Mod le 1.2.1 CART en R gression L'algorithme CART permet d'obtenir de mani re tr s rapide des estimateurs par histogramme de f sans aucune hypoth se pr alable sur P X ou sur la loi du bruit. Cet algorithme proc de par d coupe dyadique r cursive de X, adapt e aux donn es, conduisant un estimateur constant par morceaux sur une partition de X. Ce type d'estimateur est repr sent sous forme d'arbre binaire. Un exemple d'arbre de r gression est donn dans la Figure 1.1. x 2 sp 1 x 2 sp 2 x 2 sp 3 Y t 5 x 2 sp 4 x 2 sp5 x 2 sp 6 Y t 8 Y t 9 Y t 11 Y t 12 Y t 13 x 2 sp 7 Y t 14 Y t 15 Fig. 1.1: Repr sentation d'un arbre de r gression T. L'interpr tation d'un tel arbre de r gression T en terme d'estimateur non-param trique se fait de la fa on suivante. Chaque n ud de T est associ un split, qui est une question du type x appartient-il sp?, o chaque sp est une partie de X appartenant une classe S choisie au pr alable. Par exemple, si X est de dimension nie, la classe S qui est habituellement prise est l'ensemble des demi-espaces de X. On pourra alors consid rer, pour xer les id es, les splits de la forme x d 6 s. 11

Chapitre 1. Pr sentation G n rale Etant donn e cette classe de splits, toute donn e x 2 X arrivant dans la racine de T (assimil e l'espace X tout entier) est alors confront e la premi re question x appartientil sp 1?. Si la r ponse est oui, x va dans le n ud gauche, sinon x va dans le n ud droit. Ensuite, x descend dans l'arbre suivant cette m me m thode jusqu' ce qu'il tombe dans un n ud terminal (ou feuille) t f de T. On lui associe alors une r ponse, qui est la moyenne empirique Y tf = 1 #f(x i ; Y i ) 2 L ; X i 2 t f g X fx i ; X i 2t f g Ainsi, chaque split d nissant une fronti re dans X, l'ensemble e T des feuilles de T forme une partition de X et T est alors associ un estimateur par histogramme ^f T = X t2 e T Y t 1l t : Par exemple, l'estimateur par histogramme correspondant l'arbre T repr sent Figure 1.1 est X ^f T = Y ti 1l ti : i2f5;8;9;11;12;13;14;15g La construction d'un tel arbre partir des donn es composant l' chantillon d'apprentissage L se d compose en trois tapes : tape 1 Construction d'un arbre de grande profondeur T max (correspondant une partition tr s ne de X ) de mani re r cursive en maximisant chaque tape la variance inter-groupes. Cet arbre fournit une grande collection d'estimateurs par histogramme de la mani re suivante : chaque sous-arbre binaire T de T max, ayant la m me racine que T max, appel sous-arbre lagu de T max, d nit une partition e T de X obtenue en regroupant des l ments de la partition et max d nie par T max. Donc chaque sous-arbre T lagu de T max fournit un estimateur par histogramme ^f T, ce qui conduit un grand nombre de choix possibles d'estimateurs. Le nombre de ces choix est r duit par l' tape 2 de l'algorithme. tape 2 Elagage de T max an d'en extraire une suite (T k ) 16k6K de sous-arbres lagu s les uns des autres, correspondant une famille de partitions emboit es les unes dans les autres. Cette tape est bas e sur la minimisation du crit re p nalis d ni pour tout T lagu de T max et pour tout > 0 par (1.2.2) crit (T ) = 1 n nx i=1 Y i : Y i ^f T (X i ) 2 + je Tj; o je Tj est le nombre de feuilles de T, et donc le nombre d l ments de la partition d nie par T. Le principe de la proc dure d lagage consiste alors faire augmenter de mani re faire diminuer je Tj, ceci fournissant la suite 12

Chapitre 1. Pr sentation G n rale (T k ) 16k6K. Cette suite est susante pour minimiser crit sur tous les sousarbres lagu s de T max pour tout > 0. tape 3 Choix d'un sous-arbre parmi la suite obtenue par lagage de T max. Breiman et al. proposent essentiellement deux m thodes : utiliser un chantillont moin ou choisir par validation crois e. Nous consid rons plus particuli rement dans cette th se la m thode utilisant un chantillon-t moin. Cette m thode consiste valuer les r ponses ^f Tk (X j ) sur un ensemble d'observations L 0 = f(x j ; Y j )g 16j6n t ind pendant de L. Ensuite, on choisit et enn ^f = ^f T^k. ^k = argmin 16k6K 1 n t X Y j ^f Tk (X j ) (X j ;Y j )2L 0 2 1.2.2 S lection de Mod le Une m thode d sormais classique pour faire de la s lection de mod le dans une famille de mod les (et donc d'estimateurs) donn e a priori consiste minimiser un crit re p nalis (en g n ral le crit re des moindres carr s p nalis dans le cadre de la r gression), avec un terme de p nalit d pendant uniquement des donn es. Par exemple, le crit re de Mallows [46] p nalise le crit re des moindres carr s par un terme proportionnel au nombre de param tres estimer sur chaque mod le, ce nombre tant divis par la taille de l' chantillon. Nous nous focalisons dans cette th se sur les m thodes de s lection de mod le par p nalisation dimensionnelle. Ce paragraphe donne une courte pr sentation de ces m thodes, en se centrant sur celles propos es par Birg et Massart [5, 6, 47], sur lesquelles nous nous appuyons dans les chapitres 3 et 4. On consid re le mod le de r gression (1.1.1) et un chantillon L = f(x 1 ; Y 1 ); : : : ; (X n ; Y n )g de ce mod le. On se donne un mod le S m L 2 (P X ) de dimension nie D m et on cherche estimer la fonction de r gression f sur ce mod le. Pour cela, on consid re le contraste quadratique empirique n d ni pour tout u 2 L 2 (P X ) par nx (1.2.3) n (u) = 1 n i=1 (Y i u(x i )) 2 : L'estimateur des moindres carr s de f sur S m est alors donn par ^f m = argmin u2s m n (u): Pour valuer les performances de l'estimateur ^f m, on d nit le risque quadratique de ^f m par (1.2.4) R(f; ^f m ) = E f h kf ^f m k 2 i ; 13

Chapitre 1. Pr sentation G n rale o E f repr sente l'esp rance sous la loi jointe de (X; Y ) et k:k la norme sur L 2 (P X ). De plus, si l'on calcule ce risque, il se d compose en un terme de biais et un terme de variance. Par exemple, prenons le cadre particulier o fx 1 ; : : : ; X n g d nit une grille r guli re xe et o le bruit additif " est gaussien de variance 2. Si l'on consid re S m le sous-espace lin aire des fonctions constantes par morceaux sur la partition m, le risque de ^f m s' crit R(f; ^f m ) = d 2 (f; S m ) + 2 D m n ; o d(f; S m ) est la distance de f au sous-espace S m et D m est la dimension de S m, et donc le nombre de parties composant m. Le premier terme d 2 (f; S m ) est un terme de biais : il repr sente l'erreur d'approximation de f sur S m. Le deuxi me terme 2 D m =n est un terme de variance : il repr sente l'erreur d'estimation sur S m, la dimension D m correspondant au nombre de param tres estimer. On suppose maintenant que l'on a, non pas un mod le S m, mais une collection de mod les (S m ) m2mn, chaque S m tant un sous-espace de L 2 (P X ) de dimension nie. En g n ral, la collection M n est au plus d nombrable et d pend du nombre n d'observations de L. Elle repr sente par exemple une collection de partitions de X, o chaque partition m 2 M n est constitu e de D m parties. Alors, chaque S m est un espace de fonctions d nies par morceaux sur la partition m et Dim(S m ) = D m. Par exemple, dans le cadre de CART, M n est l'ensemble des partitions d nies par les sous-arbres lagu s de l'arbre maximal et chaque S m est l'ensemble des fonctions constantes par morceaux sur la partition m. Etant donn e cette collection de mod les, on obtient une collection d'estimateurs ^f m, m2m n o chaque ^f m est l'estimateur des moindres carr s sur S m. Il s'agit alors de choisir un estimateur dans cette collection. Pour cela, la m thode utilis e par Birg et Massart consiste ^f m prendre l'estimateur qui minimise le risque quadratique (1.2.4) sur l'ensemble. m2m n Plus pr cis ment, si l'on consid re la d composition de ce risque en un terme de biais et un terme de variance, ces deux termes varient en sens contraire en fonction de D m : plus D m est grand, meilleure est l'approximation de f par S m, mais plus le nombre de param tres estimer est grand. Il s'agit donc de trouver l'estimateur ^f m qui fait le meilleur compromis entre le biais et la variance. Cependant, comme le terme de biais d pend de f, on ne peut pas utiliser telle quelle l'expression du risque de ^f m pour le minimiser sur M n. Le principe de la m thode propos e est alors de construire un crit re uniquement sur les donn es permettant de choisir un estimateur ^f m qui soit convenable en terme de risque. Le crit re que l'on consid re est le crit re des moindres carr s p nalis s. Il consiste de mani re g n rale p naliser n ( ^f m ) par une fonction pen n (m) positive et croissante en la dimension D m de S m. On d nit donc (1.2.5) crit n (m) = n ( ^f m ) + pen n (m); 14

Chapitre 1. Pr sentation G n rale et on choisit ^m = argmin m2m n L'estimateur s lectionn est alors ~ f = ^f ^m. crit n (m): Le probl me revient alors choisir une fonction de p nalit pen n convenable pour obtenir un estimateur f ~ ayant un risque proche de inf R(f; ^f m ). Le choix de cette fonction m2m n d pend essentiellement de deux choses : d'abord bien s r de certaines hypoth ses sur la loi de (X; Y ), et surtout de la complexit de la collection M n. Par exemple, si l'on reprend le cas gaussien d crit plus haut, on a le r sultat suivant [6, Th or me 4.2]. On suppose tout d'abord que la collection M n n'est pas trop riche, i.e. qu'il existe une suite de poids positifs (L m ) m2mn v riant X e LmDm 6 < +1: fm2m n ; Dm>0g Alors, si la fonction de p nalit est choisie telle que, pour K > 1 et pour tout m 2 M n, le risque de ~ f v rie pen n (m) > K 2 D m n 1 + 2L m + 2 p Lm R(f; f ~ ) 6 C(K) inf d 2 (f; Sm ) + pen m2m n (m) + C 0 (K) 2 n n : Ainsi, si la collection M n est choisie de sorte que 1 + 2L m + 2 p L m soit constant, le risque de f ~ est comparable des constantes multiplicatives et additives pr s inf R(f; ^f m ). m2m n C'est le cas d'une collection M n o il n'y a qu'un mod le par dimension (par exemple si l'on consid re les partitions dyadiques xes ordonn es sur la grille fx 1 ; : : : ; X n g). En eet, si on choisit les poids (L m ) en fonction de la dimension D m, on a X m2m n e LmDm = X D1 6 X D1 e L DD ; #fm ; D m = Dge L DD ; donc en prenant L D constant, on obtient bien < +1. Par contre, lorsque la collection M n devient riche, L D peut d pendre de D et faire intervenir un terme suppl mentaire dans la borne de risque. C'est le cas si toutes les partitions construites sur la grille fx 1 ; : : : ; X n g sont consid r es, ce qui rajoute un terme proportionnel log (n=d) dans la p nalit. Ces m thodes de p nalisation sont utilis es th oriquement pour d montrer des r sultats sur les estimateurs CART dans le chapitre 3, et pratiquement pour p naliser des familles 15

Chapitre 1. Pr sentation G n rale de mod les particuli res dans le chapitre 4. Apr s ces quelques rappels utiles sur CART et la s lection de mod le, la suite de cette pr sentation g n rale concerne les contributions originales de cette th se. La partie suivante, r sumant le chapitre 3, consiste valider l' tape 2 de CART, via la validation du choix de la fonction de p nalit, an de justier l'utilisation de CART pour l'estimation de fonctions de r gression. Justication faite, les deux autres parties consistent d'une part appliquer cet algorithme dans un cadre particulier, celui de la d tection de ruptures dans la moyenne, et d'autre part am liorer ses performances en utilisant des m thodes de r chantillonnage comme le Boosting. 1.3 Validation de l'algorithme d'elagage dans deux Cadres de R gression Ce travail, r alis en collaboration avec Elodie Nedelec, concerne l' tape d' lagage de l'algorithme CART et les performances des estimateurs fournis par CART. 1.3.1 Le Probl me La phase d' lagage facilite les calculs dans l'algorithme, puisqu'elle permet d'extraire rapidement de l'arbre maximal T max une suite de sous-arbres susante pour l'analyse. C'est pourquoi elle est toujours utilis e, la visite explicite de tous les sous-arbres lagu s de T max par un chantillon-t moin tant trop co teuse en calculs. Le terme de p nalit, proportionnel au nombre de feuilles des sous-arbres, qui intervient dans le crit re (1.2.2) utilis dans cette phase d' lagage a t propos d s 1984 par Breiman et al. et est depuis largement utilis. Cependant, malgr les r sultats asymptotiques obtenus par Breiman et al. [15] sur la m thode CART proprement dite, ou par Engel [25], Donoho [23] et Nobel [49] sur des m thodes inspir es de CART, qui montrent l'int r t de ces m thodes en r gression, aucune justication th orique n'a t donn e quant au choix du terme de p nalit utilis dans CART. Par exemple, dans le cadre de la classication, Nobel [51] obtient des bornes de risque pour les estimateurs CART faisant intervenir une p nalit proportionnelle, non pas au nombre de feuilles des sous-arbres, mais la racine de ce nombre. Alors, pourquoi cela ne serait-il pas le cas pour la r gression? Plus g n ralement, pourquoi la forme du terme de p nalit ne ferait-elle pas intervenir une autre fonction croissante du nombre de feuilles? 1.3.2 Le Cadre Ce paragraphe donne une r ponse aux questions pr c dentes. Il valide l'algorithme d' lagage via l'obtention de bornes de risques conditionnellement la construction de 16

Chapitre 1. Pr sentation G n rale T max dans les deux cadres suivants, classiques en r gression, pr cisant le mod le (1.1.1) Y = f (X) + " : i) " suit une loi gaussienne centr e conditionnellement X, ii) X et " sont de loi inconnue, " tant born ainsi que Y. Pour chaque cadre, on consid re trois chantillons ind pendants L 1, L 2 et L 3 de la variable (X; Y ), de tailles respectives n 1, n 2 et n 3. Nous examinons deux situations, dont la premi re di re l g rement de l'algorithme CART pr sent pr c demment : M1 : T max est construit sur l' chantillon d'apprentissage L 1 et ensuite lagu avec un autre chantillon L 2 ind pendant de L 1 et de l' chantillon-t moin L 3. L' lagage produit la suite de sous-arbres (T k ) 16k6K et l'estimateur nal ^f est choisi dans cette suite l'aide de L 3. M2 : T max est construit et lagu avec L 1 (alors assimil L 1 [L 2 ), ces deux proc dures conduisant la suite de sous-arbres (T k ) 16k6K. Enn, l'estimateur nal ^f est choisi dans cette suite laide de l' chantillon-t moin L 3. Comme nous l'avons not dans le paragraphe 1.2.2, l'ensemble des sous-arbres lagu s de T max peut tre assimil une grande collection al atoire de mod les, o chaque mod le S T est un ensemble de fonctions constantes par morceaux sur la partition e T fournie par le sous-arbre T lagu de T max. Les deux m thodes M1 et M2 consistent alors faire une s lection de mod le par crit re p nalis, la collection de mod les consid r e tant al atoire, car construite sur les donn es. Nous utilisons donc les m thodes pr sent es dans le paragraphe 1.2.2, et plus particuli rement les r sultats de Birg, Massart [6] et Massart [47], pour obtenir des bornes de risque pour les estimateurs CART et valider le choix de la fonction de p nalit utilis e dans l' tape d' lagage. 1.3.3 Les R sultats Dans ce paragraphe, nous utilisons les notations suivantes. La relation l'arbre T 1 est lagu de l'arbre T 2 est une relation d'ordre sur l'ensemble des sous-arbres lagu s de T max et est not e T 1 T 2. A chaque sous-arbre T lagu de T max on associe l'ensemble et de ses feuilles, je Tj le cardinal de e T, et ST le sous-espace des fonctions constantes par morceaux sur la partition d nie par e T. Enn, on note ^f T l'estimateur des moindres carr s de f sur S T et f T la projection L 2 (P X ) de f sur S T. On tudie d'une part la proc dure d' lagage. On note alors T le plus petit sous-arbre minimisant le crit re crit (1.2.2) pour ce que l'on appelle la temp rature (i.e. T minimise crit et est lagu de tous les sous-arbres minimisant ce m me crit re). Le but est alors d' valuer les performances de ^f T x, ce qui permettra a posteriori de valider la proc dure d' lagage. 17

Chapitre 1. Pr sentation G n rale D'autre part, on tudie les performances de l'estimateur nal ^f. Les proc dures de construction et d' lagage de T max ayant fourni la suite de sous-arbres lagu s les uns des autres (T k ) 166K, ^f est d ni par ^f = ^f T^k o ^k = argmin 16k6K 1 n 3 X Y i ^f 2 Tk (X i ) : (X i ;Y i )2L 3 Le but est ici le m me que pour ^f T, ce qui permettra de valider la proc dure de choix par chantillon-t moin. Tous nos r sultats sont obtenus conditionnellement la construction de T max et les performances des di rents estimateurs sont valu es par leur risque calcul conditionnellement T max. Si on note k:k la norme sur L 2 (P X ) et E f l'esp rance sous la loi jointe de (X; Y ), le risque d'un estimateur ^f T conditionnellement T max est donn par h i R jtmax (f; ^f T ) = E f kf ^f T k 2 j L 1 : Nous obtenons les r sultats suivants pour les deux mod les i) et ii) consid r s : Si ^f est obtenu via M1 : On suppose en outre que tous les X i sont quidistribu s. Alors, pour > 0 assez grand, on a De plus, on a R jtmax (f; ^f T ) 6 C R jtmax (f; ^f ) 6 C 1 " # je Tj inf kf f T k 2 + 2 + 2 C0 : TT max n 2 n 2 " # je Tj inf kf f T k 2 + 2 + 2 C 2 + C 3 2 log n 1 : TT max n 2 n 2 n 3 Ces deux bornes de risque valident d'une part le choix de la p nalit utilis e dans l'algorithme et, d'autre part, la s lection nale par chantillon-t moin. De plus, dans le cas gaussien, le risque d'un estimateur ^f T s' crit R jtmax (f; ^f T ) = kf f T k 2 + 2 je Tj n 2 ; donc ^f T, pour assez grand, ainsi que ^f, ont des risques comparables inf R jtmax (f; ^f T ). TT max Si ^f est obtenu via M2 : 18

Chapitre 1. Pr sentation G n rale Etant donn que d'une part les proc dures de construction et d' lagage de T max se font sur le m me chantillon L 1, et que d'autre part la s lection nale dans la suite de sous-arbres lagu s se fait l'aide d'un chantillon t moin L 3 ind pendant de L 1, la s lection par crit re p nalis et la s lection par chantillon-t moin ne sont pas directement comparables. En eet, en ce qui concerne la proc dure d' lagage, comme tout se fait conditionnellement L 1, les bornes de risque obtenues d pendent de la grille fx i ; (X i :Y i ) 2 L 1 g. Par contre, en ce qui concerne la proc dure de s lection par chantillon-t moin, la grille consid r e est la grille fx i ; (X i :Y i ) 2 L 3 g. Ainsi, si on note respectivement k:k 1 et k:k 3 les normes empiriques sur les grilles fx i ; (X i :Y i ) 2 L 1 g et fx i ; (X i :Y i ) 2 L 3 g, on obtient les r sultats suivants, valables sur des espaces ayant une grande mesure de probabilit : pour > 0 assez grand kf ^f T k 1 6 C " inf kf f T k 2 + 1 TT 2 V max 1 + log n1 V # jtj e + 2 C0 ; n 1 n 1 o V est la dimension de Vapnik-Chervonenkis (voir [59]) de la classe S utilis e pour d nir les splits ayant servi construire T max. Cette dimension repr sente en quelque sorte la complexit de la collection de mod les par arbres de r gression que l'on peut construire sur la grille fx i ; (X i :Y i ) 2 L 1 g. Concernant les performances de ^f, on a h E f kf ^fk i 3 j L 1 6 C1 inf E h f kf ^f Tk k 3 16k6K j L 1 i + C 2 2 log n 1 n 3 : La premi re borne valide la forme de la p nalit utilis e dans l'algorithme d' lagage, la seconde, quant elle, valide le choix d'un arbre dans la suite (T k ) 16k6K par l'entremise d'un chantillon-t moin. Remarquons toutefois que, contrairement au cas M1, on ne peut pas obtenir une borne de risque permettant de comparer le risque de ^f avec inf R jtmax (f; ^f T ), car les deux TT max normes k:k 1 et k:k 3 ne sont pas elles-m mes comparables. De plus, la complexit de la famille de mod les consid r e entra ne l'apparition d'un terme en log (n 1 =V ) dans la borne de risque. Il appara t donc que, dans les deux cadres de r gression consid r s et conditionnellement la construction de l'arbre maximal, l'algorithme CART fournit des estimateurs convenables en terme de risque. En outre, la forme de la p nalit utilis e dans la phase d' lagage est valid e dans ces deux cas. 19

Chapitre 1. Pr sentation G n rale 1.4 Application la D tection de Ruptures dans la Moyenne d'un Signal Gaussien Ce travail, r alis en collaboration avec Emilie Lebarbier, propose un algorithme utilisant CART pour eectuer une pr s lection de ruptures dans la moyenne d'un signal gaussien de grande taille. Une recherche exhaustive est ensuite appliqu e sur cette petite collection pour obtenir les ruptures nales. 1.4.1 Le Probl me Nous consid rons le probl me de d tection de ruptures suivant : on observe (y 1 ; : : : ; y n ), o pour chaque i 2 f1; : : : ; ng y i = f (i) + " i ; avec f = KX k=1 s k 1l [k ; k+1 [ et " i un bruit additif gaussien centr de variance 2. Ici, K et les ( k ) sont inconnus et le probl me est alors d'estimer K et les deux suites ( k ) et (s k ). Cette estimation se fait via l'estimation de la fonction f par une fonction constante par morceaux, obtenue partir de (y 1 ; : : : ; y n ), ^f = ^KX k=1 ^s k 1l [^k ;^ k+1 [; les ruptures estim es (^ k ) correspondant alors aux points de discontinuit de ^f. 1.4.2 Deux Algorithmes Nous consid rons deux algorithmes de construction pour ^f : 1- Un algorithme de recherche exhaustive propos par Lebarbier en 2001 [42], bas sur la programmation dynamique (cf. Kay [39]), qui parcourt toutes les congurations de ruptures possibles sur la grille f1; : : :; ng et s lectionne une conguration par minimum du crit re des moindres carr s p nalis. Le terme de p nalit est obtenu via le r sultat de s lection de mod le gaussien rappel dans le paragraphe 1.2.2. Ainsi, comme toutes les congurations de la grille f1; : : :; ng sont visit es, le terme de p nalit convenable utiliser dans ce cadre est de la forme c 1 + c 2 log pen (es) D n (m) = 2 m n n D m ; o D m est le nombre de parties constituant la partition m 2 P(f1; : : :; ng), et donc le nombre de ruptures correspondant est D m 1. Une tude heuristique faite par 20

Chapitre 1. Pr sentation G n rale Lebarbier permet de choisir c 1 = 2 et c 2 = 5. Avec ces constantes, et en supposant 2 connu, cet algorithme conduit un estimateur ^f optimal au sens du minimax. D'autre part, comme 2 est inconnu, une m thode heuristique de type L-curve (voir [37]) est appliqu e pour d terminer partir des donn es la bonne constante utiliser la place de 2 dans la p nalit. 2- L'algorithme CART, dont l'utilisation est inhabituelle dans ce contexte puisqu'il s'agit d'un mod le de r gression avec une unique variable explicative. Comme nous l'avons vu dans la partie 1.3, CART est aussi une proc dure de s lection de mod le par crit re des moindres carr s p nalis, dont la fonction de p nalit est de la forme pen (cart) n (T ) = j Tj e n ; o je Tj est le nombre de parties constituant la partition obtenue partir d'un sousarbre T quelconque lagu de l'arbre maximal construit sur les donn es. D'autre part, CART n'est pas utilis comme pr sent dans la partie 1.2.1. En eet, comme nous n'avons notre disposition qu'une seule r alisation du signal, l'utilisation d'un chantillon-t moin n'est pas adapt e dans ce contexte. De plus, la validation crois e induit des temps de calcul trop longs. Nous utilisons alors la m me m thode de type L-curve que celle utilis e dans la recherche exhaustive pour estimer la bonne temp rature prendre dans le crit re crit (1.2.2) utilis dans l' tape d' lagage de CART. Cela nous permet d'eectuer les trois tapes de CART en utilisant tout l' chantillon (y 1 ; : : : ; y n ) et sans faire de validation crois e. Ainsi, comme CART construit un estimateur par histogramme, il fournit id alement une partition contenant les vraies ruptures ( k ), avec ventuellement d'autres candidats. En eet, si par exemple il introduit une fausse rupture au premier d coupage, celle-ci sera gard e dans toutes les partitions s lectionn es. Mais, m me s'il introduit de fausses alarmes, il trouve les vraies ruptures, peut- tre de petites translations pr s, dans les d coupes suivantes. L'algorithme de recherche exhaustive permet d'obtenir un estimateur optimal, mais le fait que toutes les congurations de la grille f1; : : :; ng soient visit es implique une complexit de calcul de l'ordre de O(n 2 ). Il devient donc impossible de l'utiliser lorsque n devient trop grand. CART fournit quant lui un estimateur qui n'est pas optimal en terme de risque, mais le fait qu'il proc de par d coupe dyadique r cursive induit une complexit de calcul de l'ordre de O(n log n). Il est donc encore possible de l'utiliser m me si n devient grand. L'id e est de les utiliser conjointement. 1.4.3 L'Algorithme Hybride Nous proposons un algorithme, appel algorithme hybride, combinant CART et la recherche exhaustive. CART est appliqu en premier lieu sur l'ensemble des donn es avec la 21

Chapitre 1. Pr sentation G n rale p nalit pen (cart) n utilis e dans l'algorithme d' lagage, o la constante intervenant dans cette p nalit est choisie de mani re heuristique. CART fournit un estimateur de f, et donc une collection de ruptures possibles, contenant peut- tre de fausses alarmes. Nous consid rons alors une collection de ruptures f^ 1 ; : : : ; ^ Dc g un peu plus grande, extraite de la suite de sous-arbres engendr e par CART et contenant id alement l'ensemble des vraies ruptures. Ensuite, l'algorithme de recherche exhaustive est appliqu sur cette collection de ruptures possibles f^ 1 ; : : : ; ^ Dc g en utilisant la p nalit pen (es) n, avec c 1 = 2 et c 2 = 5 et o la constante rempla ant 2 dans cette p nalit est d termin e de mani re heuristique. Cette derni re tape de recherche exhaustive est eectu e an d'eacer les fausses alarmes introduites par CART et de d placer les ruptures translat es vers les vraies ruptures correspondantes. Des tudes par simulation semblent montrer, d'une part, que l'algorithme hybride conduit, en un temps de calcul court, un estimateur proche de l'optimal et, d'autre part, qu'il se comporte convenablement, c'est- -dire que l'application de la recherche exhaustive sur les ruptures fournies par CART eace les fausses alarmes et d place les ruptures translat es vers les vraies ruptures correspondantes. Mentionnons qu'une fois cet article crit, Lebarbier [42] a appliqu avec succ s cet algorithme au probl me de s quen age du g n me. 1.5 Am lioration des Performances de CART par R chantillonnage Adaptatif Dans cette partie, r alis e en collaboration avec Jean-Michel Poggi, nous nous int ressons l'am lioration des performances de CART en termes de pr diction. Nous analysons, sur des donn es r elles et simul es, un algorithme bas sur des m thodes de r chantillonnage adaptatif, appel Boosting, et nous proposons deux indices mesurant l'instabilit de CART et clairant les performances obtenues par le Boosting. 1.5.1 Le Contexte et le Probl me Le probl me de pr diction peut se r sumer ainsi : il s'agit partir d'un chantillon L = f(x 1 ; Y 1 ); : : : ; (X n ; Y n )g de construire un mod le fournissant une pr diction ^y = ^f (x) pour toute entr e x. CART est une m thode de pr diction applicable aussi bien en classication qu'en r gression et fournit des pr dicteurs convenables en terme de performances. Pourtant, il est bien connu que CART est une m thode instable (cf. Hastie et al. [38]) au sens o, si on change un peu les donn es composant L, on risque de changer beaucoup la forme et les pr dictions de l'arbre construit sur ces nouvelles donn es. Ceci est troitement li au fait que CART construise de mani re r cursive des pr dicteurs par histogrammes. Une strat gie pour obtenir un pr dicteur stable partir d'un pr dicteur instable est bas e 22

Chapitre 1. Pr sentation G n rale sur le bootstrap : au lieu de ne construire qu'un seul pr dicteur, on en construit K par r chantillonnage de L et on les agr ge ensuite pour obtenir un pr dicteur nal. Ce type de m thode a t d velopp et est largement utilis dans le domaine de l'apprentissage informatique. Du point de vue statistique, ce sont des m thodes inhabituelles dans le sens o les probl mes d'approximation de la fonction sous-jacente f et les probl mes de parcimonie ne sont pas consid r s directement. En eet, d'une part le probl me qui nous int resse dans ce cadre est, non pas de minimiser la distance entre f son estimateur ^f, mais de minimiser la di rence entre la valeur observ e y et la valeur pr vue correspondante ^y. D'autre part, le nombre K de pr dicteurs g n r s par r chantillonnage peut tre grand devant le nombre n de donn es. Ainsi, le mod le global construit perd toute vertu descriptive et interpr tative, mais la suite de pr dicteurs g n r e contient de l'information qu'il convient d' tudier. Nous nous int ressons plus particuli rement aux algorithmes de type Boosting, qui proc dent par r chantillonnage adaptatif. Le Boosting g n re K pr dicteurs de la fa on suivante. A chaque tape k, le pr dicteur ^f k est construit sur un chantillon L k tir avec remise dans L selon une loi de probabilit p nalisant les observations bien pr vues par le pr dicteur construit l' tape k 1. Ainsi, le pr dicteur ^f k est construit sur un ensemble d'observations de L sur-repr sentant celles qui sont mal pr vues par ^f k 1. Ensuite, les pr dicteurs ( ^f k ) 16k6K sont agr g s en aectant chaque ^f k un poids d pendant de ses performances sur L, puis en en prenant une combinaison pond r e. Les m thodes de type Boosting que l'on consid re dans cette partie viennent de la communaut informatique et sont largement utilis es dans le domaine de l'apprentissage. Elles ont d'abord t d velopp es pour les probl mes de classication par Freund et Schapire [26] en 1997 avec l'algorihme AdaBoost. Celui-ci a t adapt la r gression par Drucker [24] en 1997. Les tudes de Breiman [12] en 1998 sur AdaBoost montrent l'int r t du Boosting en classication : il permet d'obtenir, non seulement un pr dicteur stable, mais aussi des performances remarquables. Depuis, ces algorithmes ont donc suscit beaucoup de travaux th oriques et appliqu s. Cependant, leur application au cadre de la r gression a suscit, quant elle, moins d'int r t au prot des approches de type descente de gradient (cf. Friedman [27, 28] par exemple) qui ne sont pas directement connect es au r chantillonnnage. Nous analysons ici l'algorithme de type Boosting propos par Drucker [24] pour la r gression, que nous appliquons aux arbres de r gression. Dans la suite, c'est ce que nous entendrons par Boosting. A notre connaissance, cet algorithme n'a t analys que du point de vue de ses performances globales (cf. Drucker [24] ou Borra et Di Ciacco [7]), la compr hension de son comportement et l'analyse de la suite de pr dicteurs qu'il engendre tant faire. 23

Chapitre 1. Pr sentation G n rale 1.5.2 Analyse du Boosting Dans un premier temps, nous tudions le comportement de la suite de pr dicteurs g n r e par le Boosting sur des jeux de donn es tant simul es que r elles en s'inspirant de la strat gie adopt e par Breiman [12] pour AdaBoost en classication. Nous mettons en vidence que l'algorithme de Drucker pour la r gression se comporte, de ce point de vue, de fa on semblable AdaBoost. Plus pr cis ment, nous observons sur les di rents jeux de donn es les comportements suivants : x x dans l'ensemble des variables explicatives, la suite ( ^f k (x)) 16k6K est tr s instable. De plus, les performances des ( ^f k ) 16k6K sur L, ainsi que les lois de tirage des (L k ) 16k6K dans L, oscillent le long des it rations du Boosting, sans aucune stabilisation; une d croissance rapide de l'erreur de prediction du pr dicteur agr g le long des it rations du Boosting, cette erreur se stabilisant ensuite tr s rapidement; pas de comportement caract ristique indiquant une possible suradaptation aux donn es; l'erreur moyenne sur les K it rations du Boosting faite par les ( ^f k ) au point X i ne d pend pas de X i et est peu pr s constante. Ainsi, le Boosting fait en sorte que chaque observation soit pr dite avec la m me erreur, et peut donc tre consid r comme un galiseur d'erreur. 1.5.3 Instabilit et Boosting Il appara t que l'une des propri t s cl s pour que de tels sch mas de r chantillonnnage fonctionnent en classication est l'instabilit de la m thode de base, CART dans notre cas. C'est pourquoi, dans un deuxi me temps, nous proposons deux indices d'instabilit permettant d' clairer les performances du Boosting. Le premier traduit l'instabilit de CART pour un jeu de donn es x. Il est bas sur l'algorithme Bagging propos par Breiman ^f (bag) ^f (bag) K [10], qui construit K pr dicteurs 1 ; : : : ; sur K chantillons bootstrap tir s au hasard avec remise dans L, puis les agr ge en en prenant la moyenne. Tous ces pr dicteurs tant construits de mani re ind pendante, les uctuations des pr dictions donnent une bonne id e de l'instabilit de CART. L'indice d'instabilit est alors d ni pour un jeu de donn es partir de ces variations. Pour chaque it ration k, l'erreur commise par le pr dicteur ^f (bag) k est " (bag) k = 1 n i=1 L'indice d'instabilit de CART pour l' chantillon L est alors d ni par nx Y i IL = std("(bag) ) " (bag) ; 24 ^f (bag) k (X i ) 2 :

o " (bag) repr sente le vecteur " (bag) k Chapitre 1. Pr sentation G n rale, 16k6K std("(bag) ) l' cart-type empirique de " (bag) et " (bag) sa moyenne empirique. Ainsi, plus la m thode est instable et plus IL est grand. Remarque : IL peut tre consid r comme un estimateur de l'inverse du coecient de variation de la variable al atoire kf ^fk, o f est la fonction de r gression sous-jacente, ^f le pr dicteur fourni par CART et k:k la norme L 2 sous la loi de probabilit de X. Nous d nissons ensuite un deuxi me indice d'instabilit, appel indice d'instabilit incr mentale, traduisant l'activit du Boosting par rapport celle du Bagging. L'id e est bas e sur le fait que la loi de tirage de l' chantillon L k dans L soit adapt e aux performances du pr dicteur pr c dent ^f k 1 conduit globalement un accroissement de l'instabilit vis vis du Bagging. Cet indice est calcul partir de l'indice d'instabilit du Boosting, obtenu de la m me mani re que IL, i.e. on consid re et " (boost) k nx = 1 n i=1 Y i ^f k (X i ) 2 ; I (boost) L = std("(boost) ) " (boost) : Ensuite, l'indice d'instabilit incr mentale est d ni par I (boost) (bag) I (boost) (L) = L : IL Ainsi, plus le Boosting est loign du Bagging, i.e. plus les lois de probabilit de tirage des observations dans les chantillons bootstrap L k sont loign es de la loi uniforme, et plus l'indice I (boost) (L) aura tendance tre grand. (bag) Ces indices, propos s dans une optique descriptive, clairent les performances du Bagging et du Boosting. Avant de voir en quoi, notons que le Bagging am liore toujours les performances de CART et mentionnons qu'en r gression, contrairement la classication, le Boosting n'est pas toujours meilleur que le Bagging. L'analyse et la comparaison des performances la lumi re des deux indices introduits ci-dessus conduit alors aux conclusions suivantes : plus l'indice d'instabilit est grand, plus le Bagging am liore CART; l'ecacit du Boosting n'est pas seulement reli e l'instabilit globale de CART, mais aussi l'activit du Boosting par rapport au Bagging : un indice d'instabilit 25

Chapitre 1. Pr sentation G n rale lev combin avec un indice d'instabilit incr mentale mod r conduit le Boosting am liorer le Bagging. De plus, l'analyse des indices montre que : l'indice d'instabilit incr mentale est sensible aux valeurs aberrantes, alors que l'indice d'instabilit ne l'est pas; le Boosting est plus instable que le Bagging; les variables manquantes tendent faire baisser l'instabilit ; si on ajoute des variables inutiles au mod le, elles font augmenter l'instabilit sans aucun eet sur l'activit du Boosting par rapport au Bagging. 1.5.4 Boosting et Donn es Atypiques De plus, nous tudions la sensibilit du Boosting par rapport aux valeurs aberrantes et aux observations diciles pr voir. Il appara t que le Boosting est tr s sensible ce type d'observations et semble se concentrer plus sur celles-ci que sur les autres. Cette sensibilit peut tre utilis e pour les rep rer et les analyser. L'id e est de seuiller le nombre de fois o chaque observation de L appara t dans les chantillons bootstrap L k. Alors, les observations dont le nombre d'apparitions dans L k d passe ce seuil peuvent tre consid r es comme atypiques; tre exploit e dans un contexte non-standard de r gression. Ce dernier point est illustr par la pr diction de la concentration d'ozone Paris. Il semble montrer que, de mani re automatique, le Boosting d grade ses performances sur les donn es typiques an de les am liorer sur les donn es atypiques. Les exp riences men es montrent l'int r t du Boosting de Drucker pour am liorer les performances de CART et pr cisent le r le jou par l'instabilit.. 26

Chapitre 1. Pr sentation G n rale La suite de cette th se est essentiellement compos e de trois articles. Elle comporte donc des parties crites en fran ais et d'autres crites en anglais. Le chapitre 2 est un rappel de la m thode CART et est r dig en fran ais. Les chapitres 3 5 donnent les r sultats et analyses pr sent s plus haut. Ils sont crits sous forme d'articles en anglais et comportent une courte pr sentation en fran ais. 27

Chapitre 2. CART en R gression Chapitre 2 CART en R gression Nous rappelons dans ce chapitre le probl me de r gression auquel nous nous int ressons et la principale m thode de construction d'estimateurs (ou de pr dicteurs) que nous utiliserons dans la suite de cette th se. Le probl me est le suivant : tant donn un couple de variables al atoires (X; Y ) 2 X R, on cherche expliquer Y en fonction de X partir d'un chantillon d'apprentissage L n de (X; Y ). Une des nombreuses m thodes proposant des estimateurs (ou pr dicteurs) de la fonction liant X Y est la m thode CART (pour Classication And Regression Trees) pour la r gression. Cette m thode, due Breiman, Friedman, Olshen et Stone [15], est une m thode d'estimation non-lin aire pour les probl mes de classication et de r gression. Plus pr cis ment, CART permet d'obtenir partir de L n, de mani re tr s rapide, des estimateurs par histogramme de la fonction sous-jacente sans aucune hypoth se pr alable sur la loi des observations. La r f rence la plus compl te sur CART demeure le livre de Breiman et. al [15]. Au del de la pr sentation de l'algorithme en lui-m me la fois en classication et en r gression, il donne les m thodes pratiques d'impl mentation de CART, d veloppe de nombreux exemples d'application, propose des extensions, comme le calcul d'importance des variables par CART, ainsi que des r sultats de consistance. De nombreux autres ouvrages pr sentent aussi CART sous di rents points de vue : par exemple, le livre de Hastie, Friedman et Tibshirani [38] pr sente de mani re compacte de nombreuses m thodes concernant la th orie de l'apprentissage, dont la m thode CART. Les articles de Ghattas [34] et Gueguen et Nakache [36] reprennent les principales tapes de l'algorithme et l'appliquent sur des donn es r elles. Le livre de Devroye, Gy r et Lugosi [22], ainsi que l'article de Nobel [50], analysent quant eux l'algorithme de mani re plus th orique. Ce chapitre ne contient pas de r sultats originaux, n anmoins il nous a sembl utile de rassembler ici l'ensemble des fondements de l'algorithme. Il est le fruit de plusieurs expos s d'introduction CART pour un public compos de statisticiens th oriciens. La partie 2.1 est consacr e la d nition du mod le de r gression et aux notations. 29