Classification supervisée de Processus de Cox

Classificatio supervisée de Processus de Cox Gérard Biau 1 & Beoît Cadre 2 & Queti Paris 3 1 Uiversité Pierre et Marie Curie Ecole Normale supérieure 2 ENS Rees IRMAR 3 CREST ENSAE-ParisTech Résumé. Nous discutos du problème de la classificatio supervisée de processus de Cox. Les processus de Cox qui sot e particulier des processus de comptage ot vocatio à modéliser par exemple le ombre de visites d u patiet à l hôpital au cours du temps et leur étude présete de ombreuses applicatios e Biologie. Notre étude est basée sur u calcul explicite de la règle de Bayes (i.e. la règle de classificatio optimale). Nous proposos ue stratégie de classificatio de type boostig : la règle de classificatio proposée miimise u critère empirique covexe régularisé. Nous présetos ue iégalité oracle pour évaluer la performace de otre règle de classificatio. D autre part ous motreros que cette règle de classificatio coverge vers la règle de Bayes à ue vitesse qui s adapte à la régularité icoue de l itesité du processus. Mots-clés. Processus de Cox classificatio supervisée iégalité oracle regularisatio calcul stochastique. Abstract. This article addresses the problem of supervised classificatio of Cox process trajectories whose radom itesity is drive by some exogeous radom covariable. The classificatio task is achieved through a regularized covex empirical risk miimizatio procedure ad a oasymptotic oracle iequality is derived. We show that the algorithm provides a Bayes-risk cosistet classifier. Furthermore it is proved that the classifier coverges at a rate which adapts to the ukow regularity of the itesity process. Our results are obtaied by takig advatage of martigale ad stochastic calculus argumets which are atural i this cotext ad fully exploit the fuctioal ature of the problem. Keywords. Cox process supervised classificatio oracle iequality cosistecy regularizatio stochastic calculus. 1

1 Itroductio U exemple de problème pratique qui motive cette étude est le suivat. Supposos qu u patiet atteit d ue certaie maladie grave se red à l hôpital à ue fréquece dépedat de l évolutio de sa maladie. Supposos disposer d autre part d u certai ombre de patiets dot o a déjà observé l évolutio au cours du temps et dot o a pu décider si cette évolutio correspodait à ue aggravatio ou ue rémissio de la maladie. Peuto à l aide de ces observatios décider si le ouveau patiet observé coait lui même ue phase d aggravatio ou de rémissio de sa maladie? U cadre aturel pour formaliser cette étude est celui de la classificatio supervisée de doées modélisées par des processus de comptage. Les processus de Cox qui sot u type particulier de processus de comptage sot u outil itéressat pour modéliser par exemple l évolutio du ombre de visites d u patiet à l hôpital au cours du temps. E effet l itesité d u processus de Cox (que l o peut e première approximatio cosidérer comme u taux de saut istataé) est aléatoire ce qui autorise ue grade fléxibilité du poit de vue de la modélisatio. Cocrètemet u processus X = (X t ) t [T ] est appelé processus de Cox d itesité (λ(t Z t )) t [T ] si la loi de X sachat tout le processus (λ(t Z t )) t [T ] est celle d u processus de Poisso d itesité (λ(t Z t )) t [T ]. Ici le caractère aléatoire de l itesité est itroduit au moye d ue covariable Z = (Z t ) t [T ] (pour chaque t [ T ] Z t est à valeurs das R d ) qui peut être cosidérée das le cas de otre exemple comme l évolutio du dossier médical du patiet au cours du temps. Pour otre étude ous supposeros qu il existe deux foctios icoues λ et λ + : [ T ] R d R caractéristiques du processus d aggravatio et de rémissio de la maladie. Nos observatios D = {(X 1 Z 1 Y 1 )... (X Z Y )} sot i.i.d. et de même loi qu ue variable géérique (X Y Z). Ici le processus X = (X t ) t [T ] représete l évolutio du ombre de visites à l hôpital au cours du temps la covariable Z = (Z t ) t [T ] représete u certai ombre de facteurs dot déped l itesité du processus X et Y représete le label (Y = 1: aggravatio Y = +1: rémissio). Nous supposeros que coditioellemet au fait que Y = +1 (resp. Y = 1) X est u processus de Cox d itesité (λ + (t Z t )) t [T ] (resp. (λ (t Z t )) t [T ] ). 2 Stratégie de classificatio Notre objectif est ici de costruire ue règle de classificatio g = g (. D ) : X Z { 1 1} dot la probabilité d erreur L(g ) = P (Y g (X Z) D ) est la plus faible possible. Notre stratégie de type boostig cosiste à costruire la règle g de la maière suivate. Etat doée ue classe F de foctios f : X Z R et la 2

foctio covexe φ(u) = l 2 (1 + e u ) o pose Fialemet o pose 1 f arg mi f F φ( Y i f(x i Z i )). i=1 g = sige(f ) = 1{f } 1{f < }. La performace de cette stratégie déped évidemmet du choix de la foctio φ aisi que de la classe F choisie. Le choix particulier de la foctio φ das otre cas est motivé par u lie particulier qui existe etre la formulatio de otre problème est le pricipe du maximum de vraisemblace. Le choix de la classe F que ous proposos est motivé par le résultat prélimiaire suivat qui doe explicitemet la règle de Bayes. Theorem 2.1 La règle de Bayes g qui réalise le miimum L(g ) = if g L(g) où l if est pris sur l esemble des applicatios mesurables g : X Z { 1 1} est telle que ( g (X Z) = sige ξ l p ) p + avec ξ = (λ λ + ) (s Z s )ds + l λ + λ (s Z s )dx s. Ce résultat permet e particulier u choix judicieux de la classe F. E effet disposat d ue certaie base de foctios (ϕ j ) j 1 das laquelle les foctios λ λ + et l λ + λ admettet des développemets il est raisoable de vouloir approcher la règle de Bayes par ue foctio du type sige(f) où f appartiet à la classe { ( B B ) } B F B = f = [a j Φ j + b j Ψ j ] + c : max a j b j c B où j=1 Φ j (x z) = j=1 ϕ j (s z s )ds Ψ j (x z) = j=1 ϕ j (s z s )dx s. Ici le paramètre etier B joue le rôle d u paramètre de régularisatio. Plus B est grad plus la classe F B a de boes propriétés d approximatio et plus la procédure d estimatio est difficile. Pour choisir à partir des doées le paramètre B de maière à effectuer ce compromis biais-variace ous procédos de la maière suivate. Nous itroduisos 3

ue suite croissate (B k ) k 1 de paramètres etiers de régularisatio et défiissos pour chaque valeur de k 1 1 ˆf k arg mi f F Bk φ( Y i f(x i Z i )). i=1 Disposat maiteat d u terme de péalité pe : N + R + qui reste à choisir o pose fialemet ˆf = ˆfˆk où ˆk arg mi{a ( ˆf k ) + pe(k)}. k 1 Le résultat suivat permet d évaluer la performace de cette procédure. Ici o ote A(f) = Eφ( Y f(x Z)) et f l uique applicatio mesurable réalisat le miimum de A(f) lorsque f parcourt l esemble des applicatio mesurables X Z R. Theorem 2.2 Supposos que k 1 B α k δ > si [ B 4 pe(k) C k l 1 pour u certai α >. Alors pour tout + α l B ] k + δ où C > désige ue costate uiverselle o obtiet { avec probabilité 1 e δ. A( ˆf ) A(f ) 2 if k 1 if (A(f) A(f )) + pe(k) f F Bk Le résultat suivat prouve que sous réserve que les foctios λ et λ + soit suffisammet régulières o peut cotrôler le terme de biais qui apparaît das le résultat précédet. Theorem 2.3 Supposos sue (ϕ j ) j 1 soit ue base orthoormale de L 2 ([ T ] [ 1] d ) et que les foctios λ λ + et l λ + λ appartieet à la classe { W(β M) = a j ϕ j : } j 2β a 2 j M j 1 j 1 pour u certai β 1 et u certai M >. Alors il existe ue costate C > dépedat explicitemet des costates du problème et telle que pour tout B 1 etier if (A(f) A(f )) C f F B B. β 4 }

Ue coséquece de ces deux résultats est que ( ) β A( ˆf l ) A(f β+8 ) = O aver grade probabilité. Fialemet les méthodes récetes qui reliet le risque covéxifié A(f) à l erreur de classificatio L(sige(f)) permettet d établir que la règle g = sige( ˆf) vérifie aver grade probabilité. ( ) β l L(g ) L(g 2β+16 ) = O Pour coclure ous avos proposé ue stratégie de classificatio das le cotexte de doées foctioelles e ayat recours à ue procédure de miimisatio covexe. Pour otre aalyse ous avos utilisé à u certai ombre de résultats issus du calcul stochastique et de la théorie des martigales qui exploitet la ature foctioelle du problème. Pour ue lecture complémetaire de os travaux (Biau Cadre ad Paris 213) ous revoyos le lecteur aux travaux importats et coexes que sot Cox (1955 1972 1975); Aderse ad Gill (1982); O Sulliva (1993); Bouzas Valderrama Aguilera ad Ruiz- Fuetes (26); Illia Beso Crawford ad Staies (26); Zhu Sog ad Taylor (211); Cadre (212); Deis (212); Hase Reyaud-Bouret ad Rivoirard (214). Refereces P.K. Aderse ad R.D. Gill. Cox s regressio model for coutig processes: A large sample study. The Aals of Statistics 1:11 112 1982. G. Biau B. Cadre ad Q. Paris. Cox process learig. hal:82838 213. P.R. Bouzas M.J. Valderrama A.M. Aguilera ad N.R. Ruiz-Fuetes. Modellig the mea of a doubly stochastically poisso process by fuctioal data aalysis. Computatioal Statistics & Data Aalysis 5:2655 2667 26. B. Cadre. Supervised classificatio of diffusio paths. Preprit Ecole Normale Supérieure de Cacha Atee de Bretage Bruz 212. D.R. Cox. Some statistical methods coected with series of evets. Series b. Joural of the Royal Statistical Society 17:129 164 1955. D.R. Cox. Regressio modes ad life tables (with discussio). Joural of the Royal Statistical Society. Series B 34:187 22 1972. 5

D.R. Cox. Partial likelihood. Biometrika 62:269 276 1975. C. Deis. Classificatio i postural style based o stochastic process modelig. hal- 653316 212. N.R. Hase P. Reyaud-Bouret ad V. Rivoirard. Lasso ad probabilistic iequalities for multivariate poit processes. Beroulli page (to appear) 214. J. Illia E. Beso J. Crawford ad H. Staies. Pricipal compoet aalysis for spatial poit processes - assessig the appropriateess of the approach i a ecological cotext. Lecture Notes i Statistics 185:135 15 26. F. O Sulliva. Noparametric estimatio i the Cox model. The Aals of Statistics 21: 124 145 1993. B. Zhu P.X.-K. Sog ad J.M.G. Taylor. Stochastic fuctioal data aalysis: a diffusio model-based approach. Biometrics 67:1295 134 211. 6