Classification supervisée de Processus de Cox



Documents pareils
Chapitre 3 : Fonctions d une variable réelle (1)

1 Mesure et intégrale

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

SÉRIES STATISTIQUES À DEUX VARIABLES

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Processus et martingales en temps continu

Les Nombres Parfaits.

Processus géométrique généralisé et applications en fiabilité

STATISTIQUE AVANCÉE : MÉTHODES

Cours 5 : ESTIMATION PONCTUELLE

Limites des Suites numériques

14 Chapitre 14. Théorème du point fixe

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

STATISTIQUE : TESTS D HYPOTHESES

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

CHAPITRE 2 SÉRIES ENTIÈRES

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

20. Algorithmique & Mathématiques

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Séquence 5. La fonction logarithme népérien. Sommaire

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Séries réelles ou complexes

Comportement d'une suite

EXERCICES : DÉNOMBREMENT

Etude de la fonction ζ de Riemann

Suites et séries de fonctions

4 Approximation des fonctions

Principes et Méthodes Statistiques

Chapitre 3 : Transistor bipolaire à jonction

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

Statistique descriptive bidimensionnelle

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Formation d un ester à partir d un acide et d un alcool

55 - EXEMPLES D UTILISATION DU TABLEUR.

Statistique Numérique et Analyse des Données

Cours de Statistiques inférentielles

UNIVERSITÉ DE SFAX École Supérieure de Commerce

c. Calcul pour une évolution d une proportion entre deux années non consécutives

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Dénombrement. Chapitre Enoncés des exercices

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Baccalauréat S Asie 19 juin 2014 Corrigé

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Des résultats d irrationalité pour deux fonctions particulières

Régulation analogique industrielle ESTF- G.Thermique

Chaînes de Markov. Arthur Charpentier

Risque de longévité et détermination du besoin en capital : travaux en cours

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

Chap. 5 : Les intérêts (Les calculs financiers)

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Contribution à la théorie des entiers friables

MESURE DE L'INFORMATION

16.1 Convergence simple et convergence uniforme. une suite de fonctions de I dans R ou C.

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Mécanismes de protection contre les vers

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Les algorithmes de tri

Initiation à l analyse factorielle des correspondances

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Probabilités et statistique pour le CAPES

Compte Sélect Banque Manuvie Guide du débutant

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Solutions particulières d une équation différentielle...

Exercices de mathématiques

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Donnez de la liberté à vos données. BiBOARD.

Sommaire Chapitre 1 - L interface de Windows 7 9

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Neolane Leads. Neolane v6.0

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Introduction : Mesures et espaces de probabilités

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Gérer les applications

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Une action! Un message!

Principe de symétrisation pour la construction d un test adaptatif

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Terminale S. Terminale S 1 F. Laroche

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Transcription:

Classificatio supervisée de Processus de Cox Gérard Biau 1 & Beoît Cadre 2 & Queti Paris 3 1 Uiversité Pierre et Marie Curie Ecole Normale supérieure 2 ENS Rees IRMAR 3 CREST ENSAE-ParisTech Résumé. Nous discutos du problème de la classificatio supervisée de processus de Cox. Les processus de Cox qui sot e particulier des processus de comptage ot vocatio à modéliser par exemple le ombre de visites d u patiet à l hôpital au cours du temps et leur étude présete de ombreuses applicatios e Biologie. Notre étude est basée sur u calcul explicite de la règle de Bayes (i.e. la règle de classificatio optimale). Nous proposos ue stratégie de classificatio de type boostig : la règle de classificatio proposée miimise u critère empirique covexe régularisé. Nous présetos ue iégalité oracle pour évaluer la performace de otre règle de classificatio. D autre part ous motreros que cette règle de classificatio coverge vers la règle de Bayes à ue vitesse qui s adapte à la régularité icoue de l itesité du processus. Mots-clés. Processus de Cox classificatio supervisée iégalité oracle regularisatio calcul stochastique. Abstract. This article addresses the problem of supervised classificatio of Cox process trajectories whose radom itesity is drive by some exogeous radom covariable. The classificatio task is achieved through a regularized covex empirical risk miimizatio procedure ad a oasymptotic oracle iequality is derived. We show that the algorithm provides a Bayes-risk cosistet classifier. Furthermore it is proved that the classifier coverges at a rate which adapts to the ukow regularity of the itesity process. Our results are obtaied by takig advatage of martigale ad stochastic calculus argumets which are atural i this cotext ad fully exploit the fuctioal ature of the problem. Keywords. Cox process supervised classificatio oracle iequality cosistecy regularizatio stochastic calculus. 1

1 Itroductio U exemple de problème pratique qui motive cette étude est le suivat. Supposos qu u patiet atteit d ue certaie maladie grave se red à l hôpital à ue fréquece dépedat de l évolutio de sa maladie. Supposos disposer d autre part d u certai ombre de patiets dot o a déjà observé l évolutio au cours du temps et dot o a pu décider si cette évolutio correspodait à ue aggravatio ou ue rémissio de la maladie. Peuto à l aide de ces observatios décider si le ouveau patiet observé coait lui même ue phase d aggravatio ou de rémissio de sa maladie? U cadre aturel pour formaliser cette étude est celui de la classificatio supervisée de doées modélisées par des processus de comptage. Les processus de Cox qui sot u type particulier de processus de comptage sot u outil itéressat pour modéliser par exemple l évolutio du ombre de visites d u patiet à l hôpital au cours du temps. E effet l itesité d u processus de Cox (que l o peut e première approximatio cosidérer comme u taux de saut istataé) est aléatoire ce qui autorise ue grade fléxibilité du poit de vue de la modélisatio. Cocrètemet u processus X = (X t ) t [T ] est appelé processus de Cox d itesité (λ(t Z t )) t [T ] si la loi de X sachat tout le processus (λ(t Z t )) t [T ] est celle d u processus de Poisso d itesité (λ(t Z t )) t [T ]. Ici le caractère aléatoire de l itesité est itroduit au moye d ue covariable Z = (Z t ) t [T ] (pour chaque t [ T ] Z t est à valeurs das R d ) qui peut être cosidérée das le cas de otre exemple comme l évolutio du dossier médical du patiet au cours du temps. Pour otre étude ous supposeros qu il existe deux foctios icoues λ et λ + : [ T ] R d R caractéristiques du processus d aggravatio et de rémissio de la maladie. Nos observatios D = {(X 1 Z 1 Y 1 )... (X Z Y )} sot i.i.d. et de même loi qu ue variable géérique (X Y Z). Ici le processus X = (X t ) t [T ] représete l évolutio du ombre de visites à l hôpital au cours du temps la covariable Z = (Z t ) t [T ] représete u certai ombre de facteurs dot déped l itesité du processus X et Y représete le label (Y = 1: aggravatio Y = +1: rémissio). Nous supposeros que coditioellemet au fait que Y = +1 (resp. Y = 1) X est u processus de Cox d itesité (λ + (t Z t )) t [T ] (resp. (λ (t Z t )) t [T ] ). 2 Stratégie de classificatio Notre objectif est ici de costruire ue règle de classificatio g = g (. D ) : X Z { 1 1} dot la probabilité d erreur L(g ) = P (Y g (X Z) D ) est la plus faible possible. Notre stratégie de type boostig cosiste à costruire la règle g de la maière suivate. Etat doée ue classe F de foctios f : X Z R et la 2

foctio covexe φ(u) = l 2 (1 + e u ) o pose Fialemet o pose 1 f arg mi f F φ( Y i f(x i Z i )). i=1 g = sige(f ) = 1{f } 1{f < }. La performace de cette stratégie déped évidemmet du choix de la foctio φ aisi que de la classe F choisie. Le choix particulier de la foctio φ das otre cas est motivé par u lie particulier qui existe etre la formulatio de otre problème est le pricipe du maximum de vraisemblace. Le choix de la classe F que ous proposos est motivé par le résultat prélimiaire suivat qui doe explicitemet la règle de Bayes. Theorem 2.1 La règle de Bayes g qui réalise le miimum L(g ) = if g L(g) où l if est pris sur l esemble des applicatios mesurables g : X Z { 1 1} est telle que ( g (X Z) = sige ξ l p ) p + avec ξ = (λ λ + ) (s Z s )ds + l λ + λ (s Z s )dx s. Ce résultat permet e particulier u choix judicieux de la classe F. E effet disposat d ue certaie base de foctios (ϕ j ) j 1 das laquelle les foctios λ λ + et l λ + λ admettet des développemets il est raisoable de vouloir approcher la règle de Bayes par ue foctio du type sige(f) où f appartiet à la classe { ( B B ) } B F B = f = [a j Φ j + b j Ψ j ] + c : max a j b j c B où j=1 Φ j (x z) = j=1 ϕ j (s z s )ds Ψ j (x z) = j=1 ϕ j (s z s )dx s. Ici le paramètre etier B joue le rôle d u paramètre de régularisatio. Plus B est grad plus la classe F B a de boes propriétés d approximatio et plus la procédure d estimatio est difficile. Pour choisir à partir des doées le paramètre B de maière à effectuer ce compromis biais-variace ous procédos de la maière suivate. Nous itroduisos 3

ue suite croissate (B k ) k 1 de paramètres etiers de régularisatio et défiissos pour chaque valeur de k 1 1 ˆf k arg mi f F Bk φ( Y i f(x i Z i )). i=1 Disposat maiteat d u terme de péalité pe : N + R + qui reste à choisir o pose fialemet ˆf = ˆfˆk où ˆk arg mi{a ( ˆf k ) + pe(k)}. k 1 Le résultat suivat permet d évaluer la performace de cette procédure. Ici o ote A(f) = Eφ( Y f(x Z)) et f l uique applicatio mesurable réalisat le miimum de A(f) lorsque f parcourt l esemble des applicatio mesurables X Z R. Theorem 2.2 Supposos que k 1 B α k δ > si [ B 4 pe(k) C k l 1 pour u certai α >. Alors pour tout + α l B ] k + δ où C > désige ue costate uiverselle o obtiet { avec probabilité 1 e δ. A( ˆf ) A(f ) 2 if k 1 if (A(f) A(f )) + pe(k) f F Bk Le résultat suivat prouve que sous réserve que les foctios λ et λ + soit suffisammet régulières o peut cotrôler le terme de biais qui apparaît das le résultat précédet. Theorem 2.3 Supposos sue (ϕ j ) j 1 soit ue base orthoormale de L 2 ([ T ] [ 1] d ) et que les foctios λ λ + et l λ + λ appartieet à la classe { W(β M) = a j ϕ j : } j 2β a 2 j M j 1 j 1 pour u certai β 1 et u certai M >. Alors il existe ue costate C > dépedat explicitemet des costates du problème et telle que pour tout B 1 etier if (A(f) A(f )) C f F B B. β 4 }

Ue coséquece de ces deux résultats est que ( ) β A( ˆf l ) A(f β+8 ) = O aver grade probabilité. Fialemet les méthodes récetes qui reliet le risque covéxifié A(f) à l erreur de classificatio L(sige(f)) permettet d établir que la règle g = sige( ˆf) vérifie aver grade probabilité. ( ) β l L(g ) L(g 2β+16 ) = O Pour coclure ous avos proposé ue stratégie de classificatio das le cotexte de doées foctioelles e ayat recours à ue procédure de miimisatio covexe. Pour otre aalyse ous avos utilisé à u certai ombre de résultats issus du calcul stochastique et de la théorie des martigales qui exploitet la ature foctioelle du problème. Pour ue lecture complémetaire de os travaux (Biau Cadre ad Paris 213) ous revoyos le lecteur aux travaux importats et coexes que sot Cox (1955 1972 1975); Aderse ad Gill (1982); O Sulliva (1993); Bouzas Valderrama Aguilera ad Ruiz- Fuetes (26); Illia Beso Crawford ad Staies (26); Zhu Sog ad Taylor (211); Cadre (212); Deis (212); Hase Reyaud-Bouret ad Rivoirard (214). Refereces P.K. Aderse ad R.D. Gill. Cox s regressio model for coutig processes: A large sample study. The Aals of Statistics 1:11 112 1982. G. Biau B. Cadre ad Q. Paris. Cox process learig. hal:82838 213. P.R. Bouzas M.J. Valderrama A.M. Aguilera ad N.R. Ruiz-Fuetes. Modellig the mea of a doubly stochastically poisso process by fuctioal data aalysis. Computatioal Statistics & Data Aalysis 5:2655 2667 26. B. Cadre. Supervised classificatio of diffusio paths. Preprit Ecole Normale Supérieure de Cacha Atee de Bretage Bruz 212. D.R. Cox. Some statistical methods coected with series of evets. Series b. Joural of the Royal Statistical Society 17:129 164 1955. D.R. Cox. Regressio modes ad life tables (with discussio). Joural of the Royal Statistical Society. Series B 34:187 22 1972. 5

D.R. Cox. Partial likelihood. Biometrika 62:269 276 1975. C. Deis. Classificatio i postural style based o stochastic process modelig. hal- 653316 212. N.R. Hase P. Reyaud-Bouret ad V. Rivoirard. Lasso ad probabilistic iequalities for multivariate poit processes. Beroulli page (to appear) 214. J. Illia E. Beso J. Crawford ad H. Staies. Pricipal compoet aalysis for spatial poit processes - assessig the appropriateess of the approach i a ecological cotext. Lecture Notes i Statistics 185:135 15 26. F. O Sulliva. Noparametric estimatio i the Cox model. The Aals of Statistics 21: 124 145 1993. B. Zhu P.X.-K. Sog ad J.M.G. Taylor. Stochastic fuctioal data aalysis: a diffusio model-based approach. Biometrics 67:1295 134 211. 6