Estimation spline de quantiles conditionnels pour variables explicatives fonctionnelles Hervé Cardot 1, Christophe Crambes 2 & Pascal Sarda 2,3 1 INRA Toulouse, Biométrie et Intelligence Artificielle, Chemin de Borde-Rouge, BP 27, 31326 Castanet-Tolosan Cedex, France. 2 Université Paul Sabatier, Laboratoire de Statistique et Probabilités, UMR C5583, 118 Route de Narbonne, 31062 Toulouse Cedex, France. 3 Université Toulouse-le-Mirail, GRIMM, EA 2254, 5 allées Antonio Machado, 31058 Toulouse Cedex 9, France. Résumé : Ce travail a pour objet l estimation de quantiles conditionnels, la variable explicative X étant à valeurs dans l espace L 2 ([0, 1]) des fonctions de carré intégrable définies sur [0, 1] et la variable à expliquer Y étant à valeurs dans R. Ayant introduit un modèle linéaire, nous proposons un estimateur spline du coefficient fonctionnel du modèle qui minimise un critère pénalisé de type moindres valeurs absolues, puis nous étudions le comportement asymptotique de cet estimateur. Il s avère en particulier que le comportement de la plus petite valeur propre de l opérateur de covariance de X pénalisé joue un rôle important dans la convergence. Summary : This work deals with conditional quantiles estimation with the explanatory variable taking values in the space L 2 ([0, 1]) of square integrable functions defined on [0, 1] and a scalar response. Under the hypothesis of a linear model, we propose a spline estimator of the functional coefficient of the model that minimizes a penalized L 1 -type criterion, then we study the asymptotic behaviour of this estimator. The penalisation is of primary importance to get existence and convergence of the estimator. Mots-clés : variables fonctionnelles, quantiles conditionnels, fonctions B-splines, problème inverse mal conditionné, critère de type L 1 pénalisé. Key words : functional variables, conditional quantiles, B-spline functions, ill-conditioned inverse problem, penalized L 1 -type criterion. 1 Introduction Dans de nombreux exemples, les données collectées par les appareils de mesures peuvent être assimilées à des courbes, les mesures étant relevées sur des échelles temporelles ou spatiales très fines. Il est courant dans la littérature de qualifier ces données de données fonctionnelles (cf. Frank et Friedman, 1993, Ramsay et Silverman, 2002). De 1
nombreux modèles pour variables fonctionnelles ont été étudiés et mis en œuvre (cf. Ramsay et Silverman, 1997), comme par exemple le modèle linéaire fonctionnel dans le cadre de l estimation d une moyenne conditionnelle. Cependant, lorsqu on souhaite expliquer les variations d une variable en utilisant l information issue d une variable explicative, il est parfois préférable d estimer des quantiles conditionnels (cf. Poiraud-Casanova et Thomas-Agnan, 1998). Nous étudions ce problème d estimation dans le cas où la variable explicative est fonctionnelle. 2 Construction de l estimateur Soit (X i, Y i ) i=1,...,n un échantillon de couples indépendants de variables aléatoires définies sur un même espace de probabilités, de même loi que (X, Y ). La variable explicative X est à valeurs dans un espace fonctionnel H (dans la suite, H = L 2 ([0, 1]), l espace des fonctions de carré intégrable définies sur l intervalle [0, 1]), et Y est la variable aléatoire réponse à valeurs dans R. Soit α ]0, 1[ fixé ; nous supposons que pour tout x H, le quantile conditionnel d ordre α de Y sachant [X = x], noté g α (x), vérifie la relation P (Y g α (x) X = x) = α. (1) Remarquons que g α (x) peut être défini de manière équivalente comme solution du problème de minimisation min E(l α(y a) X = x), (2) a R où l α (u) = u + (2α 1)u (voir Koenker et Basset, 1978). Nous supposons enfin que g α est un opérateur linéaire continu de H dans R ; le théorème de Riesz nous assure l existence d une unique fonction Ψ α appartenant à H telle que g α (X) = Ψ α, X = 1 0 Ψ α (t)x(t) dt, (3) où la notation.,. désigne le produit scalaire usuel de L 2 ([0, 1]). La norme de L 2 ([0, 1]) associée à ce produit scalaire est notée.. Ce modèle est en quelque sorte une généralisation de la régression sur quantiles introduite par Koenker et Basset (1978). Notre but est à présent de proposer un estimateur non paramétrique de la fonction Ψ α. Dans le cas où la variable explicative X est réelle, de nombreux estimateurs ont été proposés (voir notamment Bhattacharya et Gangopadhyay, 1990, Fan, Hu et Truong, 1994, Lejeune et Sarda, 1988 ou encore He et Shi, 1994). Nous définissons ci-dessous un estimateur spline direct qui généralise celui de He et Shi (1994) au cas où la variable explicative X est de type fonctionnel. 2
Soit q N et k = k n N. On se donne k 1 nœuds (équirépartis dans la suite) définissant une subdivision de [0, 1] en k sous-intervalles. Une fonction spline (voir de Boor, 1978) est une fonction polynômiale de degré q par morceaux sur chaque sous-intervalle de [0, 1], et (q 1) fois dérivable sur [0, 1]. L espace de ces fonctions splines est un espace vectoriel de dimension k + q. Une base de cet espace vectoriel est l ensemble des fonctions B-splines, que l on notera B k,q = t (B 1,..., B k+q ). Nous estimons alors Ψ α par une combinaison linéaire des B l, 1 l k + q, ce qui nous ramène à trouver un vecteur θ = t ( θ 1,..., θ k+q ) R k+q tel que Ψ α = t B k,q θ, avec θ solution du problème de minimisation { 1 min θ R k+q n n ( l α Yi t B k,q θ, X i ) + ρ ( t B k,q θ) (m) }, 2 (4) i=1 où ( t B k,q θ) (m) est la dérivée d ordre m de t B k,q θ, ρ est un paramètre de pénalisation dont le but est de contrôler le degré de régularité de l estimateur cherché. Ce critère de minimisation est similaire à celui introduit par Cardot et. al. (2003) pour l estimateur spline de la moyenne conditionnelle, la fonction quadratique étant alors remplacée par la fonction de perte l α. Remarques (i) L opérateur g α permet de définir le modèle de régression sur quantiles Y i = g α (X i ) + ɛ i, i = 1,..., n, (5) où ɛ 1,..., ɛ n sont n variables aléatoires réelles, indépendantes et identiquement distribuées, de même loi que ɛ telle que P (ɛ 0 X = x) = α. (ii) Le terme de pénalisation dans (4) est primordial. En effet, si on note Γ X (resp. XY ) l opérateur de covariance de X (resp. l opérateur de covariance croisé de X et Y ), on vérifie alors facilement que, pour toute fonction u de L 2 ([0, 1]), XY u = g α (Γ X u) + E ( X E(X), u ɛ). (6) Comme Γ X est un opérateur nucléaire (voir Dauxois et. al., 1982), en particulier la suite de ses valeurs propres décroît vers 0, donc il n existe pas d inverse borné pour cet opérateur. Ainsi, la relation (6) aboutit sur un problème inverse mal conditionné. 3 Résultat asymptotique Nous nous intéressons maintenant à la convergence de cet estimateur. Pour cela, introduisons les notations suivantes. La version empirique de Γ X, notée Γ n, est définie en 3
remplaçant dans la définition de Γ X l espérance mathématique par la moyenne empirique. Nous utilisons également les mêmes notations que Cardot et. al. (2003) en désignant par Ĉ la matrice de taille (k + q) (k + q) de terme général Γ n (B j ), B l. De plus, si G k est la matrice de taille (k + q) (k + q) de terme général g jl = B (m) j, B (m) l, on pose Ĉ ρ = Ĉ + ρg k. La suite des valeurs propres de Ĉρ décroît vers 0, mais il est possible de contrôler la norme de son inverse, en introduisant l ensemble Ω n défini par } Ω n = {ω/λ min (Ĉρ) > cη n, (7) où λ min (Ĉρ) est la plus petite valeur propre de Ĉρ et (η n ) n N est une suite telle que P (Ω n ) tend vers 1 quand n tend vers l infini. En utilisant un résultat de Cardot et. al. (2003), on montre que, sous les hypothèses (H.1) et (H.3) ci-dessous, λ min (Ĉρ) cη n + o P ( (k 2 n n 1 δ ) 1/2), (8) avec δ ]0, 1[. Pour prouver le résultat de convergence de l estimateur Ψ α, on suppose que les hypothèses suivantes sont vérifiées. (H.1) X i C 0 < +, ps. (H.2) La fonction Ψ α a une dérivée d ordre p notée Ψ (p ) α telle que Ψ (p ) α (t) Ψ (p ) α (s) C 1 t s ν, s, t [0, 1], où C 1 > 0 et ν [0, 1]. Dans la suite, on pose p = p + ν et on suppose que q p m. (H.3) Les valeurs propres de Γ X sont strictement positives. (H.4) Pour tout x H, la distribution conditionnelle de ɛ i sachant X i admet une densité continue et strictement positive en zéro. Théorème 1 Sous les hypothèses (H.1) (H.4) et si on suppose de plus qu il existe β, γ, δ ]0, 1[ tels que k n n β, ρ n γ et η n n β (1 δ)/2 (δ étant donné par la relation (8)), alors (i) Ψ α existe sauf sur un ensemble dont la probabilité tend vers 0 lorsque n tend vers l infini, (ii) E ( ( Ψ α Ψ α 2 2 X ) 1 1,..., X n = OP kn 2p + 1 ) + ρ2 + ρkn 2(m p), nη n k n η n où. 2 est la norme induite par l opérateur Γ X, c est-à-dire que u 2 2 = Γ Xu, u pour tout u L 2 ([0, 1]). La preuve de ce résultat est donnée par Cardot et. al. (2004). 4
4 Quelques commentaires (i) La preuve du théorème 1 s inspire de la démonstration du résultat de He et Shi (1994) dans le cadre de variables explicatives réelles. De plus, des résultats de Cardot et. al. (2003) sont également utiles, notamment pour traiter le terme de pénalisation qui n apparaît pas dans le cas réel. Une autre différence provient du fait que la fonction de perte l α n est pas dérivable, contrairement à la fonction de perte quadratique dans le cas du modèle linéaire fonctionnel étudié par Cardot et. al. (2003). La preuve repose ici sur les propriétés de convexité de la fonction l α. (ii) Si on suppose que ɛ i et X i sont non corrélées, on obtient alors le résultat suivant (à la place du (ii) du théorème 1) : ( Ψ 1 α Ψ α 2 2 = O P kn 2p + 1 ) + ρ2 + ρkn 2(m p). nη n k n η n (iii) En choisissant des valeurs particulières de β et γ, on peut optimiser la vitesse de convergence obtenue au théorème 1. En particulier, nous remarquons l importance de la vitesse de convergence vers 0 de la plus petite valeur propre de Ĉρ (contrôlée par η n ). Cardot et. al. (2003) ont montré que, sous les hypothèses du théorème 1, la relation (8) est vérifiée avec η n = ρ/k n, ce qui donne E ( ( Ψ ) 1 α Ψ α 2 2 X 1,..., X n = OP kn 2p + k ) n nρ + ρ + ρk2(m p) n. Nous obtenons alors un corollaire immédiat en prenant k n n 1/(4p+1) et ρ n 2p/(4p+1) ; le résultat devient alors E ( Ψ α Ψ α 2 2 X 1,..., X n ) = OP ( n 2p/(4p+1) ). Il est possible d imaginer qu avec des hypothèses plus fortes sur les X i, nous pourrions obtenir η n plus grand que ρ/k n, ce qui améliorerait la vitesse de convergence de l estimateur (voir Cardot et Sarda, 2004). (iv) Cet estimateur de quantiles conditionnels peut se révéler très utile en pratique, spécialement pour la prévision par la médiane conditionnelle ou pour la recherche d un seuil. Il a notamment été mis en œuvre dans le cadre de l étude de données de pollution dans la région toulousaine. Par exemple, en considérant un polluant comme l ozone, il est possible de prévoir, par la médiane conditionnelle, le maximum d ozone du jour connaissant la courbe d ozone de la veille. 5
Bibliographie [1] Bhattacharya, P.K. and Gangopadhyay, A.K. (1990). Kernel and Nearest-Neighbor Estimation of a Conditional Quantile. Ann. Statist., 18, 1400-1415. [2] Cardot, H., Crambes, C. and Sarda, P. (2004). Spline Estimators of Conditional Quantiles for Functional Covariates, Preprint. [3] Cardot, H., Ferraty, F. and Sarda, P. (2003). Spline Estimators for the Functional Linear Model. Statistica Sinica, 13, 571-591. [4] Cardot, H. and Sarda, P. (2004). Estimation in Generalized Linear Models for Functional Data via Penalized Likelihood. J. of Mult. Analysis, in Press. [5] Dauxois, J., Pousse, A. and Romain, Y. (1982). Asymptotic Theory for the Principal Component Analysis of a Random Vector Function : some Applications to Statistical Inference. J. of Mult. Analysis, 12, 136-154. [6] de Boor, C. (1978). A Practical Guide to Splines. Springer, New-York. [7] Fan, J., Hu, T.C. and Truong, Y.K. (1994). Robust Nonparametric Function Estimation. Scand. J. Statist, 21, 433-446. [8] Frank, I.E. and Friedman, J.H. (1993). A Statistical View of some Chemometrics Regression Tools (with discussion). Technometrics, 35, 109-148. [9] He, X. and Shi, P. (1994). Convergence Rate of B-Spline Estimators of Nonparametric Conditional Quantile Functions. Nonparametric Statistics, 3, 299-308. [10] Koenker and Bassett (1978). Regression Quantiles. Econometrica, 46, 33-50. [11] Lejeune, M. and Sarda, P. (1988). Quantile Regression : A Nonparametric Approch. Comp. Stat. and Data Analysis, 6, 229-239. [12] Poiraud-Casanova, S. et Thomas-Agnan, C. (1998). Quantiles Conditionnels. Journal de la Société Française de Statistique, 139, 31-44. [13] Ramsay, J.O. and Silverman, B.W. (1997). Functional Data Analysis. Springer-Verlag. [14] Ramsay, J.O. and Silverman, B.W. (2002). Applied Functional Data Analysis. Springer- Verlag. 6