STATISTIQUE AVANCÉE : MÉTHODES



Documents pareils
Limites des Suites numériques

1 Mesure et intégrale

Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Etude de la fonction ζ de Riemann

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Séries réelles ou complexes

STATISTIQUE : TESTS D HYPOTHESES

Comportement d'une suite

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

4 Approximation des fonctions

SÉRIES STATISTIQUES À DEUX VARIABLES

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

14 Chapitre 14. Théorème du point fixe

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

CHAPITRE 2 SÉRIES ENTIÈRES

Les Nombres Parfaits.

Processus et martingales en temps continu

Processus géométrique généralisé et applications en fiabilité

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

20. Algorithmique & Mathématiques

Séquence 5. La fonction logarithme népérien. Sommaire

Statistique Numérique et Analyse des Données

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Suites et séries de fonctions

Cours 5 : ESTIMATION PONCTUELLE

Statistique descriptive bidimensionnelle

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

EXERCICES : DÉNOMBREMENT

Cours de Statistiques inférentielles

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Principes et Méthodes Statistiques

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

55 - EXEMPLES D UTILISATION DU TABLEUR.

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 5 : Les intérêts (Les calculs financiers)

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Probabilités et statistique pour le CAPES

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Chapitre 3 : Transistor bipolaire à jonction

Dénombrement. Chapitre Enoncés des exercices

Exercices de mathématiques

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Formation d un ester à partir d un acide et d un alcool

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Baccalauréat S Asie 19 juin 2014 Corrigé

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Des résultats d irrationalité pour deux fonctions particulières

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Contribution à la théorie des entiers friables

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Chaînes de Markov. Arthur Charpentier

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Régulation analogique industrielle ESTF- G.Thermique

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Introduction : Mesures et espaces de probabilités

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Gérer les applications

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Université Pierre et Marie Curie. Biostatistique PACES - UE

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Les algorithmes de tri

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Module 3 : Inversion de matrices

Initiation à l analyse factorielle des correspondances

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Sommes de signaux : Décomposition de Fourier Spectre ondes stationnaires et résonance

Neolane Leads. Neolane v6.0

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

16.1 Convergence simple et convergence uniforme. une suite de fonctions de I dans R ou C.

DETERMINANTS. a b et a'

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Simulations interactives de convertisseurs en électronique de puissance

Guide des logiciels de l ordinateur HP Media Center

Sommaire Chapitre 1 - L interface de Windows 7 9

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

Séries numériques. Chap. 02 : cours complet.

Échantillonnage et estimation

MESURE DE L'INFORMATION

Solutions particulières d une équation différentielle...

Transcription:

STATISTIQUE AVANCÉE : MÉTHODES NON-PAAMÉTIQUES Ecole Cetrale de Paris Arak S. DALALYAN

Table des matières 1 Itroductio 5 2 Modèle de desité 7 2.1 Estimatio par istogrammes............................ 7 2.2 Estimateur à oyau.................................. 14 2.3 Exercices........................................ 21 3 Modèle de régressio 23 3.1 Défiitios....................................... 23 3.2 égressogrammes................................... 23 3.3 Moyee Locale.................................... 23 3.4 Estimateur à Noyau.................................. 23 3.5 Estimateur par Polyômes Locaux......................... 23 3.6 Lissage Liéaire et Validatio Croisée....................... 23 3.7 Estimatio de la Variace.............................. 23 3.8 Exemple........................................ 23 3.9 Exercices........................................ 23

1 Itroductio La particularité de la statistique o-paramétrique est que le paramètre icou qu o cerce à detecter, à estimer ou à classifier est pas supposé d apparteir à ue famille idicée par u petit ombre de paramètres réels. E gééral, das la téorie o-paramétrique o suppose que le ombre de paramètres qui décrivet la loi des observatios est ue foctio croissat du ombre d observatios, ou ecore que le ombre de paramètres est ifii. Pour doer u exemple cocret, cosidéros le modèle liéaire multiple. C est u modèle très populaire das le milieu des praticies et profodémet étudié par les téoricies. Il s agit d ue expériece qui résulte e l observatio des couples (X i, Y i, i = 1,..., où, e gééral, X i est u vecteur p-dimesioel et Y i est ue valeur réelle. O suppose que pour u vecteur β p et u réel α, la dépedace de Y i e X i est expliquée par la foctio affie à ue erreur aléatoire près, c est-à-dire α + β T x Y i = α + β T X i + ξ i, i = 1,..., (1.1 où ξ i est tel que E[ξ i X i ] =. Si l o suppose de plus que les erreurs ξ i sot idépedates les ues des autres et suivet la loi Gaussiee cetrée de variace σ 2, alors la loi des observatios (X i, Y i est etièremet caractérisée par les paramètres α, β et σ. C est pourquoi, das la littérature statistique, ce modèle est souvet cosidéré comme l exemple type d u modèle paramétrique. Cepedat, cette cosidératio doit être uacée. E réalité, il est coseillé d appliquer les métodes classiques de statistique au modèle (1.1 seulemet das le cas où la dimesio p de β est sigificativemet plus petite que, la taille de l écatillo. Si et p sot comparables, ou ecore si p >, les métodes classiques devieet iefficaces. Il faut alors cercer de ouvelles approces pour effectuer ue iférece statistique. C est l objectif poursuivi par la statistique o-paramétrique. Le but de ce cours est de préseter les pricipes les plus basiques de la statistique oparamétrique e isistat sur leurs avatages et leurs limites. Pour éviter des dévelopemets

6 Itroductio Capitre 1 très teciques, ous ous cocetros uiquemet sur l étude de deux modèles : l estimatio de desité et l estimatio de la foctio de régressio. Par ailleurs, ous préseteros uiquemet la facette de la statistique o-paramétrique cocerat le lissage et e parleros pas du tout d ue autre facette, istoriquemet plus aciee, qui est l iférece basée sur les rags. Le modèle de desité est u modèle simple qui permet de tester les différetes iovatios statistiques sas retrer das des calculs très fastidieux. Cepedat, certaies métodes comme, par exemple, l estimatio par projectio sot plus faciles à préseter das le modèle de régressio. C est la raiso pour laquelle o se focalise sur ces deux modèles. La démarce géérale pour effectuer ue iférece statistique das des problèmes oparamétriques peut être décomposée e trois étapes suivates. 1. Trouver ue famille { f : > } de foctios simples qui approcet bie la foctio icoue f, c est-à-dire dist( f, f lorsque. O dit alors que dist( f, f est l erreur d approximatio. 2. Au lieu d effectuer ue iférece statistique sur f, faire comme si le vrai paramètre était f et appliquer ue métode de statistique paramétrique classique : métode du maximum de vraisemblace, métode des momets ou métode de cotraste miimale pour l estimatio, test de Neyma-Pearso, test du rapport de vraisemblace ou test de Wald pour les tests d ypotèses. O obtiet aisi ue procédure statistique d ˆ (estimateur ou test. O appelle alors erreur statistique, ote par r( d ˆ, le risque de la procédure d ˆ calculé e utilisat f comme vraie valeur du paramètre f. 3. Coisir le paramètre de faço optimale. D ue part, das la plupart des cas, l erreur statistique r( d ˆ est ue foctio décroissate de. D autre part, le risque associé à la parocédure d ˆ das le problème d origie où f est le paramètre icou se calcule comme ue foctio F ( dist( f, f ; r( d ˆ qui est décroissate par rapport à cacu des deux argumets. Comme les foctios dist( f, f et r( d ˆ ot des ses de variatio opposés, la miimisatio du risque total F ( dist( f, f ; r( d ˆ e foctio de se fait par u compromis etre l erreur d approximatio dist( f, f et l erreur statistique r( d ˆ. Pour termier cette itroductio, ous allos reformuler la défiitio de statistique oparamétrique. La statistique o-paramétrique étudie des problèmes statistiques das lesquels la paramétrisatio est pas cosidérée comme figée, mais il y a ue liberté de coix etre plusieurs paramétrisatio et le but est de trouver celle qui coduit vers les procédures les plus performates.

2 Modèle de desité Tout au log de ce capitre, o suppose que les observatios X 1,..., X sot des variables idépedates de même loi (iid de desité f. Pour simplifier, o suppose que les X i sot à valeurs réelles et que f est la desité par rapport à la mesure de Lebesgue sur. Par coséquet, Prob(X i [a, b] = b a f (x dx, a, b. De plus, o supposera que f est deux fois cotiûmet différetiable. 2.1 Estimatio par istogrammes La faço la plus simple d estimer la desité f à partir des doées est l estimatio par istogramme. Afi d éviter des complicatios d ordre tecique, ous supposeros das ce paragrape que f est à support compact. De plus, sas perte de gééralité, ous pouvos supposer que le support de f est iclus das l itervalle [, 1]. 2.1.1 Défiitio et propriétés de base Pour commecer, o coisit ue partitio uiforme C 1,..., C m de l itervalle [, 1[ : [ j 1 C j = m, j [, j = 1,..., m. m Comme f est supposée être cotiue, pour m suffisamet grad, elle est bie approcée par des foctios e escalier, costates par morceaux sur les itervalles {C j }. Pour que os otatios reste e accord avec l approce géérale décrite das l itroductio, o pose = 1/m et o approce f par la foctio f (x = m p j 1l C j (x,

8 Modèle de desité Capitre 2 où p j = C j f (x dx. O ramèe aisi le problème d estimatio de f au problème d estimatio d u paramètre m-dimesioel p = (p 1,..., p m. Ceci peut se faire e utilisat, par exemple la métode gééralisée des momets. E effet, il est évidet que p j = f (x dx = E f [1l Cj (X 1 ], j = 1,..., m. C j Par coséquet, il est aturel d estimer le vecteur p par ˆp = ( ˆp 1,..., ˆp m, ˆp j = 1 1l Cj (X i. Observos au passage que caque ˆp j représete la proportio des observatios X i se trouvat das l itervalle C j. Si la taille de l écatillo est grade, il est légitime de s attedre à ce que cette proportio, dite empirique, coverge vers la proportio téorique correspodat à la probabilité qu ue observatio tirée au asard selo la desité f appartiet à l itervalle C j. Par substitutio, ous défiissos l estimateur de f par istogramme à m classes comme suit : ˆf (x = 1 m ˆp j 1l Cj (x. Das la termiologie statistique, o dit que caque C j est ue classe et la logueur des classes est ue feêtre. Exercice 2.1. Vérifier que l estimateur par istogramme ˆf est ue desité de probabilité. emarque 2.1. Das les applicatios, très souvet o utilise le terme istogramme pour la foctio ˆf (x, ce qui correspod à la proportio d observatios par itervalle C j. FIGUE 2.1 A gauce : ue desité de probabilité et so approximatio costate par morceaux sur les itervalle [j/1, (j + 1/1[ pour j = 1,..., 1. A droite : La même desité que celle du grape de gauce et ue estimatio par istogramme basée sur u écatillo de taille 4.

Sectio 2.1 Estimatio par istogrammes 9 2.1.2 Exemple : répartitio des galaxies A titre d exemple, cosidéros u jeu de doées astroomiques étudiées das le livre de Wasserma et dispoibles sur sa page WEB : ttp://www.stat.cmu.edu/~larry/all-of-opar/data.tml. Ce qu o veut motrer sur cet exemple, avat toute autre cose, est que le coix de la feêtre a u impact très importat sur la qualité d estimatio de la desité f par l istogramme ˆf. Le jeu de doées astroomiques précité cotiet 1253 valeurs umériques ; caque valeur correspod au décalage vers le rouge (edsift d u objet astroomique (galaxie, quasar,... Cette valeur peut être iterprétée comme la distace etre la terre et l objet e questio. L estimatio de la desité des edsifts est importat e pratique, car elle permet de detecter des clusters de galaxies. FIGUE 2.2 Les istogrammes des doées d astroomie correspodat aux ombres de classes m = 18, m = 16 et m = 85. Nous avos tracé das la figure ci-dessus les istogrammes des doées astroomiques basées sur 18, 16 et 85 classes. O costate que ces trois grapiques ot présetet des différeces très importates. Plus précisémet, le grape qui correspod à m = 18 est bie plus régulier que les deux autres. Das la termiologie statistique, o dit que l istogramme de gauce est trop lissé (e aglais oversmootig alors que l istogramme de droite est pas lissé sufisammet (udersmootig. U problème crucial du poit de vu des applicatios est doc de trouver la feêtre qui correspod au lissage optimal. L ue des métodes les plus utilisées fourissat ue feêtre proce de l optimale est la métode de validatio croisée. La défiitio précise de cette métode sera doée plus tard das ce capitre. Notos simplemet qu elle cosiste à défiir ue foctio Ĵ de (ou, de faço équivalete, de m qui est ue estimatio du risque de l estimateur ˆf. Naturellemet, la valeur de est coisie e miimisat ce risque estimé. Lorsqu o effectue ue validatio croisée sur les doées astroomiques, o obtiet la courbe ci-dessous pour la foctio m Ĵ(m et le miimum de cette foctio est atteit au poit ˆm = 163. FIGUE 2.3 La courbe de la foctio Ĵ(m. Le miimum est atteit au poit m = 163.

1 Modèle de desité Capitre 2 2.1.3 isque de l estimateur par istogramme Comme o a costaté sur l exemple des doées astroomique, la qualité de l estimateur par istogramme déped fortemet de la feêtre. Afi de quatifier cette dépedace, ous itroduisos le risque quadratique de ˆf au poit x [, 1] comme état la moyee de l erreur quadratique : MSE f (x, = E f [ ( ˆf (x f (x 2 ], où l abbréviatio MSE correspod à Mea Squared Errror. Afi d évaluer le MSE, o utilise d abord la décompositio biais-variace : MSE f (x, = ( E f [ ˆf (x] f (x 2 + Var f [ ˆf (x]. } {{ } } {{ } carré du biais variace Soit j l idice de la classe coteat x ; x C j. emarquos que ˆf (x = ˆp j = 1 1l Cj (X i = Z j, Z j B(, p j, (2.1 car Z j est la somme de variables idépedates de loi de Beroulli de paramètre P f (1l Cj (X 1 = 1 = P f (X 1 C j = f (x dx = p j. C j Il e découle immédiatemet que pour tout x C j, E f [ ˆf (x] = p j, Var f [ ˆf (x] = p j(1 p j 2 2 = p j(1 p j 2. (2.2 Ue première coséquece de ces formules est que le risque MSE est supérieur au carré du biais ( 1 p j f (x 2. Par coséquet, si la feêtre est coisie idépedammet de la taille de l écatillo, l estimateur par istogramme e covergera pas vers la vraie desité lorsque excepté la situatio peu fréquete où f est costate sur l itervalle C j. Afi d élargir la classe des desités pour lesquelles ˆf est coverget, ous devos coisir comme ue foctio de ; = doit tedre vers lorsque ted vers +. A partir de maiteat, o suppose que cette coditio est satisfaite. appelos que le but de ce paragrape est d évaluer le risque de l estimateur ˆf. Afi d avoir ue évaluatio globale valable pour tout poit x [, 1], o cosidère le risque quadratique itégré : MISE f ( = [,1] [ 1 ( MSE f (x, dx = E f ˆf (x f (x ] 2 dx (pour obteir la derière égalité ous avos utilisé le téorème de Foubii. D ue part, e vertu de la propriété j p j = 1 1 Var f [ ˆf (x] dx = m Var f [ ˆf (x] dx = C j f (x dx = 1, o a m p j (1 p j = 1 1 m p 2 j.

Sectio 2.1 Estimatio par istogrammes 11 D autre part, 1 { E f [ ˆf (x] f (x } 2 dx = m = = m 1 Nous avos doc démotré le résultat suivat : C j ( pj f (x 2 dx p 2 j 2 p 1 j f (x dx + f 2 (x dx C j f 2 (x dx 1 m p 2 j. Lemme 2.1. Si X 1,..., X sot idépedates de même loi de desité f supportée par [, 1] et ˆf est l estimateur par istogramme avec m = 1/ classes, alors [ 1 ( MISE f ( = E f ˆf (x f (x ] 2 dx = 1 f 2 (x dx + 1 + 1 m p 2 j. Le résultat du Lemme 2.1 est o-asymptotique : il est valable pour tout et pour tout. Ce qui ous itéresse maiteat c est le comportemet du risque MISE lorsque = décroit vers zéro quad ted vers +. O vérifie aisémet que ( f (x 2 dx 1 p 2 j = f (x 1 2 f (u du dx C j C j C j = 1 ( { 2 f (x f (u} du 2 dx. C j C j Comme f est supposée deux fois cotiûmet différetiable, o a f (u f (x = (u x f (a j + O( 2 pour tout u, x C j, où a j désige l extrémité gauce de l itervalle C j. Par coséquet, f (x Cj 2 dx 1 p 2j = f (a j 2 ( 2 2 (x u du dx + O( 4. C j E utilisat le cagemet de variable (x, u = (a j + y, a j + z, o obtiet Nous avos doc démotré que E coséquece, C j C j ( 2 1 ( 1 2 (x u du dx = 5 (y z dz dy = 5 C j 12. f (x Cj 2 dx 1 p 2j = 3 12 f (a j 2 + O( 4 = 2 f (x 2 dx + O( 4. 12 C j m ( MISE f ( = f (x 2 dx 1 p 2 j C j = 2 1 12 + 1 1 m p 2 j f (x 2 dx + O( 3 + 1 + O(1/,

12 Modèle de desité Capitre 2 où ous avos utilisé la relatio mo( 4 = O( 3. Ces calculs implique doc le résultat suivat : Téorème 2.1. Supposos que la desité de l écatillo X 1,..., X est deux fois cotiûmet différetiable et s aule e deors de l itervalle [, 1]. Si la feêtre de l estimateur par istogramme ˆf est telle que lorsque, alors lorsque. MISE f ( = 2 12 1 f (x 2 dx + 1 } {{ } terme pricipal du risque ( 1 + O( 3 + O } {{ } terme résiduel Supposos u istat qu o caaît la quatité 1 f (x 2 dx. Das ce cas, o peut calculer le terme pricipal du risque MISE f (. Cela ous permet de trouver la valeur idéale de la feêtre qui miimise le terme pricipal du risque. E effet, o voit aisémet que le miimum de la foctio 2 1 f (x 2 dx + 1 12 est atteit au poit ( 1 1/3. opt = f (x dx 2 6 Cette feêtre optimale est e gééral iaccessible au statisticie, car la desité f (aisi que sa dérivée est icoue. Cepedat, elle a le mérite de ous idiquer que la feêtre optimale doit être de l ordre de 1/3 lorsque est grad. De plus, e ijectat cette valeur de das l expressio de MISE obteue das le téorème précédet, o obtiet MISE f ( opt = (3/4 2/3( 1 1/3 f (x dx 2 2/3 + O( 1. Ce résultat ous idique les limites de l estimateur par istogramme : pour les desités deux fois différetiables, la meilleure vitesse de covergece qu o puisse espérer atteidre avec u estimateur par istogramme est de 2/3. Cette ue vitesse oorable, mais elle est ettemet mois boe que la vitesse de covergece 1/ qui apparaît typiquemet das des problèmes paramétriques. Ceci est pas très surpreat, car l estimatio de desité est u problème o-paramétrique et, par coséquet, est plus difficile à résoudre qu u problème paramétrique. E revace, o verra par la suite que, sous les mêmes ypotèses que celles cosidérées das ce paragrape, o peut costruire u autre estimateur de la desité f qui coverge à ue meilleure vitesse 4/5. L estimateur qui atteit cette vitesse s appelle estimateur à oyau et o peut démotrer que cette vitesse e peut pas être améliorée sas imposer de ouvelles coditio sur f. 2.1.4 Coix de la feêtre par validatio croisée Comme o l a déjà fait remarquer, la feêtre idéale opt défiie das le paragrape précédet est iutilisable e pratique car elle fait iterveir la desité icoue f à travers

Sectio 2.1 Estimatio par istogrammes 13 l itégrale du carré de sa dérivée. Afi de désiger ue métode de coix de idépedat de f, ous commeços par estimer le risque 1 de l estimateur f e utilisat uiquemet les observatios X 1,..., X. Soit Ĵ(, X 1,..., X u estimateur de MISE f ( f 2 2. Pour que la métode de sélectio de coduise vers des résultats raisoable, o demade de l estimateur Ĵ(, X 1,..., X être sas biais 2, c est-à-dire E f [Ĵ(, X 1,..., X ] = MISE f ( f 2 2. Ue fois que ous avos à otre dispositio cet estimateur Ĵ, o détermie la valeur de e miimisat Ĵ(, X 1,..., X par rapport à ], [. La valeur de où ce miimum est atteit est sélectioée comme feêtre pour l estimateur par istogramme. Voyos maiteat commet cette métode peut être effectivemet mise e oeuvre. Pour toute desité f et pour tout istogramme ˆf, soit J f ( = MISE f ( f 2 2 = 1 + 1 m p 2 j, (2.3 e vertu du Lemme 2.1. appelos que p j représete la proportio téorique des observatios qui se situet das la classe C j, pour tout j = 1,..., m. Il découle de cette rélatio que pour désiger u estimateur sas biais de J f (, il suffit de désiger u estimateur sas biais de p 2 j, pour tout j = 1,..., m. Ue approce aïve cosisterait à estimer p2 j par ˆp 2 j, où ˆp j = 1 1l Cj (X i est la proportio empirique des observatios se situat das C j. Comme ˆp j suit la loi biômiale de paramètres (, p j, o a Var f [ ˆp j ] = p j (1 p j / et, par coséquet, E f [ ˆp 2 j ] = Var f [ ˆp j ] + (E f [ ˆp j ] 2 = p 2 j ( 1 1 + p j. (2.4 Cette égalité ous motre d ue part que l idée aïve d estimer p 2 j par ˆp 2 j e coduit pas vers u estimateur sas biais. Mais, d autre part, ce petit calcul que ous veos d effectuer prépare le terrai pour détermier l estimateur utilisé par la métode de validatio croisée. E effet, comme ˆp j est u estimateur sas biais de p j, il résulte de (2.4 que ˆp 2 j ˆp j/ est u estimateur sas biais de p 2 j (1 1/. Par coséquet, pour tout j = 1,..., m, p 2 j = ˆp2 j ˆp j/ 1 1/ = 1 ˆp2 j 1 1 ˆp j est u estimateur sas biais de p 2 j. E ijectat cet estimateur das le membre droit de l égalité (2.3 et e utilisat le fait que m ˆp j = 1, ous obteos le résultat suivat. 1. E pratique, il est préférable d estimer o pas le risque MISE f ( de f, mais la différece etre le risque de f et celui de l estimateur trivial f triv. 2. Idéalemet, il faudrait égalemet pouvoir cotrôler la variace de Ĵ(, X 1,..., X, mais cet aspect e sera pas évoqué das le cadre de ce cours.

14 Modèle de desité Capitre 2 Propositio 2.1. Si f est ue desité de carré itégrable et si ˆf est l istogramme à m = 1/ classes basé sur l écatillo X 1,..., X ayat f pour desité de probabilité, alors Ĵ(, X 1,..., X = est u estimateur sas biais de MISE f ( f 2 2. 2 ( 1 + 1 m ( 1 ˆp 2 j Nous pouvos à préset éocer la métode de validatio croisée. Nous allos le faire das le cadre gééral, sas supposer que les observatios sot icluses das [, 1]. Das ce cas, o peut poser a = mi i X i et b = max i X i et pour tout m N coisir la feêtre = (b a/m. O défiit alors les classes C j = [a + (j 1; a + j[ pour j = 1,..., m 1 et C m = [b ; b]. Algoritm de validatio croisée pour coisir la feêtre d u istogramme. Etrée : X 1,..., X ; Sortie : ĥcv ; Défiir a mi i X i ; b max i X i ; Iitialiser m 1 ; m CV 1 ; J CV 1 ; Tat que (m < effectuer : Fi Tat que Poser J Si (J < J CV alors m CV m ; J CV J ; FiSi m m + 1 ; ĥ CV (b a/m CV ; 2m ( + 1m 1 1 m ( 1 1l Cj (X i 2 ; Ue fois la feêtre ĥcv détermiée, ous pouvos calculer et tracer la courbe de l istogramme ayat comme feêtre ĥcv. 2.2 Estimateur à oyau L estimatio de la desité par istogrammes est ue métode aturelle très répedue car elle est facilemet implémetable. Cepedat, l estimateur de desité fourit par u istogramme e peut pas être adapté à la situatio assez courat où ous disposos d ue

Sectio 2.2 Estimateur à oyau 15 iformatio à priori sur la régularité de la desité à estimer. Plus précisémet, si l o sait par avace que la desité de l écatillo observé est, par exemple, deux fois cotiûmet différetiable, o aurait aturellemet evie d estimer cette desité par ue foctio qui, elle aussi, est deux fois cotiûmet différetiable. Or, les istogrammes sot des foctios qui e sot même pas cotiues. Il est aturel alors de vouloir lisser les istogrammes. O s atted alors à ce que le résultat du lissage améliore o seulemet l aspect visuel de l estimateur, mais produise de plus u estimateur plus proce de la vraie desité que l estimateur par istogramme. 2.2.1 Défiitio et propriétés élémetaires Soit x et >. Si l o suppose que x est le cetre d ue classe de l istogramme et que est la logueur des classes, l estimateur de f (x par istogramme peut s écrire comme f H (x = 1 1l( X i x /2 = 1 ( Xi x 1l 1. 2 Ue faço de gééraliser les istogramme cosiste à utiliser la formule ci-dessus pour tout x et pas seulemet pour les cetres des classes. Cette gééralisatio est certe utile, car elle coduit vers u estimateur qui est costat par morceaux comme les istogrammes, mais a l avatage d avoir des plateaux de logueurs variables. Cepedat, cela e ous coduit pas vers u estimateur cotiu. O remarque aisémet que la discotiuité de l estimateur défii ci-dessus est ue coséquece de la discotiuité de la foctio idicatrice. Par coséquet, e remplaçat 1l( z 1 2 par ue foctio K quelcoque, o obtiet l estimateur f K(x = 1 ( Xi x K qui est cotiu et même l-fois cotiûmet différetiable du momet où la foctio K l est. O arrive aisi à la défiitio suivate. Défiitio 2.1. Soit K : ue foctio quelcoque et soit u réel positif. O appelle estimateur à oyau la foctio f K(x = 1 K ( Xi x O dit alors que K est le oyau de cet estimateur et est la feêtre.. (2.5 Selo cette défiitio, toute foctio K peut servir comme oyau d estimatio d ue desité f. Les oyaux les plus courammet utilisés e pratique sot le oyau rectagulaire : K(u = 1 2 1l [ 1,1](u, le oyau triagulaire : K(u = (1 u 1l [ 1,1] (u,

16 Modèle de desité Capitre 2 le oyau d Epaecikov : K(u = 3 4 (1 u2 1l [ 1,1] (u, le oyau gaussie : K(u = 1 2π e u2 /2. Les courbes de ces oyaux sot présetées ci-dessous : Lemme 2.2. Si K est positive et K(u du = 1, alors f K ( est ue desité de probabilité. De plus, est cotiue si K est cotiue. f K Démostratio. L estimateur à oyau est positive et cotiue car la somme des foctios positives et cotiues est elle-même ue foctio positive et cotiue. Il faut doc vérifier que l itégrale de f K ( vaut u. E effet, f K (x dx = = 1 = 1 1 ( Xi x K ( Xi x K dx dx K(u du = 1. (u = (X i x/ O voit doc que, tout comme l estimateur par istogramme, l estimateur à oyau est ue desité de probabilité. Il a de plus l avatage d être cotiu à coditio que K le soit, ce

Sectio 2.2 Estimateur à oyau 17 qui était pas le cas pour les istogrammes. Par coséquet, lorsqu o estime ue desité cotiue, il est aturel de s attedre que l estimateur à oyau soit meilleur que l estimateur par istogramme. Le but de la suite de ce capitre est de doer des résultats quatitatives caractérisat le gai obteu par l utilisatio de f K par rapport à f H. 2.2.2 Etude du biais et de la variace Lorsqu o défiit u estimateur à oyau, o a o-seulemet le coix de la feêtre > mais aussi celui du oyau K. Il y a u certai ombre de coditios qui sot cosidérées comme usuelles pour les oyaux et qui permettet d aalyser le risque de l estimateur à oyau qui e résulte. HYPOTHÈSE K : O suppose que K vérifie les 4 coditios suivates : 1. K(u du = 1, 2. K est ue foctio paire ou, plus gééralemet, u K(u du =, 3. u2 K(u du <, 4. K(u2 du <. Propositio 2.2. Si les trois premières coditios de l ypotèse K sot remplies et f est ue desité borée dot la dérivée secode est borée, alors Biais ( K f (x C 1 2, où C 1 = 1 2 sup z f (z u2 K(u du. Si, de plus, la coditio 4 de l ypotèse K est satisfaite, alors avec C 2 = sup z f (z K(u2 du. Var ( f K (x C 2 Démostratio. Commeços par calculer le biais : E f [ f K(x] = 1 ( Xi x ] E f [K = 1 ( y x K f (y dy = 1 ( y x K f (y dy (y = x + u, dy = du = K(u f (x + u du. E effectuat u dévelopemet limité à l ordre 2, il viet E f [ f K(x] = K(u f (x + u du = K(u [ f (x + (u f (x + (u2 f (ξ u ] du (ξ u [x, x + u] 2 = f (x K(u du + f (x uk(u du + 2 u 2 K(u f (ξ u du. } {{ } } {{ } 2 =1 =

18 Modèle de desité Capitre 2 Il e résulte que ( Biais f K (x = E f [ f K(x] f (x 2 u 2 K(u f (ξ u du 2 2 u 2 K(u f (ξ u du 2 2 max x f (x u 2 K(u du 2 } {{ } d où la première assertio de la propositio. Pour prouver la secode assertio, o utilise le faite que les variables aléatoires Y i = K ( (X i x/, i = 1,..., sot i.i.d. et que la variace de la somme de variables idépedates coïcide avec la somme des variaces : Var f [ f K(x] = 1 [ ( ( 2 Var Xi x ] f K = 1 ( Xi x ] ( 2 Var f [K = 1 [ ( ( 2 Var X1 x ] f K 1 [ ( 2 E X1 x 2 ] f K = 1 ( y x 2 2 K f (y dy (y = x + u, dy = du = 1 K(u 2 f (x + u du 1 f (z K(u 2 du. z } {{ } C 2 C est exactemet ce qu il fallait démotrer. C 1 2.2.3 Quelques remarques Les évaluatios du biais et de la variace que l o viet de démotrer ot u certai ombre de coséqueces résumées ci-dessous. Vitesse de covergece : O déduit de la Propositio 2.2 que le risque MSE de ˆf K (x admet la majoratio suivate : MSE ( ˆf K (x C 2 1 4 + C 2. O vérifie aisémet que la valeur de la feêtre qui miimise le majorat du MSE est opt = (C 2 /4C 2 1 1/5 1/5. E ijectat cette valeur das l expressio du MSE o obtiet : MSE ( ˆf K opt (x Cost 4/5.

Sectio 2.2 Estimateur à oyau 19 Cela motre que la vitesse de covergece de l estimateur à oyau est de 4/5. Elle est doc meilleure que la vitesse 2/3 obteue pour les istogrammes. Par coséquet, les estimateurs à oyau sot préférables aux istogrammes lorsqu il s agit d estimer ue desité deux fois cotiûmet différetiable. Optimalité de la vitesse : O peut démotrer qu il est impossible d estimer f à ue vitesse meilleure que 4/5 sas imposer des ypotèses supplémetaires (de régularité ou de structure sur la desité icoue f. Sur-lissage et sous-lissage : Lorsque la feêtre est très petit, le biais de l estimateur à oyau est très petit face à sa variace et c est cette derière qui détermie la vitesse de covergece du risque quadratique. Das ce type de situatio, l estimateur est très volatile et o parle de sous-lissage (uder-smootig, e aglais. E revace, lorsque gradit, la variace deviet petite et c est le biais qui deviet domiat. L estimateur est alors très peu variable et est de mois à mois ifluecé par les doées. O parle alors d u effet de sur-lissage (over-smootig e aglais. E pratique, il est primordial de trouver la boe dose de lissage qui permet d éviter le sous-lissage et le sur-lissage. Décriptage de la vitesse de covergece : O peut se demader d où vieet le 4 et lle 5 das la vitesse de covergece 4/5 présetée ci-dessus. E fait, si l o estime ue desité o pas uivariée, mais d-variée 3, et l o suppose que f est k fois cotiûmet différetiable, alors la vitesse de covergece optimale est de 2k /(2k + d. Das le cas où d = 1 et k = 2, o retrouve la vitesse 4/5. Comparaiso avec le cadre paramétrique : Das la téorie statistique paramétrique classique, la vitesse de covergece usuelle pour le risque quadratique est de 1, où est le ombre d observatios. O voit que la vitesse 4/5 obteue pour l estimateur à oyau est meilleure que 2/3 obteu pour l estimateur par istogramme mais reste quad-même iférieure à la vitesse paramétrique. Ceci est tout à fait aturelle et traduit la complexité de l estimatio o-paramétrique comparée à l estimatio paramétrique. O peut remarquer égalemet que lorsque la régularité de la desité ted vers l ifiie (β, la vitesse de covergece se rapproce de plus e plus de la vitesse paramétrique. Exercice 2.2. Soit β >, L > et soit 4 k = β. O suppose que la desité f appartiet à la classe de Hölder H (β, L défiie par : f H (β, L f C k et f (k (y f (k (x L x y β k, x, y. 1. Motrer que si le oyau K vérifie les coditios K et uj K(u =, j = 1,..., k, et u β K(u du < alors il existe des costates C 1 et C 2 telles que MSE f [ ˆf K (x] C 1 2β + C 2. 2. E déduire la valeur opt de la feêtre qui miimise le majorat du risque. Quelle est la vitesse de covergece du risque associé à cette feêtre optimale? 3. Motrer que si le oyau K vérifie les coditios ci-dessus et si β > 2, alors l estimateur ˆf K est pas ue desité de probabilité. 3. c est-à-dire f : d 4. β désige le placer de β, c est-à-dire le plus grad ombre etier strictemet plus petit que β

2 Modèle de desité Capitre 2 2.2.4 Validatio croisée Pour désiger ue métode automatique pour le coix de la feêtre, o utilise souvet la métode de la validatio croisée. Il s agit de proposer das u premier temps (pour u fixé u estimateur Ĵ( sas biais de la quatité J( = MISE( ˆf K f 2 2 et, das u deuxième temps, de miimiser cet estimateur Ĵ( sur u esemble fii de cadidats pour. Propositio 2.3. La statistique Ĵ( = ˆf K 2 2 est u estimateur sas biais de J(. 2 ( 1,j =i ( Xi X j K Démostratio. D ue part, comme la desité joite du couple (X i, X j est f (x f (y, o a E f [Ĵ(] = E f [ ˆf K ( ] 2 Xi X j 2 2] ( 1 E f [K,j =i = E f [ ˆf K ( 2 x y 2 2] ( 1 K f (x f (y dxdy,j =i 2 = E f [ ˆf ( K 2 x y 2 2] ( 1 ( 1 K f (x f (y dxdy 2 = E f [ ˆf K 2 2] 2 ( x y f (x f (y dxdy. D autre part, 2 K J( = MISE( ˆf K f 2 2 = E f [ ˆf K f 2 2] f 2 2 = E f [ ˆf K 2 2 2 ˆf ] K, f + f 2 2 f 2 2 [ = E f K ˆf 2 ] [ ] 2 2E f ˆf K(x f (x dx [ = E f K ˆf 2 ] [ 2 2 E f ˆf K (x ] f (x dx. [ Or, o a vu déjà (voir la démostratio de la Prop. 2.2 que E f ˆf K (x ] = 1 Par coséquet, [ J( = E f K ˆf 2 ] [ 2 2 E f ˆf K (x ] f (x dx [ = E f K ˆf 2 ] 1 ( y x 2 2 K f (y dy f (x dx [ = E f K ˆf 2 ] 2 ( y x 2 K f (y f (x dy dx = E f [Ĵ(], ce qui équivaut à dire que Ĵ( est u estimateur sas biais de J(. K( y x f (y dy. E utilisat cet estimateur Ĵ(, o défiit l algoritm de validatio croisée (cross validatio, e aglais de la même maière que pour les estimateurs par istogramme.

Sectio 2.3 Exercices 21 2.3 Exercices

3 Modèle de régressio 3.1 Défiitios 3.2 égressogrammes 3.3 Moyee Locale 3.4 Estimateur à Noyau 3.5 Estimateur par Polyômes Locaux 3.5.1 Défiitio et Propriétés de bases 3.5.2 Etude du Biais et de la Variace 3.5.3 Vitesse de covergece 3.6 Lissage Liéaire et Validatio Croisée 3.7 Estimatio de la Variace 3.8 Exemple 3.9 Exercices