Estimation par ondelettes dans les modèles partiellement linéaires



Documents pareils
Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Limites des Suites numériques

STATISTIQUE : TESTS D HYPOTHESES

4 Approximation des fonctions

STATISTIQUE AVANCÉE : MÉTHODES

SÉRIES STATISTIQUES À DEUX VARIABLES

1 Mesure et intégrale

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

CHAPITRE 2 SÉRIES ENTIÈRES

Séquence 5. La fonction logarithme népérien. Sommaire

14 Chapitre 14. Théorème du point fixe

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Processus géométrique généralisé et applications en fiabilité

Les Nombres Parfaits.

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

20. Algorithmique & Mathématiques

Cours de Statistiques inférentielles

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Etude de la fonction ζ de Riemann

Cours 5 : ESTIMATION PONCTUELLE

Statistique Numérique et Analyse des Données

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

EXERCICES : DÉNOMBREMENT

Statistique descriptive bidimensionnelle

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Séries réelles ou complexes

Processus et martingales en temps continu

Chapitre 3 : Transistor bipolaire à jonction

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Chap. 5 : Les intérêts (Les calculs financiers)

Principes et Méthodes Statistiques

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Comportement d'une suite

Des résultats d irrationalité pour deux fonctions particulières

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

55 - EXEMPLES D UTILISATION DU TABLEUR.

Initiation à l analyse factorielle des correspondances

Module 3 : Inversion de matrices

c. Calcul pour une évolution d une proportion entre deux années non consécutives

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Dénombrement. Chapitre Enoncés des exercices

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Suites et séries de fonctions

Gérer les applications

2 ième partie : MATHÉMATIQUES FINANCIÈRES

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

Comment les Canadiens classent-ils leur système de soins de santé?

UNIVERSITÉ DE SFAX École Supérieure de Commerce

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Régulation analogique industrielle ESTF- G.Thermique

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Les algorithmes de tri

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

RECHERCHE DE CLIENTS simplifiée

Contribution à la théorie des entiers friables

Mécanismes de protection contre les vers

Neolane Leads. Neolane v6.0

Une action! Un message!

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Sommaire Chapitre 1 - L interface de Windows 7 9

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Université Pierre et Marie Curie. Biostatistique PACES - UE

Microscope de mesure sans contact pour inspection et mesures de précision

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Exercices de mathématiques

Divorce et séparation

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Dominique Tapsoba, Vincent Fortin, François Anctil et Mario Haché

Probabilités et statistique pour le CAPES

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

MESURE DE L'INFORMATION

Baccalauréat S Asie 19 juin 2014 Corrigé

La maladie rénale chronique

Le chef d entreprise développe les services funéraires de l entreprise, en

Risque de longévité et détermination du besoin en capital : travaux en cours

Transcription:

Uiversité Joseph Fourier- Greoble I École Doctorale «Mathématiques, Scieces et Techologie de l Iformatio, Iformatique» THÈSE pourobteirlegradede DOCTEUR DE L UNIVERSITÉ JOSEPH FOURIER Spécialité: Mathématiques Appliquées préparée au Laboratoire Jea Kutzma présetée et souteue publiquemet par Irèe Gaaz le 7 décembre 27 Estimatio par odelettes das les modèles partiellemet liéaires Compositio du Jury: M. Aestis ANTONIADIS Uiversité Greoble I Directeur de thèse M. Jalal FADILI ENSICAEN Examiateur Mme Irèe GIJBELS Kathioleke Uiversiteit Leuve Rapportrice M. Aatoli IOUDITSKI Uiversité Greoble I Présidet Auvudesrapportsde: Mme Irèe GIJBELS Kathioleke Uiversiteit Leuve Mme Domiique PICARD Uiversité Paris VII

Remerciemets Mes remerciemets s adresset e premier lieu à Aestis Atoiadis, pour sa boe humeurcostateetses «salutlabelle»souriats.savisiogééraledelarechercheetsa cofiaceemescapacitésotcotribuéàmefaireaimercestroisasderecherche.je le remercie chaleureusemet pour so cotact costructif si gééreux sur le pla humai comme scietifique. Je remercie égalemet Irèe Gijbels et Domiique Picard d avoir rapporter cette thèse et d avoir lu si attetivemet le mauscrit. Leurs remarques costructives ot permis d améliorer ce travail et doet de ouvelles perspectives de prologatio. Je suis aussi recoaissate evers Aatoli Iouditski qui m a fait l hoeur de présider mojury.merciefiàjalalfadilipouravoiracceptéd êtremembredemojuryetpour avoirsuivimotravailaulogdecestroisas. Je e peux passer outre das ces remerciemets tous les thésards du labo ou assimilés qu ilm aétédoéderecotreraucoursdecestroisas.jedéplorelemaqued exhaustivitédesomscités:quelesoubliésmepardoet... Jepeseepremierlieuà Carie, pour les allers-retours etre les bureaux et les discussios qui s éteriset. Cette thèseaaussiétérythméeparlaprofusiodesjeuxdemotsdeyaetlessoiréesjeuxdes Oliviers: Olivier Grumphh qui a m a fait découvrir le Carom et Olivier l espagol qui e est pas u et mériterait plutôt le sportif. Je oublie pas Olivier le parisie quimotaitparfoisàgreoblefaireupeud odelettesetdeskideradoée.kop Khu kha Pramote, pour ces réflexios politiques et ces itermèdes musicaux das le bureau.merciàtousceuxquiotégaillédesiombreusespausesetsoiréesaucoursde cettethèse:audelatoulousaieetvicetavecsesboutades,claireetcyrillelespros de l aïkido, Basile avec sa guitare... Merci aux thésards et stagiaires dot les discussios otaimélespauses:toutelasalle3quiasibieaccueillilastateusedurez-de-chaussée, Julie et ses grads sourires, Robi, Lauret T., Adrie, Mélaie, Emilie, Damie... Merci efiàtousceuxdulaboquim otoffertcebeauvélo! Je remercie aussi ma famille d avoir été présete durat ces aées, jamais bie loi (mêmeàl autreboutdumode)ettoujoursprêteàfairedubaby-sittig;o).etmerci àtousles ouvriers delafamilleetdelabellefamille,ombreux,d avoircotribuéàce quejefasseplusdestatistiquequedeplâtreoudeplomberieduratcesdeuxderières aées. MerciàEtieed êtrelàtoutsimplemet.etd avoirétéupetitgarçosisouriatetsi calme. Merci à Christia, pour tout.

Table des matières Itroductio 1 1 Le modèle partiellemet liéaire 7 1.1 Umodèlesemi-paramétrique... 7 1.1.1 Pourquoicemodèle... 8 1.1.2 Exemplesd applicatio... 9 1.2 Iférecestatistique... 1 1.2.1 Estimatioparlesmoidrescarréspéalisés... 1 1.2.2 LarégressiopartielledeSpeckma(1988)... 14 2 Rappels sur les odelettes et leur usage e régressio 19 2.1 Aalysemultirésolutioetodelettes... 2 2.1.1 Approximatiosdefoctios... 21 2.1.2 Odelettespériodiques... 22 2.1.3 EspacesdeBesov.... 23 2.2 Trasformatioeodelettes... 25 2.2.1 Ecriturematricielle... 25 2.2.2 Algorithmepyramidal... 26 2.3 Régressioavecuplad observatioéquidistat... 28 2.3.1 Estimatiosliéaires... 28 2.3.2 Estimatiosoliéaires:seuillagedescoefficiets... 29 2.4 Régressioavecuplad observatioo-équidistat... 33 2.4.1 Aperçudedifféretesapproches... 33 2.4.2 Hypothèsessurleplad observatio... 36 2.4.3 Approchethéorique... 39 2.4.4 Approchepratique... 41 3 Du seuillage à l estimatio robuste 45 3.1 Idetifiabilitéettrasforméeeodelettes.... 46 i

TABLE DES MATIÈRES 3.2 Critèredesmoidrescarréspealisés... 48 3.2.1 Coditiosdupremierordre... 48 3.2.2 SeuillagedouxetestimateurdeHuber... 49 3.2.3 Versd autresm-estimateurs.... 52 4 Propriétés asymptotiques des estimateurs 57 4.1 Hypothèses... 57 4.2 Propriétésasymptotiques... 61 4.2.1 Casduseuillagedouxetdel estimateurdehuber... 61 4.2.2 ExempleissudeFadilietBullmore(25)... 63 4.3 Estimatiodelavariace.... 65 4.4 Preuves... 67 4.4.1 Cosistacedeˆβ avecleseuillagedoux... 68 4.4.2 Cosistacedeˆβ aveclapéalitéquadratique.... 82 4.4.3 Estimatiodelapartiefoctioelle... 85 5 Quelquesalgorithmes 87 5.1 Estimatiocojoitedesparamètres... 87 5.1.1 Backfittig... 88 5.1.2 Deuxalgorithmespourleseuillagedoux... 89 5.2 Approchesemi-quadratique... 91 5.2.1 ARTUR,oulespoidsmodifiés... 93 5.2.2 LEGEND,oulesrésidusmodifiés... 94 6 Simulatios et u exemple sur doées réelles 97 6.1 Comparaisodesalgorithmespourleseuillagedoux.... 98 6.1.1 Exemple1:Foctiosiusoïdale... 99 6.1.2 Exemple2:Foctioliéaireparmorceaux... 14 6.1.3 Exemple3:Dimesio5... 16 6.2 Comparaisodesdifféretsseuillages... 19 6.2.1 Validatiocroiséepourlapéalitéquadratique... 19 6.2.2 Exemple1... 11 6.2.3 Exemple2... 112 6.2.4 Exemple3... 115 6.3 Applicatio à l étude de doées réelles issues d ue IRM foctioelle. 118 6.3.1 Descriptiodesdoées... 118 6.3.2 Modélisatioparumodèlepartiellemetliéaire... 119 7 Cas de plas d observatios aléatoires 125 ii

TABLE DES MATIÈRES 7.1 Priciped estimatio... 125 7.2 Simulatiosavecuplad observatiosaléatoire... 128 7.2.1 Modèleoparamétrique... 128 7.2.2 Modèlepartiellemetliéaire... 14 Coclusio et perspectives 155 Bibliographie 157 iii

Notatios R k, N k, Z k M,p (R) Esembledesk-upletsderéels,d etiersetd etiersrelatifs. Esemblesdesmatricesdetaille pàcoefficietsréels. P, E, Var Probabilité, Espérace, Variace. v.a., v.a. i.i.d. variable aléatoire, v.a. idépedates et idetiquemet distribuées. [x] Partie etière du ombre x. 1 E Foctioidicatricedel esemblee. e,e R k Normel 2 d uvecteure.sie = (e 1...e k ) T,alors e = ( k i=1 e2 i ) 1/2. A,A M,p (R) NormedeFrobeiusd uematricea.siaestdetermegéérala i,j, ( 1/2. alors A = i,j ai,j) 2 A T,A 1 P MatricetrasposéeetmatriceiversedelamatriceA. Covergece e probabilité u = (v ),u R k,v R i =1,...,k, c i >, u i <c i v. u = (v ),u R k,v R i =1,...,k,lim u i /v =. U = P (v ),U v.a.àvaleursdas R k,v R U = P (v ),U v.a.àvaleurs das R k,v R i =1,...,k, δ >, t i,δ >, P(v 1 U i >t i,δ ) δ. i =1,...,k,v 1 U P. L p (I) = {f:i R, f p < } W s,s N = {f:i R,I R,s-foiscotiûmetdérivable, f (s) p < }. Λ α (M), α 1 = {f:i R,I R (x,y) I 2, f(x) f(y) M x y α }. Λ α (M), α >1 = {f : I R,I R[α]-foiscotiûmetdérivable,f ([α]) Λ α [α] (M)}. SNR RapportSigalsurBruit:SiY R estuvecteurobservéavecu bruitd écart-type σ,snr = Y σ.

Itroductio Le problème de la régressio statistique cosiste à aalyser l ifluece de variables dites explicativesx,x R p,suruevariabley.lorsqu aucuaprioriquatàlaformede la relatio explicative est possible, la modélisatio la plus adaptée est le modèle o paramétrique. Celui-ci coste à supposer que les variables sot régies par l équatio y i =g(x i ) + ε i, i =1,...,, leterme ε i représetatubruit.néamois,cemodèlesouffred umaqued iterprétabilité et les techiques d estimatio o paramétriques ot des performaces moidres que das u cadre paramétrique. Ce derier poit, cou e gééral sous l appélatio fléaudeladimesio,aétémiseévideceparibragimovethas Miskii(198)àl aidede la otio de vitesse asymptotique miimax. Leurs travaux ot icité à développer, das les derières déceies, des modèles dits semi-paramétriques. L idée d u modèle semi-paramétrique est d émettre des hypothèses quat à la forme delafoctiogquel ochercheàestimer.al aidedeceshypothèses,uereformulatio du modèle est réalisée permettat de réduire la dimesio des variables explicatives iterveat das l estimatio foctioelle. Parmi la classe de modèles résultat de ce procédé se trouvet, de maière o exhaustive, le modèle additif, le modèle à directio révélatrice ou ecore le modèle partiellemet liéaire. Le but du préset travail est d apporter ue cotributio à l étude de ce derier modèle, e s itéressat à l applicatio de techiques o liéaires d estimatio par odelettes das celui-ci. Le modèle partiellemet liéaire est préseté das le premier chapitre. Ce modèle s écrit sous la forme y i =X T i β +f(t i) + ε i, i =1,...,, avecx i covariablesde R p et,daslecadredecettethèse,t i R.Ilestaisicostituéde deux parties distictes: ue partie liéaire et ue partie foctioelle. La dimesio des 1

INTRODUCTION variables explicatives de la partie foctioelle état ici l uité, le problème de fléau de la dimesio cité plus haut est amoidri comparativemet à la versio o paramétrique. CemodèleacouuessorimportatsuiteauxtravauxdeEgleetal.(1986),quimettaiet otammet e exergue la capacité de modélisatio offerte. Nous ous itéressos plus particulièremet aux procédures d estimatio par moidres carrés péalisés développées das les aées 8. La majorité des approches effectuées das ce modèle cosiste à itroduire des techiques d iterpolatios par des splies ou des estimateurs à oyaux afi d estimer la partie foctioelle du modèle. Les deux articles fodametaux sur ce modèle sot ceux de Rice(1986) et Speckma (1988). Rice a motré que lorsque les variables explicatives respectivemet de la partie liéaire du modèle et de la partie foctioelle, X et T, étaiet corrélées, alors ue estimatiooptimaleetduvecteurderégressio βetdelafoctiof étaitpasréalisable. (La otio de corrélatio etre les variables utilisée ici est défiie précisémet das le chapitre.) L auteur aboutit à la coclusio que pour atteidre la vitesse optimale das l estimatio du vecteur de régressio, u sous-lissage de l estimatio foctioelle est écessaire. Les travaux de Rice ot egedré de ombreuses réflexios sur ce modèle. Parmi celles-ci, ous pouvos citer Speckma, qui retrouve des coclusios similaires. Ce derier propose ue autre approche, dite de régressio partielle, permettat de réduire les biais das l estimatio, et résolvat le problème du choix du paramètre de lissage. Les deux auteurs s accordet aussi pour déocer les mauvais résultats que peut egedrer ue procédure de validatio croisée das ce cotexte. Das u modèle o paramétrique, la projectio sur ue base d odelettes associée à des techiques de seuillage a permis le développemet d estimateurs adaptatifs quat à la régularité de la foctio estimée. Ces procédés d estimatio présetet l avatage d offrir des résultats quasi-miimax sur ue large gamme de foctios mais aussi de passer outre ue évetuelle validatio croisée pour détermier le paramètre de lissage. C est pourquoi ce travail est motivé par l itroductio des schémas d estimatio par odelettes das le modèle partiellemet liéaire. E coséquece, le deuxième chapitre propose u bref rappel sur la otio d aalyse multirésolutio et d odelette. Nous redoos aussi la défiitio d espace de Besov. Das u secod temps, ce chapitre présete les procédures d estimatio das u modèle de régressio o paramétrique lorsque les observatios sot réalisées e des poits équidistats de l itervalle uité. Le seuillage des coefficiets d odelette permet de costruire des estimateurs quasi-miimax sur des boules de Besov, tout e état adaptatifs relativemet à la régularité de la foctio estimée. La gééralisatio de ces schémas 2

INTRODUCTION d estimatio au cas d observatios distribuées selo u pla aléatoire fait actuellemet ecore l objet de ombreux travaux. Après avoir succitemet résumé quelques articles relatifs à ce domaie, ous ous attarderos pricipalemet sur la procédure d estimatio proposée par Kerkyacharia et Picard(24), état doé que celle-ci semble la plus adaptée à l applicatio das u modèle partiellemet liéaire. Le Chapitre 3 cocere l itroductio des odelettes et du seuillage des coefficiets das u modèle partiellemet liéaire. Nous ous restreigos au cadre d u pla d observatio équidistat de la partie foctioelle. E s appuyat sur les travaux de Atoiadis et Fa(21), ous élaboros ue procédure des moidres carrés péalisés das laquelle la péalisatio, portat sur les coefficiets d odelettes, permet d aboutir au seuillage souhaité. Nous établissos l équivalece etre la miimisatio du critère des moidres carrés péalisés et des estimatios successives du vecteur des paramètres de régressio β par u M-estimateur et de la partie foctioelle par odelettes avec seuillage des coefficiets. Grâce à ces résultats, ous pouvos iterpréter les estimateurs comme suit: 1.Levecteurdeparamètres βestévaluéparueprocéduredem-estimatiodasle modèle de régressio liéaire de y par X après projectio sur ue base d odelette. Il est doc estimé sas teir compte de la présece d ue partie foctioelle das le modèle. Cela reviet à itégrer das le bruit les coefficiets d odelettes de la partie foctioelle. 2. La foctio f est l estimatio par odelettes avec le seuillage désiré das la régressiooparamétriquedey Xˆβ,l estimateur ˆβ ayatétécalculéàl étape précédete. L origialité de otre travail réside aussi das le parallèle motré etre les seuillages réalisés à l étape 2 et les M-estimateurs associés das l étape 1 ci-dessus. Par exemple le seuillage doux est associé au M-estimateur de Huber, le seuillage SCAD à celui de Hampel ou ecore le seuillage fort à la moyee troquée. Aisi, les M-estimateurs obteus sot des estimateurs usuels itroduits das les aées 8 par la théorie de l estimatio robuste. De plus, le fait d avoir ue équivalece avec ue procédure d estimatio e deux étapes ouvre des perspectives de développemet itéressates. Outre la costructio d algorithmes estimat successivemet et o cojoitemet les paramètres(cf. Chapitre 5), elle offre la possibilité d approfodir le comportemet asymptotique des estimateurs. Ceci fait l objet du Chapitre 4. Das le quatrième chapitre, ous ous itéressos plus précisémet à deux péalisatios daslecritèredesmoidrescarréspéalisés:lapéalisatiol 1,meatauseuillagedoux 3

INTRODUCTION etaum-estimateurdehuber,etuepéalisatioparueormedesobolev,deforme quadratique, meat à u lissage usuel et à u estimateur des moidres carrés podérés. Pour chacue de ces procédures, ous étudios les propriétés asymptotiques des estimateurs. Das les deux cas cosidérés, l estimateur de la partie foctioelle a u comportemetquasi-miimaxeprobabilitépourlaormel 2 surdesespacesdebesov.cepedat, e l absece d hypothèse quat à la structure des variables, la vitesse de covergece de l estimateur de la partie liéaire est d ordre o paramétrique, ce qui est pas satisfaisat. Lorsque ous supposos que les covariables ot ue structure similaire à celle cosidérée par Rice(1986) das ce cotexte, ous obteos que les estimateurs du vecteur de régressio β coverget à ue vitesse quasi-miimax. Ces résultats sot doc cohérets avec ceux de Rice(1986). Le pricipal itérêt est que la procédure meat au seuillage doux offre u schéma adaptatif, permettat d éviter ue procédure de validatio croisée. Ce choix de péalisatio est doc particulièremet itéressat. Par ailleurs, ces estimateurs écessitet ue estimatio de la variace du bruit. Ue procédure basée sur ue décompositio QR de la matrice de régressio et sur le caractère creux des coefficiets d odelettes sur u espace de Besov est proposée das ce chapitre. LesChapitres5et6traitetdelamiseeoeuvredesestimateursdaslescasduseuillage doux,duseuillageduretduseuillageassociéàlapéalitéparueormedesobolev. Das le Chapitre 5, ous présetos les divers algorithmes qui serot appliqués das le Chapitre 6. Parmi ces algorithmes, ous pouvos distiguer ceux qui estimet cojoitemetlevecteurderégressio βetlafoctiofdeceuxreposatsurl estimatioedeux étapes établie au Chapitre 3 et évoquée plus haut. Le pricipal algorithme estimat simultaémet les paramètres est le Backfittig, déjà proposé par Fadili et Bullmore(25) das le même cotexte. Quat aux méthodes de calcul succesif des estimateurs, ous proposos deux algorithmes semi-quadratiques ARTUR et LEGEND issus de la théorie de la recoaissace robuste. Ces deux algorithmes peuvet par exemple être recotrés das Dahyot et Kokaram(24). Lors de la comparaiso sur des simulatios, il apparaît que le Backfittig est plus performat e terme de temps de calcul que les autres procédures. L algorithme LEGEND obtiet des résultats similaires avec u temps de calcul légèremet supérieur mais du même ordre de gradeur. Cocerat la qualité des résultats obteus, l estimatio du vecteur des paramètres de régressio liéaire est satisfaisate pour les seuillages fort et doux. Pour ces seuillages, l estimatio de la partie foctioelle doe de bos résultats pour le critère de l erreur quadratique moyee. Cocerat le seuillage issu d ue péalisatio par ue orme de Sobolev, ue procédure de validatio croisée est écessaire afi de 4

INTRODUCTION détermier le paramètre de lissage. L icovéiet est le sous-lissage probable egedré par u tel schéma, souligé par Rice(1986) et Speckma(1988). Les estimatios obteues sot de mois boe qualité et ous observos, etre autres, u sous-lissage de la partie foctioelle, ce qui cofirme à otre avis la préférece pour des schémas adaptatifs das u modèle partiellemet liéaire. NousavosparailleursétudiéefideChapitre6uexemplesurdesdoéesréelles, gracieusemet fouries par Dr. Fadili. Ces doées cosistet e trois sigaux obteus par Imagerie à Résoace Magétique foctioelle(irmf). L u des sigaux est issu d ue expériece avec des stimuli tadis que les deux autres sot des eregistremets de référece, où aucu stimulus a été réalisé. Das la modélisatio par u modèle partiellemet liéaire, la partie liéaire itègre des facteurs de uisace. La partie foctioelle résume doc l activité euroale sas le biais causé par ces uisaces. Cette modélisatio s avère peu covaicate e raiso pricipalemet du bruit importat, comparativemet aux modalités de la partie liéaire du modèle obteu. Le Chapitre 7 gééralise l étude au cas où la partie foctioelle est observée sur u pla aléatoire. Nous appliquos la procédure d estimatio de Kerkyacharia et Picard(24) exposée au Chapitre 2. Das ce chapitre, ous mettos e applicatio le schéma d estimatio proposé sur des simulatios. Pour cela, ous utilisos l algorithme élaboré par Vidakovic(22) permettat de calculer les valeurs des odelettes e des poits doés. Il apparaît que l estimateur choisi, bie qu ayat de boes propriétés asymptotiques théoriques, aboutit pas à des résultats satisfaisats e pratique. Le problème semble être lié au caractère aléatoire du pla d observatios qui à distace fiie etraîe ue ihomogééité das la répartitio des observatios etre les supports des odelettes. L alterative proposée pour la mise e oeuvre est celle de Cheseau et Willer(25). Les résultats obteus lors de l applicatio sur des simulatios sot satisfaisats pour ue large gamme de desités du pla des observatios. 5

CHAPITRE 1 LE MODÈLE PARTIELLEMENT LINÉAIRE Sommaire 1.1 Umodèlesemi-paramétrique.... 7 1.1.1 Pourquoicemodèle... 8 1.1.2 Exemplesd applicatio.... 9 1.2 Iférecestatistique... 1 1.2.1 Estimatioparlesmoidrescarréspéalisés... 1 1.2.2 LarégressiopartielledeSpeckma(1988).... 14 Ce premier chapitre présete les modèles partiellemet liéaires, qui fot l objet du préset travail. Outre leur formalisme, l itérêt de leur mise e oeuvre est souligé. Das u secod temps, ous évoquos quelques résultats théoriques quat à l iférece statistique das ces modèles. 1.1 U modèle semi-paramétrique Soiet (X 1...,X )et (T 1...,T )deuxéchatillosdecovariablesàvaleursrespectivemetdas R p et R q.etatdoéel observatiosur Rde (Y 1,...,Y ),ouscosidéros le modèle de régressio: y i =X T i β +f(t i) +U i, i =1,...,, (1.1) où (U 1,...,U )estuéchatilloaléatoireissudelaloiormalecetréedevariace σ 2. Sous forme matricielle, ous oteros: Y =Xβ +F(T) +U. 7

1.1. UN MODÈLE SEMI-PARAMÉTRIQUE LevecteurdebruitUestsupposéidépedatdesplasd observatioxett.ue dépedace etre les variables X et T peut être evisagée. Nous désigeros par la suite β lavaleurduvraiparamètre. 1.1.1 Pourquoi ce modèle Le modèle(1.1) fait partie de la classe des modèles semi-paramétriques. Le but de cette gammedemodèleestd offrirucompromisetrelemodèleliéaireetlemodèleoparamétrique. E effet, le modèle paramétrique et le modèle o paramétrique présetet tous deux des icovéiets. Le problème majeur du modèle paramétrique doit être cosidéré d u poit de vue de modélisatio; comme le souliget Egle et al.(1986), lemodèlederegressioesttropréducteuretepermetpasdepredreecomptetoutes les itéractios. Aisi, ils citet l exemple de l ifluece de la température sur la cosommatio d électricité: la relatio etre les variables e peut s exprimer sous ue forme liéaire, même après trasformatio des doées. Les outils o paramétriques, e e posat pas d hypothèses quat à la forme du lie explicatif etre les variables, devieet idispesables pour traiter u tel cas. Cepedat, la liberté de modélisatio qu offre le domaie o paramétrique a u coût: schématiquemet, pour estimer ue foctio f k-fois dérivable, la vitesse optimale est del ordrede k 2k+p,leparamètrepdésigatladimesiodesvariablesexplicatives. Tadisquedaslemodèlederégressioparamétrique,ellessotdel ordrede 1/2 quel que soit le ombre de variables explicatives. Il apparaît par coséquet utile de predre e compte la liéarité das les modèles, afi d augmeter la vitesse d estimatio. Ce costat, souvet recotré sous l expressio de fléau de la dimesio, a icité le développemet depuis les aées 8 d ue ouvelle gamme de modèles que sot les modèles semi-paramétriques. L idée de ces modèles est de combier les modèles o paramétriques et les modèles liéaires. Le modèle partiellemet liéaire que ous allos aborder ici est u des ombreux modèles semi-paramétriques existats. Ce modèle a été itroduit à otre coaissace par Gree et Yadell(1985) mais a particulièremet cou so essor après l article de Egle et al.(1986). La capacité de modélisatio de phéomèes divers aisi que les résultats satisfaisats d estimatio statistique das ce modèle ot cotribué à so développemet. L itérêt pricipal du modèle partiellemet liéaire est qu il permet de distiguer les relatios liéaires et les relatios o liéaires au sei d u même modèle. L idée est de 8

CHAPITRE 1. LE MODÈLE PARTIELLEMENT LINÉAIRE predreecomptel aprioriquel oaquatàlaliéaritédecertaiesrelatiosafide réduire le coût de l estimatio qu aurait u modèle o paramétrique, tout e gardat la complexité de modélisatio sous-jacete au modèle o paramétrique pour expliquer les autres relatios. 1.1.2 Exemplesd applicatio U premier exemple d applicatio de ce modèle au milieu idustriel est l étude de la cosommatio électrique e foctio de la température réalisée par Egle et al.(1986). Les auteurs veulet étudier l ifluece de la température sur la cosommatio électrique des méages. Ils expliquet cette cosommatio par u modèle partiellemet liéaire das lequel la partie liéaire itègre les effets du prix de l électricité, du reveu des méages, etc... Cette modélisatio permet doc d étudier la relatio etre la température et la cosommatio d électricité sas que cette étude soit biaisée par la présece des covariables de la partie liéaire. Ebiologie,opeutciterotammetlestravauxdeGreeetYadell(1985)quiaalyset l ifluece de la dose d u produit doé sur l hyperplasie de la voie biliaire des rats.lapréseced hyperplasieàlamortduratestexpliquéedemaièreliéaireparle logarithmedeladosereçue,lepoidsduratetsapositiodaslacage,etdemaièreo liéaireparl âgedelamort.ilestitéressatderemarquerquelarelatiosurlaquellese focalise l aalyse est ici liéaire, cotrairemet à l étude de Egle et al.(1986). Plus récemmet F. Meyer(23) puis Fadili et Bullmore(25) s itéresset à la modélisatio d u sigal issu d Imagerie à Résoace Magétique foctioelle par u modèle partiellemet liéaire. L idée est d itégrer das la partie liéaire du modèle des paramètres de uisace, afi de coserver das la partie foctioelle u sigal épuré. De tels sigaux serot étudiés au Chapitre 6. L évetail des domaies où ce modèle peut être appliqué est vaste. Hardle et al.(2) illustret so aptitude à modéliser des phéomèes das des domaies aussi variés que l idustrie,lafiace,labiologie...nousrevoyosàleurouvragepouruaperçuplus large des applicatios possibles. Sicemodèleprésetesouvetuitérêt,oestameésàseposerlaquestiodesavoir das quel cas il est adapté et quelles sot les variables correspodat respectivemet aux parties liéaire et foctioelle du modèle. A otre coaissace, seuls Che et Che 9

1.2. INFÉRENCE STATISTIQUE (1991) et Roger-Vial(23) ot abordé ce poit. Nous revoyos à leurs travaux pour plus de détails. 1.2 Iférecestatistique L objetduproblèmeestd estimerlevecteurdesparamètresderegressio β aisiquela foctiofauvudel observatiodestriplets (Y i,x i,t i ) i=1,...,. Parmi les techiques développées das l estimatio de la partie foctioelle das u modèle partiellemet liéaire, outre les splies et l estimatio à oyau, o peut citer aussi l estimatio liéaire locale(hamilto et Truog(1997)), l estimatio par la méthode des polyômes locaux(roger-vial(23)), l estimatio par séries orthogoales(doald et Newey(1994))... A titre de remarque, l applicatio des techiques de bootstrap a aussi étémiseeoeuvredascemodèleparhardleetal.(1999).maisous aborderospas ces travaux ici das u souci de cocisio. Ne pouvat préseter de maière exhaustive l esemble des approches cosidérées, ous ous itéressos plus particulièremet à l estimatio par miimisatio d u critère des moidres carrés péalisés aisi que l approche dite de régressio partielle de Speckma(1988), état doé que ous avos opté pour ue procédure similaire das ce travail. 1.2.1 Estimatio par les moidres carrés péalisés La première approche, proposée otammet par Gree et Yadell(1985), Egle et al. (1986) ou ecore Che et Shiau(1991), est l estimatio reposat sur u critère des MoidresCarrésPéalisés.Lesestimatiosde β etfsotobteuesemiimisatucritère delaforme: (Y i Xi T β f(t i)) 2 + λpe(f), (1.2) i=1 oùpe(f)estuidicateurdelarégularitédef.l idéed utelcritèreestd itroduire la régularité de la partie foctioelle de sorte que la foctio obteue e colle pas aux doées mais de la cotraidre à être suffisamet lisse. Par ailleurs, l itroductio d ue péalité est justifiée par la théorie bayésiee, comme le fot remarquer otammet Gree et Yadell(1985) et Heckma(1986). Typiquemet,lapéalitéchoisieestdelaformePe(f) = (f (m) ) 2 ;c estlechoixpar 1

CHAPITRE 1. LE MODÈLE PARTIELLEMENT LINÉAIRE exemple de Heckma(1986), Rice(1986) ou Che(1988). Cette péalité correspod e faitàsupposerquefappartietàuespacedesobolev { } Wm:= 2 gm foisdifféretiable,telleque (g (m) ) 2 <. Das le cadre d u modèle o paramétrique, l optimum des moidres carrés avec ue tellepéalitéestatteitsurl espacedesspliesdedegré2m 1.Aisi,ilsembleaturel d approximer f par ue projectio sur l espace des splies de degré 2m 1. Cosidéros Wmatricedeprojectiosuruespacedesplies.Alors,sif =W T θ,lescoditiosdu premier ordre s écrivet E remplaçat l expressio de ˆθ das ˆβ, ous obteos: avecs =W T W. ˆβ = (X T X) 1 X T (y W Tˆθ) (1.3) ˆθ = W(y Xˆβ). (1.4) ˆβ = (X T (I S)X) 1 X T (I S)y Cette approche a tout d abord été appliquée par de ombreux auteurs parmi lesquels Gree et Yadell(1985), Egle et al.(1986) et Heckma(1986). Notos qu e particulier Rice(1986)etCheetShiau(1991)optetpourlabasedeReisch.Che(1987),Cheet Che(1991)ouecoreSchick(1996)proposetquatàeuxd estimerfdasuespace de splies egedré par des subdivisios de dimesio supérieure à 2m 1, adaptées au pladesobservatio (T i ) i=1,...,. Premiers résultats asymptotiques Les premiers résultats relatifs au comportemet asymptotique des estimateurs costruits par moidres carrés péalisés sot à otre coaissace dus à Heckma(1986) et Rice (1986). Leurs travaux ot été élaborés das le cotexte d ue péalité de Sobolev, associée à ue projectio das u espace de splies comme évoqué ci-dessus. Nous présetos brièvemet ces résultats aisi que leur limite avat d évoquer des méthodes d estimatio proposées pour améliorer leur performace. Normalité asymptotique Heckma(1986)établitlaormalitéasymptotiquedel estimateurˆβ : 11

1.2. INFÉRENCE STATISTIQUE Théorème 1.1.(Heckma(1986)) Suppososquefappartieeàl espacedesobolevw m. Supposos qu existe ue foctio w cotiue et strictemet positive telle que le vecteur des covariablest i vérifielarelatio t i w(u)du = i. Suppososdeplusque (X 1,...,X )sotdesvariablesaléatoiresi.i.d.cetrées,dematricede covariace Σ et admettat u momet d ordre 4. Si λtedversl ifii,alorsˆβ estuestimateurcosistatde β. Sideplus λtedvers,ou f (m),alors (ˆβ β )covergeeloiversuevariable aléatoirebdeloigaussieecetréeetdematricedecovariace σ 2 Σ 1. Ce qu il est itéressat de remarquer das ce résultat est que l estimateur atteit la vitesse miimax d u modèle liéaire. Autremet dit, la présece d ue partie foctioelle das le modèle affecte pas la vitesse de covergece de l estimatio, et ous obteos de même u estimateur asymptotiquemet sas biais. Notosquelaormalitéasymptotiquedeˆβ futesuiteétedueeaucasdesmodèlespartiellemet liéaires gééralisés avec ue procédure des quasi-moidres carrés péalisés par Che(1987). Vitesses miimax: problème de variables corrélées Rice(1986) das u cotexte similaire s est itéressé à ce que deveait la cosistace de ˆβ établieparheckma(1986)lorsquel hypothèsedeocorrélatioetrelesvariables X et T était amoidrie. Plus précisémet, Rice(1986), sous l hypothèse p = 1, cosidère que les covariables X peuvet s écrire sous la forme x i =g(t i ) + η i, (1.5) avec (η i ) j=1,...,p -échatilloissud uevariablecetréedevariacefiie(oucovariables se comportat comme tel). Lorsque la foctio g s aule, le cadre de l étude est celui de Heckma(1986). Rice (1986)motrequ alorsoseulemet ˆβ admetuevitesseoptimaledecovergece, mais que de plus l estimatio de la partie foctioelle atteit ue vitesse miimax. L auteur motre e fait ce résultat sous des hypothèses mois restrictives: Théorème 1.2.(Rice(1986)) Suppososque f appartietàl espacedesobolevw m etquelescovariablesx i,i =1,...,, vérifiet(1.5)avecgfoctiopolyomialededegréiférieurouégalàm 1.Si λ = 1/(1+2m), 12

CHAPITRE 1. LE MODÈLE PARTIELLEMENT LINÉAIRE alors E ˆβ β = ( 1/2 ) E ˆf f = ( m/(1+2m) ). Autremet dit, la présece de la partie o paramétrique das le modèle affecte pas la qualité de l estimatio de la partie paramétrique et réciproquemet. Néamois, Rice(1986) cosidère aussi des foctios g plus complexes et coclut que si les hypothèses sur la foctio g sot amoidries(c est-à-dire que la corrélatio etre les variablesexplicativesestplusforte)lebiaisdel estimateurˆβ résultatesttropimportat. Plus précisémet, si g est m-fois cotiûmet dérivable, il va falloir pour pouvoir atteidre la vitesse optimale das la régressio liéaire choisir u paramètre λ qui va imposer u sous-lissage das l estimatio de f. E coséquece, l estimatio de f e pourra être optimale. Aisi, u compromis doit alors être réalisé etre l optimalité das l estimatio de la partie liéaire et celle das l estimatio de la partie o paramétrique du modèle. La coclusio de ces résultats est qu o peut espérer atteidre la ormalité asymptotique das l estimatio du vecteur de régressio de la partie liéaire et des vitesses miimax respectivemet pour la partie liéaire et la partie foctioelle du modèle, sas que le fait d être das u modèle partiellemet liéaire affecte les vitesses respectives des deux parties. Cepedat, ces bos comportemets asymptotiques sot valables sous la coditioquelacorrélatioetrelesvariablesdelapartieliéaireetcellesdelapartieo paramétrique du modèle e soit pas forte. La coclusio de Rice(1986) sur le comportemet des estimateurs das le cadre de variables corrélées a egedré de ombreuses reflexios. Attardos ous otammet sur lesarticlesdecheetshiau(1991)etdespeckma(1988). Ueestimatioedeuxétapes:CheetSchiau(1991) Che et Shiau(1991) costruiset ue estimatio e deux étapes afi de décorréler les variables explicatives. Cette méthode sera esuite reprise par Che et Che(1991) et par Hamilto et Truog(1997) et peut aussi être trouvée das Atoiadis(1992). Cette approche cosiste à extraire des variables explicatives de la partie liéaire de ouvelles variables o corrélées avec la partie foctioelle. L idée est de régresser les variables 13

1.2. INFÉRENCE STATISTIQUE explicativesxdumodèle(1.1)parrapportauxvariablestseloumodèleoparamétrique. Cela sigifie que ous supposos que les variables X s écrivet: X i =g(t i ) +R i,i =1,...,. Les auteurs proposet d estimer g selo les techiques usuelles d estimatios o paramétriques afi d e déduire les covariables R o corrélées avec T. L estimatio par moidres carrés péalisés(1.2) sera esuite effectuée e cosidérat que la matrice de régressioestopaslamatricexiitialemaislamatricedesrésidusrobteusdasla première étape. CheetShiau(1991)itroduisetlesmatricesderégressioparspliesS λ.lesauteurs utilisetdesparamètresdelissages λ j distictspourchacuedespregressiosx i,j = g j (t i ) +r i,j,i =1,...,etuparamètredelissage λpourlecritèredesmoidrescarrés péalisés sur les résidus. Ils obtieet des estimateurs de la forme: ˆβ = ( X T (I p S) T (I S λ )(I p S) X) 1 X T (I p S) T (I S λ )y ˆf = S λ (y Xˆβ ) (I S λ )S Xˆβ, avec Xet Smatricesparblocsdéfiiespar: X =diag(x 1...X p )et S =diag(s λ1...s λp ). CheetShiau(1991))aboutissetparcemoyeàdesestimateursmiimaxetàu ˆβ asymptotiquemet ormal. 1.2.2 La régressio partielle de Speckma(1988) L article de Speckma(1988), outre le fait de proposer d autres estimateurs, gééralise aussi l estimatio par splies à ue estimatio par oyaux das les modèles partiellemet liéaires. Daslecadred umodèleoparamétrique,y = f(t) +U,cosidérosquel estimatiode f s écrit ˆf = WY.Westuematricedelissageparoyauxoudeprojectio sur ue base de splies, supposée symétrique. Par ailleurs, l estimatio du paramètrederégressiochoisiedaslemodèley =Xβ +Uestcelledesmoidrescarrés ˆβ = (X T X) 1 X T Y.Lesdeuxoptiosd estimatiopossiblesdaslemodèlepartiellemet liéaire, outre l estimatio cojoite des deux parties, sot: 1.Sifétaitcoue,levecteur βseraitestimépar ˆβ = (X T X) 1 X T (Y f(t)).ile découlequefpeutêtreestiméeàpartirdumodèley Xˆβ = f(t) +Upar ˆf = 14

CHAPITRE 1. LE MODÈLE PARTIELLEMENT LINÉAIRE W(Y Xˆβ).Eremplaçatfparˆfdasl expressiodeˆβ,lesestimatiosobteues s écrivet alors: { ˆβ (1) = (X T (I W)X) 1 X T (I W)Y ˆf (1). = W(Y Xˆβ) Nous obteos ici la forme des estimateurs étudiés par Heckma(1986), Rice(1986) et Che(1988). 2.Si βétaitcou,alors f seraitestiméepar ˆf = W(Y Xβ).Demêmequeprécédemmet, βestobteuparestimatiodesmoidrescarrésdaslemodèley ˆf(T) =Xβ +Upuislavaleurobteueestremplacéedasˆf.Cettetechiqueaboutit aux estimatios suivates: { ˆβ (2) = (X T (I W) 2 X) 1 X T (I W) 2 Y ˆf (2). = W(Y Xˆβ) Telle que présetée par Speckma(1988), cette estimatio cosiste à projeter le modèledasl espaceorthogoalàwdesorteàfairedisparaîtrelapartieoparamétrique puis à appliquer ue estimatio des moidres carrés pour obteir ue estimatio du vecteur de regressio de la partie liéaire. La coclusio de Speckma(1988) est que la deuxième méthode est préférable. E effet, il motre que si les variaces des estimateurs sot ichagées, les biais de la méthode 2 sot réduits par rapport à la méthode 1 lorsque les variables sot corrélées, c est-à-dire lorsque lesvariablesxvérifiet(1.5)avecg apparteatpasàlaclassedespolyômesdedegré iférieurouégalàm 1.Speckmamotreparailleurslaormalitéasymptotiquedeˆβ tel que défii e 2. Quat aux estimatios des parties foctioelles, les deux procédures mèet à des vitesses miimax, pour le choix usuel de lissage. Résumos les propriétés asymptotiques établies par l auteur: Théorème 1.3.(Speckma(1988)) Supposos qu existe ue foctio w cotiue et strictemet positive telle que le vecteur des covariablest i vérifielarelatio t i w(u)du = i. Suppososque f appartietàl espacedesobolevw m etquelescovariablesx i,i =1,...,, vérifiet(1.5) avec g foctio m-fois cotiûmet dérivable. Alors Eˆβ (1) β λ m, Eˆβ (2) β = (λ 2m + λ m 1/2 ) 15

1.2. INFÉRENCE STATISTIQUE etvar(ˆβ (i) ) = ( 1 )pouri =1,2.Deplus, pouri =1,2. Eˆf (i) f = (λ m ) Var(ˆf (i) ) = ( 1 λ 1 ) Si de plus les variables η admettet u momet d ordre strictemet supérieur à 2 fii, alors (ˆβ (2) Eˆβ (2) )covergeeloiversuevariablealéatoirebdeloigaussieecetréeetde matricedecovariace σ 2 Σ 1. Lorsqueleparamètredelisssage λestprisdetellesortequel estimatiodelapartiefoctioellesoitmiimax,c est-à-dire λ = 1/(1+2m),cethéorèmeouscofirmebieque la procédure 2 permet de costruire des estimateurs des parties liéaires et foctioelles quisotoptimaux;tadisquelebiaisdel estimatioduvecteurdeparamètres βdas la procédure 1 a ue vitesse o paramétrique. L auteur soulige par ailleurs le dager de la première méthode car la écessité de mettre e place ue procédure de validatio croisée pour choisir le paramètre λ risque d etraîer u sous-lissage das l estimatio de la partie foctioelle. Coclusio: Des splies aux odelettes... Depuis les aées 9, l usage des odelettes e statistique s est répadu(cf Atoiadis(1997)). Elles offret e effet l avatage d élargir le champ de régularité de la partie foctioelle, comparativemet aux techiques de splies, e permettat d appréheder des foctios mois lisses et spatialemet plus hétérogèes que des foctios de Sobolev. De plus, des procédures d estimatio o liéaires, via le seuillage des coefficiets, permettet d élaborer des estimateurs quasi-miimax qui sot adpatatifs quat à la régularité de la foctio estimée. Ceci est particulièremet itéressat das le modèle partiellemet liéaire e raiso des biais possibles egedrés par la validatio croisée souligés par Rice(1986) et Speckma(1988). Récemmet, l utilisatio des odelettes das le modèle partiellemet liéaire a été proposéepardiversauteurs.ueestimatioliéaireaétémiseeplaceparf.meyer(23) ouxue(23),ueestimatiooliéaireparchagetqu(24)etfadilietbullmore (25), ou ecore ue estimatio bayésiee par simulatios Mote-Carlo par Chaîes de Markov avec des techiques d odeletttes par Qu(25). 16

CHAPITRE 1. LE MODÈLE PARTIELLEMENT LINÉAIRE L objet du préset travail est doc d itroduire à otre tour ue estimatio o liéaire par odelettes das ce modèle. Après avoir brièvemet préseté les odelettes et leur applicatio e régressio foctioelle, ous décriros aisi les procédures d estimatio costruites e itroduisat des odelettes das le modèle partiellemet liéaire. Nous doeros esuite les résultats quat à leurs propriétés asymptotiques et étudieros leur mise e oeuvre algorithmique. 17

CHAPITRE 2 RAPPELS SUR LES ONDELETTES ET LEUR USAGE EN RÉGRESSION Sommaire 2.1 Aalysemultirésolutioetodelettes... 2 2.1.1 Approximatiosdefoctios.... 21 2.1.2 Odelettespériodiques.... 22 2.1.3 EspacesdeBesov.... 23 2.2 Trasformatioeodelettes... 25 2.2.1 Ecriturematricielle... 25 2.2.2 Algorithmepyramidal... 26 2.3 Régressioavecuplad observatioéquidistat... 28 2.3.1 Estimatiosliéaires... 28 2.3.2 Estimatiosoliéaires:seuillagedescoefficiets... 29 2.4 Régressioavecuplad observatioo-équidistat.... 33 2.4.1 Aperçudedifféretesapproches... 33 2.4.2 Hypothèsessurleplad observatio... 36 2.4.3 Approchethéorique... 39 2.4.4 Approchepratique... 41 Cechapitreproposeubrefrappelsurlesodelettesaisiquesurleurusagedasle modèle de regressio o paramétrique. Das u premier temps, ous redoos la défiitio des bases d odelettes orthoormées aisi que des espaces de Besov, puis ous ous itéressos à l estimatio par trasformée e odelette das le modèle de régressio lorsque le pla d observatio est équidistribué et lorsque ce est pas le cas. Das cette derière sectio, ous isistos particulièremet sur la procédure d estimatio développée par Kerkyacharia et Picard(24), qui sera appliquée au Chapitre 7. 19

2.1. ANALYSE MULTIRÉSOLUTION ET ONDELETTES 2.1 Aalyse multirésolutio et odelettes Parmi les différetes approches possibles, ous avos choisi d itroduire les odelettes à travers la otio d aalyse multirésolutio. L idée d ue aalyse multirésolutio(amr) estdedéfiiruesuited espacesemboîtés (V j ) j Z tellequeàchaqueicrémetatio, l approximatiorésultated uefoctio f del 2 (R)surcetteespaceestaffiée.De maière rigoureuse, ue aalyse multirésolutio se défiit de la faço suivate: Défiitio 2.1. Aalyse multirésolutio Orthoormée(AMR) OappelleAalysemultirésolutioorthoorméedeL 2 (R)toutesuite (V j ) j Z croissate d espacesfermésdel 2 (R)telleque (i) j Z V j = {}et j Z V j =L 2 (R), (ii) f L 2 (R), j Z,f V j sietseulemetsix f(2 j x)appartietàv j+1, (iii) Ilexiste ϕ,appeléefoctiod échelle,tellequelafamille {x ϕ(x k)} k Z soitue baseorthoorméedev. Nous e traiteros pas des bases biorthoormée d odelettes, où les aalyses multirésolutio sot défiies à partir de bases de Riesz et o plus de bases orthoormées. Nous revoyos aux livres de Daubechies(1992), Y. Meyer(1992) ou Mallat(1999) pour ces derières. Cette défiitio a pour coséquece qu à chaque degré de résolutio j, la famille de foctios {ϕ j,k : x 2 j/2 ϕ(2 j x k)} k Z formeuebaseorthoorméedel espacev j pour laormel 2.Comme ϕappartietàv,quiesticlusdasv 1,ilerésulteque ϕpeut s exprimercommecombiaisoliéairede {ϕ 1,k } k Z.Autremetdit,ilexisteuesuite deréels (h k ) k Z telleque x R, ϕ(x) = h k ϕ(2x k). k Z Le pricipe de cette relatio, appelée relatio à deux échelles, permet comme ous le verros ultérieuremet d élaborer des algorithmes rapides de décompositio ou de recostructio das le cotexte d ue aalyse multirésolutio. Il est itéressat dès lors de pouvoir affier la coaissace sur ue foctio e augmetat le iveau de résolutio sas recalculer l itégralité des coefficiets associés. O itroduitalorslesespacesdedétails:passerd uerésolutiojàuerésolutioj +1revietàajouterdesdétails,comprisdasl espacew j complémetairedev j dasv j+1 ; 2

CHAPITRE 2. RAPPELS SUR LES ONDELETTES ET LEUR USAGE EN RÉGRESSION pourtoutj Z,W j estdéfiipar: V j+1 =V j W j. Ue coséquece immédiate de cette défiitio aisi que de la Défiitio 2.1 est que pour toutj apparteatàz,l espacel 2 (R)vérifie: L 2 (R) =V j + j=j W j. (2.1) Ilexisteuefoctio ψtelleque {x ψ(x k)} k Z soituebaseorthoorméedew. La foctio ψ est alors appelée odelette. De même que précédemmet, à tout iveau de résolutioj Z,lafamille {ψ j,k :x 2 j/2 ψ(2 j x k)} k Z formeuebaseorthoorméede l espacew j.deplus,demaièresimilaire,uerelatioàdeuxéchellespeutêtreétablie: commew esticlusdasv 1,ilexisteuesuitederéels (g k ) k Z telleque x R, ψ(x) = g k ϕ(2x k). k Z U exemple simple d aalyse multirésolutio est celle de Haar, géérée par la foctio d échelle ϕ =1 [,1) etl odelette ψ =1 [1/2,1) 1 [,1/2). 2.1.1 Approximatios de foctios Eutilisatladécompositiodel espacel 2 (R)doéee(2.1),ousdéduisosdece quiprécèdequepourtoutj Z,toutefoctiofapparteatàL 2 (R)s écrit: avec α j,k = f ϕ j,ket β j,k = f ψ j,k. + f = α j,kϕ j,k + β j,k ψ j,k, (2.2) k Z j=j k Z Défiitio 2.2. Ordre d ue AMR Ue aalyse multirésolutio orthogoale est dite d ordre N si, pour tout degré de résolutioj Z,toutpolyômePdedegréiférieuràN 1appartietàV j,i.e.ppeuts écrire souslaforme: P = c j,k ϕ j,k. k Z 21

2.1. ANALYSE MULTIRÉSOLUTION ET ONDELETTES U calcul simple motre que l ordre d ue Aalyse Multi-résolutio orthogoale est équivalet au ombre de momets uls de l odelette associée. Rappelos la propriété des momet uls. Défiitio 2.3. Nombre de momets uls UefoctiofadmetNmometsulssipourtoutp=,...,N 1, f(x)x p dx =, et f(x)x N dx <. L itérêt d ue décompositio multi-échelle est que, cotrairemet à ue décompositio dasuebasedefourier,celle-ciestlocaliséeetempsetefréquece.lesvaleursdes coefficiets de détails sot faibles lorsque la foctio est régulière, mais devieet élevés das le voisiage des poits de discotiuité. E effet, lorsque la foctio est localemet polyômiale, la propriété de représetatio des polyômes associée à l odre de l AMR assure que les coefficiets de détails vot être faibles. Cette localisatio das les voisiages des poits critiques permet ue meilleure détectio de ces poits. De plus, les valeurs état peu élevées das les zoes de régularité et décroissat avec le degré de résolutio j, le fait de e pas coserver ces coefficiets a ue ifluece moidre sur la recostructio de la foctio. Ce pricipe peut permettre de compresser l iformatio e e gardat que les coefficiets sigificatifs. O peut aussi espérer qu ue telle procédure réduira les fréqueces parasites du sigal lorsque celui-ci est bruité. L odelette de Haar, citée plus haut, présete l icovéiet majeur de avoir qu u seul momet ul. O préférera doc e gééral predre des odelettes ayat u ombre de momets uls plus élevés. Daubechies(1992), etre autres, propose des odelettes ayat des ombres de momets uls élevés, et à support compact, qui serot utilisées das les applicatios. D autres exemples de foctios d échelle et d odelettes peuvet être trouvés par exemple das Mallat(1999) ou Hardle et al.(1998). 2.1.2 Odelettespériodiques La foctio que l o souhaiterait estimer état défiie sur [, 1], la costructio d ue based odelettessurl 2 ([,1])estpossibleepériodisatlesfoctios ϕet ψ.soiet ϕ κ 22

CHAPITRE 2. RAPPELS SUR LES ONDELETTES ET LEUR USAGE EN RÉGRESSION et ψ κ défiiespar: ϕ κ ψ κ = l Z = l Z ϕ(x +l), ψ(x +l). Alors, le couple ( ϕ, ψ) egedre ue aalyse multirésolutio orthoormée sur [, 1]. Cette périodisatio est ue maière simple et ituitive de restreidre ue alayse multirésolutio à u itervalle, mais so icovéiet majeur est que des problèmes de discotiuités aux bords de l itervalle e découlet. Nous revoyos à la thèse de Maxim (23) pour d autres costructios d odelettes sur l itervalle et otammet d odelettes adaptées aux bords. Toutefoctiof L 2 ([,1])peutalorssedécomposersouslaforme: f = k I j α j,k ϕ j,k + j j k I j β j,k ψ j,k avec α κ = f ϕet β κ = f ψ,eti j = { k =,1,...,2 j 1 },larestrictiodesidiceskaux esemblesi j étatdueàlapériodicitédesfoctioscosidérées. 2.1.3 Espaces de Besov NousétudierosparlasuitelecasdefoctiosapparteatàdesespacesdeBesov.Nous rappelos par coséquet leur défiitio. Pour les preuves des résultats éocés das ce chapitre, o pourra se référer otammet à Hardle et al.(1998). LesespacesdeBesovsotdéfiisàpartirdumoduledecotiuité,quiestueotio plus faible que la dérivabilité, doc permet aux espaces de Besov d être peu cotraigats quat à la régularité des foctios. Pour1 π,lemoduledecotiuitéd ordre πd uefoctiof, ω N π (f,.),sedéfiit comme: ωπ N (f,t):=sup h N f π où h f(x) =f(x +h) f(x) (2.3) h t et N h f = ho h o...o h } {{ } N fois f. (2.4) Les espaces de Besov sot esuite costruits de la faço suivate: 23

2.1. ANALYSE MULTIRÉSOLUTION ET ONDELETTES Défiitio 2.4. Espaces de Besov Soiet <s<, < π et <q.odéfiitl espacedebesov Bπ,r s comme l esembledesfoctiosfapparteatàl π (R)tellesque ( ( ) ω N qdt ) 1/q π (f,t) <, t s t avecnetiertelques <Netlamodificatiousuellepourq =. Remarque: La défiitio ci-dessus semble dépedre de l etier N cosidéré, mais la caractérisatio d u espace de Besov e terme d odelettes permet e réalité de motrer qu il e est rie. Les espaces de Besov sot particulièremet adaptés à l estimatio par projectio sur ue base d odelettes e raiso de leur caractérisatio par rapport à ue telle base. Propositio 2.5. Caractérisatio des espaces de Besov par odelettes Soiet ϕ ue foctio d échelle issue d ue Aalyse Multi-Résolutio et ψ l odelette associée. Suppososque ϕvérifielapropriétédesnmometsulsetqu ilexisteuecostatectelleque ψvérifie ψ(x k) C p.s., k Z D N ψ(x k) C p.s. k Z Soit <s<n,1 π et <r et f = k Z α j,kϕ j,k + j j k Z β j,k ψ j,k apparteatàl π (R). Alors,f B s π,r sietseulemetsi j N2 j(s+1/2 1/π)r ( k Z β j,k π) r/π <.Aveclesmodificatiosusuellessi πourestifii. Aisi dès que l odelette cosidérée est suffisammet régulière et vérifie ue coditio de momets uls, les espaces de Besov sot caractérisés par le comportemet des coefficiets de la décompositio sur ue base d odelettes. Cette propriété fodametale icite à estimer les foctios apparteat à des espaces de Besov. C est pourquoi das toute la suite, ous cosidéreros que la foctio f que l o cherche à estimer appartiet à u esemble B s π,r.oremarqueraeparticulierquey.meyer(1992)etdaubechies(1992) proposet des bases d odelettes vérifiat les propriétés écessaires à la caractérisatio par odelettes. 24

CHAPITRE 2. RAPPELS SUR LES ONDELETTES ET LEUR USAGE EN RÉGRESSION LesespacesdeBesovpeuvetalorsêtremuisdelaorme ) r/π. f s,π,r = f L π + 2 ( j(s+1/2 1/π)r β j,k π j N k Z Laboule { f s,π,r M}seraotéeparlasuite B s π,r(m).parabusdeotatio,lesespacesdebesovdéfiissur Rserotcofodusparlasuiteaveclesespacesdéfiissuru itervalle afi de e pas prêter à cofusio. 2.2 Trasformatio e odelettes Cette sectio doe das u premier temps l écriture matricielle de la trasformée e odelette et de la trasformée iverse associée. Esuite, elle décrit commet ces trasformées peuvet être mises e oeuvre algorithmiquemet. 2.2.1 Ecriturematricielle Soit (V j ) j N ueaalysemultirésolutioorthogoalesur [;1]egedréeparlafoctiod échelle ϕ.oote ϕ j,k (x) =2 j/2 ϕ(2 j x k).alorsv j =Vect(ϕ j,k,k =...2 j 1). Soit ψl odeletteassociée.outilisedesotatiossimilairespour ψ j,k etlesespacesegedréspar {ψ j,k } k sototésw j. LamatriceWdeprojectiosurl espacev J =V j J 1 j=j W j estuematriceorthogoalede taille. Nous distigueros par la suite les deux blocs egedrés respectivemet par les foctios d échelle et les odelettes. Pouruvecteurquelcoquee = (e 1...e ) T latrasforméeeodeletted =Weestdela forme: ( ) T We = s j,... s j,2 j 1 w j,... w j,2 j 1... w J 1,2 J 1 1 oùs j,k etw j,k sotlescoefficietsempiriquesrespectivemetd échelleetd odelettedee 25

2.2. TRANSFORMATION EN ONDELETTES de degré (j, k). L approximatio suivate permet de mieux appréheder ces coefficiets: s j,k 1 i=1e i ϕ j,k(t i ) pourk =...2 j 1 w j,k 1 i=1e i ψ j,k (t i ) pour { j = j...j 1, k =...2 j 1. Cette approximatio servira otammet das l établissemet des propriétés asymptotiques. La trasformée état orthogoale, le vecteur e peut esuite être obteu à partir de sa trasforméeeodelettedpare =W T d. 2.2.2 Algorithmepyramidal Nous présetos ici la mise e oeuvre algorithmique du calcul des coefficiets d odelettes et de la recostructio d u sigal à partir de la doée des coefficiets. Les relatios à deux échelles doées ci-dessus permettet d établir ue relatio etre les coefficiets à différetes échelles. Mallat(1989) propose deux algorithmes issus de ce costat permettat l u de calculer les coefficiets de la décompositio de f à des iveauxdepluseplusfietl autredecalculerlescoefficietsàdesiveauxdepluse plus grossiers. Ces algorithmes sot appelés respectivemet algorithme de décompositio et algorithme de recostructio. D aprèscequiprécède,ilexistedeuxsuitesderéels (h k ) k Z et (g k ) k Z tellesque x R, ϕ(x) = k Z h k ϕ(2x k) Sous forme matricielle, ces équatios doet: ψ(x) = k Z g k ϕ(2x k). j Z, Φ j =H j Φ j+1 et Ψ j =G j Φ j+1. Cesrelatiosétablissetulieetrelescoefficietsd échelles j etd odelettesw j de différets iveaux de résolutios. Il e résulte e effet que 26 j Z, s j =H j s j+1 etw j =G j w j+1 s j+1 =H j s j +G j w j.