Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

Tests o paramétriques de spécificatio pour desité coditioelle : applicatio à des modèles de choix discret Mémoire Koami Dzigbodi AMEGBLE Maîtrise e écoomique Maître ès arts (M.A.) Québec, Caada Koami Dzigbodi AMEGBLE, 2015

Résumé Das ce travail, ous étudios la performace statistique (taille et puissace) e échatillo fii de deux tests o paramétriques de spécificatio pour desité coditioelle proposés par Fa et al. (2006) et Li et Racie (2013). Ces tests permettet de vérifier si les probabilités coditioelles postulées das les modèles de choix discret (logit/probit multiomial à effets fixes ou aléatoires, estimateur de Klei et Spady (1993), etc) représetet correctemet les choix observés. Par rapport aux tests existats, cette approche a l avatage d offrir ue forme foctioelle flexible alterative au modèle paramétrique lorsque ce derier se révèle mal spécifié. Ce modèle alteratif est directemet issu de la procédure de test et il correspod au modèle o cotrait obteu par des produits de oyaux cotius et discrets. Les deux tests explorés ot ue puissace e échatillo fii supérieure aux tests existats. Cette performace accrue s obtiet e combiat ue procédure bootstrap et l utilisatio de paramètres de lissage des foctios oyaux par validatio croisée par les moidres carrés. Das otre applicatio, ous parallélisos les calculs de taille et de puissace, aisi que l estimatio des feêtres de lissage, sur u serveur multi-processeurs (Colosse, de Calcul Québec). Nous utilisos des routies "Ope MPI" pré-implémetées das R. Par rapport aux simulatios effectuées das les articles origiaux, ous postulos des modèles plus proches de ceux habituellemet utilisés das la recherche appliquée (logit et probit à variace uitaire otammet). Les résultats des simulatios cofirmet les boes taille et puissace des tests e échatillo fii. Par cotre, les gais additioels de puissace de la statistique lissée proposée par Li et Racie (2013) se révèlet égligeables das os simulatios. Mots clés : Bootstrap, choix discret, desité coditioelle, Mote Carlo, produit de oyaux, puissace, taille. iii

Table des matières Résumé Table des matières Liste des tableaux Avat-propos iii v vii ix Itroductio 1 1 Revue de littérature 3 1.1 Tests de spécificatio pour desités coditioelles sas oyaux cotius et discrets 3 1.2 Tests de spécificatio pour les desités coditioelles avec oyaux cotius et discrets....................................... 5 2 Méthodologie d estimatio 11 2.1 Démarche méthodologique............................. 11 2.2 Processus de géératio des doées sous les hypothèses ulle et alterative... 12 2.3 Estimatio paramétrique de la desité coditioelle............... 13 2.4 Estimatio o paramétrique............................ 16 2.5 Simulatios..................................... 18 3 Applicatio 21 3.1 Calcul de la taille et la puissace des tests sur R.................. 21 3.2 Résultats et iterprétatio.............................. 22 Coclusio 29 A Aexes 31 A.1 Lemme et théorèmes utilisés............................ 31 Bibliographie 33 v

Liste des tableaux 3.1 Taille basée sur le modele H 0 : y i = 1 + x i z i + u i avec M=1000, B=399 et σ u = 1. 23 3.2 Puissace basée sur le modele DGP H1a : y i = 1 + x i z i + si(0,5πx i ) + u i avec M=1000, B=399 et σ u = 1............................... 24 3.3 Puissace basée sur le modele DGP H1b : y i = 1 + x i z i + xi 2 + u i avec M=1000, B=399 et σ u = 1..................................... 25 3.4 Puissace basée sur le modele DGP H1c : y i = 1+x i z i +x i u i avec M=1000, B=399 et σ u = 1........................................ 26 3.5 Feêtres de lissage coditioelles, DGP H1a : y i = 1+x i z i +si(0,5πx i )+u i avec M=1000, u i N(0,1).................................. 27 vii

Avat-propos Ce travail aurait pu être réalisé sas l aide de mo directeur de recherche, le Professeur Carlos Ordás Criado, et de mo co-directeur, le Professeur Guy Lacroix. Je leur suis profodémet recoaissat pour leur assistace et leurs coseils. Je remercie le troisième lecteur de ce mémoire, Charles Bellemare, pour sa lecture et ses remarques. Je voudrais exprimer plus particulièremet ma gratitude au Professeur Carlos Ordás Criado pour so apport sur les méthodes o paramétriques, aisi que pour so gééreux support fiacier. Je suis recoaissat au corps professoral du départemet d écoomique pour l eseigemet de qualité qu il m a apporté. Pour fiir, je ties à remercier mes camarades de maîtrise, mes collègues de la Chaire de Recherche Aéroportuaire, mes amis, mes parets, ma femme aisi que ma fille pour leurs souties moral et psychologique, et efi au Créateur de l uivers pour m avoir accordé la vie et la saté. ix

Itroductio Les écoomistes utiliset différets types de modèles pour aalyser les choix de cosommatio des idividus. Lorsque ces choix sot de ature discrète (décisios liées aux modes de trasports, choix etre différetes politiques publiques, etrée ou o sur le marché du travail), le modèle le plus courammet utilisé est celui de l utilité aléatoire. Cette approche impose u certai ombre de restrictios qui permettet aux écoomistes de relier les choix observés à des mécaismes de décisio. À titre d exemple, les modèles classiques de choix discrets de McFadde (1974) ou Maddala (1983) postulet que les variables explicatives costituet u idice liéaire et que la probabilité coditioelle est logistique ou ormale (logit ou probit). Or, rie e garatit que cette formulatio e décrit adéquatemet les choix observés, coditioellemet aux variables explicatives qui sot pertietes du poit de vue de la théorie écoomique. U mécaisme comportemetal compatible avec la réalité observée est pourtat crucial pour valider les recommadatios de politiques écoomiques et les aalyses de bie-être issues des modèles d utilité aléatoire. De ombreux modèles de choix discret ot été proposés afi de permettre ue plus grade flexibilité das la foctio de probabilité et de réduire différetes sources de biais das l estimatio. Les formulatios flexibles les plus populaires sot l estimateur semi-paramétrique de Klei et Spady (1993), celui du score maximum de Maski (1975) ou la versio lissée proposée par Horowitz (1992), les algorithmes de Matzki (1992, 1993) ou ecore l estimateur de Blevis et Kha (2013). Plusieurs tests statistiques permettet de comparer des modèles paramétriques et semi-paramétriques das ce cotexte. O trouve égalemet das la littérature écoométrique des tests gééraux de spécificatio pour desités coditioelles. Par exemple, Adrews (1988a,b, 1997) propose différetes extesios du test de Khi-deux de Pearso et du test de Kolmogorov-Smirov. Ces tests sot éamois o costructifs, car ils offret pas d alterative satisfaisate e cas de rejet de la probabilité coditioelle postulée. De plus, ils obliget souvet le chercheur à utiliser des estimatios locales basées sur u faible ombre d observatios, sas exploiter de maière optimale l iformatio se trouvat das le voisiage des régios peu deses du support. De récets développemets sur l estimatio o paramétrique de desités par oyau ot permis de remédier à ces déficieces. Le premier pas a été doé par le travail pioier de Li et Racie (2003), qui propose d utiliser la méthode o paramétrique du oyau pour estimer de maière lisse les desités joites d u mélage de variables aléatoires discrètes et cotiues. La pricipale iovatio de cette 1

recherche est d itroduire des oyaux discrets lissés, qui permettet d estimer la probabilité joite sas réduire e sous-échatillos le support de la distributio. Cette méthode ajoute du biais das l estimatio de la desité mais elle réduit sa variace. Das des travaux ultérieurs, Hall et al. (2004), Racie et al. (2004) et Li et Racie (2008) étedet leurs estimateurs aux desités/probabilités coditioelles, à la régressio par oyaux et aux quatiles coditioels. Hall et al. (2004) motret que le choix du paramètre de lissage de la foctio oyau par validatio croisée par les moidre carrés permet d exclure asymptotiquemet les variables explicatives o pertietes das le cadre de l estimatio coditioelle. Ils motret égalemet que cette validatio croisée géère des gais de performace prévisioel hors-échatillo, même e échatillo fii. Des tests formels d adéquatio pour les desités coditioelles sot proposés par Fa et al. (2006), et par Li et Racie (2013), où les résultats mis e lumière par Hall et al. (2004) sot exploités. L objectif pricipal du préset travail de maîtrise est de répliquer les deux tests proposés par Fa et al. (2006) et Li et Racie (2013), afi de vérifier si les résultats publiés sur leur taille et leur puissace restet valides e échatillo fii das le cadre de l hypothèse stadard de variace uitaire des modèles probit et logit (polytomique ordoé et o ordoé). Fa et al. (2006) proposet u test qui omet de lisser le variable répose discrète de la desité coditioelle mais qui lisse les variables explicatives discrètes. Li et Racie (2013) proposet de lisser toutes les variables discrètes présetet das la desité coditioelle, la variable répose discrète icluse. L implémetatio de ces tests état pas dispoible sur R, ous décrivos les grades étapes de cette implémetatio. Les résultats de os simulatios e échatillo fii idiquet que les deux tests présetet ue boe taille et qu ils sot puissats cotre des alteratives o liéaires et hétéroscédastiques. Cepedat, ous obteos des différeces de puissace très faibles quad ous comparos la performace des deux tests. Ceci cotraste avec les résultats de Li et Racie (2013), qui obtieet systématiquemet des puissaces supérieures par rapport à la versio semi-lissée de la statistique de Fa et al. (2006), et ceci pour tous les seuils critiques. Ce travail est structuré e trois chapitres. Au chapitre 1, ous passos e revue les procédures mises e place pour tester l adéquatio des probabilités coditioelles des pricipaux modèles de choix discrets. Le chapitre 2 décrit les procédures d estimatios et de tests. Notos que les simulatios requièret l estimatio de paramètres de lissages par validatio croisée par les moidres carrés. Par coséquet, ue parallélisatio de la procédure est souhaitable, pour obteir des résultats das u délai raisoable. Le chapitre 3 commete les résultats et ous termios ce mémoire e récapitulat os résultats et e offrat quelques recommadatios pour l implémetatio du test sur R. 2

Chapitre 1 Revue de littérature La littérature écoométrique propose de ombreuses approches pour tester la spécificatio ou l adéquatio des desités coditioelles postulées par les chercheurs. O peut distiguer etre les approches qui se baset sur des foctios paramétriques sous l hypothèse alterative (Hausma, 1978; Hausma et McFadde, 1984; Horowitz et Louviere, 1993) et celles qui utiliset des formes foctioelles o paramétriques. Ces derières approches ayat l avatage d être plus robustes à des erreurs de spécificatio sous l hypothèse alterative, ous ous cocetros sur ces derières. Das cette classe de méthodes, ous distiguos ecore deux grades catégories : celles qui utiliset ue discrétisatio du support sas référece explicite à l estimatio par oyau et celles qui emploiet des oyaux (avec détermiatio d ue feêtre optimale de lissage). Sas être exhaustif, ce chapitre propose ue revue des pricipaux tests gééralemet discutés lorsque l o s itéresse aux tests o paramétriques de desités coditioelles. Nous mettos l accet sur l aspect le plus pratique de cette discussio : leur performace e échatillo fii. 1.1 Tests de spécificatio pour desités coditioelles sas oyaux cotius et discrets Das cette sectio, ous ous cocetros sur deux tests qui utiliset pas la méthode des oyaux, ceux proposés par Adrews das ses travaux de 1988 et 1997. Cet auteur dérive des tests qui utiliset des approches o paramétriques basées sur l idée géérale des tests de Khi-deux de Pearso et de Kolmogorov. Ils ot l avatage d être puissats cotre toute alterative locale à l hypothèse. 1.1.1 Test de Adrews (1988, 1997) Adrews (1988a,b) propose u test de Khi-deux coditioel pour vérifier la spécificatio de la desité coditioelle des modèles paramétriques (voir égalemet Heckma (1984)). Il s agit d ue extesio du test de Khi-deux de Pearso, applicable aux différets modèles (trasversaux) de réposes discrètes (logit et probit polytomiques, régressio SUR, équatios simultaées, etc). 3

Sous l hypothèse ulle, la desité coditioelle de Y i (variable dépedate pour l observatio i) sachat X i (vecteur de variables explicatives pour cette observatio) appartiet à la famille de desité coditioelle ( f (y x,θ) : θ Θ) qui respecte ue mesure σ-fiie. Le terme Θ représete l espace des paramètres. L hypothèse alterative est que la distributio coditioelle est mal spécifiée. Le test est basé sur le partitioemet du support de la desité coditioelle e cellules disjoites et la comparaiso etre les probabilités empiriques issues de l échatillo et les probabilités prédites par le modèle postulé pour ces cellules. Il ote par Γ u élémet aléatoire de la classe des partitios Y X, dot ˆΓ est l estimateur. La mesure de divergece utilisée est basée sur l écart etre les effectifs observés et les effectifs coditioels prédits. Plus précisémet, cette distace est doée par l expressio : v ( ˆΓ, ˆθ) = [ P ( ˆΓ) F ( ˆΓ, ˆθ) ], (1.1) où P représete la distributio coditioelle empirique du couple {(Y i,x i ),i = 1,...,}, F est la distributio coditioelle paramétrique estimée de Y i sachat X i. Soit Ŵ u estimateur coverget de l iverse gééralisé de Σ 0 (la vraie matrice de dispersio sous H 0 ). Sous l hypothèse ulle, la distributio asymptotique de l expressio (1.1) est ormale, de moyee ulle et de matrice de dispersio Σ 0. E utilisat la distace quadratique est e divisat par l écart-type, ous obteos la statistique de test : X 2 ( ˆΓ, ˆθ) = v ( ˆΓ, ˆθ)Ŵv ( ˆΓ, ˆθ) (1.2) Sous H 0, l expressio (1.2) est distribuée asymptotiquemet selo u Khi-deux dot les degrés de liberté sot doés par le rag de Σ 0. Adrews (1988b) vérifie la performace du test e échatillo fii à l aide d u modèle de régressio cesurée 1. Il teste le DGP sous H 0 cotre deux alteratives symétriques (à queues mice puis épaisse), ue versio asymétrique de ce même DGP, aisi que cotre le modèle cesuré proposé par Cragg (1971). Il calcule la taille du test avec 5000 réplicatios Mote Carlo sur des échatillos fiis de taille 100 et 250. Ses résultats révèlet que le test est de boe taille et puissat cotre toute alterative. Ce test o paramétrique se révèle plus puissat que les tests paramétriques développés par Hausma (1978), Hausma et McFadde (1984). Das la cotiuité de ses travaux, Adrews (1997) propose u test de spécificatio pour desités coditioelles de type Kolmogorov (appelé Kolmogorov Coditioel, KC). Ce test est ue extesio du test traditioel d adéquatio de Kolmogorov pour les distributios o coditioelles. L hypothèse ulle (de boe spécificatio du modèle paramétrique) s écrit : H 0 : H(y x) = F(y x,θ) pour u certai θ Θ, (1.3) où F(y x,θ) est la foctio de répartitio de Y i coditioellemet aux vecteurs de variables explicatives X i = x, et au vecteur de paramètres θ, Θ est l espace des paramètres, H(y x) est la vraie foctio de répartitio coditioelle, et f (y x,θ) est la foctio de desité respectat ue mesure σ-fiie (pas 1. Plus précisémet, le processus de géératio de doées est Y i = c + X i β +U i > 0 et 0 sio, avec (U i X i ) N(0,1) sous H 0. 4

écessairemet la mesure de Lebesgue). L auteur estime θ par u estimateur ˆθ qui coverge vers θ 0. La statistique de test est ue distace maximisée (Max), différete de l habituel supremum (Sup) utilisé das le test stadard de Kolmogorov : où ˆF (z, ˆθ) = 1 i=1 CK = max Hˆ (Z j ) ˆF (Z j, ˆθ) (1.4) j F(y X i,θ)i (Xi x) avec z = (y,x). Sous H 0 la distributio asymptotique de la statistique déped des paramètres de uisaces ˆθ (ou θ 0 quad il est cou) et de G, la foctio de répartitio empirique de X. La performace du test e échatillo fii s obtiet par ue procédure de bootstrap paramétrique. Das l article, l auteur utilise u modèle logit multiomial sous H 0. La taille du test est calculée avec 4000 réplicatios de Mote Carlo pour les échatillos de petite taille et 2000 réplicatios pour les échatillos de grade taille. Il utilise des bootstrap de taille 299 das les deux cas. Il motre que le test est puissat cotre les alteratives locales à 1 -coverget et cotre toutes alteratives fixes à l hypothèse ulle 2. 1.2 Tests de spécificatio pour les desités coditioelles avec oyaux cotius et discrets L u des défauts du test d Adrews (1997) est qu il e propose pas directemet d alterative à la desité coditioelle paramétrique rejetée. Les tests basés sur l estimateur du oyau offret directemet cette spécificatio alterative, mais leur performace déped du choix d u paramètre de lissage optimal. Ces derières aées, certaies méthodes de sélectio du paramètre de lissage ot révélé des propriétés itéressates : (i) elles permettet de combier de maière optimale de l iformatio sur des supports discrets et peu deses, (ii) elles détectet automatiquemet les variables pertietes das le coditioemet. Nous abordos à préset das cette sectio les tests proposés par Zheg (2000), Fa et al. (2006), et Li et Racie (2013). Tous ces tests utiliset ue approche o paramétrique basée sur l estimatio par oyau et ils se complètet das leur démarche méthodologique. Das cette sectio, ous utilisos les otatios origiales des auteurs, pour faciliter la comparaiso avec les articles origiaux. 1.2.1 Test proposé par Zheg (2000) Zheg (2000) est le précurseur de la série de tests o paramétriques qui utiliset l approche par la méthode du oyau pour tester l adéquatio de la desité coditioelle postulée par le chercheur. Soit {y i,x i } i=1,.., ue observatio d u échatillo aléatoire idépedate et idetiquemet distribuée proveat d ue famille de loi de desité joite p(y,x), où y i u vecteur de l variables dépedates, tel que y i R l et x i u vecteur de m variables explicatives, tel que x i R m. 2. C est ue séquece d alteratives de desité coditioelle q (y x) = f (y x,θ 0 ) + d(z), qui sot des perturbatios au voisiage de l hypothèse ulle. 5

Soit p(y x) la desité coditioelle de y sachat x. Comme aocé plus haut, Zheg s itéresse à tester p(y x) à l itérieur d ue famille de desité coditioelle paramétrique. Soit Θ l espace des paramètres 3, u sous-esemble compact et covexe de R k. La desité coditioelle paramétrique de y sachat x état doé θ 0 est défiie par f (y x,θ 0 ). Zheg cherche ue procédure de test qui permet de départager les deux hypothèses suivates : H 0 : P(p(y x) = f (y x,θ 0 )) = 1, pour u θ 0 Θ doé, cotre H 1 : P(p(y x) = f (y x,θ)) < 1 θ Θ Pour mesurer la différece etre p(y x) et f (y x,θ 0 ) sous l hypothèse ulle, Zheg (2000) choisit le critère d iformatio de divergece de Kullback et Leibler (1951) e ecore la mesure d etropie relative. Ce critère est ue mesure de la dissimilarité etre deux distributios de probabilités, l ue théorique et l autre empirique. Il est défii das le cas préset par : { [ ]} p(yi x i ) I(p, f ) = E log f (y i x i,θ 0 ) (1.5) Il motre de faço géérale que I(p, f ) 0 et] ulle sous l hypothèse H 0. Par ailleurs, par le développemet de Taylor 4 d ordre 1 du log o a [ p(yi x i ) f (y i x i,θ 0 ) { } { } p(yi x i ) I(p, f ) = E f (y i x i,θ 0 ) 1 p(yi x i ) f (y i x i,θ 0 ) = E f (y i x i,θ 0 ) (1.6) Zheg (2000) prouve qu e podérat la desité coditioelle paramétrique par la desité margiale de x que l expressio (1.6) coserve les mêmes propriétés que I(p, f ) sous H 0 comme sous H 1. L expressio (1.6) deviet doc sous H 0 : { } p(yi,x i ) p 1 (x i ) f (y i x i,θ 0 ) I 1 (p, f ) = E (1.7) f (y i x i,θ 0 ) où p 1 (x) la desité margiale de x. Zheg propose d estimer les feêtres de lissage des estimateurs respectifs des desités p(y i,x i ) et p 1 (x i ) par l approche de Silverma (1986). De même, la desité joite p(y i,x i ) est estimée par le produit des oyaux. E effet, c est ue méthode qui permet de résoudre des problèmes o liéaires à l aide des méthodes liéaires e trasformat les espaces de doées e u espace de dimesio plus grade. Aisi, les estimateurs de desité ˆp(y i,x i ) et ˆp 1 (x i ) 3. L espace de paramètre e gééral différet de l espace des variables. Ils sot égaux si le ombre de variables pour l estimatio o paramétrique est exactemet égale à celui de l estimatio paramétrique. Voir les hypothèses alteratives pour le calcul de la puissace, chapitre 3. 4. log(x) x 1. 6

sot respectivemet défiis par les expressios suivates : ˆp(y i,x i ) = 1 ( ) ( ) 1 j=1 h l+m K yi y j xi x j 2 K 1 h h ˆp 1 (x i ) = 1 ( ) 1 h m K xi x j 1 h j=1 (1.8) (1.9) E outre, e estimat le paramètre θ 0 par la méthode de quasi maximum de vraisemblace, Zheg (2000) dérive l estimateur lissé de la desité p(y,x) de f (y i x i,θ)p 1 (x i ) qui est défii par : p(y i,x i ) = 1 1 j=1 h l+m ( ) ( ) yi y xi x j K 2 K 1 f (y x j, ˆθ)dy (1.10) h h où ˆθ est l estimateur quasi maximum de vraisemblace de θ, et h correspod au paramètre de lissage de x et y. Il déduit la statistique W du test et sa versio ormalisée T qui preet la forme : 1 1 W = ( 1) K ( yi y) ( ) xi x j 2 h K1 h ( K yi y) ( ) xi x j 2 h K1 h f (y x j, ˆθ)dy h l+m (1.11) f (y i x i, ˆθ) i=1 j=1 j i et l+m h 2 W T = (1.12) ˆσ Zheg (2000) motre sous certaies hypothèses de régularité que la statistique T coverge e loi vers ue loi ormale cetrée réduite sous l hypothèse ulle et que la statistique o stadardisée W coverge e probabilité vers I(p, f ) > 0 sous l hypothèse alterative. Zheg a abordé la puissace e se basat sur ue séquece d alteratives locales, c est-à-dire, H 1 : p(y x) = f (y x,θ 0 ) + d l(y,x), où l(.,.) est ue foctio cotiumet différetiable et uiformémet borée, avec l(x,y)dy = 0. Cet auteur vérifie la performace du test e échatillo fii sur les modèles de régressio liéaire et les modèles de régressio cesurée par ue simulatio Mote Carlo de 1000 réplicatios avec des échatillos de taille 50, 100, 200 et 300. La taille du test est calculée sous H 0 e spécifiat u modèle liéaire homoscédastique avec ue erreur ormale cetrée réduite, et la puissace avec quatre hypothèses alteratives, dot les deux premières sot liéaires avec des erreurs suivat respectivemet ue loi logistique et ue Studet à 5 degrés de liberté (à queues plus mices). Les deux derières sot respectivemet quadratique et hétéroscédastique avec des erreurs ormales stadards. Par ailleurs, Zheg soulige que le test de Adrews (1997) est localemet plus puissat que so test. 1.2.2 Test proposé par Fa et al. (2006) Le défaut du test de Zheg (2000) est qu il e cosidère que des variables cotiues das ses produits de oyaux. E outre, il e fourit pas de directives pour l estimatio des feêtres de lissage. Ces maquemets sot pris e compte par le test de Fa et al. (2006). Ils proposet d exploiter les produits de oyaux mixtes développés par Li et Racie (2003). 7

Soit x u vecteur de variables explicatives cotiues et discrètes (x c,x d ), tel que x c pour ue observatio doée est ue matrice q 1 et x d ue matrice r 1. Soit D k le support de x d ik de logueur c k allat de 0 à c k 1. Les valeurs prises par la k-ième composate de la i-ième observatio de x d sot otées xik d. Pour estimer la desité par la méthode de oyau, Fa et al. (2006) utiliset l estimateur de Aitchiso et Aitke (1976) pour la k-ième variable discrète défii par : l(x d ik,xd jk,λ k) = { 1 λk si x d ik = xd jk λ k c k 1 si xd ik xd jk La desité joite de l esemble de variables discrètes est doée par le produit de oyaux : L(x d i,x d j,λ) = r k=1 l(x d ik,xd jk,λ k) = r k=1 ( ) Nik (x) λk (1 λ k ) 1 N ik(x) c k 1 (1.13) (1.14) où N ik (x) est la foctio idicatrice doat 1 si xik d xd jk et 0 sio, λ k est le paramètre de lissage de la k-ième variable discrète, dot les valeurs sot comprises etre 0 et c k 1 c k. Pour les variables cotiues, la foctio oyau utilisée est le oyau d ordre 2 d Epaechikov défii par : w(u) = 3 4 (1 u2 )1 { u 1}. Aisi, l estimateur par oyau de la desité joite des variables cotiues est : W(x c i,x c j,h) = q k=1 ( 1 x c ik x c ) jk w h k h k (1.15) où h k est le paramètre de lissage de la k-ième variable cotiue x c. Par la suite, l estimateur par oyau de la desité joite des variables explicatives est le produit des desités margiales cotiues et discrètes (Fa et al., 2006) : K γ (x i,x j ) = W(x c i,x c j,h) L(x d i,x d j,λ) (1.16) Pour estimer les desités p(y i,x i ) et p 1 (x i ) au poit i, Fa et al. (2006) suggèret d omettre le poit i das l estimatio (estimateur "leave-oe-out"), coduisat à l estimateur : ˆp i (y i,x i ) = 1 1 j=1 j i ˆp 1, i (x i ) = 1 1 I(y i = y j )K γ (x i,x j ) (1.17) j=1 j i K γ (x i,x j ) (1.18) Aisi, l estimateur de lissage du produit de desité f (y i x i,θ)p 1 (x i ), p(y i,x i ) proposé par Fa et al. (2006) est défii par : p(y i,x i ) = 1 1 j=1 j i y D y I(y i = y)k γ (x i,x j ) f (y x j, ˆθ) (1.19) 8

où D y est le support de la variable dépedate y. Lorsque y i = y, l expressio (1.19) deviet doc : p(y i,x i ) = 1 1 K γ (x i,x j ) f (y i x j, ˆθ) (1.20) j=1 j i E remplaçat, les expressios de ˆp(y i,x i ), ˆp(x i ) et p(y i,x i ) das l expressio de I 1 (p, f ), Fa et al. (2006) déduiset l estimateur o lissé de la statistique W,γ : W s,γ = 1 ( 1) i=1 { Kγ (x i,x j ) [ I(yi = y j ) f (y i x j, ˆθ) ]} (1.21) j=1 f (y i x i, ˆθ) j i Ils proposet d estimer les paramètres de lissage par la méthode de validatio croisée par moidres carrés qui a la propriété asymptotique d élimier les variables o pertietes das le modèle. Aisi, sous les coditios de régularité de Hall et al. (2004) liées à la covergece des feêtres de lissage, Fa et al. (2006) motret sous H 0 que la statistique de l expressio (1.21) coverge e loi vers ue loi ormale cetrée réduite :, ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W, s ˆγ d N(0,1) (1.22) ˆV, ˆγ T s où ˆV, ˆγ = 2 ( 1) i=1 j i { Kˆγ (x i,x j ) [ I(yi = y ˆf (y i x i, ˆθ) j ) f (y i x j, ˆθ) ]} 2 est u estimateur coverget de la variace asymptotique de (ĥ 1 ĥ 2...ĥ q ) 1/2 W s, ˆγ. Pour examier la performace du test e échatillo fii, Fa et al. (2006) utilise la statistique o stadardisée W, s ˆγ pour la simulatio Mote Carlo avec 5000 réplicatios pour le calcul de la taille et 2000 réplicatios pour le calcul de la puissace e 1000 bootstraps pour déduire la distributio asymptotique de W s sous H 0. Ils utiliset sous H 0 u PGD biaire caractérisé par ue variable latete qui suit ue loi ormale stadard (probit), qui est testé cotre deux alteratifs, dot les variables latetes sot respectivemet quadratique et hétéroscédastique. Ils obtieet de boes tailles et motret aussi que leur test est plus puissat que le test de Zheg (2000). De même, le test est plus puissat que celui de Adrews (1997) quad il s agit de tester l adéquatio de desités coditioelles paramétriques. 1.2.3 Test proposé par Li et Racie (2013) E échatillo fii, le lissage des variables discrètes apporte u gai d efficacité das l estimatio. Aisi, Li et Racie (2013) profite de cette propriété pour améliorer la performace e échatillo fii de la statistique proposée par Fa et al. (2006). Ils proposet de remplacer l idicatrice de la variable répose par u estimateur lissé selo la méthode de Aitchiso et Aitke (1976). Aisi, pour 9

ue variable dépedate discrète omiale, ils utiliset l estimateur suivat : l(y i,y j,λ 0 ) = (1 λ 0 )I(y i = y j ) + λ 0 c 0 1 I(y i y j ) (1.23) avec λ 0 compris etre 0 et c 0 1 c 0. Ils étedet la procédure du test égalemet aux variables réposes discrètes ordoées e utilisat l estimateur de Wag et va Ryzi (1981) : avec λ 0 compris etre 0 et 1. l(y i,y j,λ 0 ) = (1 λ 0 )I(y i = y j ) + λ y i y j 0 I(y i y j ) (1.24) 2 E itégrat l estimateur lissé de la foctio idicatrice, Li et Racie (2013) dérivet les estimateurs "leave-oe-out" des desités p(y i,x i ), p 1 (x i ), et p(y i,x i ) : ˆp i (y i,x i ) = 1 1 ˆp 1, i (x i ) = 1 1 p i (y i,x i ) = 1 1 j=1 j i j=1 j i j=1 j i l(y i,y j,λ 0 )K γ (x i,x j ) (1.25) K γ (x i,x j ) (1.26) y D y l(y i,y,λ 0 )K γ (x i,x j ) f (y i x j, ˆθ) (1.27) E utilisat les expressios (1.25), (1.26), (1.27), Li et Racie (2013) déduiset les statistiques lissées W,γ s et T,γ s (cotrepartie des équatios (1.21) et (1.22) ) : { [ W,γ s 1 K γ (x i,x j ) = ( 1) f (y i x i, ˆθ) i=1 j=1 j i l(y i,y j,λ 0 ) y D y l(y i,y,λ 0 ) f (y x j, ˆθ) ]} (1.28) T s, ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W s, ˆγ ˆV, ˆγ (1.29) Ils motret que la statistique stadardisée T, s ˆγ coverge e loi vers ue loi ormale cetrée et réduite sous l hypothèse ulle (Li et Racie (2013), Théorème 2.1, voir aussi l aexe)). De plus, sous l hypothèse alterative, T, s ˆγ coverge e probabilité vers ue valeur strictemet positive (Li et Racie (2013), Théorème 2.2, voir aussi l aexe). Par ailleurs, pour obteir la performace du test e échatillo fii, ils utiliset ue procédure bootstrap paramétrique de 1000 réplicatios et 399 bootstraps, sur u modèle probit ordoé dot la variable latete est liéaire sous H 0 et u alteratif siusoïdal. Les résultats de la simulatio réalisée avec des tailles d échatillo 200, 300, 400 révèlet que le test possède ue boe taille qui e varie pas selo le type de statistique utilisée, et que la statistique lissée apporte u gai de puissace par rapport à la statistique de Fa et al. (2006). 10

Chapitre 2 Méthodologie d estimatio Lorsque des tests statistiques sot proposés, il est parfois possible d établir des règles de rejet et d acceptatio de l hypothèse ulle à la fois e grad échatillo et e échatillo de taille fixe. Fa et al. (2006) et Li et Racie (2013) établisset que leurs statistiques de test sot asymptotiquemet ormales sous l hypothèse ulle (sous-sectio 1.2.2, et sous-sectio 1.2.3), mais ils ajoutet que la ormalité de la distributio est aucuemet garatie e échatillo fii. Pour pallier cette déficiece, ils proposet ue procédure bootstrap qui possède de très boes propriétés e échatillo fii : (i) elle idetifie le vrai modèle au même seuil d erreur qu e grad échatillo lorsque le chercheur postule le vrai modèle, (ii) elle rejette avec ue probabilité suffisammet élevée le modèle utilisé par le chercheur lorsque le modèle postulé e correspod pas au vrai processus de géératio de doées (boe puissace du test). Das ce chapitre, ous décrivos e détail les différetes étapes qui permettet de démotrer ces résultats. 2.1 Démarche méthodologique Pour aalyser la taille du test e échatillo fii, ous commeços par choisir le vrai processus de géératio de doées (PGD) sous l hypothèse ulle et ous créos des échatillos de différetes tailles. Comme das les articles origiaux de Fa et al. (2006) et Li et Racie (2013), ous retiedros = {200, 300, 400, 500}. Pour ue taille fixe d échatillo, ous obteos ue première estimatio du vrai PGD à l aide des deux estimateurs paramétrique et o paramétrique par oyau. Nous calculos l écart d ajustemet des valeurs prédites par les deux estimateurs à l aide des statistiques W (voir les équatios (1.21) et (1.28)). De toute évidece, cette statistique est pas utile car il ous maque sa distributio e échatillo fii. Nous tiros doc 399 échatillos bootstrap de l échatillo origial et ous réestimos avec ces échatillos bootstrap les statistiques des deux tests (lissé et o lissé). Ceci ous doe 399 valeurs bootstrap des statistiques des tests, qui permettet de défiir ue desité empirique des statistiques(lissée et o lissée) pour l échatillo iitialemet gééré. Nous comparos fialemet les statistiques (lissée et o lissée) de otre échatillo origial à leurs distributios bootstrap. Si les statistiques échatilloales dépasset les quatiles 90%, 95% ou 99% des distributios 11

bootstrap, l égalité des estimatios paramétrique et o paramétrique sera rejetée au seuil de cofiace correspodat. E répétat cette procédure 1000 fois (toujours pour u échatillo de même taille), ous testos la capacité des statistiques proposées (Fa et al., 2006; Li et Racie, 2013) à détecter le vrai processus de géératio de doées e échatillo fii. L aalyse de la puissace des deux tests se fait e géérat os échatillos de taille fixe avec u processus de géératio de doées alteratif à celui postulé sous H 0. Nous estimos esuite les probabilités coditioelles avec le modèle postulé sous H 0. Le modèle postulé sous H 0 iclut les mêmes variables icluses das le PGD alteratif, mais il se distigue par ue forme foctioelle différete. Par coséquet, l utilisatio d ue forme foctioelle paramétrique erroée (celle postulée sous H 0 ) coduit à des estimatios paramétriques biaisées de la desité coditioelle postulée sous l hypothèse alterative H 1. L estimateur de oyau état flexible, il captera correctemet le processus de géératio de doées postulé sous H 1. La procédure bootstrap décrite ci-dessus devrait alors aboutir à rejeter l hypothèse ulle plus fréquemmet, et à la rejeter avec ue probabilité croissate lorsque la taille de l échatillo croît. La simulatio requiert doc la défiitio d u PDG (ou modèle de desité coditioelle) sous l hypothèse ulle, d u PGD alteratif, d u estimateur paramétrique, d u estimateur o paramétrique et d ue procédure bootstrap adéquate. Das tous les cas, ous utilisos les estimateurs et procédures recommadées par les auteurs des tests et ous les implémetos das R. Das les sous-sectios qui suivet, ous commeços par défiir le vrai PGD utilisé pour calculer la taille des tests de Fa et al. (2006) et de Li et Racie (2013), puis ous idetifios les PGD utilisés pour établir leur puissace das la sectio 2.2. Esuite, ous défiissos les estimateurs paramétriques et les foctios du logiciel R utilisées pour l estimatio. Nous ous touros esuite vers l estimateur o paramétrique et ous précisos les outils pertiets pour les obteir das R. Fialemet, ous rappelos l esemble de la procédure sous la forme d ue liste d étapes. Ce est qu au chapitre 3 que ous rapportos os résultats. 2.2 Processus de géératio des doées sous les hypothèses ulle et alterative Le PGD reteu sous H 0 est similaire à celui proposé par Li et Racie (2013). La seule différece tiet à otre hypothèse de variace uitaire σu 2 = 1, alors que les auteurs précités préfèret σ 2 = 0.25. Par coséquet, ous cosidéros le modèle probabiliste : y i = θ 0 + θ 1 x i + θ 2 z i + u i, (2.1) où x i N(0,σ x = 1), z i est gééré par u processus Beroulli {0,1} tel que P(z i = 1) = 0,5, u i N(0,σ u ), avec θ 0 = 1, θ 1 = 1, θ 2 = 1, et σ u = 1. Le modèle (2.1) géère ue variable latete, que ous reclassifios pour obteir u modèle discret e y i sur le support Dy = {0,1,...,c 1}. La 12

variable dépedate polytomique y est géérée selo les quatiles de la distributio ormale. À titre d illustratio, pour σu 2 = 1 et c = 4, y i pred les valeurs discrètes suivates : 0 si y i < 0,674 1 si 0,674 y i y i = < 0 2 si 0 y i < 0,674 3 si 0,674 y i < + Afi d étedre os simulatios au modèle logistique multiomial simple, ous cosidéros égalemet le PGD de l équatio (2.1) avec ue erreur u i logit(0,σ u ). La variable latete est esuite trasformée selo la même logique vis-à-vis de la distributio logistique. E ce qui cocere la puissace du test, Li et Racie (2013) postulet des PGD différets de l équatio (2.1) e utilisat les mêmes variables explicatives. Ils se cocetret aisi sur ue erreur de spécificatio de la forme foctioelle. Das os simulatios, ous cosidéros l alterative siusoïdale de Li et Racie (2013), mais égalemet les modèles à idice quadratique et hétéroscédastique de Fa et al. (2006). Les trois PGD cosidérés pour tester la puissace sot doc : DGP 1a : y i =θ 0 + θ 1 x i + θ 2 z i + θ 3 si(0,5πx i ) + u i DGP 1b : y i =θ 0 + θ 1 x i + θ 2 z i + θ 3 xi 2 + u i DGP 1c : y i =θ 0 + θ 1 x i + θ 2 z i + x i u i Comme idiqué au début de la sectio 2.1, ous devos maiteat estimer les modèles Φ(x i,z i ;θ) paramétrique P(y i = y x i,z i ) = f (x i,z i ) o paramétrique. La sectio 2.3 décrit les estimateurs utilisés pour les modèles paramétriques alors que la sectio 2.4 décrit l estimatio o paramétrique. 2.3 Estimatio paramétrique de la desité coditioelle Comme idiqué das la sectio 1.2, le calcul des statistiques des tests de Fa et al. (2006) et Li et Racie (2013) écessite l estimatio de la desité coditioelle paramétrique et de feêtres de lissage pour estimer la desité du oyau joite des variables explicatives. Das cette sectio, ous rappelos la procédure d estimatio des desités coditioelles polytomiques par maximum de vraisemblace. 2.3.1 Estimatio de la desité coditioelle paramétrique d u modèle polytomique o ordoé Soit {y i,x i } i=1,.., ue séquece d observatio aléatoire idépedate et idetiquemet distribuée de (y,x). y i est ue variable polytomique dot le support D y = {1,2,...,M}, et x i u vecteur de k variables 13

explicatives. Soit y im la variable latete de y i défiit telle que : y im = x iθ m + u im ; i = 1,..., et m = 1,...,M ; θ m est u vecteur de k paramètres réelles. La variable latete peut être vue comme l utilité de l idividu i de choisir la modalité m de la variable répose. La probabilité que l idividu i choisisse la modalité m coditioellemet aux variables explicatives x i est défiie par : P(y i = m x i ) =P(y im > y i j, j m x i ) =P(x i θ m + u im > x i θ j + u i j, j m x i ) =P(u i j u im < x i θ m x i θ j, j m x i ) =P(u m i j < x i θ m x i θ j, j m x i ) =F im (x i (θ m θ 1 ),...,x i (θ m θ M )) avec u m i j = u i j u im (2.2) La foctio de répartitio F im est celle de l erreur u m i = (u i1 u im,u i2 u im,...,u im u im ). Elle peut être ue loi multiormale si le modèle estimé est u probit multiomial, ou ecore ue loi de Gumbel das le cas logit multiomial. Pour y m i j = x iθ m x i θ j, y im = I(y i = m) et p im (θ) = P(y i = m x i ) la desité coditioelle de y i sachat x i est doée par : f (y i x i,θ) = M m=1 La log vraisemblace à maximiser s écrit sous la forme suivate : L(θ) = 1 M i=1 m=1 La coditio de premier ordre de l équatio (2.4) est doée par : L(θ) θ = 1 M i=1 m=1 p y im jm (θ) (2.3) y im log(p im (θ)) (2.4) 1 p im (θ) y im = 0 (2.5) p im (θ) θ Sous des coditios de régularité (McFadde, 1974; Amemiya, 1985) le problème de maximisatio admet u maximu global uique. Par ailleurs, si les coditios de régularité sot respectées, la distributio limite 1 de l estimateur est : ( avec A 0 = E 2 L(θ) de ˆθ est : θ θ ) ( ) d N(0,A ˆθ 1 θ 0 0 B 0A 1 0 ), (2.6) ( ) et B 0 = E L(θ) L(θ) θ. Par coséquet, sous H θ 0, la distributio asymptotique 1. Pour plus de détails, voir Amemiya (1985); Camero et Trivedi (2005). ˆθ d N(θ 0, A 0 ) (2.7) 14

L estimateur de la desité coditioelle paramétrique est doé par : f (y i x i, ˆθ) = M m=1 p y im jm ( ˆθ) (2.8) Ce modèle est estimé sur R avec la foctio mlogit() du package mlogit proposé par Croissat (2013) 2. L optimisatio de la log vraisemblace peut être améliorée par la foctio mlogit.optim() qui utilise par défaut l algorithme de Newt-Raphso (NR) avec la umérisatio de la matrice hessiee. Cette foctio offre la possibilité de choisir les méthodes d optimisatio alteratives 3. 2.3.2 Estimatio de la desité coditioelle paramétrique d u modèle polytomique ordoé Soit {y i,x i } i=1,.., ue séquece d observatio aléatoire idépedate et idetiquemet distribuée de (y,x). y i est ue variable polytomique dot le support D y = {1,2,...,M} et la variable latete y i = x i θ + u i où θ Θ R k (u sous-esemble compact et covexe) et x i R k telle que (Log, 1997; Agresti, 2002) : 1 si α 0 y i < α 1 2 si α 1 y i < α 2 y i = (2.9)... M si α M 1 y i < α M avec α 0 = et α M = +, u i est idetiquemet distribué avec ue foctio de répartitio F. O a : P(y i = m x i,θ,α m 1,α m ) = P(α m 1 x i θ + u i < α m ) = P(α m 1 x i θ u i < α m x i θ) = F(α m x i θ) F(α m 1 x i θ) avec m D y, F(α 0 x i θ) = 0, P(y i = 1 x i,θ) = F(α 1 x i θ), et P(y i = M x i,θ) = 1 F(α M 1 x i θ) La desité coditioelle est doée par : f (y i x i,θ,α) = M m=1 où p im (θ,α m 1,α m ) = F(α m x i θ) F(α m 1 x i θ). De plus, e posat y im = I(y i = m) et e maximisat la log vraisemblace : L(α,θ) = 1 M i=1 m=1 p I(y i=m) im (θ,α m 1,α m ) (2.10) y im log(p im (θ,α m 1,α m )) (2.11) 2. Estimatio of multiomial logit model i R : mlogit packages. 3. Comme algorithme de Berdt-Hall-Hall-Hausma (BHHH) ou ecore Broyde-Fletcher-Goldfarb-Shao (BFGS). 15

ous obteos les coditios de premier ordre ci-après : L(θ) θ L(α,θ) α m = 1 = 1 M i=1 m=1 [ i=1 p im (θ,α m 1,α m ) θ y im p im (θ,α m 1,α m ) y im p im (θ,α m 1,α m ) = 0 (2.12) ] y i(m+1) f (α m + x i θ) = 0 (2.13) p i(m+1) (θ,α m,α m+1 ) avec m = 1,...,M et F (α m + x i θ) = f (α m + x i θ) la foctio de desité de la distributio de DGP. Sous certaies coditios de régularité 4 (Pratt, 1981), le problème admet u uique maximum global qui respecte la propriété de covergece de l expressio (2.6). Ce qui permet de dériver la foctio de desité coditioelle paramétrique : f (y i x i, ˆθ, ˆα) = M m=1 p y im im ( ˆθ, ˆα m 1, ˆα m ) (2.14) Ce modèle est estimable sur R par le package MASS, avec la foctio polr(), développé par Veables et Ripley (2002). Elle utilise l algorithme de Newto-Raphso et la méthode vcov() du package stats (R Core Team, 2014). Par ailleurs, le cas biaire est estimé par la foctio glm() du package stats. 2.4 Estimatio o paramétrique L estimatio o paramétrique compred l obtetio des feêtres de lissage pour desités coditioelles, joite et margiale de respectivemet (y x), (y,x) et de x puis le calcul des produits de oyaux discrets et cotius. 2.4.1 Estimatio des feêtres de lissage coditioelles par validatio croisée par moidres carrés Il existe de ombreuses méthodes pour obteir les paramètres de lissage optimaux. Les méthodes de validatio croisée proposet de partir de feêtres de lissages cadidates et de miimiser l erreur de prévisio des desités e chaque poit i de l échatillo e utilisat toutes les valeurs de l échatillo, excepté le poit i. Cette approche est qualifiée e aglais de leave-oe-out. Ue fois obteues les estimatios e chaque poit, il coviet de défiir ue métrique qui mesure la qualité d ajustemet de la prévisio o paramétrique. À titre d exemple, la méthode de validatio croisée par maximum de vraisemblace utilise la (log)vraisemblace de la desité estimée comme foctio objectif. Cette méthode a tedace à surlisser les feêtres soit e raiso d ue estimatio o robuste (sesibilité excessive aux poits extrêmes), soit à cause de la présece de variables explicatives o pertietes (Li et Racie, 2007, pp. 161) das le modèle postulé par le chercheur. Par cotre, la méthode de validatio croisée par moidres carrés à l avatage d élimier asymptotiquemet les variables explicatives o pertietes du modèle. 4. Pour d autres développemets voir Amemiya (1985); Log (1997); Agresti (2002). 16

Soit {y i,x i } i=1,.., ue séquece d observatio aléatoire idépedate et idetiquemet distribuée de (y,x), et soit y i, ue variable polytomique dot le support D y = {1,2,...,M}. La méthode de validatio croisée par les moidres carrés se base sur le critère de miimisatio de la somme de carré des erreurs (Itegrated Squared Errors) : CV (h,λ) = 1 l=1 Ĝ l (x l ) [ ˆµ l (x l )] 2 2 l=1 ˆf l (x l,y l ) ˆµ l (x l ) (2.15) où, ˆf l et ˆµ l sot respectivemet les desités joite de (x,y) et margiale de x estimées par "leaveoe-out", et Ĝ l est défii par : Ĝ l (x l ) = 1 2 i=1,i l K(x i,x l )K(x j,x l )L(y i,y j ) (2.16) j=1, j l avec K γ (x i,x j ) = W(xi c,xc j,h) L(xd i,xd j,λ), où K(), W() et L() sot les foctios-oyaux défiies das les équatios (1.13), (1.14) et (1.15). Les paramètres (ĥ, ˆλ) sot les estimateurs des feêtres de lissage. Hall et al. (2004) établisset que l estimateur des paramètres de lissage par la méthode de validatio croisée par les moidres carrés coverge e probabilité vers (h 0,λ 0 ) selo le Lemme 2.1 (Voir Aexe). U algorithme existe sur R pour calculer ces paramètres de lissage. Il est implémeté das la foctio pcdesbw() du package p développé par Hayfield et Racie (2008) 5. 2.4.2 Estimatio o paramétrique de la desité coditioelle Nous avos vu que les statistiques des tests sot estimées par la mesure de divergece I 1 (p, f ) défiie par l expressio (1.7). 6 Les sous-sectios précédetes ot permis d estimer les feêtres de lissage des desités coditioelles et la foctio de desité coditioelle. Il reste à estimer la desité joite (p(y i,x i )) et la desité margiale (p 1 (x i )). Comme ous l avos vu das les sous-sectios 1.2.2 et 1.2.3, Fa et al. (2006) et Li et Racie (2013) proposet d estimer les desités joite p(y i,x i ) et margiale p 1 (x i ) par la méthode de validatio croisée "leave-oe-out" et e utilisat le produit de oyaux cotius et discrets (l expressio (1.13)) pour l estimateur de Aitchiso-Aitke et (1.14) pour oyaux discrets omiaux et l expressio (1.24) méthode de Wag et Va Ryzi pour les oyaux discret ordoés). Aisi e utilisat les feêtres optimales issues de la validatio croisée par moidres carrés et les expressios (1.25), (1.26), et (1.27), l estimateur o paramétrique de la desité coditioelle est doé par : ˆp i (y i x i ) = j=1 j i l(y i,y j, ˆλ 0 )Kˆγ (x i,x j ) j=1 j i 5. Pour ( plus d iformatio { voir la documetatio }) du package. p(yi,x 6. I 1 (p, f ) = E i ) p 1 (x i ) f (y i x i,θ 0 ). f (y i x i,θ 0 ) Kˆγ (x i,x j ) (2.17) 17

où l(y i,y j, ˆλ 0 ) est doé par les expressios (1.23) et (1.24) suivat la ature de la variable répose. E utilisat les expressios (1.21), (1.28), (2.8), et (2.14), ous pouvos défiir la statistique lissée qui est prête à être implémetée sur R par : 7 W, s ˆγ = 1 ( 1) i=1 1 ( 1) i=1 j=1 j i j=1 j i M m=1 Kˆγ (x i,x j ) p y im im ( ˆθ, ˆα m 1, ˆα m ) Kˆγ (x i,x j ) M p y im jm ( ˆθ) m=1 [ [ l(y i,y j, ˆλ 0 ) l(y i,y, ˆλ 0 ) M p y im im ( ˆθ, ˆα m 1, ˆα m ) y D y m=1 ] l(y i,y j, ˆλ 0 ) l(y i,y, ˆλ 0 ) M p y im jm ( ˆθ) y D y m=1 ] o ordoée (2.18) ordoée La desité joite Kˆγ (x i,x j ) est estimée à l aide de la foctio pksum() du package p (Hayfield et Racie, 2008). 2.5 Simulatios Cette sectio décrit la procédure de simulatio utilisée par Li et Racie (2013) pour établir la taille et la puissace de leur test e échatillo fii. Elle présete égalemet de maière u peu plus formelle les calculs de taille et de puissace. 2.5.1 Bootstrap Nous commeços par décrire la procédure bootstrap. Elle est de type paramétrique et elle s effectue das le but de détermier la distributio des statistiques W s et W s simulatio de Mote Carlo. e échatillo fii pour ue seule (a) Géérer la i-ième valeur bootstrap de la variable y à partir de la distributio coditioelle estimée f (y i x i, ˆθ). Soit y b i cette valeur et i = 1,...,. L échatillo {x i,y B i } 1=1 costitue u échatillo bootstrap. Des détails sur l idetificatio de y b serot doés e sectio 3.1.1, au poit (f). (b) Sous l hypothèse ulle, estimer le vecteur de paramètres θ avec l échatillo bootstrap. Nous pouvos appeler l estimateur ˆθ b l estimateur bootstrap de θ. Il est pas écessaire d obteir des paramètres de lissage ˆγ spécifiques à l échatillo bootstrap. E effet, Fa et al. (2006) et Li et Racie (2013) préciset que les paramètres de lissage calculés avec l échatillo Mote Carlo peuvet être réutilisés pour le calcul de la statistique sous bootstrap ; (c) Estimer les statistiques lissées W s,b s,b, ˆγ et o lissées W, ˆγ e remplaçat {y i } i=1,..., par {y b i } i=1,..., et le paramètre ˆθ par θ ˆb. 7. La statistique o lissée se défiit de faço similaire. 18

(d) Répéter (a), (b) et (c) u grad ombre de fois (par exemple B = 399). Ces tirages successifs permettet d approximer la distributio des statistiques lissées W s,b s,b, ˆγ et o lissées W, ˆγ sous l hypothèse ulle pour u échatillo Mote Carlo doé ; (e) Calculer les quatiles d ordre α de W s,b ˆγ et de W s,b ˆγ pour les B tirages bootstrap ; (f) L hypothèse ulle d u modèle paramétrique correctemet spécifié est rejetée par le test bootstrap si les deux statistiques empiriques W, s ˆγ doé sot supérieures aux quatiles d ordre α de, respectivemet, {W s,b, ˆγ }B j=1 2.5.2 Simulatios de Mote Carlo et W s, ˆγ calculées pour l échatillo Mote Carlo s,b et {W, ˆγ }B j=1. Les calculs de la taille et de la puissace écessitet la répétitio de la procédure bootstrap M fois, par exemple M=1000. Calcul de la taille Le calcul de la taille utilise la distributio de la statistique bootstrap obteue e géérat des échatillos bootstrap de taille fixe avec le processus géérateur des doées (PGD) sous H 0. Aisi, à partir d u grad ombre de réalisatios du modèle sous H 0, il est possible de tester le ombre de fois que H 0 est rejetée alors que le modèle paramétrique utilisé pour l estimatio est le vrai modèle. La taille du test bootstrap équivaut à l erreur de première espèce. Soit M simulatios sous H 0 des statistiques lissées W, s ˆγ,i et o lissées W s s,b s,b, ˆγ,i avec i = 1,...,M ; W, ˆγ,i (α) et W, ˆγ,i (α) les quatiles bootstrap d ordre α respectivemet de W s,b s,b, ˆγ,i et o lissées W, ˆγ,i sous H 0. E pratique, la taille de test est défiie (MacKio, 2006; Flachaire, 2005) telle que : Taille(α) = 1 M M i=1 I(W, ˆγ,i > W, b ˆγ,i (α)) (2.19) Il est souvet recommadé de calculer la taille du test e passat par la p-valeur plutôt que par le quatile du seuil critique de la statistique (Flachaire, 2005). La p-valeur se défiit par la distributio (asymptotique, car M est grad) des réalisatios bootstrap sous l hypothèse ulle. p v = P b (W b, ˆγ > W, ˆγ) = 1 F b (W, ˆγ ) (2.20) De l équatio (2.20), ous déduisos la taille du test par l expressio suivate : Calcul de la puissace Taille(α) = P H0 (p v < α) = 1 F H0 (Fb 1 (W, ˆγ )) = 1 M M i=1 I(p v,i α) (2.21) La puissace évalue la capacité d u test à rejeter le modèle postulé par le chercheur lorsque ce modèle est effectivemet erroé. Ici, il s agit de vérifier la puissace des tests de Fa et al. (2006) 19

et Li et Racie (2013) e échatillo fii. La puissace se calcule e géérat das le processus de Mote Carlo sous l hypothèse alterative. Elle correspod à la probabilité de rejeter l hypothèse ulle sachat qu elle est fausse. Soit M simulatios sous H 1 des statistiques lissées W, as ˆγ,i et o lissées W as, ˆγ,i avec i = 1,...,M. E pratique, la puissace est défiie telle que : Puissace(α) = 1 M M i=1 Elle peut être aussi obteue de faço similaire par l expressio (2.21). I(W, a ˆγ,i > W, b ˆγ,i (α)) (2.22) 20

Chapitre 3 Applicatio Ce chapitre s itéresse à l implémetatio des deux tests développés par Fa et al. (2006) et Li et Racie (2013), e preat comme modèle sous l hypothèse H 0 la spécificatio proposée par Li et Racie (2013), et à l iterprétatio des résultats. 3.1 Calcul de la taille et la puissace des tests sur R Nous abordos das cette sectio les procédures de calcul de la taille et de la puissace sur R. 3.1.1 Procédure de calcul de la taille sur R Pour calculer la taille des deux tests, ous ous cotetos de décrire les étapes suivies pour u modèle à répose biaire. L extesio aux modèles polytomiques se fait facilemet. (a) Simuler u échatillo {x i,z i,u i } i=1,.., suivat le modèle H 0 reteu tels que u i N(0,1), x i N(0,1) et z i Beroulli( 1 2 ). La variable latete sous H 0 état défiie par y i = θ 0 +θ 1 x i +θ 2 z i +u i avec θ 0 = 1, θ 1 = 1, θ 2 = 1 et déduire la variable répose y i = 1 {y i >0} ; (b) Estimer les paramètres ˆθ pour l échatillo simulé avec la foctio glm() du package stats ; (c) Prédire la probabilité P(y i = 1 x i,z i, ˆθ) à l aide de la foctio predict.glm() du package stats ; (d) Calculer les feêtres de lissage ( ˆ λ 0, ˆλ,ĥ) des variables y, z et x par la méthode de validatio croisée par moidres carrés avec la foctio pcdesbw() du package p ; (e) Calculer W,i (y,z,x, ˆ λ 0, ˆλ,ĥ, ˆp) selo l expressio (2.18) e utilisat la foctio pksum() du package p pour estimer le desité joite K(x i,z i ) ; (f) Géérer l échatillo bootstrap selo la procédure décrite das la sous-sectio 2.5.1. L échatillo bootstrap est costitué de {y b i,x i} i=1,.., e utilisat la probabilité P(y i = 1 x i,z i, ˆθ). E pratique, o géère u échatillo {e i } i=1 tel que e i U[0,1] puis o ordoe les élémets de chaque vecteur-lige [ e i 1. P(y i = 0 x i,z i, ˆθ) = 1 P(y i = 1 x i,z i, ˆθ). P(y i = 0 x i,z i, ˆθ),1 ] de maière croissate 1. O récupère esuite le rag de 21

e i das le vecteur réordoé 2 et o lui soustrait la valeur 1. La valeur aisi obteue costitue la modalité 0 ou 1 de la ième observatio 3 y b i ; (g) Obteir ˆθ b avec les valeurs {y b i,x i} i=1,.., afi de prédire P(y b i = 1 x i,z i ˆ θ b ) ; (h) calculer W,i,b (y b,z,x ˆ λ 0, ˆ λ 1,ĥ, ˆp b ) ; (i) Calculer la taille selo la formule (2.21). 3.1.2 Procédure de calcul de la puissace sur R Comme décrit das la sous-sectio 2.5.2, le calcul de la puissace se base sur les quatiles de la distributio boostrap des statistiques de test. E preat l exemple du modèle DGP1a de la sectio 2.2, la procédure de calcul de la puissace du test est la suivate : (a) A partir de l échatillo {x i,z i,u i } i=1,..,, calculer la variable latete y i = θ 0 + θ 1 x i + θ 2 z i + θ 3 si(0,5πx i ) + u i et e déduire la variable répose y i = 1 {y i >0} ; (b) Estimer ˆθ avec le modèle postulé sous H 0, (das otre cas, il s agit du modèle (2.1), sectio 2.2) et e déduire la probabilité P Ha (y i = 1 x i,z i, ˆθ) ; (c) Calculer les feêtres de lissage ( ˆ λ 0, ˆλ,ĥ) des variables y, z et x par la méthode de validatio croisée par moidres carrés ; (d) Calculer la statistique W a,i (y,x,z, ˆ λ 0, ˆλ,ĥ, ˆp) ; (e) Calculer la puissace du test à l aide des statistiques bootstraps et de la formule (2.22). 3.2 Résultats et iterprétatio Cette sectio est cosacrée aux résultats liés aux calculs de la taille et de la puissace. Par ailleurs, pour dériver les puissaces et les tailles, ous réalisos 1000 simulatios Mote Carlo et 399 tirages bootstraps avec le modèle de base de Li et Racie (2013). Les calculs sot fodés sur les statistiques o stadardisées W (lissée et o lissée). La simulatio est réalisée sur R. Les tirages bootstrap et le calcul des feêtres de lissage sot parallélisés sur Colosse (Calcul Québec) à l aide des foctios "foreach" et "dopar" des package foreach et dosnow développés par Aalytics et Westo (2014b,a). E procédat aisi, ous réduisos cosidérablemet le temps de calcul des simulatios. Bie etedu, ce temps est foctio du ombre de œuds alloués à la parallélisatio. Nous avos gééralemet utilisé etre 24 et 48 processeurs, selo la taille des échatillos. 3.2.1 Estimatio de la taille du test Comme décrit plus haut, le calcul de la taille est basé sur le PGD doé par l équatio (2.1). Les estimatios sot faites pour des variables dépedates polytomiques ordoées et o ordoées avec 2. Ce rag sera das ce cas, soit 1, soit 2, car la probabilité d obteir u e i de exactemet 0 ou 1 est ifime. 3. Cette approche est celle utilisée par Li et Racie (2013) et elle est particulièremet utile lorsqu elle est adaptée au cas des réposes polytomiques. 22

u ombre de classe c {2,3,4,5} et u ombre d observatios {200,300,400,500}. Par ailleurs, deux types de modèles paramétriques sot estimés à savoir le probit ordoé et le logit multiomial simple 4. D après le tableau 3.1, les résultats de la simulatio motret que les tailles sot relativemet proches de celles attedues avec les statistiques asymptotiques, ce qui révèle que les tests proposés par Fa et al. (2006) et Li et Racie (2013) coservet leurs boes propriétés e échatillo fii : ils e rejettet que raremet l hypothèse ulle de spécificatio correct, lorsque le vrai modèle est utilisé pour établir la probabilité coditioelle e petit échatillo. Par exemple, pour le modèle probit biaire avec =200, les tailles au seuil de 1%, 5% et 10% sot respectivemet 1,8%, 8,0% et 16,5% pour les deux statistiques (lissée et o lissée). U résultat similaire est obteu au iveau du modèle logit biaire. Par ailleurs, quel que soit le type de statistique (lissée ou o lissée), la taille du test e varie presque pas. Ce qui cofirme les résultats de Li et Racie (2013). De plus, la taille des deux tests e s améliore i lorsque croît à ombre égale de modalités, i quad le ombre c de modalités de la variable dépedate augmete e coservat la taille de l échatillo fixe. TABLE 3.1: Taille basée sur le modele H 0 : y i = 1 + x i z i + u i avec M=1000, B=399 et σ u = 1 Probit multiomial ordoé Logit multiomial o ordoé y lissée y o lissée y lissée y o lissée c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.018 0.080 0.165 0.018 0.080 0.165 0.026 0.113 0.174 0.026 0.113 0.174 300 2 0.021 0.085 0.158 0.021 0.085 0.158 0.024 0.087 0.152 0.024 0.087 0.152 400 2 0.015 0.070 0.131 0.015 0.070 0.131 0.017 0.091 0.156 0.017 0.091 0.156 500 2 0.020 0.094 0.164 0.020 0.094 0.164 0.018 0.099 0.174 0.018 0.099 0.174 200 3 0.010 0.078 0.147 0.010 0.079 0.146 0.026 0.108 0.181 0.026 0.108 0.181 300 3 0.019 0.075 0.131 0.019 0.075 0.131 0.039 0.107 0.184 0.039 0.107 0.184 400 3 0.015 0.063 0.127 0.015 0.063 0.127 0.027 0.106 0.197 0.027 0.106 0.197 500 3 0.013 0.066 0.127 0.013 0.066 0.127 0.030 0.116 0.200 0.030 0.116 0.200 200 4 0.018 0.080 0.137 0.020 0.078 0.136 0.030 0.116 0.195 0.030 0.116 0.195 300 4 0.014 0.072 0.130 0.014 0.072 0.130 0.037 0.101 0.194 0.037 0.101 0.194 400 4 0.015 0.062 0.122 0.015 0.062 0.122 0.035 0.129 0.210 0.035 0.129 0.210 500 4 0.017 0.075 0.133 0.017 0.075 0.133 0.037 0.127 0.211 0.037 0.127 0.211 200 5 0.014 0.071 0.142 0.014 0.071 0.143 0.028 0.107 0.181 0.028 0.107 0.181 300 5 0.014 0.057 0.110 0.016 0.057 0.110 0.040 0.122 0.204 0.040 0.122 0.204 400 5 0.010 0.071 0.136 0.010 0.071 0.135 0.032 0.119 0.198 0.032 0.119 0.198 500 5 0.008 0.062 0.121 0.008 0.062 0.121 0.047 0.138 0.229 0.047 0.138 0.229 4. Das l article origial, le ombre de classes de la variable répose est tel que c {2,3,5,7,9}. 23

3.2.2 Estimatio de la puissace du test Le calcul de la puissace est basé sur trois modèles alteratifs proposés par Fa et al. (2006) et Li et Racie (2013) comme idiqué das la sectio 2.1. Das le tableau 3.2, l alterative siusoïdale (H 1a ) coduit à ue puissace miimale de 30% approximativemet pour les deux types de modèles (probit ordoé et logit multiomial simple) et pour la grade majorité des seuils critiques. Plus précisémet, la probabilité de rejeter H 0 au seuil de 1% sachat qu elle est fausse est au miimum de 30%. Cette probabilité augmete à 50% si o accepte d accroitre le risque de se tromper u peu plus souvet, soit au seuil de 10%. Notos que, lorsque l o maitiet la taille d échatillo fixe, la puissace du test e s accroît pas écessairemet avec le ombre de modalités de la variable répose. Comme attedu, la puissace s accroît avec. Pour ce qui est de la puissace selo le type de statistique utilisée (lissée versus o lissée), il y a pas de gai sigificatif de puissace pour la statistique lissée. Même si par edroit ous observos des gais de puissace, ceux-ci restet très faibles (de l ordre de 10 3 ) au regard de l aléa attedu. TABLE 3.2: Puissace basée sur le modele DGP H1a : y i = 1+x i z i +si(0,5πx i )+u i avec M=1000, B=399 et σ u = 1 Probit multiomial ordoé Logit multiomial o ordoé y lissée y o lissée y lissée y o lissée c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.387 0.546 0.616 0.386 0.546 0.616 0.298 0.483 0.575 0.296 0.479 0.573 300 2 0.484 0.628 0.703 0.483 0.628 0.703 0.381 0.590 0.693 0.377 0.590 0.692 400 2 0.599 0.744 0.804 0.600 0.744 0.804 0.494 0.668 0.746 0.494 0.666 0.746 500 2 0.734 0.838 0.873 0.734 0.838 0.873 0.570 0.751 0.837 0.570 0.751 0.835 200 3 0.406 0.583 0.683 0.407 0.582 0.683 0.298 0.486 0.585 0.299 0.483 0.584 300 3 0.585 0.756 0.818 0.584 0.755 0.817 0.437 0.605 0.695 0.431 0.600 0.695 400 3 0.755 0.869 0.902 0.754 0.869 0.902 0.526 0.743 0.814 0.526 0.743 0.814 500 3 0.835 0.926 0.953 0.835 0.925 0.953 0.656 0.822 0.880 0.656 0.821 0.881 200 4 0.415 0.636 0.735 0.413 0.634 0.734 0.313 0.469 0.558 0.312 0.468 0.554 300 4 0.609 0.769 0.828 0.607 0.768 0.828 0.402 0.599 0.692 0.400 0.597 0.692 400 4 0.769 0.886 0.932 0.769 0.885 0.932 0.557 0.723 0.803 0.550 0.721 0.804 500 4 0.866 0.944 0.966 0.866 0.944 0.966 0.634 0.804 0.868 0.633 0.805 0.869 200 5 0.422 0.612 0.727 0.420 0.609 0.727 0.304 0.441 0.517 0.299 0.440 0.528 300 5 0.617 0.786 0.854 0.614 0.786 0.853 0.406 0.586 0.656 0.402 0.585 0.656 400 5 0.784 0.906 0.938 0.783 0.906 0.938 0.530 0.695 0.780 0.530 0.694 0.781 500 5 0.892 0.962 0.976 0.892 0.961 0.976 0.608 0.774 0.861 0.607 0.774 0.859 Pour l hypothèse alterative quadratique H 1b, le tableau 3.3 motre que la puissace du test est supérieure à 90% quel que soit le modèle et le type de statistique utilisé pour tester la spécificatio correcte. Les autres résultats pour ce DGP sot similaires aux résultats obteus sous H 1a. Notos e 24

particulier l absece de gais de puissace e faveur de la statistique lissée. TABLE 3.3: Puissace basée sur le modele DGP H1b : y i = 1 + x i z i + x 2 i + u i avec M=1000, B=399 et σ u = 1 Probit multiomial ordoé Logit multiomial o ordoé y lissée y o lissée y lissée y o lissée c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.934 0.985 0.998 0.934 0.984 0.998 0.836 0.938 0.970 0.834 0.938 0.968 300 2 0.989 0.999 1.000 0.989 0.999 1.000 0.942 0.993 0.998 0.939 0.993 0.998 400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.983 0.997 0.999 0.983 0.997 0.99 500 2 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000 200 3 0.947 0.994 0.997 0.947 0.993 0.997 0.903 0.966 0.983 0.898 0.963 0.983 300 3 0.995 1.000 1.000 0.995 1.000 1.000 0.976 0.998 1.000 0.975 0.997 1.000 400 3 1.000 1.000 1.000 1.000 1.000 1.000 0.996 1.000 1.000 0.996 1.000 1.000 500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 4 0.955 0.993 0.998 0.954 0.991 0.998 0.920 0.974 0.992 0.914 0.973 0.988 300 4 0.996 1.000 1.000 0.995 1.000 1.000 0.989 0.998 0.999 0.988 0.998 0.999 400 4 1.000 1.000 1.000 1.000 1.000 1.000 0.999 1.000 1.000 0.999 1.000 1.000 500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 5 0.965 0.994 0.997 0.964 0.994 0.997 0.911 0.975 0.991 0.902 0.971 0.991 300 5 0.998 1.000 1.000 0.998 1.000 1.000 0.989 1.000 1.000 0.986 0.999 1.000 400 5 1.000 1.000 1.000 1.000 1.000 1.000 0.998 1.000 1.000 0.998 1.000 1.000 500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Les résultats du test de puissace pour l alterative hétéroscédastique sot présetés das le tableau 3.4. O ote les mêmes tedaces que pour les alteratives quadratiques et siusoïdales. La puissace est virtuellemet uitaire lorsque est supérieur à 300 et lorsque c est supérieur à 3. D après os aalyses, les gais de puissace apportés par la statistique lissée sot doc égligeables. Ces résultats cotrastet avec ceux de Li et Racie (2013) qui obtieet systématiquemet des gais de puissace pour la statistique lissée à tous les seuils critiques. Sous l hypothèse d absece d erreur de codage, ces différeces pourraiet être dues à la variace iférieure du terme stochastique du PGD, supérieure das os simulatios e comparaiso à Li et Racie (2013). Ces auteurs utiliset ue variace quatre fois iférieure pour l erreur ormale. Das ce cotexte, os paramètres de lissage pourraiet être sous optimaux comparés à ceux de Li et Racie (2013). Sachat que les variables explicatives de os modèles sot toutes pertietes, ous ous attedos à observer peu de surlissage des feêtres optimales calculées par validatio croisée par les moidres carrés. Le tableau 3.5 doe doc la proportio de paramètres de lissage qui peut être cosidérée comme excessivemet large pour les 1000 simulatios de Mote Carlo, e foctio de la taille de l échatillo et du ombre de modalités de la variable dépedate. Das ce tableau, ous ous cocetros sur le PGD cosidéré 25

TABLE 3.4: Puissace basée sur le modele DGP H1c : y i = 1 + x i z i + x i u i avec M=1000, B=399 et σ u = 1 Probit multiomial ordoé Logit multiomial o ordoé y lissée y o lissée y lissée y o lissée c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 2 0.877 0.951 0.971 0.876 0.951 0.971 0.781 0.913 0.954 0.778 0.909 0.953 300 2 0.982 0.995 0.998 0.982 0.995 0.998 0.938 0.986 0.992 0.935 0.984 0.990 400 2 0.998 1.000 1.000 0.998 1.000 1.000 0.989 0.998 0.999 0.989 0.997 0.999 500 2 0.998 1.000 1.000 0.998 1.000 1.000 0.996 0.998 1.000 0.996 0.998 1.000 200 3 0.993 0.998 0.998 0.993 0.998 0.998 0.996 0.998 0.998 0.995 0.998 0.998 300 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 3 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 4 0.997 0.999 0.999 0.997 0.999 0.999 0.999 1.000 1.000 0.998 1.000 1.00 300 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 4 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 5 0.995 0.998 0.999 0.995 0.997 0.999 1.000 1.000 1.000 1.000 1.000 1.000 300 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 500 5 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 sous H 1a : plus de 15% des feêtres de lissage cotiues (variable x) peuvet être cosidérées comme excessivemet larges 5. Cette proportio peut même être supérieure pour les autres PDG utilisés 6. Le surlissage est pas u problème avec les variables discrètes répose et explicative du modèle car il y virtuellemet pas de surlissage. Cela pourrait vouloir dire que l accroissemet de puissace établi par Li et Racie (2013) pourrait e pas avoir la portée géérale souhaitée das les applicatios pratiques. Si cette explicatio était plausible, ous devrios probablemet costater certaies distorsios de taille et de puissace das os simulatios par rapport à celles de Li et Racie (2013), dues à ue estimatio mois performate du modèle o paramétrique. Or, ce est pas ce que ous costatos. De plus, des simulatios meées 7 avec la variace utilisée par Li et Racie (2013) e ous permettet pas o plus de costater les gais de puissace établis par ces auteurs par rapport à la statistique de Fa et al. (2006). Das otre cas, ous cocluos doc que les gais de puissace apportés par le lissage de la variable répose e cocordet pas avec ceux établis par Li et Racie (2013) et qu ils mériteraiet peut-être d être cofirmés ou ifirmés par d autres simulatios. 5. Le seuil iformel de surlissage du paramètre de lissage est fixé à 0.75 1 q+4 pour la variable cotiu et à 0.75 c 1 c pour la variable discrète. Ces seuils correspodet aux valeurs asymptotiques défiies par le Lemme 2.1. 6. Ces résultats ot pas été reportés ici. 7. Ces résultats sot dispoibles sur demade. 26

TABLE 3.5: Feêtres de lissage coditioelles, DGP H1a : y i = 1 + x i z i + si(0,5πx i ) + u i avec M=1000, u i N(0,1) x z y c Moy Med Seuil Rejet Moy Med Seuil Rejet Moy Med Seuil Rejet 200 2 0.242 0.252 0.310 0.169 0.091 0.073 0.375 0.019 0.001 0.000 0.375 0.000 200 3 0.257 0.263 0.310 0.232 0.100 0.086 0.375 0.010 0.003 0.000 0.500 0.000 200 4 0.270 0.275 0.310 0.293 0.109 0.100 0.375 0.010 0.004 0.000 0.562 0.000 200 5 0.285 0.288 0.310 0.356 0.116 0.105 0.375 0.006 0.005 0.000 0.600 0.000 300 2 0.224 0.230 0.290 0.148 0.064 0.052 0.375 0.005 0.001 0.000 0.375 0.000 300 3 0.238 0.244 0.290 0.197 0.074 0.067 0.375 0.001 0.001 0.000 0.500 0.000 300 4 0.251 0.259 0.290 0.272 0.082 0.075 0.375 0.002 0.002 0.000 0.562 0.000 300 5 0.260 0.267 0.290 0.329 0.088 0.083 0.375 0.001 0.003 0.000 0.600 0.000 400 2 0.213 0.219 0.276 0.158 0.046 0.040 0.375 0.000 0.000 0.000 0.375 0.000 400 3 0.227 0.234 0.276 0.178 0.057 0.052 0.375 0.000 0.000 0.000 0.500 0.000 400 4 0.239 0.246 0.276 0.256 0.064 0.059 0.375 0.000 0.001 0.000 0.562 0.000 400 5 0.249 0.253 0.276 0.330 0.069 0.065 0.375 0.000 0.001 0.000 0.600 0.000 500 2 0.204 0.209 0.266 0.121 0.039 0.035 0.375 0.000 0.000 0.000 0.375 0.000 500 3 0.217 0.220 0.266 0.159 0.047 0.044 0.375 0.000 0.000 0.000 0.500 0.000 500 4 0.229 0.234 0.266 0.227 0.055 0.051 0.375 0.000 0.001 0.000 0.562 0.000 500 5 0.238 0.241 0.266 0.296 0.060 0.057 0.375 0.000 0.001 0.000 0.600 0.000 27

Coclusio L adéquatio etre les formes foctioelles postulées par l écoomiste et les relatios observées das les doées demeure u sujet importat de préoccupatio e recherche appliquée, e particulier quad il s agit de décrire et d extrapoler des choix idividuels. Les estimateurs o paramétriques par oyaux mixtes (cotius et discrets) permettet de tester l adéquatio etre les desités coditioelles postulées et les choix observés. Ces estimateurs fourisset égalemet u modèle flexible utilisable e cas de rejet de la foctio de probabilité postulée. Nos simulatios cofirmet que les tests récemmet proposés par Fa et al. (2006) et Li et Racie (2013) présetet de boes propriétés statistiques e échatillo fii (taille et puissace). Ces tests idetifiet de maière statistiquemet fiable le vrai modèle (boe taille) lorsque ce derier est u logit/probit polytomique ordoé ou o ordoé. Ils rejettet ces mêmes modèles avec ue fréquece élevée (boe puissace) lorsque le chercheur omet des o liéarités ou de l hétéroscédasticité das so modèle. Par cotre, ous avos pas pu cofirmer les gais de puissaces systématiques mis e avat par Li et Racie (2013) par rapport au test de Fa et al. (2006). D après os simulatios, le lissage de la variable dépedate discrète etraîe pas de gais sigificatifs de puissace par rapport à ue situatio ou seul la variable explicative discrète est lissée. Nous avos doc trouvé aucue raiso de privilégier l u des deux tests e échatillo fii. Les deux tests peuvet être relativemet aisémet programmés sur R si l o emploie les foctios fouries das le package p. Nous recommados l utilisatio de feêtres de lissage optimales par la méthode de validatio croisée par moidres carrés, comme suggéré par Fa et al. (2006) et Li et Racie (2013). Pour des échatillos de grade taille (> 1000 observatios) et avec plusieurs variables explicatives, la librairie prmpi de R permet de paralléliser aisémet le calcul de ces feêtres das u eviroemet Ope MPI. Das la pratique, il est pas rare que la validatio croisée par les moidres carrés coduise à des feêtres optimales sous-lissées. Le sous-lissage peut se révéler frustrat lorsqu il affecte ue variable explicative cotiue. Le chercheur devra alors recourir à des feêtres de lissage sous-optimales selo ce critère pour établir ue relatio lisse etre la variable explicative et la probabilité coditioelle. Il serait doc itéressat de répéter os simulatios pour vérifier la performace des tests avec différetes méthodes de sélectio des paramètres de lissage. Ue autre extesio utile serait d explorer la taille et la puissace du test lorsque l o accroît le ombre de variables explicatives cotiues. Cela permettrait de quatifier l impact du curse of dimetioality (trappe de la dimesio) 29

sur la performace du test. E effet, das la pratique, la probabilité coditioelle implique de plusieurs facteurs explicatifs discrets et cotius. 30

Aexe A Aexes A.1 Lemme et théorèmes utilisés Lemme 2.1 (Li et Racie, 2013) Sous les coditios de régularité doées par Hall et al. (2004) 1 /(q + 4) p ĥs h 0 s s = 1,...,q, 2 /(q + 4) ˆλs p λ 0 s s = 0,...,r, où h 0 s > 0,λ 0 s > 0 sot des costates fies, r + 1 le ombre de variables discrètes y compris la variable dépedate, q le ombre de variables explicatives cotiues. Théorème 2.1 (Li et Racie, 2013) 1 Supposos que y est ue variable discrète o ordoée. Sous les coditios de régularité doées par Fa et al. (2006) et e défiissat T s (i) Sous H 0, T s N(0,1) ;, ˆγ d ˆV, ˆγ, alors :, ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W, s ˆγ (ii) Sous H 1, Pr[T s, ˆγ > B ] 1, pour toute suite de B = o((h 1...h q )) 1/2. Théorème 2.2 (Li et Racie, 2013) Supposos que y est ue variable discrète ordoée 2. Sous les coditios de régularité doées par Fa et al. (2006) et e défiissat T, s ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W, s ˆγ, alors : ˆV, ˆγ (i) Sous H 0, T s N(0,1) ;, ˆγ d (ii) Sous H 1, Pr[T s, ˆγ > B ] 1, pour toute suite de B = o((h 1...h q )) 1/2. 1. Pour la démostratio de ces théorèmes voir Li et Racie (2013). 2. La différece etre le Théorème 2.1 et 2.2 réside das le calcul des feêtres de lissage optimales, (1.17) et (1.18). 31

Théorème 2.3 (Li et Racie, 2013) pour la validatio asymptotique du bootstrap Supposos que y est ue variable discrète o ordoée. Supposos les coditios du théorème 2.1 sot vérifiées à l exceptio de l hypothèse ulle, et e défiissat T s défiie comme V, ˆγ sauf que y i est remplacé par y i alors sup P(T s z {x i,y i } i=1) Φ(z) = o p (1) z R avec Φ(.) la foctio de répartitio de la loi ormale stadard., ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W, s ˆγ ˆV, ˆγ où V, ˆγ est Théorème 2.4 (Li et Racie, 2013) pour la validatio asymptotique du bootstrap Supposos que y est ue variable discrète ordoée. Supposos les coditios du théorème 2.2 sot vérifiées à l exceptio de l hypothèse ulle, et e défiissat T s comme V, ˆγ sauf que y i est remplacer par y i alors, ˆγ = (ĥ 1 ĥ 2...ĥ q ) 1/2 W, s ˆγ ˆV, ˆγ sup P(T s z {x i,y i } i=1) Φ(z) = o p (1) z R avec Φ(.) la foctio de répartitio de la loi ormale stadard. où V, ˆγ est défiie 32

Bibliographie Agresti, A. (2002). Categorical Data Aalysis. Joh Wiley ad Sos, Ic., Hoboke, New Jersey, secod editio. Aitchiso, J. ad Aitke, C. G. G. (1976). Multivariate biary discrimiatio by the kerel method. Biometrika, 63(3) :413 420. Amemiya, T. (1985). Advaced Ecoometrics. Library of Cogress Catalogig i Publicatio Data. Aalytics, R. ad Westo, S. (2014a). dosnow : Foreach parallel adaptor for the sow package. R package versio 1.0.12. Aalytics, R. ad Westo, S. (2014b). foreach : Foreach loopig costruct for R. R package versio 1.4.2. Adrews, D. W. K. (1988a). Chi-square diagostic tests for ecoometric models : Itroductio ad applicatios. Joural of Ecoometrics, 37(1) :135 156. Adrews, D. W. K. (1988b). Chi-square diagostic tests for ecoometric models : Theory. Ecoometrica, 56(6) :1419 1453. Adrews, D. W. K. (1997). A coditioal kolmogorov test. Ecoometrica, 65(5) :1097 1128. Blevis, J. R. ad Kha, S. (2013). Local lls estimatio of semi-parametric biary choice models. Ecoometrics Joural, 16(2) :135 160. Camero, A. C. ad Trivedi, P. K. (2005). Microecoometrics. Cambridge Uiv. Press, Cambridge [u.a.]. Cragg, J. G. (1971). Some statistical models for limited depedet variables with applicatio to the demad for durable goods. Ecoometrica, 39(5) :829 844. Croissat, Y. (2013). mlogit : multiomial logit model. R package versio 0.2-4. Fa, Y., Li, Q., ad Mi, I. (2006). A oparametric bootstrap test of coditioal distributios. Ecoometric Theory, 22(04) :587 613. 33

Flachaire, E. (2005). Propriétés e échatillo fii des tests robustes à l hétéroscédasticité de forme icoue. Uiversité Paris1 Pathéo-Sorboe (Post-Prit ad Workig Papers) halshs-00175905, HAL. Hall, P., Racie, J., ad Li, Q. (2004). Cross-validatio ad the estimatio of coditioal probability desities. Joural of the America Statistical Associatio, 99 :1015 1026. Hausma, J. ad McFadde, D. (1984). Specificatio tests for the multiomial logit model. Ecoometrica, 52(5) :1219 1240. Hausma, J. A. (1978). Specificatio tests i ecoometrics. Ecoometrica, 46(6) :1251 1271. Hayfield, T. ad Racie, J. S. (2008). Noparametric ecoometrics : The p package. Joural of Statistical Software, 27(5). Heckma, J. J. (1984). The χ 2 Goodess of Fit Statistic for Models with Parameters Estimated from Microdata. Ecoometrica, 52(6) :1543 47. Herbrich, R. (2001). Learig Kerel Classifiers : Theory ad Algorithms. The MIT Press. Horowitz, J. L. (1992). A smoothed maximum score estimator for the biary respose model. Ecoometrica, 60(3) :505 531. Horowitz, J. L. ad Louviere, J. J. (1993). Testig predicted choices agaist observatios i probabilistic discrete-choice models. Marketig Sciece, 12(3) :270 279. Klei, R. W. ad Spady, R. H. (1993). A efficiet semiparametric estimator for biary respose models. Ecoometrica, 61(2) :387 421. Kullback, S. ad Leibler, R. A. (1951). O iformatio ad sufficiecy. A. Math. Statist., 22(1) :79 86. Li, C. ad Racie, J. S. (2013). A smooth oparametric coditioal desity test for categorical resposes. Ecoometric Theory, 29(03) :629 641. Li, Q. ad Racie, J. (2003). Noparametric estimatio of distributios with categorical ad cotiuous data. Joural of Multivariate Aalysis, 86(2) :266 292. Li, Q. ad Racie, J. S. (2007). Noparametric Ecoometrics : Theory ad Practice. Priceto Uiversity Press, Priceto. Li, Q. ad Racie, J. S. (2008). Noparametric estimatio of coditioal cdf ad quatile fuctios with mixed categorical ad cotiuous data. Joural of Busiess & Ecoomic Statistics, 26 :423 434. Log, J. S. (1997). Regressio Models for Categorical ad Limited Depedet Variables. SAGE Publicatios, Iteratioal Educatioal ad Professioal Publisher. 34

MacKio, J. G. (2006). Bootstrap methods i ecoometrics. Workig Papers 1028, Quee s Uiversity, Departmet of Ecoomics. Maddala, G. (1983). Limited Depedet ad Qualitative Variables i Ecoometrics. Cambridge Uiversity Press. Maski, C. F. (1975). Maximum score estimatio of the stochastic utility model. Joural of Ecoometrics, 3 :205 228. Matzki, R. L. (1992). Noparametric ad distributio-free estimatio of the biary threshold crossig ad the biary choice models. Ecoometrica, 60(2) :239 270. Matzki, R. L. (1993). Noparametric idetificatio ad estimatio of polychotomous choice models. Joural of Ecoometrics, 58(1-2) :137 168. McFadde, D. (1974). The measuremet of urba travel demad. Joural of Public Ecoomics, 3(4) :303 328. Pratt, J. W. (1981). Cocavity of log likelihood. America Statistical Associatio, 76(376) :103 106. R Core Team (2014). R : A Laguage ad Eviromet for Statistical Computig. R Foudatio for Statistical Computig, Viea, Austria. Racie, J., Li, Q., ad Zhu, X. (2004). Kerel estimatio of multivariate coditioal distributios. Aals of Ecoomics ad Fiace, 5(2) :211 235. Silverma, B. W. (1986). Desity Estimatio for Statistics ad Data Aalysis. Chapma & Hall, Lodo. Veables, W. N. ad Ripley, B. D. (2002). Moder Applied Statistics with S. Spriger, New York, fourth editio. ISBN 0-387-95457-0. Wag, M.-C. ad va Ryzi, J. (1981). A class of smooth estimators for discrete distributios. Biometrika, 68(1) :301 309. Wooldridge, J. M. (1992). A test for fuctioal form agaist oparametric alteratives. Ecoometric Theory, 8(04) :452 475. Zheg, J. X. (2000). A Cosistet Test Of Coditioal Parametric Distributios. Ecoometric Theory, 16(05) :667 691. 35