Econométrie des Variables Qualitatives Emmanuel Duguet Version 5 2008
1 Les variables qualitatives explicatives 6 11 Modèlesanstermeconstant 6 12 Modèleavecuntermeconstant 10 13 Modèleavecvariablesexplicatives 11 14 Modèleavecproduitscroisés 12 141 Casdichotomique 12 142 Caspolytomique 13 143 Casdichotomique 14 2 Les variables qualitatives expliquées 16 21 Variablesdichotomiques 16 22 Variablespolytomiquesordonnées 18 23 Variablesdecomptage 19 24 Variablescensuréesoutronquées 21 3 Le maximum de vraisemblance 22 31 Définitionsetpropriétés 22 32 Estimation 30 33 Lesmoindrescarrésordinaires 34 4 Les algorithmes d optimisation 38 41 Présentationdesalgorithmes 38 42 Lesméthodesdegradient 39 421 AlgorithmedeNewton-Raphson 40 422 Algorithme de Berndt-Hall-Hall-Hausman 41 423 Algorithmeduscore 42 424 AlgorithmedeLevenberg-Marquardt 42 43 Méthodologiedeprogrammation 43 5 Les variables dichotomiques 45 51 Casgénéral 45 52 LemodèleLogit 48 2
3 53 LemodèleProbit(ouNormit) 50 54 Interprétationetcomparaisondescoefficients 52 541 LemodèleProbit 52 542 LemodèleLogit 53 543 Comparaison des coefficients des modèles Logit et Probit 54 55 Lesaidesàl interprétation 54 551 Variablesexplicativesbinaires 55 552 Variablesexplicativesquantitatives 57 56 Application : la participation des femmes au marché du travail 58 6 Les variables polytomiques 64 61 Casgénéral 64 62 Lesvariablesordonnées 66 621 Casgénéral 66 622 LemodèleProbitordonné 67 63 Lesvariablesnonordonnées 69 631 Casgénéral 69 632 Lemodèlelogistiquemultinomial 69 7 Le pseudo maximum de vraisemblance 73 71 Lepseudomaximumdevraisemblanceàl ordre1 73 711 Lafamilleexponentiellelinéaireàl ordre1 73 712 Estimation 77 713 Matrice de covariance robuste à l hétéroscédasticité deformeinconnue 80 72 Le pseudo maximum de vraisemblance quasi généralisé 82 721 La famille exponentielle quasi-généralisée 82 722 Estimation 83 723 Lesmoindrescarréspondérés 83 8 Les variables entières 85 81 LemodèledePoisson 85 811 Introduction 85 812 Estimation 87 82 Lemodèlebinomialnégatif 89 821 Estimationparlemaximumdevraisemblance 90 822 Estimation par le pseudo maximum de vraisemblancequasigénéralisé 92 83 Lemodèleavecdécision 95 84 Lemodèleavecsaut 96
4 9 Les variables de durée 98 91 Terminologie 99 92 Loisusuelles 101 921 Laloiexponentielle 101 922 LaloideWeibull 102 923 LaloiGammagénéralisée 104 924 Laloilog-normale 105 93 Modélisationenlogarithmes 107 931 Rappels 108 932 ModèleexponentieletloideGumbel 108 933 Modèleexponentieletloiexponentielle 110 934 ModèledeWeibull 111 935 ModèleGamma 111 936 ModèleGammagénéralisé 112 937 Modèlelog-normal 113 94 Calculdesmoments 114 941 Fonctiongénératricedesmoments 114 942 Momentsdesloisusuelles 115 943 Résumé 123 95 Introductiondesvariablesexplicatives 124 951 Modèlesàhasardsproportionnels 124 952 Lemodèleexponentiel 125 96 Ecrituredelavraisemblance 126 961 Modèleexponentiel 126 962 ModèledeWeibull 128 963 Modèlelog-normal 129 964 Généralisation 130 10 Les variables tronquées 132 101 Lemodèletronqué 132 102 LemodèleTobit 135 1021 Estimation 135 1022 Valeurinitiale 137 1023 Retourauxparamètresstructurels 138 103 LemodèleTobitgénéralisé 138 1031 Définition 138 1032 Estimation 139 1033 Valeurinitiale 141 1034 Améliorationdel estimation 141 1035 Programmation 142 11 Estimation de modèles à plusieurs équations 144 111 Estimationdelaformeréduite 144 112 Estimationdelaformestructurelle 146
5 A Moments empiriques et moments théoriques 149 A1 Momentsempiriquesdesvecteurs 149 A11 Moyennearithmétique 149 A12 Varianceempirique 150 A13 Ecart-typeempirique 150 A14 Covarianceempirique 151 A15 Corrélationempirique 152 A2 Momentsempiriquesdesmatrices 152 A21 Moyennearithmétique 152 A22 Matricedecovarianceempirique 152 A3 Convergenceenprobabilité 156 A4 InégalitédeBienaymé-Chebichev 157 A5 Laloifaibledesgrandsnombres 159 A6 Théorèmedelalimitecentrale 161 B Algèbre linéaire 162 B1 Calculmatriciel 162 B2 Matricesdéfiniespositives 163 B3 ProduitsdeKronecker 164 C La loi normale 166 C1 Loinormaleunivariéetronquée 167 C2 Loinormalebivariée 168 C3 Loinormaleconditionnelle 168 C4 Loinormalebivariéetronquée 170 D Simplification du calcul des dérivées 171
CHAPITRE 1 Les variables qualitatives explicatives Les variables qualitatives explicatives sont très nombreuses lorsque l on étudielesthèmesdel économiedutravailoudel innovation Lebutde cette section est d exposer l interprétation des coefficients de ces variables danslecasdumodèlelinéairecethèmes étendauxcasoùlavariable expliquée est qualitative Une première utilisation, très répandue, des variables qualitatives consiste à les utiliser sous forme d indicatrices dans une régression linéaire Elles servent à indiquer des effets fixes pour indiquer une appartenance à un groupe en général (eg, région, industrie, catégorie socio professionnelle, niveau de diplôme) Les coefficients de ces variables qualitatives ne s interprétent plus comme des dérivées par rapport aux variables explicatives, car les dérivées n existent plus, mais comme un écart moyen par rapport à une modalité de référence Une seconde utilisation de ces variables qualitatives consiste à découper une variable continue en intervalles puis à examiner la forme de la relation qu elle entretient avec la variable expliquée Il s agit ici d une approximation par intervalle d une fonction inconnue 11 Modèle sans terme constant Nous allons prendre comme exemple introductif une variable qualitative polytomique possédant p modalités On considère un échantillon de N individus; sans perte de généralité, on suppose que chaque individu appartient à un seul groupe et il y a p groupes différents 1 Pour sim- 1 Danslecasoudesinvididusappartiennentàplusieursgroupesdanslesdonnéesde départ, il est possible de redéfinir la variable qualitative de sorte que tous les individus 6
7 plifier l analyse, on a défini ces groupes de manière à ce qu ils soient disjoints OnnoteG j l ensembledesindicesdesindividusdugroupej, avec j =1,,p Onremarque que j=p j=1 G j ={1,,N} Onconsidère l estimation d un modèle linéaire de la forme suivante: y i = p b j D ji +u i, j=1 E(u i )=0, E ( u 2 i) =σ 2 u, E(u i u j )=0 i j,,,n où y i est la variable expliquée, u i la perturbation du modèle et les variablesd ji sontdesvariablesqualitativesdichotomiquesdéfiniespar: { 1 sii Gj D ji =,,N 0 sii / G j La modélisation de base consiste donc à remplacer la variable qualitatived appartenanceàungroupeparpvariablesdichotomiques(d 1i,,D pi ) définiesparchacunedesesmodalitésj {1,,p} Onremarquelespropriétés suivantes des variables dichotomiques, qui montrent que le codage binaire{0,1}estlepluspertinent: 1 D 2 ji =D jipuisque0 2 =0 et 1 2 =1; 2 D ji D ki =0 j k,carunindividuinepeutpasapparteniràdeux groupesàlafois; 3 N D ji= i/ G j 0+ i G j 1=N j,lenombred individusprésents danslegroupej; 4 1/N N D ji=n j /N,lafractiondesindividusdugroupej dans la population totale Dans le cas des variables dichotomiques, la moyenne arithmétique sert donc à calculer des pourcentages En utilisant les propriétés de la perturbation, on voit que: E(y i D)=b j sii G j, ainsi les coefficients de régression s interprétent comme les espérances conditionnelles de la variable expliquée dans le groupe j Ce n est pas le cas des variables explicatives quantitatives On peut également interpréter la différence de deux coefficients comme la différence des espérances conditionnelles entre deux groupes: appartiennent à un seul groupe b j b k =E(y i i G j ) E(y i i G k )
8 L estimation est facilitée en écrivant le modèle individu par individu Onpose: D i =(D 1i,,D ji,,d pi ),,,N (1,p) etl onécritlevecteurdesparamètresencolonne: b 1 b= On obtient donc le modèle linéaire suivant: b p y i =D i b+u i,,,n L estimateur des moindres carrés ordinaires de b est donc défini par: ( N ) 1 N b= D id i D i y i Lamatrice N D i D iestdiagonaleetdonnelesnombresd observations danschaquegroupeeneffet,enutilisantlespropriétés1et2: D id i (p,p) = D 1i D ji D pi (D i1,,d ij,,d ip ) = = D 2 1i D 1i D ji D 1i D pi D 1i D ji Dji 2 D ji D pi D pi D 1i D pi D ji Dpi 2 D 1i 0 0 0 D ji 0 0 0 D pi
9 en conséquence, en utilisant la propriété 3: N D 1i 0 0 D i D i= 0 N D ji 0 N 0 0 D pi = N 1 0 0 0 N j 0 0 0 N p, cequiimplique: ( N 1 D i i) D = 1/N 1 0 0 0 1/N j 0 0 0 1/N p La seconde partie de l estimateur des moindres carrés ordinaires est égaleà: N D 1iy i i/ G 1 0 y i + i G 1 1 y i D iy i = N D jiy i = i/ G j 0 y i + i G j 1 y i N D piy i i/ G p 0 y i + i G p 1 y i Dans l ensemble on obtient donc les moyennes arithmétiques des p groupes: 1/N 1 i G 1 y i y 1 1/N j i G j y i b= 1/N p i G p y i = y j y p
10 12 Modèle avec un terme constant Ici il est inutile de refaire les calculs En effet, les moindres carrés ordinaires reviennent à faire une projection orthogonale du vecteur des observations de la variable expliquée y sur le sous-espace vectoriel engendré par les vecteurs correspondants des variables explicatives, noté Im(D 1,,D p ) Cesvecteurssontlinéairementindépendantsetforment donc une base de cet espace vectoriel Pour trouver les coefficients du modèle avec terme constant, il faut avoir en tête les deux éléments suivants: 1 Le terme constant, noté e (N,1) est égal à la somme des vecteurs D j :e= p j=1 D j 2 La décomposition d un vecteur y en une base est unique, et les coefficients des moindres carrés ordinaires sont les coordonnées du vecteurydanslabase(d 1,,D p ) La première propriété implique que, dans un modèle avec terme constant,ilfautretirerundesvecteurd j delalistedesvariablesexplicatives pour éviter une multicolinéarité parfaite La seconde propriété permet de calculerlesnouveauxestimateursdesmcoenfonctionde bsionretire lamodalitékdelalistedesgroupes,onestimelemodèle: y=c 0 e+c 1 D 1 ++c k 1 D k 1 +c k+1 D k+1 ++c p D p +u, après estimation de ce modèle par les moindres carrés ordinaires, on obtient une prévision: ŷ=ĉ 0 e+ĉ 1 D 1 ++ĉ k 1 D k 1 +ĉ k+1 D k+1 ++ĉ p D p, en remplaçant la constante par sa valeur, e = p j=1 D j, on obtient la formulation équivalente: ŷ=ĉ 0 (D 1 ++D p )+ĉ 1 D 1 ++ĉ k 1 D k 1 +ĉ k+1 D k+1 ++ĉ p D p =(ĉ 0 +ĉ 1 )D 1 ++(ĉ 0 +ĉ k 1 )D k 1 +ĉ 0 D k +(ĉ 0 +ĉ k+1 )D k+1 + +(ĉ 0 +ĉ p )D p Laprévisiondumodèlededépartestégaleà: ŷ= b 1 D 1 ++ b k 1 D k 1 + b k D k + b k+1 D k+1 ++ b p D p,
11 en utilisant l unicité de la décomposition en une base, on obtient: ĉ 0 +ĉ 1 = b 1 ĉ 0 = b k ĉ 1 = b 1 b k ĉ 0 +ĉ k 1 = b k 1 ĉ 0 = b k ĉ k 1 = b k 1 b k ĉ 0 +ĉ k+1 = b k+1 ĉ k+1 = b k+1 b k ĉ 0 +ĉ p = b p ĉ p = b p b k La constante du nouveau modèle représente l effet de l indicatrice qui a été enlevée de la régression, et les autres coefficients l écart entre le coefficient de l indicatrice courante et de l indicatrice enlevée Ainsi l indicatrice qui a été enlevée correspond à la modalité de référence C est la raison pour laquelle il faut indiquer explicitement les modalités des indicatrices enlevées dans les tableaux de régression, elle sont indispensables à l interprétation Remarque11 LetestdeFichersurlemodèleavectermeconstantrevient à tester ici l égalité jointe des moyennes entre tous les groupes En effet, le test correspond à l hypothèse nulle H 0 : c 1 = = c p = 0 H 0 : E(y j ) E(y k ) = 0 j k On notera qu on ne teste pas la nullité du termeconstantdumodèlec 0 Remarque 12 On peut utiliser un simple test de Student pour tester l égalité des moyennes entre un groupe donné, k, et un autre groupe Il suffit de mettre un terme constant dans le modèle et d enlever l indicatrice du groupe dont on tester l égalité de la moyenne avec les autres groupes 13 Modèle avec variables explicatives On introduit maintenant un autre jeu de variables, dont la matrice est notéex,danslemodèlededépart: onaclairement: y i = X i a + D i b +u i, (m,1) (p,1) (1,m) (1,p) E(y i X i,d ji =1)=X i a+b j, desortequelescoefficientsb j représententlesécartsdemoyenneconditionnelle entre deux groupes: E(y i X i,d ji =1) E(y i X i,d ki =1)=(X i a+b j ) (X i a+b k ) =b j b k
12 Les résultats de la section précédente sont donc toujours valables Le terme constant représente le coefficient de l indicatrice qui a été retirée et les coefficients des autres indicatrices doivent s interpréter en écart au coefficient de l indicatrice retirée 14 Modèle avec produits croisés 141 Cas dichotomique On peut introduire les produits croisés de manière naturelle à partir du modèle suivant Considérons que des individus bénéficient d une mesure d aide que nous supposerons affectée au hasard(ie, sans biais de sélection) Onnote: { 1 sil individuiestaidé D i = 0 sinon Une fois cette mesure attribuée, on examine une variable de performance, liée aux objectifs de l aide, que l on note y i En théorie, pour chaque individu, cette mesure peut prendre deux valeurs: y 0i :lavaleurdey i sil individuin estpasaidé; y 1i :lavaleurdey i sil individuiestaidé Cequel onchercheàévaluerestl effetdelamesure,noté: α=e(y 1i y 0i ), qui représente la moyenne des variations de performance associée à la mesure, prise sur l ensemble des individus On peut aller plus loin, en introduisant un modèle explicatif des performances potentielles des individus: y 0i =a 0 +X i c 0 +u 0i y 1i =a 1 +X i c 1 +u 1i, oùx i représentelesdéterminantsdelaperformancelescoefficientsa 1 et a 0 représententlesniveauxmoyensdeperformancesenx i =0,selonque l on est aidé ou non Pour obtenir un modèle empiriquement estimable, il fautl écrireenfonctiondequantitésobservablesor,onn observequey 0i lorsqued i =0etseulementy 1i sid i =1 Laseulevariableobservable est: { y1i sit y i =T i y 1i +(1 T i )y 0i = i =1 y 0i sit i =0
13 En conséquence, le modèle économétrique s écrit: y i =T i (a 1 +X i c 1 +u 1i )+(1 T i )(a 0 +X i c 0 +u 0i ) =a 0 +X i c 0 +T i (a 1 a 0 ) +T i X i (c 1 c 0 ) +u i, } {{ } } {{ } a c oùaestlecoefficientdel aideetclevecteurdescoefficientsdesvariables explicative La perturbation est égale à: u i =T i u 1i +(1 T i )u 0i Ce modèle fait apparaître un produit croisé entre la variable d aide T i etlesvariablesexplicativesdelaperformancex i L estimationdece modèle permet d évaluer l effet de la mesure car: δ=e(y 1i y 0i ) =E(a 1 a 0 +X(c 1 c 0 )) =a 1 a 0 +E(X)(c 1 c 0 ) =a+e(x)c quel onpeutestimersansbiaisetdemanièreconvergentepar: δ=â+x ĉ, on remarque que lorsque les variables X sont centrées avant de prendre les produits croisés ( X=0 ), l estimateur δ est obtenu directement par le coefficient de la variable indicatrice d aide â dans la régression avec produits croisés On remarque également que ce modèle suppose qu il existe une hétéroscédasticité par bloc car: { V(u0i ) sit V(u i )= i =0 V(u 1i ) sit i =1 etdanslecasoùlamesured aideaffecteégalementlavariance,v(u 0i ) V(u 1i ),ilfautestimerlemodèleparlesmoindrescarréspondérés 142 Cas polytomique On introduit maintenant, en plus des variables explicatives et des indicatrices, les produits croisés des indicatrices et des variables explicatives Onadonc: y i =D i b+(x i D i )c+u i, avec: c 1 c = (mp,1) c j c p,
14 letermeenx i aétéretirépuisque p j=1 X id ji =X i L espéranceconditionnelle dans le groupe j devient maintenant: E(y i X i,d ji =1)=X i c j +b j, d oùladifférenceentrelesgroupesjetk: γ i E(y i X i,d ji =1) E(y i X i,d ki =1) =(X i c j +b j ) (X i c k +b k ) =X i (c j c k )+b j b k, l effet varie en fonction des caractéristisques de l individu i au sein du groupe j Ce modèle autorise donc une hétérogénéité individuelle au sein dechaquegroupe L effetmoyenestégalà: γ= 1 N γ i =X(c j c k )+b j b k On peut toutefois estimer directement la partie de l écart entre les groupesquinedépendpasdesvariablesexplicativesdumodèle,b j b k, enutilisantlaméthodesuivanteoncentrelavariablexavantdefaireles produits croisés; avec cette convention X = 0 et on obtient directement ladifférenceentrelesgroupesparb j b k Cettedernièrequantitémesure l écartdemoyenneentrelesgroupesunefoisquel onaéliminél effetdes variables de X sur ces moyennes 143 Cas dichotomique On considère une variable dichotomique T i {0,1} dont on veut connaître l effet sur y i La variable T i peut être une caractéristique individuelle ou une mesure de politique économique individuelle La modalité T i = 1 correspond aux individus qui ont bénéficié de la mesure La variable y i est alors une mesure de performance choisie en fonction de l objectif de politique économique Les variables explicatives de la performancex i sontcentréesavantdeprendrelesproduitscroisés,desorte quel onax=0lemodèle,facilementgénéralisable,estdonnépar: E(y i X i,t i )=d+x i a+t i b+(x i T i )c 1, (11) oùdestletermeconstantdumodèle Onobtientlesespérancesuivantes: E(y i X i,t i =0)=d+X i a, E(y i X i,t i =1)=d+b+X i (a+c 1 ),
15 d oùl effetdet i sury i : γ i =E(y i X i,t i =1) E(y i X i,t i =0)=b+X i c 1, après estimation par les moindres carrés ordinaires on obtient: γ i = b+x i ĉ 1, d oùl effetmoyendet i surl échantillon: ( γ= 1 1 γ i = b+ X i )ĉ 1 = b N N Quandoncentreles variablesexplicativesx i, onpeutdoncobtenir directementl effetmoyendet i parsoncoefficientdanslarégression(11)
CHAPITRE 2 Les variables qualitatives expliquées Les bases de données microéconomiques comprennent invariablement des données tronquées, connues seulement par intervalle ou encore de type purement qualitatif Par exemple, dans l enquête Innovation du SESSI, on connaît le simple fait d avoir réalisé une innovation ou encore une appréciation de l entreprise sur l importance d un déterminant de l innovation Ce n est pas toujours un inconvénient, car certains phénomènes ne sont pas quantifiables de façon objective Dans l enquête Emploi de l INSEE on peut connaître le fait qu un individu travaillle et le nombre d heures travaillées par les individus qui ont travaillé sur la période d enquête Mais on peut préférer créer une variable qualitative de type"pas d emploi, temps partiel, temps plein" si l objet de l étude le justifie Malgré la perte d information inévitable quand on passe par exemple, de la valeur exacte d une variable à sa connaissance par intervalle, il est toujours possible d étudier ses effets, même si cela comporte certaines limites Dans cette section, nous donnons quelques exemples de variables qualitatives et leur représentation en économétrie 21 Variables dichotomiques Une variable dichotomique est une variable qui ne peut prendre que deux modalités exclusives l une de l autre, comme Oui/Non ou Inférieur ou égal à/strictement supérieur à Par convention, on code une modalité à 0 et l autre à 1 Ce n est pas une obligation, mais cette présentation permet de simplifier la présentation du problème La variable associée estappeléeuneindicatrice,dansl exemplesuivantlavariabley i estune 16
17 indicatrice d innovation: { 1 sil entrepriseiainnové y i = 0 sinon Ce que l onpeut étudier àpartirde ce type de variable, ce sontles déterminants de la décision d innover Cette décision se traduit en termes statistiques par une probabilité d innover Ainsi, on va rechercher quelles sont les variables qui réduisent ou au contraire augmentent la probabilité d innover Il faut donc construire un modèle qui nous permette d estimer l effet d un ensemble de variables sur la probabilité qu une entreprise innove Pour cela on construit ce que l on appelle un modèle latent, c est à dire inobservable On peut faire une analogie entre ce modèle latent et lemodèlethéoriquequisertdebaseàl étude Si l on pouvait mesurer l innovation sous forme quantitative, on utiliserait le modèle linéaire standard Mais, soit pour des raisons de collecte desdonnéessoitparcequelephénomènequel onétudien estpasquantifiable, on ne dispose que d une information qualitative sur celui-ci Dans notre exemple, on saitjuste si l entreprise a innové ounon Le modèle latent est le modèle linéaire standard: π i =X i b+u i,,,n Que représente ce modèle? La variable endogène π est inobservable On peut l interpréter ici comme l espérance de profit associé à l introduction d une innovation, compte-tenu d un effet de remplacement des anciens produits Les variables explicatives X sont les déterminants decegainetleparamètrebmesurel importancedecesdéterminants Il nousfautmaintenantexpliquercommentonpassedeπ ày,c estàdire de ce qui n est pas observable (π i,u i) à ce qui l est (y i,x i ), car seules ces dernières informations peuvent être utilisées en pratique Il est raisonnable de penser que toutes les entreprises cherchent à améliorer leurs produits et leurs procédés de production, même marginalement Le résultat anticipé de cette activité est justement représentée dans notre modèle par π Mais on n observera la mise en oeuvre d une innovation que si cette activité procure des gains significatifs, s ils dépassent un certain seuil Notons que ce gain ne sera significatif que si l innovation l est également et que cette notion de seuil correspond bien à la définition retenue dans les enquêtes sur l innovation 1 Seules sont considérées dans les enquêtes les améliorations significatives de produit 1 Ainsi dans l enquête du SESSI sur l innovation technologique dans l industrie, annexée à l Enquête Annuelle d Entreprise de 1990, l innovation de produit est définie sur le questionnaire par : Un produit est considéré comme comme technologiquement innovant s il donne lieu à la création d un nouveau marché ou s il peut se distinguer substanciellement de produits précédemment fabriqués, d un point de vue technologique ou par les prestations rendues à l utilisateur Ne sont pas concernées
18 etdeprocédé Soitleseuilπ 0,quipeutdépendredechaqueindustrie,on a: { 1 siπ y i = i >π 0 0 siπi π 0 Ceci implique que l on peut maintenant calculer la probabilité d innover Elleestégaleà: Pr[y i =1]=Pr[π i >π 0] Il reste alors à faire une hypothèse sur la distribution conditionnelle de π sachant X pour obtenir une forme fonctionnelle précise Selon l hypothèse que l on fait, on obtient un modèle Logit(loi logistique) ou un modèle Probit(loi normale) Cette liste n est bien sûr pas limitative et chaque hypothèse de distribution mène à un modèle différent Des tests sont alors nécessaires pour trancher 22 Variables polytomiques ordonnées Cette fois-ci, la variable qualitative que l on observe peut prendre plus de deuxmodalitésquisontordonnéesentreelles 2 Ellespeuventêtredéfinies aussi bien par rapport à une quantité que traduire une appréciation Par exemple, dans l enquête Innovation du Ministère de l Industrie(SESSI) le pourcentage de produits de moins de cinq ans d âge dans le chiffre d affairesestdonnésouslaformesuivante: entre0et10%,de10%à30%, de30%à70%etplusde70% Danscettemêmeenquête,l importance de la recherche développement du groupe auquel appartient l entreprise comme déterminant de l innovation est donnée sous la forme : pas du tout, un peu, moyennement et beaucoup Dans les deux cas, les modalités traduisent un ordre, qui indique l intensité de la variable Le modèle latent représente alors la vraie valeur de la variable, qui n est pas observable Cette variable, que l on cherche à expliquer, est représentée par le modèle latent linéaire: y i =X i b+u i,,,n La variable observable, qualitative, prend maintenant une forme plus les innovations de nature purement esthétique ou de style (design); en revanche sont concernées, mais isolées, les innovations de conditionnement ou d emballage Pour une présentation de l enquête et un exemplaire du questionnaire, voir François(1991) 2 Il existe également des variables qualitatives non ordonnées qui représentent des choix Les plus connues représentent le choix de mode du transport comme: véhicule individuel, bus, métro
19 générale: y i = 1 si α 0 <y i α 1 2 si α 1 <y i α 2 r si α r 1 <y i α r Les bornesdélimitentlesvaleurs α 0 etα r quepeutprendre lavariable yi Pour une variable réelle, onadopte la conventionα 0 ={ } et α r = {+ } Plus généralement les bornes peuvent être connues ou inconnues Pour le pourcentage d innovation décrit plus haut, elles sont égalesà0,01,03,07et1 Dansd autrecas,lesvariablessonttoujours ordonnées maisonneconnaitpas lesseuils C estle casquandlespersonnes intérrogées répondent à une question par"pas du tout, un peu, moyennement, beaucoup" Pourtant les seuils théoriques existent bien puisque l on peut ordonner les modalités, on suppose simplement qu ils sont constants au sein d une population donnée Dans les deux cas, seuils connus ou inconnus, on peut estimer un modèle pour trouver les déterminants de yi Cette fois-ci, la probabilité d observer la modalité jest donnéepar: Pr[y i =j]=pr[α j 1 <y i α j]=pr[y i α j] Pr[y i α j 1], j=1,,r Unefoisquel onaspécifiélaloiconditionnelledey sachantx,on peutprocéderauxestimationsàpartirdesvariablesobservables(y i,x i ) Les modèles polytomiques ordonnés peuvent être utilisés pour ce genre de variableendogène Silaloidesperturbationsu i estnormale,onobtient un modèle Probit polytomique ordonné D autres hypothèses sur la loi desperturbationsu i donnentd autresmodèles 23 Variables de comptage Certaines données d innovation sont discrètes Ainsi le nombre de brevets n est pas une donnée quantitative de même nature que les dépenses de recherche et développement Il s agit d une variable qui ne prend que des valeurs entières Qui plus est, il s agit du comptage d événements relativement rares Sur une année, en France, on compte beaucoup d entreprises quinedéposentpasdebrevet Ilpeuts agirdurésultatd unedécision mais également du simple fait que l entreprise n a pas trouvé d innovation brevetable durant l année écoulée La variable expliquée prend ses valeurs dansl ensembledesentiersnaturelsy i {0,1,2,} Ce processus est par nature aléatoire et, comme pour les autres variables, on modélise son espérance mathématique Ici toutefois, cette espérance est toujours strictement positive et l on prend donc une forme
20 exponentielle: E(y i X i,b)=exp(x i b+u i )>0 Cette espérance mathématique est alors supposée être celle d une loi de Poisson, utilisée pour représenter les variables endogènes discrètes positives ou nulles Notons bien qu il y a deux sources d aléas dans cette dernière modélisation La première vient de l erreur que l on fait sur la moyenne de la variable expliquée, représentée par exp(u i ), la seconde vient du tirage dans une loi de Poisson dont la moyenne est aléatoire Dans les modèles usuels, tout l aléa provient de l erreur que l on fait sur la moyenne Lorsqu iln yapasdeperturbationdanslamoyenne(v(expu i )=0, i), onparledumodèledepoissonhomogène,danslecasinverseils agitdu modèle de Poisson hétérogène Notons que l on peut faire un parallèle entre les données de comptage etles donnéesdedurée, carune donnée de comptage donne le nombre d évènements qui se sont produits pendant une durée donnée On montre que la loi de Poisson homogène correspond à une loi de durée exponentielle
21 24 Variables censurées ou tronquées Une variable censurée ou tronquée est une variable dont on observe la réalisation pour certains individus seulement La troncature peut provenir soit du processus de collecte des données soit d une décision prise par ces mêmes individus C est ce dernier cas qui nous intéresse 3 Prenons le cas de l activité de recherche et développement : une entreprise doit à lafoisdécidersielleinvestitounondansunprogrammederechercheet combien elle y investi Ces deux décisions sont étroitement reliées Le processus de décision est représenté par une variable latente, qui peut être le critère de décision π Les déterminants de cette décision sont notésx 1 Onpose: π i =X 1ib 1 +u 1i,,,N Cette première variable latente génère une variable qualitative dichotomique: 4 { 1 si π y i = i 0 0 si πi <0 Cette indicatrice nous dit si l entreprise a investi en recherche ou non Mais elle détermine également s il est possible d observer le montant investienrecherche,représentéparunesecondevariabler L investissementenrechercher estexpliquéparlemodèle: r =X 2i b 2 +u 2i,,,N, où X 2 contient les déterminants du montant investi en recherche On admetdeplusquelesdeuxvariableslatentes,π i etr i sontcorréléesentre elles Cettecorrélationprovientdufaitquel onobtient généralementr enmaximisant le profit π, ce qui implique que les deux variables sont déterminées simultanément La variable de recherche observable, notée r estdoncdonnéepar: { r r i = i si πi 0 manquant si πi <0 où"manquant" indique une valeur manquante dans la base de données Lorsquelesperturbationsu 1i etu 2i suiventuneloinormalebivariée on obtient le modèle tobit généralisé de Heckman 3 Lecasdescensuresexogènescorrespondaumodèletobitsimple,lelecteurpourra trouver une présentation de ce modèle dans Gouriéroux(1989) et Maddala(1983) Le cas que nous présentons ici est celui d une censure endogène aboutissant au modèle tobit généralisé, étudié à l origine par Heckman (1976, 1979) 4 Leseuilpeutêtremisà0sanspertedegénéralitétantquelesvariablesexplicatives contiennent un terme constant
CHAPITRE 3 Le maximum de vraisemblance Le maximum de vraisemblance est une méthode d estimation qui repose sur la distribution conditionnelle des variables que l on étudie Intuitivement, elle consiste à estimer un paramètre inconnu en choisissant la valeur de ce paramètre qui maximise la probabilité d observer l échantillon que l on observe effectivement La vraisemblance de l échantillon est soit la probabilité d observer l échantillon(cas discret) soit la densité correspondante(cas continu) 31 Définitions et propriétés Plus généralement, on suppose que la variable expliquée y admet une distribution conditionnelle par rapport aux variables explicatives X dont la densité conditionnelle ou probabilité conditionnelle est notée f(y X; θ) oùθestleparamètrequel onchercheàestimer Onsupposeiciqueles Nobservationsprésentesdansl échantillony=(y 1,,y N )sontindépendantes La vraisemblance de l échantillon, notée L, est définie par: N L(y X;θ)= f(y i X i ;θ) Voici quelques exemples, pour des modèles sans variable explicative Exemple31 Loinormale Soitunéchantillondevariablesréelles(y 1,,y N )iidselonuneloinormalen(θ,ω)oùωestunnombrepositifconnu Sadensitéestdonnéepar: f(y;θ)= 1 2πω exp 22 { 1 } 2ω (y θ)2
23 La log-vraisemblance de cet échantillon est égale à: l(y X;θ)= lnf(y i θ)= N 2 ln(2πω) 1 2ω (y i θ) 2 Exemple 32 Loi de Poisson Soit un échantillon de variables entières positives(y 1,,y N )iidselonuneloidepoissondeparamètreθ: f(y;θ)= exp( θ)θy y! La log-vraisemblance de cet échantillon est égale à: l(y X;θ)= lnf(y i θ)= Nθ+ln(θ) y i ln(y i!) Exemple 33 Loi de Bernoulli Soit un échantillon de variables dichotomiques (y 1,,y N ) iid selon une loi de Bernoulli de paramètre θ Les probabilités sont égales à: { f(y;θ)=θ y (1 θ) 1 y θ siy=1 = 1 θ siy=0 La log-vraisemblance de cet échantillon est égale à: l(y X;θ)= ( ) θ N lnf(y i θ)=ln y i +Nln(1 θ) 1 θ La méthode du maximum de vraisemblance consiste à estimer θ par θ n telque: ) L (y X; θ n L(y X;θ) θ Θ, où Θ est l ensemble des valeurs admissibles du paramètre θ Cet estimateur est appelé estimateur du maximum de vraisemblance de θ ou enabrégéemvdeθ Notonsiciquecetteinégalitéestéquivalenteà: ) lnl (y X; θ n lnl(y X;θ) θ Θ, de sorte que l on peut maximiser la log-vraisemblance lnl au lieu de la vraisemblance L Cette méthode permet de simplifier l écriture des dérivées de la fonction objectif, car la dérivée d une somme est plus simple que la dérivée d un produit 31 Sousleshypothèsesderégularitéhabituelles(Gouriéroux et Monfort, 1989, ch VII, p 192), quenous supposons vérifiées par la
24 suite, les estimateurs du maximum de vraisemblance sont convergents, asymptotiquement normaux et asymptotiquement efficaces(ie, à variance minimale parmi les estimateurs convergents): L N ( θn θ) N[ 0,I 1 1 (θ) ], N + oùi 1 (θ)estlamatriced informationdefisherdéfiniepar: [ ] [ lnf(y X,θ) lnf(y X,θ) I 1 (θ)=ev =EE X y θ X y θ lnf(y X,θ) θ De plus, en vertu de l égalité de la matrice d information, on peut aussi utiliserlamatricej 1 (θ): [ ] J 1 (θ)=ee 2 lnf(y X,θ) X y θ θ, caronai 1 (θ)=j 1 (θ)ladistributionde θ N peutdoncêtreapproximée par: ( A θ N N θ, 1 ) ) 1 ) ) 1 N I 1 ( θn =N (θ,i N ( θn où A désigneunedistributionasymptotique(ie,utilisablepourdegrands échantillons) Remarque 31 La matrice d information de l ensemble de l échantillon est définiepari N (θ)=n I 1 (θ),onadonc: 1 N I 1 1 (θ)=(n I 1 (θ)) 1 =I N (θ) 1 Pour voir d où vient le résultat de normalité asymptotique, il suffit de partir de la définition de l estimateur du maximum de vraisemblance Cette définition est implicite et donnée par la condition du premier ordre: lnl ( y X, θ θ ) = lnf ( y i X i, θ θ ) ] =0 (31) Eneffectuantundéveloppementlimité de lnl/ θ auvoisinage de θonobtient: ( ) lnl y X, θ A = lnl(y X,θ) + 2 lnl(y X,θ) ) ( θ θ θ θ θ θ On remarque ici que ce développement limité devient exact quand N + Lacondition(31)impliqueque: 0 A = lnl(y X,θ) θ + 2 lnl(y X,θ) θ θ ( θ θ ),
25 desortequel onpeutécrire: [ ] 1 lnl(y X,θ) θ θ = A 2 lnl(y X,θ) θ θ θ N ( θ θ ) A= [ 1 N 2 ] 1 lnl(y X,θ) 1 lnl(y X,θ) θ θ N θ La première quantité du membre de droite de l équation est une moyenne qui converge en probabilité vers l espérance mathématique correspondante En appliquant la loi des grands nombres: 1 N 2 lnl(y X,θ) θ θ = 1 N [ ] 2 lnf(y i X i,θ) θ θ [ ] p E E 2 lnf(y X,θ) X y θ θ =J 1 (θ) Le second terme du membre de droite de l équation suit, asymptotiquement, une loi normale On peut écrire: 1 lnl(y X,θ) = 1 N lnf(y i X i,θ) N θ N θ = 1 lnf(y i X i,θ) N N θ = 1 N z i, oùz i estlavariabledontonchercheladistribution Onaalors,sousles hypothèses usuelles: L N(z E(z)) N(0,V(z)), (32) N + où p est le nombre d éléments de θ Pour appliquer le théorème de la limite centrale, onabesoindel espérance etde lavariancede z i Pour trouverl espérancedez i onutiliselapropriétésuivante: 32 Soitf(y X,θ)ladensitéconditionnelledelavariableexpliquée Elle vérifie la propriété suivante: [ ] lnf(y X,θ) E =0 y θ
26 Preuve: [ [ lnf(y X,θ) E ]=E y θ y 1 f(y X,θ) ] f(y X,θ) θ 1 f(y X,θ) = f(y X,θ)dy f(y X,θ) θ f(y X,θ) = dy θ = f(y X,θ)dy θ } {{ } 1 =0, Onvoitque: E(z i )= [ ] lnf(y X,θ) N E E =0, X y θ Passons maintenant à la variance; nous avons besoin de la quantité suivante: [ ] [ ] lnf(y X,θ) lnf(y X,θ) lnf(y X,θ) V =E y θ y θ θ [ ] [ ] lnf(y X,θ) lnf(y X,θ) E E y θ y θ } {{ } 0 =E y [ lnf(y X,θ) θ ] lnf(y X,θ) θ Pourcalculerlavariancedez i,onutiliselapropriétésuivante: 33 Soit f(y X,θ) la densité conditionnelle de la variable expliquée Elle vérifie la propriété suivante: E y [ lnf(y X,θ) θ Preuve: [ lnf(y X,θ) ]=E θ y 2 lnf(y X,θ) θ θ ]
27 Ondérivelarelationsuivanteparrapportàθ : lnf(y X,θ) f(y X,θ)dy=0 θ { 2 lnf(y X,θ) θ θ f(y X,θ)+ lnf(y X,θ) θ } f(y X,θ) θ dy=0 or lnf(y X,θ) θ = 1 f(y X,θ) f(y X,θ) θ f(y X,θ) θ = lnf(y X,θ) f(y X,θ), θ en remplaçant dans la relation(33), on obtient: { 2 lnf(y X,θ) θ θ + lnf(y X,θ) θ } lnf(y X,θ) θ f(y X,θ)dy=0 (33) lnf(y X,θ) lnf(y X,θ) θ θ f(y X,θ)dy= 2 lnf(y X,θ) θ θ f(y X,θ)dy (34) E y [ lnf(y X,θ) θ lnf(y X,θ) θ ]=E y [ 2 lnf(y X,θ) θ θ ] Lavariancedez i estdonnéeparlaformuledelavariancetotale:
28 V(z i )=E X V y [z i ]+V X E y [z i ] }{{} 0 =N E X [ ( )] lnf(yi X i,θ) V y θ =N E X E y [ lnf(yi X i,θ) θ ] lnf(y i X i,θ) θ =N I 1 (θ), donc ( ) 1 V z i N = 1 N 2 V(z i ) = NV(z i) N 2 = N2 I 1 (θ) N 2 =I 1 (θ), qui est une quantité finie Globalement, on trouve que: 1 lnl(y X,θ) L =z N θ N(0,I 1(θ)), N + etl ondéduitde(32)que: N ( θ θ ) A=J1 (θ) 1 z, converge en loi vers une distribution normale d espérance nulle et de variance: J 1 (θ) 1 V(z)J 1 (θ) 1 =J 1 (θ) 1 I 1 (θ)j 1 (θ) 1 =J 1 (θ) 1 =I 1 (θ) 1 Une dernière propriété est utile, celle de l invariance fonctionnelle Elle permet de retrouver l estimateur du maximum de vraisemblance après un changement de paramètres
29 Sil oneffectueunchangementdeparamètredutypeτ =h(θ),oùh est une fonction inversible choisie par l économètre, on a: L ( y X,h 1 ( τ n ) ) ) =L (y X, θ n L(y X,θ)=L ( y X,h 1 (τ) ), θ Θ donc τ n estl estimateurdumaximumdevraisemblancedeτ Iln est donc pas nécessaire de réestimer le modèle quand on effectue un changement de paramètre 34 (Invariancefonctionnelle) Soit θ N unestimateurdumaximumdevraisemblancedeθetτ =h(θ) un changement de paramètre L estimateur ) du maximum de vraisemblancedeτ estdonnépar τ N =h ( θn Cette propriété est très pratique car certaines log-vraisemblances ne sont concaves que par rapport à un changement de paramètres bien précis (eg, dans le modèle tobit généralisé) On est alors certain que l optimum ne dépend pas de ce changement de paramètre, et que les algorithmes courants convergent vers ce maximum On effectue donc toujours les changements de paramètres de ce type quand ils existent Mais encore faut-il remonter des nouveaux paramètres τ aux paramètres structurels dumodèleθpourcelaonutiliselethéorèmedeslutsky THÉORÈME 31 (Slutsky) Soit h une fonction de classe C 1 (dérivable et de dérivée première continue),unerelationentredeuxparamètresτ =h(θ),et θ N estimateur convergent de θ vérifiant: L N ( θn θ) N( ) N + 0,Ωˆθ alors, ( ) ) [ L N h ( θn h(θ) N 0, h ] h N + θ (θ)ωˆθ θ (θ) Notons bien que ce théorème s applique même si θ N n est pas un estimateur du maximum de vraisemblance et même si la fonction h n est pas inversible ) Dans la pratique, on estimera la variance asymptotique deh ( θ n par: [ )] Vas h ( θn = 1 h h ) ( θn N θ ) Ωˆθ ( θn θ, où Ωˆθ estunestimateurconvergentdeωˆθ
30 Preuve: Pour comprendre ) ce résultat, il suffit de faire un développement limité deh ( θn auvoisinagedeθ: ) A=h(θ)+ h h ( θn ) ( θn θ (θ) θ ( N h ) ) A= h ( θ N h(θ) θ (θ) N ( θ N θ), cetteexpressionestunetransformationlinéairede ) N( θn θ,enconséquence elle suit asymptotiquement une loi normale Son espérance mathématique est égale à: ( ( ) )) ( h E N h ( θn h(θ) =E θ (θ) N ( θn θ) ) = h ( )) θ (θ)e N ( θn θ =0, } {{ } 0 etsavarianceestégaleà: ( ( ) )) ( h V N h ( θn h(θ) =V θ (θ) N ( θn θ) ) = h ( )) θ (θ)v h N ( θn θ } {{ } θ (θ) Ωˆθ 32 Estimation Les points candidats à un maximum sont obtenus par la résolution des conditions du premier ordre En effet, dans les cas usuels les conditions du premier ordre fournissent un maximum local sous réserve de vérification de la condition du second ordre Il faut alors rechercher numériquement les maxima locaux et prendre celui qui fournit la valeur la plus élevée de la vraisemblance Toutefois, la plupart des modèles que nous verrons dans ce cours possèdent une log-vraisemblance concave Dans ce cas particulier, le maximum est unique et donné par les conditions du premier ordre La log-vraisemblance est égale à:
31 l(y X,θ)=lnL(y X,θ) Quand la solution est unique, on cherche la solution du problème d optimisation: 1 θn =argmaxl(y X,θ) θ Laconditiondupremierordrepourunmaximumlocalestdonnéepar lanullitéduscore: l ) (y X, θ N =0, θ etlaconditiondusecondordreparunhessiendéfininégatif: 2 l ( θ θ y X, θ N ) 0, où désigne l infériorité au sens des matrices Engénéral l expressionde θ N ne peutpasêtre obtenue directement en fonction des observations, c est-à-dire sous forme explicite 2, il faut donc recourir à des algorithmes d optimisation numérique pour effectuer une estimation par le maximum de vraisemblance Une fois cette valeur obtenue,ilnousfautestimerlamatricedecovariancede θ N En utilisant la loi des grands nombres, on peut estimer les moments théoriques par les moments empiriques correspondants, soit: [ ] lnf I 1 (θ)=ee X y θ (y X,θ) lnf θ (y X,θ) ) par Î 1 ( θn = 1 N lnf θ et J 1 (θ)=e X E y [ 2 lnf θ θ (y X,θ) ) par Ĵ 1 ( θn = 1 N ( ) lnf ( ) y i X i, θ N θ y i X i, θ N, ] 2 lnf ( ) θ θ y i X i, θ N Ilsuffitdeprendrel inversedel unedecesdeuxmatricespourobtenir un estimateur convergent de la matrice de covariance asymptotique de N ( θn θ) Voici quelques exemples, pour des modèles sans variable explicative 1 Quand la solution n est pas unique, on a θ n argmax θ l(y x,θ) car il y a un ensemble de solutions 2 Le modèle linéaire standard estune exception à cette règle
32 Exemple 34 Loi normale N(θ, ω) On maximise la log-vraisemblance: l(y X,θ)= N 2 ln(2πω) 1 2ω cequidonnelaconditiondupremierordre: l ) (y θ N = 1 θ ω (y i θ) 2, (y i θ N ), qui permet d obtenir l estimateur du maximum de vraisemblance: avec θ N = 1 N 2 l θ 2(y θ)= N ω y i <0 θ Pourtrouverladistributionasymptotiquede θ N,onpeututilisersoit I N (θ)soitj N (θ)ona: I N (θ)= = 1 ω 2 N = N ω, [ ] lnf E y θ (y i θ) 2 E y [ (y i θ) 2] demême: etl onobtient: J N (θ)= [ ] E 2 lnf y θ 2 (y i θ) = N ω θ N A N(θ,ω/N) Exemple 35 Loi de Poisson P(θ) On maximise la log-vraisemblance: l(y X,θ)= Nθ+ln(θ) y i ln(y i!), cequidonnelaconditiondupremierordre: l ) (y θ N = N+ 1 θ θ N y i =0,
33 qui permet d obtenir l estimateur du maximum de vraisemblance: avec θ N = 1 N 2 l θ 2(y θ)= 1 θ 2 y i y i <0 θ Pourtrouverladistributionasymptotiquede θ N,onpeututilisersoit I N (θ)soitj N (θ)ona: I N (θ)= [ ] lnf V y θ (y i θ) = 1 N θ 2 V[y i ] y }{{} θ = N θ, demême: etl onobtient: J N (θ)= [ ] E 2 lnf y θ 2 (y i θ) = 1 N θ 2 E(y i ) y }{{} θ = N θ θ N A N(θ,θ/N) Exemple 36 Loi de Bernoulli B(θ) On maximise la log-vraisemblance: ( ) θ N l(y X;θ)=ln y i +Nln(1 θ) 1 θ cequidonnelaconditiondupremierordre: l ) (y θ N = θ 1 ( ) θ N 1 θ N y i N 1 θ N =0,
34 qui permet d obtenir l estimateur du maximum de vraisemblance: avec θ N = 1 N y i 2 l 1 2θ θ2(y θ)= θ 2 (1 θ) 2 N y i (1 θ) 2 N = (1 θ)2 y i+θ 2 N (1 y i) θ 2 (1 θ) 2 <0 θ, en utilisant N = N y i+ N (1 y i) Pour trouver la distribution asymptotiquede θ N,onpeututilisersoitI N (θ)soitj N (θ)ona: I N (θ)= = = [ ] lnf V y θ (y i θ) 1 θ 2 (1 θ) 2 N θ(1 θ), V[y i ] y }{{} θ(1 θ) demême: J N (θ)= = = [ ] E 2 lnf y θ 2 (y i θ) 1 θ 2 (1 θ) 2 N θ(1 θ) ] [(1 2θ)E(y i )+θ 2 y etl onobtient: θ N A N(θ,θ(1 θ)/n) 33 Les moindres carrés ordinaires Soit le modèle linéaire standard: y i =X i b+u i,,,n
35 où l indice i désigne une observation, N la taille de l échantillon, y i la variable expliquée, X i le vecteur des variables explicatives, b le vecteur de leurs coefficients et u i la perturbation du modèle On suppose que les perturbations sont indépendantes et identiquement distribuées (iid) selon une loi normale N(0, ω) Ces hypothèses impliquent que les variablesexpliquéesy i,transformationslinéairesdesu i,sontindépendantes etsuiventdesloisnormalesn(x i b,ω) Enconséquenceladensitéconditionnelledelai-èmeobservationestégaleà: { } f(y i X i ;b,ω)= 1 exp (y i X i b) 2 2πω 2ω Leparamètreàestimerestdonc: ( b θ= ω ) Comme les observations sont indépendantes, la vraisemblance de l échantillon, notée L, est égale au produit des densités individuelles: L(y X;θ)= N f(y i X i ;θ) =(2πω) N 2 exp { 1 2ω } (y i X i b) 2 La méthode du maximum de vraisemblance consiste à choisir des valeurs de b et ω qui rendent cette densité jointe la plus grande possible La log-vraisemblance de l échantillon est égale à: l(y X;θ)= N 2 ln(2πω) 1 2ω (y i X i b) 2 Onpose: θ N =( bn ω N )
36 Les conditions du premier ordre sont données par: l ) l ) (y X, θ N b ] 0 (y X, θ n = θ l ) (y X, θ =[ 0 N ω 1 ) X i (y i X i b N [ ω N 0 N + 1 ) 2 (y = 0 2 ω N 2 ω N 2 i X i b N cequiimplique: ( N ) 1 bn = X i X N i X i y i et ω N = 1 N ], ( y i X i bn ) 2 On retrouve l estimateur des moindres carrés ordinaires de b Par contre l estimateur de la variance ne comporte pas de correction pour les degrés de liberté 3 On estime la matrice de covariance asymptotique à partirde: J N (θ)= = E θ 1 ω 0 1 ω X i X i N 2ω 2 1 ω 2X i (y i X i b) 1 ω 2X i(y i X i b) 1 2ω 2 + 1 ω 3(y i X i b) 2 N X i X i 0 Lamatricedecovarianceasymptotiquede θ N estdoncestiméepar: [ N 1 ) ) 1= ω N Vas( θ =Ĵ N ( θn X i i] X 0 2 ω N 2, 0 N elle permet de construire un intervalle de confiance sur la variance Pour raisonner sur l écart-type, on utilise l invariance fonctionnelle et le théorème de Slutsky L invariance fonctionnelle garantit que: σ N = ω N, 3 Habituellement,àdistancefinie,onestimeωpar1/(N p) ( y i x i bn ) 2,où p est le nombre de variables explicatives(y compris le terme constant) La distribution asymptotique de cetestimateurestla mêmeque celle de ω N
37 estbienl estimateurdumaximumdevraisemblancedeσ= V(u i )Et le théorème de Slutsky permet de calculer la variance de l estimateur de l écart-type On a une transformation: onpeutdoncécrireque: h(ω)= ω h (ω)= 1 2 ω, Vas( σ)= 1 2 ω 2 ω N 2 N N = ω N 2N 1 2 ω N
CHAPITRE 4 Les algorithmes d optimisation 41 Présentation des algorithmes Le problème que nous devons résoudre est de trouver une valeur numérique θ N quirésoutunsystèmed équationsdelaforme: 1 ) s ( θn =0 où s() est une fonction connue des observations et du paramètre θ Elle dépend aussi bien des données que du modèle postulé (distribution, paramètres) Dans le cas du maximum de vraisemblance s(θ) est appelé le score, dans le cas du pseudo maximum de vraisemblance, on l appelle le pseudo score Quand la fonction à maximiser est concave, cette condition du premier ordre est suffisante pour un maximum global CeseralecasdumodèleLogit,aveclequelnousferonsunedespremières applications Latechniquequel onutilisepourparveniràlavaleur θ N s appelle un algorithme On peut décomposer un algorithme en quatre grandes étapes 1 UnevaleurinitialeLechoixdelavaleurinitialen estpasproblématique quand l objectif est concave Dans ce cas, avec un algorithme croissant (voir plus loin), tout point de départ doit mener au maximum Par contre, quand l objectif n est pas concave, ou pour accélérer la procédure quand l objectif est concave, on prendraunestimateurconvergentcommepointdedépart Ilesteneffet possible dans certains cas de trouver un estimateur en deux étapes ) 1 Unsystème d équationscars ( θn est un vecteur 38
39 relativement facile à calculer Il n est généralement pas efficace, et c est la raison pour laquelle on réalise une estimation supplémentaire Onnotecettevaleurinitialeθ (0) 2 Une règle d itération Une fois la valeur initiale fixée, il faut utiliser une règle qui permette de trouver une nouvelle valeur plus proche du maximum Le pas de l itération, défini comme la différence entre deux valeurs successives du paramètre, est déterminé selon différentes méthodes et constitue le coeur de l algorithme Nous utiliserons des méthodes dites de gradient et plus particulièrement les algorithmes de Newton-Raphson, du Score, de Berndt-Hall-Hall- Hausman et de Levenberg-Marquardt La pratique montre qu ils permettent de traiter la plupart des cas, même difficiles On résume cette étapeparlarelationθ (p+1) =θ (p) +M ( θ (p) ) oùpest l itération,p NLavaleurdupasM ( θ (p) ) doitdépendreuniquement de la valeur du paramètre à l étape précédente 3 Une règle d arrêt de l algorithme Au voisinage du maximum la fonction objectif ne doit plus varier, on peut donc baser l arrêt de la procédure sur la différence entre deux valeurs successives de la fonction objectif Une seconde condition porte sur le gradient, qui doit être nul(condition du premier ordre) On peut aussi utiliser des variantes, comme l élasticité de l objectif aux paramètres du modèle, qui est également nulle à l optimum et possède l avantage d être insensible à un changement d unité des variables(contrairement au gradient) Dans l ensemble, tous ces critères sont équivalents à l optimum 4 Vérifierquel onabienatteintunmaximumlocalceproblèmene se pose que lorsque l objectif n est pas globalement concave La condition du second ordre pour un optimum local précise que le hessien doit être défini négatif au point en question Il faudra donc le vérifier systématiquement Ceci est d autant plus important que dans le cas du maximum de vraisemblance l inverse du hessien n est autre qu un estimateur convergent de la matrice de covariance du paramètre En conséquence, si cette propriété n était pas vérifiée, on obtiendrait un estimateur de la matrice de covariance qui n est pas défini positif et, pour cette raison, inutilisable 42 Les méthodes de gradient Nousvoulonsmaximiserunefonctionl(θ),degradients(θ)= l(θ)/ θ et de hessien H(θ) = 2 l(θ)/ θ θ Nous disposons également d une valeurinitialenotéeθ (0) Demême,onnoteθ (p) lavaleurduparamètre
40 à la p-ième itération Un algorithme du gradient est une règle d itération delaformesuivante: θ (p+1) =θ (p) +W (p) s ( θ (p) ), oùs ( ) θ (p) estlegradientdelafonctionquel onchercheàmaximiseret W (p) unematricequidépenddel algorithmeparticulierquel onemploie ) Onvérifiequelorsquel onaatteintlemaximum,s ( θn =0,etlepasde l itération est nul Toutefois, dans la pratique, il peut arriver que le pas d uneitérationsoittropfortetdépasselepointquidonnelemaximum, on modifie donc la règle précédente en l écrivant: θ (p+1) =θ (p) +λw (p) s ( θ (p) ), où λ [0,1] Il est également possible de prendre λ > 1 au début de l algorithme pour accélérer la convergence Le lecteur intéressé par ce dernier cas peut consulter Gouriéroux et Monfort(1989, chap XIII) La valeurdeλn estréduitequelorsquel ( θ (p+1) ) <l ( θ(p) ) Les algorithmes de gradient sont très employés car il possèdent une propriété intéressante: ils sont croissants Cette propriété signifie que, si W (p) estsymétriqueetdéfiniepositive,alorspourdepetitsaccroissements du pas de l itération (ie, λ petit), l algorithme mène toujours à une valeursupérieureouégaledel objectifsoitl ( θ (p+1) ) l ( θ(p) ) Quand la fonction est concave, ceci garantit que l on parvienne au maximum Les trois algorithmes de gradient les plus utilisés sont ceux de Newton- Raphson, de Berndt-Hall-Hall-Hausman et du score 421 Algorithme de Newton-Raphson Il consiste à effectuer une approximation quadratique de la fonction à maximiser, en chacun des points de l itération Dans ce cas, si le hessien est défini négatif, on obtient le maximum de l approximation par la condition du premier ordre sur une forme quadratique, dont on peut calculer facilement l expression analytique parce qu elle est linéaire La succession de maxima ainsi obtenue donne la solution du problème Le développementlimitéausecondordredel(θ)auvoisinagedeθ (p) estégalà: l(θ) l ( ) θ (p) +s ( )( ) 1( ) H ( )( ) θ (p) θ θ(p) + θ θ(p) θ(p) θ θ(p) 2 La maximisation de cette forme quadratique par rapport à θ donne la condition du premier ordre: s ( θ (p) ) +H ( θ(p) )( θ θ(p) ) =0 θ θ(p) = H ( θ (p) ) 1s ( θ(p) ),
41 de plus la dérivée seconde est égale à H ( θ (p) ), qui est définie négative lorsquel objectifestconcaveaupointθ (p) Danscecas,onabienunmaximum local donné par les conditions du premier ordre Dans l ensemble l itération est donnée par: θ (p+1) =θ (p) λh ( θ (p) ) 1s ( θ(p) ) Cet algorithme présente généralement un pas assez fort dans les premières itérations et, dans l ensemble, s avère assez rapide Tout dépend toutefois si l on travaille sur des dérivées secondes analytiques ou numériques, car ces dernières augmentent fortement le temps de calcul à chaque itération 422 Algorithme de Berndt-Hall-Hall-Hausman Cet algorithme, justifié dans le cas du maximum de vraisemblance, se base sur l égalité de la matrice d information: [ [ ] lnf(θ) lnf(θ) I 1 (θ)=ee ]=E x y θ θ E 2 lnf(θ) x y θ θ =J 1 (θ) Pour l estimation, on remplace les moments théoriques par les moments empiriques correspondants, ce qui suggère d approximer les dérivées secondes par l opposé des produits croisés des dérivées premières Pour unéchantillondetaillenonpeutécrirelafonctionobjectifetsesdérivées souslaforme: l(θ)= lnf(y i x i,θ), s(θ)= lnf(y i x i,θ) θ eth(θ)= 2 f(y i x i,θ) θ θ La méthode de Berndt-Hall-Hall-Hausman consiste à approximer H(θ) par lnf(y i x i,θ) lnf(y i x i,θ) θ θ, ce qui donne la règle d itération suivante: [ N lnf ( ) y i x i,θ (p) lnf ( )] 1 y i x i,θ (p) θ (p+1) =θ (p) λ θ θ s ( ) θ (p) Cet algorithme ne nécessite que les dérivées au premier ordre et est donc facile à mettre en oeuvre Toutefois, il implique généralement plus
42 d itérations que l algorithme de Newton-Raphson Son principal défaut estqu ilnepermetpasdevérifierlanégativitéduhessienàchaqueitération, ce qui peut s avérer problématique en certains points θ (p) lorsque l objectif n est pas globalement concave 423 Algorithme du score Il s agit d un raffinement de l algorithme de Berndt-Hall-Hall-Hausman où l on prend l espérance mathématique des produits croisés du score, égale à l information de Fisher dans le cas du maximum de vraisemblance, àlaplacedeleursproduitscroisés Onapproxime: H(θ) par cequidonnelarègled itération: E y [ lnf(yi x i,θ) θ ] lnf(y i x i,θ) θ, [ N [ ( ) lnf yi x i,θ (p) lnf ( )]] 1 y i x i,θ (p) θ (p+1) =θ (p) λ E y θ θ s ( ) θ (p) Danslecasoùlesdérivéessecondesnedépendentpasdelavariable endogène y, cet algorithme est identique à celui de Newton-Raphson(eg, cas des modèles Logit et de Poisson) 424 Algorithme de Levenberg-Marquardt Il s agit d une extension de l algorithme de Newton-Raphson que l on applique quand l objectif à maximiser n est pas globalement concave Supposonsquelehessienaupointθ (p) n estpasdéfininégatif,l algorithme n est plus nécessairement croissant et l on n est plus sûr de parvenir à un maximum local On pourrait alors penser à utiliser l algorithme du score ou celui de Berndt-Hall-Hall-Hausman Mais la pratique montre que l on aboutitsouventenfaitàunevaleurproprenulleduparamètrequipose problème, car elle rend impossible l inversion nécessaire à l itération On utilise donc une modification du hessien qui est définie négative, ce qui garantit que la matrice qui détermine le pas soit définie positive Plus précisément, on utilise W p = [ H ( θ (p) ) (1+α)µH I k ] 1 oùi k estlamatriceidentitédedimensionk(ladimensiondeθ),µ H la plus grande valeur propre du hessien (fonction disponible sous SAS- IML), supposée positive en cas de problème(ie, de non concavité locale de la fonction objectif) et α > 0 un paramètre choisi par l utilisateur
43 L intuition de la méthode est la suivante : puisque le hessien n est pas défininégatif,onleremplaceparunematricedéfinienégativequiestla plus proche possible du hessien original Pour cela il suffit de retrancher au hessien la matrice identité multipliée par la plus grande valeur propre du hessien (positive par hypothèse) Toutefois, ceci nous donnerait une valeur propre nulle Il faut donc retrancher un peu plus que cette quantité; c estcequedétermineleparamètreαengénéralunepetitevaleurdeα suffit et l algorithme est sensible à de petites variations de ce paramètre (ie,cequifonctionneavecα=01peutneplusfonctionnerdutoutavec α=02) Pour déterminer la valeur de α, on utilise le constat suivant : si α est trop élevé, la plus grande valeur propre du hessien tend à croître avec le nombre d itérations, si la valeur de α est trop petite, elle tend vers0 Ilsuffitdeseplacerentrelesdeuxaprèsquelquesessais,etl on retombe généralement dans une zone de concavité de la fonction objectif En général, plusieurs estimations sur un même échantillon ne nécessitent qu une valeur de α, que l on garde constante pendant tout l algorithme Cet algorithme, qui sert au modèle tobit généralisé et aux moindres carrés non linéaires, deux exemples d objectifs non concaves, mène à la règle d itération suivante: { θ θ (p+1) = (p) λ [ H ( ) ] 1s ( ) θ (p) (1+α)µH I k θ(p) si µ H 0 θ (p) λh ( ) 1s ( ) θ (p) θ(p) si µ H <0 43 Méthodologie de programmation Comment s assurer que le programme que l on a écrit ne comporte aucune erreur et qu il soit pratique à utiliser? En prenant un certain nombre de précautions présentées dans cette section Il y a quatre étapes qu il faut prendre soin de bien effectuer 1 Vérifierlafonctionobjectif Alafoisparlecalcul,maiségalement en consultant les ouvrages et les articles qui la donnent 2 Vérifier le gradient Par la même méthode que précédemment, mais également numériquement Ainsi, on peut détecter des erreurs de recopie aussi bien sur la fonction objectif que sur son gradient A cette étape, on utilise un algorithme basé sur les dérivées premières, de type Berndt-Hall-Hall-Hausman 3 Vérifier le hessien On utilise le gradient analytique pour calculer le hessien numérique, afin d éviter le cumul des erreurs d approximation Ce problème est particulièrement sensible ici car les dérivées sont calculées à partir de quantités très petites par définition On utilise
44 un algorithme de Newton-Raphson ou de Levenberg-Marquardt On peut conserver les dérivées secondes numériques si le calcul des dérivées analytiques est trop complexe, ou pour obtenir de premières estimations 4 Paramétrer le programme définitif Ceci vise à éviter toute interventionsurleprogrammeunefoisqu ilaétévérifié,carc estune source d erreur potentielle Par exemple, on peut paramétrer des programmes écrits en SAS-IML par des macro-variables, ce qui permet d écrire des routines appelées macro-commandes On peut alors utiliser ces routines sur toutes les bases de données et quel que soit le nombre de variables explicatives
CHAPITRE 5 Les variables dichotomiques 51 Cas général On observe une variable dichotomique y {0,1} Par définition cette variable suit une loi de Bernoulli A partir d un modèle théorique on peutécrirequeleparamètredecetteloiestégalàplaprobabilitéd une loidebernoullideparamètreppeuts écrire: { Pr[y=k]=p k (1 p) 1 k p = 0 (1 p) 1 0 =1 p sik=0 p 1 (1 p) 1 1 =p sik=1 etsonlogarithmeestégalà: lnpr[y=k]=klnp+(1 k)ln(1 p) Onremarqueégalementquel espérancedeyestégaleà: E(y)=0 (1 p)+1 p=p, etquesavarianceestégaleà: V(y)=E ((y p) 2) =(0 p) 2 (1 p)+(1 p) 2 p =p(1 p)(p+1 p) =p(1 p) 45
46 On considère maintenant un échantillon de N variables aléatoires de Bernoulli (y 1,,y N ), indépendantes, et de paramètres (p 1,,p N ) Les paramètres des N lois sont différents parce que l on considère un modèleconditionneloùchaquevariabley i possèdeuneprobabilité(ie, une espérance conditionnelle) qui lui est propre Ces probabilités dépendent donc de variables explicatives, regroupées dans le vecteur X, et dont lesréalisationssontnotées(x 1,,X N )Pourbienmontrerlecaractère conditionnel du modèle, on pose: p i =p(x i,β),,,n où β est le paramètre que l on cherche à estimer La log-vraisemblance d unéchantillon(y 1,,y N )estdoncégaleà: l(y X,β)= y i lnp(x i,β)+(1 y i )ln(1 p(x i,β)) Lescoreestdoncégalà: etlehessienà: N l β (y X,β)= p i β 2 l N 2 p i y i p i β β (y X,β)= β β p i p i β β p i (1 p i ) y i p i p i (1 p i ), [ (y i p i )(1 2p i ) p 2 i (1 p i) 2 + ] 1 p i (1 p i ) Pour appliquer l algorithme du score, on remarque simplement que: ce qui permet d obtenir: [ 2 ] l E y β β (y X,β) E(y i X)=p i, = p i p i 1 β β p i (1 p i ) Cette représentation est valable pour tous les modèles dichotomiques; on a juste besoin de l expression de la probabilité de réalisation d un évènement en fonction des variables explicatives Pour obtenir les modèles usuels, on suppose que la variable qualitative que l on observe résulte d un modèle latent qui porte sur une variable
47 continue,notéey i Cettevariableinobservableestsupposéedécritepar un modèle linéaire standard donné par: y i =X iβ+u i, oùu i estuneperturbationd espérancenulle,sanspertedegénéralité tant que le modèle latent contient un terme constant Pour pouvoir estimer ce modèle par le maximum de vraisemblance, il nous faut écrire la loi de la variable observable conditionnellement aux variables explicatives Cette variable observable est définie par: { 1 si y y i = i >0 0 si yi 0 Lefaitdeprendrelavaleur0commeseuilderéférencen aaucuneincidence sur les estimations tant que le modèle comporte un terme constant, caronpeutalorsutiliserlavariablelatentey i c,oùcestleseuildetroncatureconstant Laloisuiviepary i estuneloidebernoullideparamètre p i =Pr[y i >0],maiscontrairementaucashabituelrencontréenstatistique (ie, modèle marginal), la probabilité est différente pour chaque observation puisqu elle dépend des variables explicatives (ie, modèle conditionnel) LeparamètredelaloideBernoulliestdéfinipar: p i =Pr[y i >0]=Pr[X ib+u i >0]=Pr[u i > X i β]=1 F( X i β), où F est la fonction de répartition des u i,i = 1,,N La probabilité d observer une réalisation y est donc donnée par: Pr[y i =y]=p y i (1 p i) 1 y, y {0,1} De plus, on a E(y i X i,β)=p i et V(y i X i,β)=p i (1 p i ) Comme les N observations sont supposées indépendantes, la vraisemblance de l échantillon est donnée par le produit des probabilités individuelles: L(y X,β)= d où la log-vraisemblance: l(y X,β)= = N p y i i (1 p i ) 1 y i, y i ln(p i )+(1 y i )ln(1 p i ) y i ln[1 F( X i β)]+(1 y i )lnf( X i β) Laformespécifiquepriseparlaprobabilitép i dépenddirectementde l hypothèse faite sur la loi de la perturbation u On peut essayer des
48 distributions différentes lors d une étude, puis les comparer en effectuant destestsnonemboîtés Lesdeuxloislesplusutiliséesenpratiquesontles lois normale et logistique La première définit le modèle Probit, parfois appelé modèle Normit, tandis que la seconde définit le modèle Logit Ces deuxloissontsymétriques,onadoncf( z)=1 F(z),d où: DanslecasdumodèleLogit: p i =F(X i β) F(z)= 1 1+exp( z) DanslecasdumodèleProbit(ouNormit): F(z)=Φ(z)= z ) 1 exp ( s2 ds 2π 2 Onremarquequedanstouslescas,laprobabilitép i estunefonction delaquantitéréellem i =X i βcettepropriétérésultedelalinéaritédu modèle latent 52 Le modèle Logit Danscemodèleonsupposequelaperturbationusuituneloilogistique de fonction de répartition: F(z)= 1 1+exp( z) OnvérifiedirectementqueF( z)=1 F(z),laloiestsymétrique Sadensitéestdonnéepar: f(z)= F(z)/ z exp( z) = [1+exp( z)] 2 1 = 1+exp( z) exp( z) 1+exp( z) =F(z)[1 F(z)] Cette dernière propriété permet de simplifier toutes les dérivées de la log-vraisemblance Les moments de cette loi logistique sont donnés par: E(u)=0, V(u)= π2 3,
49 elle est donc centrée, mais n est pas réduite Il faudra entenir compte lors de la comparaison des coefficients des modèles Logit et Probit car, danscederniercas,laloiestàlafoiscentréeetréduite Les observations sont indépendantes donc la log-vraisemblance de l échantillon(y 1,,y n )estdonnéepar: l(y X,β)= n y i lnf(m i )+(1 y i )ln[1 F(m i )], avecm i =X i βlevecteurduscoreestdonnépar: s(y X,β)= l β (y X,β) n = = = X i [ y i f(m i ) F(m i ) (1 y i) ] f(m i ) 1 F(m i ) n X i [y i[1 F(m i )] (1 y i )F(m i )] n X i[y i F(m i )] OnvérifiequesonespéranceestnullepuisqueE(y i X i,β)=f(m i ) Lehessienestdonnépar: H(y X,β)= 2 l b b (y X,β) = s b (y X,β) n = X ix i f(m i ) Comme f est une fonction strictement positive, le hessien est bien défini négatif L algorithme de Newton-Raphson sera donc croissant On peut remarquer également que l information de Fisher du modèle est donnéepar: I(y X,β)=E[ H(y X,β) X,β]= n X ix i f(m i ) On peut également calculer cette quantité en utilisant la variance du
50 score: V[s(y X,β) X,β]= = = n X ix i V[y i F(m i ) X,β] n X ix i F(m i )(1 F(m i )) n X i X if(m i ) Donc l algorithme du score est identique à celui de Newton Raphson En conséquence, nous utiliserons seulement deux algorithmes pour estimer ce modèle : Berndt-Hall-Hall-Hausman et Newton-Raphson dont les matrices sont données respectivement par: W 1 n B3H = X ix i [y i F(m i )] 2, W 1 n NR = X i X if(m i ) 53 Le modèle Probit(ou Normit) Maintenant on suppose que la perturbation u suit une loi normale de fonction de répartition donnée par: F(z)=Φ(z)= z ) 1 exp ( s2 ds 2π 2 Comme tous les programmes d estimation possèdent la fonction de répartition de la loi normale centrée-réduite, nous garderons la notation
51 Φ(z)Ladensitéestdonnéepar: 1 ϕ(z)= d dz z =1 1 2π exp = 1 2π exp ) 1 exp ( s2 ds 2π 2 ( z2 2 ( z2 2 ) ) 0 En dérivant cette densité, on voit directement que: ϕ (z)= z ϕ(z) Cette dernière relation permet de simplifier l écriture du hessien et plus généralement, de trouver facilement les dérivées d un ordre quelconque Lesmomentsdecetteloinormalesontdonnéspar: E(u)=0, V(u)=1 Les observations sont indépendantes donc la log-vraisemblance de l échantillony=(y 1,,y n )estdonnéepar: l(y X,β)= y i lnφ(m i )+(1 y i )ln[1 Φ(m i )] Levecteurduscoreestdonnépar: s(y X,β)= l β (y X,β) = = X i [ ] ϕ(m i ) y i Φ(m i ) (1 y ϕ(m i ) i) 1 Φ(m i ) X i ϕ(m i )(y i Φ(m i )) Φ(m i )(1 Φ(m i )) OnvérifiequesonespéranceestnullepuisqueE(y i X i,β)=φ(m i ) Pour simplifier les notations on pose ϕ(m i ) = ϕ i et Φ(m i ) = Φ i En 1 Onappliquele théorème de Leibniz : d dz b(z) a(z) f(t)dt=b (z)f(b(z)) a (z)f(a(z))
52 utilisantϕ i = m i ϕ i,lehessienestdonnépar: H(y X,β)= 2 l β β (y X,β) = s β (y X,β) { = X i X ϕi (y i Φ i ) i Φ i (1 Φ i ) [ m i + ϕ i(1 2Φ i ) Φ i (1 Φ i ) ] ϕ 2 } i Φ i (1 Φ i ) Onendéduitquel informationdefisherdumodèleestdonnéepar: I 1 (β)=e X E y [ H(y X,β) X,β] =E X V y [s(y X,β) X,β] = 1 N X i X ϕ 2 i i Φ i (1 Φ i ) On peut également calculer cette quantité en utilisant la variance duscore, cequiestpluspratiqueiciquedecalculerladérivéeseconde Clairement, l algorithme du score est différent de l algorithme de Newton- Raphson Il nécessite moins de calcul et est également croissant On peut donc utiliser trois algorithmes pour estimer ce modèle : Berndt-Hall-Hall-Hausman, le Score et Newton-Raphson dont les matrices sont données respectivement par: N B3H = X ix ϕ 2 i i Φ 2 i (1 Φ i) 2[y i Φ i ] 2, W 1 W 1 N SC = X i X ϕ 2 i i Φ i (1 Φ i ), W 1 N NR = X i X i { ϕi (y i Φ i ) Φ i (1 Φ i ) [ m i + ϕ i(1 2Φ i ) Φ i (1 Φ i ) ] ϕ 2 } i Φ i (1 Φ i ) 54 Interprétation et comparaison des coefficients 541 Le modèle Probit En fait, les coefficients du modèle latent ne sont estimés qu à une constante multiplicative et positive près: l inverse de l écart-type de la perturbation du modèle latent Dans le cas du modèle Probit, le modèle
53 latent s écrit: z i =X ib+v i, v i iid N ( 0,σ 2) Lemodèlequenousavonsestimés écritdonc: y i =X i β+u i, u i iid N(0,1) avec y i = z i/σ,β = b/σ et u i = v i /σ Les paramètres b et σ ne sont pasidentifiables,seulelafonctionβ=b/σdecesdeuxparamètrespeut être estimée, ou toute fonction monotone de β En conséquence, tous les coefficients d un modèle Probit sont implicitement réduits par l écarttypedelaperturbationdelarégression, cequiauncertainnombrede conséquences sur leur interprétation: 1 On ne peut pas comparer les coefficients obtenus sur les régressions de deux variables dichotomiques endogènes différentes, car l écarttype de la perturbation change avec le modèle latent 2 Lesigneducoefficientβestlemêmequeceluidebcarunécart-type est toujours positif 3 Le ratio de deux coefficients extraits de β est identique au ratio des deux coefficients correspondants de b On peut donc dire qu un coefficient est deux fois plus grand qu un autre 4 La différence entre deux coefficients extraits de β n est connue qu à un facteurmultiplicatifpositif près, égal àσ 1 Onne peutdonc interpréter que le signe de la différence entre deux coefficients, pas la grandeur de l écart Par contre, on peut comparer deux écarts tirés de la même régression 542 Le modèle Logit La même interprétation reste valable, à ceci près qu une loi logistique de paramètres(0,φ)admetpourespérance 0etpourvarianceφ 2 π 2 /3 On peutdoncécrirelemodèlelatent: 2 z i =X i b+v i, v i iid Λ(0,φ) 2 La fonction de répartition variable Z suivant une loi logistique de paramètres Λ(µ,φ)estdonnée par: [ ( F(z)= 1+exp z µ )] 1 φ On a : E(Z)=µet V(Z)= φ2 π 2 3
54 Lemodèlequenousavonsestimés écritdonc: y i =X i β+u i, u i iid Λ(0,1) avecy i =z i /φ,β=b/φetu i=v i /φl interprétationdescoefficientsdu modèlelogitsefaitdoncdelamêmefaçonquecelledumodèleprobit 543 Comparaison des coefficients des modèles Logit et Probit DanslemodèleProbit,onestime: β = b V(u), alorsquedanslemodèlelogitonestime: β = b 3 φ avecφ= V(u), π onendéduitque: 3 β π β Dans la pratique on utilisera donc les approximations suivantes: β 0,55 β etβ 1,81 β On peut imprimer systématiquement les coefficients réduits en fin de programme pour faciliter les comparaisons La même modification doit être effectuée sur les écarts-types asymptotiques des estimateurs Il n en demeure pas moins que les deux modèles sont différents et que la comparaison n est qu approximative car la loi logistique n est qu une approximation de la loi normale et admet notamment plus de valeurs extrêmesquecettedernière 3 55 Les aides à l interprétation LescoefficientsdesmodèlesLogitetProbitnesontdéfinisqu àuneconstante multiplicative près, de sorte qu ils ne sont pas directement interprétables La méthode la plus simple pour obtenir des coefficients directement interprétables consiste à calculer l impact d une variables explicative directement sur la probabilité Le cas le plus simple est celui 3 Lecoefficientd applatissementdelaloilogistiqueestde1,2aulieu de1pourla loi normale
55 où la variable explicative est binaire; il suffit de comparer les deux états {0, 1} Dans le cas d une variables explicative quantitative il faut prendre deux points de référence; par exemple en comparant l effet du passage du premier au troisième quartile Deux types de mesures sont utilisées dans la littérature: d une part, l effet direct de la variable explicative sur la probabilité ou effet incrémental; d autre part, l effet d une variable explicative sur le ratios des probabilités de réalisation de l évènement(ou "oddsratio") 551 Variables explicatives binaires Sans perte de généralité, considérons le cas d une seule variable explicative binaire, X {0,1} La fonction suivante donne les chances que l évènementy =1seréaliseparrapportàl évènementy =0: R(X)= Pr[Y =1 X] Pr[Y =0 X] = F(β 0+β 1 X) 1 F(β 0 +β 1 X), il s agit du rapport des probabilités pour une même valeur de X ("the oddsfunction") Pour voirl effetde X surce ratio, onutilise le"ratio descotes"("oddsratio"): ψ X = R(1) R(0), soit: F(β 0 +β 1 ) 1 F(β ψ X = 0 +β 1 ), F(β 0 ) 1 F(β 0 ) ce ratio indique la modification des chances d obtenir l évènement Y = 1 lorsquel onpassedusouséchantillonx =0ausouséchantillonX=1 Lecoefficientβ=(β 0,β 1 ) estgénéralementestiméavecdenombreuses autres variables de sorte qu il s agit d un effet"toutes choses égales par ailleurs" Si le modèle comporte plusieurs variables explicatives, on estime généralement un effet au point moyen Dans ce cas le modèle avec les autres variables explicatives s écrit: E(Y)=F(γ 0 +β 1 X+Zβ 2 ), desortequeleratiodescotespeuts écrire: F ( ) γ 0 +β 1 +Zβ 2 1 F ( ) γ 0 +β 1 +Zβ 2 ψ X = F ( ), γ 0 +Zβ 2 1 F ( ) γ 0 +Zβ 2
56 enposant: β 0 =γ 0 +Zβ 2, on retrouve la même formule que précédemment LecasdumodèleProbits obtientavecf =ΦPourlemodèleLogit l expression se simplifie nettement: et Pr[Y =1 X]= exp(β 0+β 1 X) 1+exp(β 0 +β 1 X), Pr[Y =0 X]= 1 1+exp(β 0 +β 1 X), desortequelerapportdesprobabiltiésestégalà: R(X)=exp(β 0 +β 1 X), etquelerapportdescotesestégalà: ψ= R(1) R(0) = exp(β 0+β 1 ) =exp(β 1 ), exp(β 0 ) il suffit de prendre l exponentielle de ce coefficient pour obtenir l effet de la variable X sur le rapport des cotes Ceci permet également de calculer un intervalle de confiance facilement en utilisant le théorème de Slutsky Ilnes agittoutefoispasdel effetdelavariablex surpr[y =1 X]mais surleratiopr[y =1 X]/Pr[Y =0 X]Pourobtenirl effetincrémental dexsurlaprobabilitéquel évènementy =1seréalise,ondoitcalculer : Pr[Y =1 X=1] X = Pr[Y =1 X=0] = F(β 0+β 1 ), F(β 0 ) danslecasdumodèlelogit,onobtientdonc: X = exp(β 0 +β 1 ) 1+exp(β 0 +β 1 ) exp(β 0 ) 1+exp(β 0 ) =exp(β 1 ) 1+exp(β 0) 1+exp(β 0 +β 1 ) = exp(β 1)+exp(β 0 +β 1 ), 1+exp(β 0 +β 1 ) onvoitquesiβ 1 >0,alorsexp(β 1 )>1 et X >1
57 552 Variables explicatives quantitatives Avec des variables quantitatives, il est possible de calculer deux types de quantités : l effet marginal qui donne la variation de la probabilité que Y =1andX augmente d une unité; oul effetincrémental, qui mesure lavariationdelaprobabilitéquey =1quandX passed unevaleurde référence à une autre Comme valeurs de référence, on peut prendre les quartiles ou des déciles extrêmes de X La variation interdécile donne une bonne idée du potentiel d influence de la variable X, puisqu elle représente la variation de la probabilité quand on passe des 10% plus petites valeurs dex àses10%lesplusélevées Danslecasd uneloinormalececiserait équivalent à calculer la variation de la probabilité quand la variable X se situeentrex±1645 σ X L effet marginal est donné par: δ X = X Pr[Y =1 X]=β 1 f(β 0 +β 1 X), etilvarieavecchaquevaleurdexonpeutsoitfaireungraphiquesur l ensembledesvaleursdex,soitprendreunpointderéférencecommela moyenne oulamédiane L effetincrémentaldupassagedex deaàb est analogue au traitement sur variables qualitatives On a: X = danslecasdumodèlelogit: Pr[Y =1 X=b] Pr[Y =1 X=a] = F(β 0+β 1 b) F(β 0 +β 1 a), X = exp(β 0 +β 1 b) 1+exp(β 0 +β 1 b) exp(β 0 +β 1 a) 1+exp(β 0 +β 1 a) =exp[β 1 (b a)] 1+exp(β 0+β 1 a) 1+exp(β 0 +β 1 b), dans ce cas, on remarque que le ratio des cotes se simplifie de manière importante avec le modèle Logit: ψ X = R(b) R(a) = exp(β 0+β 1 b) exp(β 0 +β 1 a) =exp[β 1(b a)]=exp(β 1 ) b a, cette formule simplifie également le calcul des intervalles de confiance On peut notamment utiliser les rapports des cotes pour calculer l effet incrémental d une variable quantitative et pas seulement d une variable qualitative
58 56 Application: la participation des femmes au marché du travail Cette section présente une version simplifiée d une équation de participation au marché du travail La variable que l on cherche à expliquer est dichotomique: unepersonneaunemploiounonaumomentdel enquête Les données sont issues de l enquête Jeunes et Carrières réalisée par l INSEE en 1997 L échantillon comprend des données sur N = 5425 couples On considère la participation des femmes au marché du travail que l on explique par les déterminants suivants: 1 Age; 2 Nombre d enfants; 3 Naissance l année courante; 4 Activité des parents; 5 Nationalité de l intéressée et de ses parents; 6 Niveaud éducation(1=sansdiplômeoupremièreannéedecap; 2=sansdiplômeoudernièreannéedeCAP;3=CAPouBEP;4= Baccalauréat professionnel; 5 = Baccalauréat général ou équivalent; 6 = BTS; 7 = Enseignement supérieur général) 7 Région d habitation; 8 Les mêmes variables pour le conjoint; L estimation est réalisée sous SAS à partir de la procédure logistic La syntaxe de base, si l on veut expliquer une variable dichotomique yparlesvariablesexplicativesx 1,x 2 etx 3,estlasuivante: 51 proc logistic data=tab descending; model y=x1 x2 x3; run; Sous cette forme la procédure va chercher les données dans le tableau tab L option descending est très importante car, par défaut, la procédure estime un modèle dichotomique avec une probabilité p(x i,β) = Pr[y i =0] au lieu de Pr[y i =1] Dans le cas du modèle Logit, on a Pr[y i =0]=F( X i β)desortequesansl optiondescending onestime βaulieudeβl optiondescendingpermetdoncd imposerp(x i,β)= Pr[y i =1]L instructionmodelsertàindiquerlavariable(dichotomique) expliquée y et la liste des variables explicatives X 1, X 2 et X 3 Par défaut, la procédure logistic permet d estimer le modèle Logit, mais d autres
59 modèles sont disponibles Par exemple, pour estimer un modèle Probit, on utilise la syntaxe suivante: 52 proc logistic data=tab descending; model y=x1 x2 x3/link=normit; run; L option link= permet d indiquer la distribution que l on souhaite Le modèle Normit correspond à la fonction de répartition de la loi normale Pour obtenir le modèle de Weibull, on remplace l option link=normit par link=cloglog Reprenons notre application Afin d estimer le modèle, on entre les commandes: Programme 51 proc logistic descending data=tab; model f_jc97= f_age f_enf1 f_enf2 f_enf3 f_enf4 f_nai9697 f_mcspmiss f_magricul f_martisan f_mcadre f_mprofint /*f_employe*/ f_mouvrier f_minactiv f_pcspmiss f_pagricul f_partisan f_pcadre f_pprofint f_pemploye /*f_pouvrier*/ /*f_francais*/ f_afrnord f_europ f_autrenat /*f_pfrancai*/ f_pafrnord f_peurop f_pautrnat /*f_ndip1*/ f_ndip2 f_ndip3 f_ndip4 f_ndip5 f_ndip6 f_ndip7 h_age h_mcspmiss h_magricul h_martisan h_mcadre h_mprofint /*h_employe*/ h_mouvrier h_minactiv h_pcspmiss h_pagricul h_partisan h_pcadre h_pprofint h_pemploye /*h_pouvrier*/ /*h_francais*/ h_afrnord h_europ h_autrenat /*h_pfrancai*/ h_pafrnord h_peurop h_pautrnat /*h_ndip1*/ h_ndip2 h_ndip3 h_ndip4 h_ndip5 h_ndip6 h_ndip7 /*h_ilefr97*/ h_champa97 h_picard97 h_hautno97 h_centre97 h_bassno97 h_bourgo97 h_nordp97 h_lorrai97 h_alsa97 h_frcom97 h_payslo97 h_breta97 h_poitou97 h_aquita97 h_midipy97 h_limous97 h_rhonea97 h_auver97 h_langue97 h_proven97
60 /link=normit; run; les variables entre commentaires (début /* et fin */) indiquent la modalité de référence On prend généralement la modalité la plus répandue Le programme précédent produit la sortie: Sortie 51 The LOGISTIC Procedure Model Information Data Set WORKTAB Response Variable f_jc97 Number of Response Levels 2 Number of Observations 5425 Model binary probit Optimization Technique Fisher s scoring Response Profile Ordered Total Value f_jc97 Frequency 1 1 3701 2 0 1724 Probability modeled is f_jc97=1 Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied Model Fit Statistics Intercept Intercept and Criterion Only Covariates
61 AIC 6785321 5798470 SC 6791920 6313174-2 Log L 6783321 5642470 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 11408513 77 <0001 Score 10740382 77 <0001 Wald 9258740 77 <0001 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Parameter DF Estimate Standard Wald Error Chi-Square Pr > ChiSq Intercept 1-09183 01678 299387 <0001 f_age 1 00522 000587 790265 <0001 f_enf1 1-02213 00665 110658 00009 f_enf2 1-05780 00670 745248 <0001 f_enf3 1-09756 00777 1578460 <0001 f_enf4 1-16081 01101 2132488 <0001 f_nai9697 1-02890 00622 216082 <0001 F_MCSPMISS 1-02903 01115 67828 00092 F_MAGRICUL 1 01182 01154 10491 03057 F_MARTISAN 1-01044 00941 12298 02674 F_MCADRE 1-02240 01888 14089 02352 F_MPROFINT 1-000686 00893 00059 09388 F_MOUVRIER 1-00702 00596 13843 02394 F_MINACTIV 1-01264 00521 58969 00152 F_PCSPMISS 1-01194 01081 12211 02691 F_PAGRICUL 1 00425 00970 01916 06616 F_PARTISAN 1 000175 00727 00006 09808 F_PCADRE 1-02211 00877 63645 00116 F_PPROFINT 1-00366 00686 02848 05936 F_PEMPLOYE 1-00746 00609 15025 02203 F_AFRNORD 1-07277 02178 111613 00008 F_EUROP 1-00673 01735 01506 06980 F_AUTRENAT 1-07775 01747 197985 <0001 F_PAFRNORD 1-01896 01184 25623 01094
62 F_PEUROP 1 000814 00972 00070 09333 F_PAUTRNAT 1-000406 00705 00033 09541 F_NDIP2 1 02343 00668 123118 00005 F_NDIP3 1 03749 00586 409611 <0001 F_NDIP4 1 06551 00792 683899 <0001 F_NDIP5 1 05770 00867 443076 <0001 F_NDIP6 1 09994 00873 1311030 <0001 F_NDIP7 1 09218 00955 931190 <0001 h_age 1 000383 000587 04265 05137 H_MCSPMISS 1-01559 01092 20401 01532 H_MAGRICUL 1-01517 01079 19778 01596 H_MARTISAN 1-00929 00938 09817 03218 H_MCADRE 1 000537 01960 00008 09781 H_MPROFINT 1 00275 00887 00960 07566 H_MOUVRIER 1 000255 00623 00017 09674 H_MINACTIV 1-00664 00526 15936 02068 H_PCSPMISS 1 00136 01063 00165 08979 H_PAGRICUL 1 02244 00931 58138 00159 H_PARTISAN 1 01023 00718 20322 01540 H_PCADRE 1 00246 00899 00750 07842 H_PPROFINT 1 00924 00704 17231 01893 H_PEMPLOYE 1 00339 00624 02957 05866 H_AFRNORD 1-00567 02017 00791 07786 H_EUROP 1 01085 01661 04269 05135 H_AUTRENAT 1 00837 01951 01839 06681 H_PAFRNORD 1-000706 01174 00036 09521 H_PEUROP 1 01157 01025 12733 02592 H_PAUTRNAT 1-01482 00681 47431 00294 H_NDIP2 1 00360 00721 02496 06174 H_NDIP3 1 00432 00623 04807 04881 H_NDIP4 1 01063 00880 14589 02271 H_NDIP5 1-01846 01099 28211 00930 H_NDIP6 1-00549 00961 03268 05676 H_NDIP7 1-01936 00983 38824 00488 H_CHAMPA97 1-02672 01153 53710 00205 H_PICARD97 1-01980 01167 28774 00898 H_HAUTNO97 1-01628 01068 23226 01275 H_CENTRE97 1-00725 01096 04378 05082 H_BASSNO97 1-02480 01324 35110 00610 H_BOURGO97 1-02045 01145 31930 00740 H_NORDP97 1-06270 00927 457330 <0001 H_LORRAI97 1-02985 01197 62144 00127 H_ALSA97 1-03131 01078 84422 00037 H_FRCOM97 1-00378 01199 00991 07529
63 H_PAYSLO97 1-01121 00993 12733 02592 H_BRETA97 1-03328 01011 108330 00010 H_POITOU97 1-00622 01131 03026 05822 H_AQUITA97 1-04379 01071 167092 <0001 H_MIDIPY97 1-02844 01331 45682 00326 H_LIMOUS97 1-03096 01219 64570 00111 H_RHONEA97 1-02625 00872 90686 00026 H_AUVER97 1-01557 01170 17717 01832 H_LANGUE97 1-06318 01229 264220 <0001 H_PROVEN97 1-05341 00963 307795 <0001 Association of Predicted Probabilities and Observed Responses Percent Concordant 762 Somers D 0527 Percent Discordant 235 Gamma 0528 Percent Tied 02 Tau-a 0228 Pairs 6380524 c 0763 Les principaux déterminants de la participation des femmes au marché du travail sont le nombre d enfants (effet négatif) et le niveau d études(effet positif)
CHAPITRE 6 Les variables polytomiques 61 Cas général Les variables polytomiques correspondent au cas où l on observe plusieurs modalités en général, qu elles soient ordonnées ou non On suppose qu unevariabley i peutprendrej modalitésy i {1,2,,J}Laprobabilitéquelavariabley i soitégaleàlamodalitéjestnotée: p ji =Pr[y i =j], où les probabilités vérifient, pour chaque individu: J p ji =1, i j=1 On définit également les J variables indicatrices suivantes pour chaque individu: { 1 si yi =j d ji = j=1,,j 0 sinon Ces variables vérifient: J d ji =1, i j=1 Lalog-vraisemblanced unéchantillon(y 1,,y N )s écritdoncsimplement: J l= d ji lnp ji j=1 64
65 Lescoreestdoncégalà: l N θ = J j=1 d ji p ji θ 1 p ij, ilestd espérancenullepuisquee(d ji )=p ji,cequiimplique: J i E p ji 1 J p ji d ji = θ p j=1 ij θ = J p ji =0 θ j=1 j=1 } {{ } 1 On peut appliquer l algorithme de Berndt-Hall-Hall-Hausman à partir delamatrice: N W 1 B3H = J d ji p ji p ji p 2 ji θ θ, Lehessienestdonnépar: 2 l N θ θ = J j=1 j=1 j=1 [ d ji 2 p ji p ji θ θ 1 p ji p ji θ ] p ji θ, ce qui permet d employer l algorithme de Newton-Raphson: N W 1 NR = J [ d ji 2 ] p ji p 2 p ji ji θ θ p ji p ji θ θ, l algorithme du score peut donc s obtenir à partir de la matrice suivante: [ 2 ] l J { 2 p ji E d θ θ = θ θ 1 } p ji p ji p ji θ θ car i En conséquence: = J j=1 j=1 J j=1 1 p ji p ji p ji θ θ, p ji J θ =0 2 p ji θ θ =0 W 1 SC = N J j=1 j=1 1 p ji p ji p ji θ θ Les dérivées premières des probabilités suffisent donc pour obtenir un algorithme croissant
66 62 Les variables ordonnées 621 Cas général La variable expliquée que l on observe est qualitative par classe On suppose qu il y a J classes numérotées de j = 1 à j = J Les données observables sont définies par: 1 sia 0 <yi a 1 y i = j sia j 1 <y i a j J sia J 1 <y i a J Remarque61 Danslecasd unevariablelatenteréelle,onpeutposerla conventiona 0 ={ }eta J ={+ } Remarque 62 Le modèle dichotomique comprend J = 2 classes et s obtient commelecasparticulieroùa 0 ={ },a 1 =0eta 2 ={+ } Les variables polytomiques suivent, par définition, une distribution multinomiale dont les paramètres sont donnés par: {p ji } j=1,,j ={Pr[a j 1 <y i a j]} j=1,,j La probabilité associée à cette distribution est simplement: J j=1 { 1 p dji ji, oùd siaj 1 <yi ji= a j 0 sinon Ces probabilités dépendent de la distribution suivie par la variable latentey i Ensupposantquecetteperturbationsuituneloidefonction de répartition F qui dépend d un paramètre θ, on obtient les probabilités suivantes: p ji =Pr[a j 1 <y i a j ] =Pr[y i a j ] Pr[y i a j 1 ] =F(a j ) F(a j 1 ) Remarque63 Dans le cas particulier où y est réelle, on a F(a 0 ) = F( ) = 0 et F(a J ) = F(+ ) = 1 Les probabilités s écrivent donc p 1i = F(a 1 ), p ji = F(a j ) F(a j 1 ) si 2 j J 1 et p Ji = 1 F(a J 1 )
67 622 Le modèle Probit ordonné Danscemodèleonsupposequelavariablelatentey i estgénéréeparun modèle linéaire standard: y i =X ib+u i, u i iid N ( 0,σ 2) Lavariabley i appartientàlaclassej dèslorsque: a j 1 <y i a j a j 1 <X i b+u i a j a j 1 X i b σ < u i σ a j X i b σ oùu i /σsuituneloinormalecentréeetréduitedefonctionderépartition Φ(z)Onendéduitque: p ji =Pr(y ji =j) ( aj 1 X i b =Φ < u i σ σ a ) j X i b σ ( ) ( ) aj X i b aj 1 X i b =Φ Φ σ σ Pour simplifier la présentation, on effectue le changement de paramètre suivant: cequidonne: β= b σ eth= 1 σ, p ji =Φ(a j h X i β) Φ(a j 1 h X i β) Arrivé à ce stade, il faut distinguer le cas où les seuils a j sont connus ou inconnus Si les seuils sont connus, les deux paramètres h et β sont identifiables et l on peut procéder à l estimation par le maximum de vraisemblance Silesseuilssontinconnus,onnepeutpasestimerhetdestermesen a j happaraissentdansl expressiondesprobabilités Ici,onpeutremarquerquelesquantitésinconnuesa j hdépendentuniquementdelaclasse j Ceci revient à dire que chaque classe admet un terme constant différent etcroissantavecl ordredelaclassepuisquea j >a j 1 a j h>a j 1 h Remarque 64 Dans les modèles avec terme constant (le cas usuel) la constante de la première classe est prise comme référence, de sorte que auntermeconstantglobaletlesdifférentesestimationsdea j hpourj= 2,,J 1(cara J ={+ })
68 6221 Estimation avec seuils connus Pour estimer le modèle, on a juste besoin des dérivées des probabilités p ij par rapport aux paramètres θ = (β,h) Notons que l on ne peut estimer β et h séparément que lorsque les seuls sont connus On note φ(u)ladensitédelaloinormalecentréeetréduite,onutiliselapropriété φ (u)= uφ(u)etl onposelanotation: v ji =a j h X i β Laformegénéraledelaprobabilitéestdonc: etsesdérivées: p ji =Φ(v ji ) Φ(v j 1i ), p ji β =X i[φ(v j 1i ) φ(v ji )], p ji h =a jφ(v ji ) a j 1 φ(v j 1i ), Pour calculer les probabilités correspondant aux premières et dernières modalités, il suffit de remarquer que φ( ) = φ(+ ) = 0 En conséquence, il suffit d annuler les deux termes suivants dans les expressions ci-dessus: φ(v 0i )=0 et φ(v Ji )=0 6222 Estimation avec seuils inconnus OnnepeutplusestimerβethséparémentEnposantα j =a j h,ondoit estimer le modèle correspondant aux probabilités: p ji =Φ(α j X i β) Φ(α j 1 X i β) Leparamètreàestimerestdonc: θ =(β,α 2,,α J 1 ) etlesdérivéesdelaprobabilitésontdonnéespar: avec p ji β =X i[φ(v j 1i ) φ(v ji )], p ji α j =φ(v ji ), φ(v 0i )=0 et φ(v Ji )=0
69 63 Les variables non ordonnées 631 Cas général Danscecas,iln estpluspossibledemettreunordresurlesmodalitésde la variable observable Il peut s agit, par exemple, d un pays, d un mode de transport, d une couleur etc Dans ce cas on remplace l ordre objectif (ie unanime) propre aux variables ordonnées par un ordre subjectif (ie propre à chacun) que l on dérive d une représentation en termes de comparaisons d utilités On considère qu un individu se trouve confronté à un choix parmi J possibilités et que chaque possibilité j {1,,J} procureuneutilitéu j définiepar: U j =V j (X j )+ε j, j=1,,j où V j (X j ) est la partie déterministe de l utilité, c est-à-dire la partie quel onpeutexpliquer,x j lalistedesvariablesexplicativesintervenant dans cette utilité et ε j la partie aléatoire de l utilité, indépendante des variablesexplicativesx j Unindividuprisauhasardchoisitlamodalité ksi: U k >U j, j k, onobservedonclechoixkparl individuiaveclaprobabilité: p ki =Pr j k(u ki >U ji ) =Pr j k(v k (X ki )+ε ki >V j (X ji )+ε ji ) =Pr j k(ε ji <V k (X ki ) V j (X ji )+ε ki ) Laformeparticulièredelaprobabilité p ji dépendde ladistribution jointedes(ε 1i,,ε Ji )etdelaformeretenuepourlapartiedéterministe des fonctions d utilité 632 Le modèle logistique multinomial Pour obtenir ce modèle, également appelé multinomial Logit, on fait l hypothèse que les(ε 1i,,ε Ji )sontindépendammentetidentiquement distribuésselonuneloidegompertzdeparamètres(0,1)defonctionde
70 répartition: 1 F(ε)=exp( exp( ε)) Ladensitécettedistributionestdoncégaleà: f(ε)=exp( ε)exp( exp( ε)) EnnotantV ji =V j (X ji ), j,ona: p ki =E(d ki =1) =E j kpr[ε ji <V ki V ji +ε ki ], = + Pr[ε ji <V ki V ji +ε ki ]f(ε ki )dε ki j k En développant, on obtient: j kpr[ε ji <V ki V ji +ε ki ]= j k exp[ exp( (V ki V ji +ε ki ))] = j kexp[ exp( ε ki )exp(v ji V ki )], cequiimplique: p ki = + exp[ exp( ε ki )exp(v ji V ki )]exp( ε ki ) j k on effectue donc le changement de variable: cequiimplique: z=exp( ε ki ), exp( exp( ε ki ))dε ki, dε ki = dz z, lim z=+ et lim =0, ε ki ε ki + 1 Une variable Z suit une loi de Gompertz de paramètres (µ,φ) si sa fonction de répartition s écrit: On obtient: { F(z)=1 exp exp ( z µ φ )} E(Z)=µ+05772 β et V(Z)= φ2 π 2 6
71 d où 2 p ki = = = + 0 j k + 0 + 0 exp( zexp(v ji V ki ))exp( z)dz exp ( z ) exp(v ji V ki ) exp( z)dz j k { ( exp z 1+ )} exp(v ji V ki ) dz j k Lafonctionaintégrerestdelaformeexp( az)etadmetpourprimitive 1/aexp( az),onobtientfinalement: { ( exp z 1+ )} j k p ki = exp(v ji V ki ) 1+ j k exp(v ji V ki ) = 1 1+ j k exp(v ji V ki ) Il est possible de réécrire cette probabilité en multipliant son numérateuretsondénominateurparexp(v ki ),cequidonne: p ki = + exp(v ki ) exp(v ki )+ j k exp(v ji) = exp(v ki ) J j=1 exp(v ji) Pour obtenir le modèle logistique multinomial, on fait l hypothèse supplémentaire que les utilités sont linéaires par rapport aux paramètres: cequidonnefinalement: p ki = V ji (X j )=X ji b j, j=1,,j, exp(x ki b k ) J j=1 exp(x jib j ), k=1,,j 0 Comme tous les paramètres du modèle ne sont pas identifiables, on doit imposer une contrainte sur les paramètres b j Dans le cas où les variables explicatives sont identiques pour toutes les modalités, on prend unemodalitéderéférence,quel onnotej=1;ils agitgénéralementde lamodalitélaplusrépandue Eneffetdanscecasparticulier,ona: exp(x i b k ) p ki = J j=1 exp(x ib j ) = exp(x i (b k b 1 )) 1+ J j=2 exp(x i(b j b 1 )), 2 Onutilisele faitqu intervertirlesbornes de l intégrale change son signe
72 ettousleseffetssontmesurésparrapportàl utilitéqueprocurelechoix le plus courant On voit clairement que seules les transformations de b j b 1 peuventêtreestimées Onposeβ j =b j b 1,cequidonne: p ki = Onremarqueiciquepourk=1: exp(x i β k ) 1+ J j=2 exp(x iβ j ), k=1,,j 1 p 1i = 1+ J j=2 exp(x iβ j ), parce que β 1 = b 1 b 1 = 0 La nullité du coefficient de la première modalité est donc la contrainte identifiante du modèle On ne calcule doncpasdedérivéeparrapportàβ 1 Lesdérivéesdelaprobabilitésont données simplement par: k=2,,j, p ki β k =X i p ki(1 p ki ), p ki β j = X i p kip ji j k
CHAPITRE 7 Le pseudo maximum de vraisemblance Dans le cas général, l estimateur du maximum de vraisemblance n est convergent et asymptotiquement efficace que si l hypothèse que l on fait sur la loi conditionnelle de la variable expliquée y est juste Sinon, il peut ne pas être convergent Il existe une famille de distributions pour lesquellesuneerreurdespécificationdecetypeneremetpasencausela convergence de l estimateur du maximum de vraisemblance Par contre il faut évaluer différemment sa matrice de covariance, c est à dire changer les statistiques de test Nous supposerons donc dans cette section que nous ne connaissons que l espérance conditionnelle de la variable expliquée E(y X,θ) 71 Le pseudo maximum de vraisemblance àl ordre1 711 La famille exponentielle linéaire à l ordre 1 71 Lafamilleexponentiellelinéaireàl ordre1désigneune famille de distributions dont la densité admet la forme suivante: f(y,m)=exp{a(m)+b(y)+c(m) y} où E(y)=m Cette forme est vérifiée par de nombreuses lois usuelles, dont voici quelques exemples: Exemple71 Loinormale y N(m,ω) Son espérancemathématique 73
74 estégaleàm Retladensités écrit: [ ( 1 lnf(y,m)=ln exp 1 )] 2πω 2ω (y m)2 1 y2 ln(2πω) +y m }{{} 2ω } 2 {{ 2ω } ω = m2 A(m) B(y) }{{} C(m) Exemple72 LoidePoisson y P(m) Sonespérancemathématique estégaleàm R + etlesprobabilitéss écrivent: [ ] exp( m)m y lnf(y,m)=ln y! = }{{} m lny! +y lnm } {{ } A(m) B(y) }{{} C(m) Exemple73 Loi de Bernoulli y B(m) Son espérance mathématiqueestégaleàm ]0,1[etlesprobabilitéss écrivent: lnf(y,m)=ln [m y (1 m) 1 y] =ln(1 m) + 0 } {{ } A(m) }{{} B(y) +y ln m 1 m } {{ } C(m) Exemple74 Loi Gamma y Γ(a,b) Ce cas est un peu plus compliqué que les précédents car l espérance mathématique n est pas un paramètre utilisé habituellement avec cette loi Il faut donc la réécrire en fonction dem=ab Laformeusuelledelaprobabilitéest: avec: 1 f(y)= ya 1 exp( y/b) b a, a,b>0, y>0 Γ(a) m=ab b=m/a en remplaçant dans la densité, on obtient: [ y a 1 ] exp( ya/m) lnf(y,m)=ln (m/a) a Γ(a) = aln(m/a) lnγ(a) +(a 1)lny } {{ } } {{ } A(m) B(y) ( +y ) a } {{ m } C(m) 1 Icionpeutprendresoitb=m/asoita=m/b,etl onprendlapremièrepossibilité parce qu elle mène aux calculs les plus simples
75 Exemple75 Loi Binomiale négative y BN(r,p) Dans ce cas également, l espérance mathématique n est pas un paramètre utilisé habituellementaveccetteloiilfautdonclaréécrireenfonctiondem=r(1 p)/p Laformeusuelledelaprobabilitéest: avec: f(y)= Γ(y+r) Γ(y+1)Γ(r) pr (1 p) y, 0<p<1etr>0, m=r (1 p) p p= r r+m, en remplaçant dans l expression de la densité on obtient: [ Γ(y+r) lnf(y,m)=ln Γ(y+1)Γ(r) ( ) r =rln +ln r+m } {{ } A(m) ( ) r ( ) y ] r m r+m r+m Γ(y+r) Γ(y+1)Γ(r) } {{ } B(y) ) ( m +y ln r+m } {{ } C(m) 71 Les lois de la famille exponentielle linéaire vérifient les deux propriétés suivantes: 1 A m +m C m =0 2 V(y)= ( C m ) 1 P : Pour démontrer la première propriété, on remarque que: f(y,m)dy=1, endérivantcetterelationparrapportàm,onobtient: ( A m + C ) m y f(y,m)dy=0 A f(y,m)dy+ C yf(y,m)dy=0 m m } {{ } } {{ } 1 E(y) A m +m C m =0
76 Pour démontrer la seconde propriété, on remarque que: E(y)= yf(y,m)dy=m, endérivantcetterelationparrapportàm,onobtient: ( A m + C ) m y yf(y,m)dy=1 A yf(y,m)dy+ C y 2 f(y,m)dy=1 m m } {{ } } {{ } E(y) E(y 2 ) A C ( m+ ) V(y)+m 2 =1 m m ( m C ) m+ C ( ) V(y)+m 2 =1 m m C m V(y)=1 V(y)= ( ) 1 C m Vérifions-le sur nos exemples: Exemple76 LoinormaleN(m,ω) OnaC(m)=m/ωdonc C/ m= 1/ω etv(y)=ω Exemple77 LoidePoissonP(m) OnaC(m)=lnmdonc C/ m= 1/metV(y)=m Exemple78 Loi de Bernoulli B(m) On a C(m) = ln(m/(1 m)) donc C/ m=1/(m(1 m))etv(y)=m(1 m) Exemple79 Loi Gamma Γ(a,b) avec m=ab On a C(m)= a/m donc C/ m=a/m 2 etv(y)=m 2 /a=ab 2 Exemple710 LoiBinomialeNégativeBN(r,p)avecm=r(1 p)/p OnaC(m)=ln(m/(m+r))donc C/ m=r/(m(m+r))etv(y)= m(m+r)/r=r(1 p)/p 2
77 712 Estimation On note θ le paramètre à estimer Ce paramètre intervient ici dans l espérance mathématique de la distribution de y Ainsi, dans le cas d unmodèlelinéaireavecvariablesexplicativesx i,onauraitm=x i θ L espérance peut donc être différente pour chaque observation dans un modèle avec variables explicatives Plus généralement, on considérera une espérance conditionnelle sous la forme générale: m i =m(x i,θ) L estimateur du pseudo maximum de vraisemblance est obtenu en maximisant la pseudo vraisemblance suivante: l(y i X i ;θ)= = lnf(y i m(x i,θ)) A[m(X i,θ)]+b(y i )+C[m(X i,θ)] y i On remarque que pour la maximisation, on peut négliger les termes qui ne dépendent pas de θ L estimateur du pseudo maximum de vraisemblance θ N sedéfinitdonccomme: θ N =argmax θ =argmax θ A[m(X i,θ)]+b(y i )+C[m(X i,θ)] y i A[m(X i,θ)]+c[m(x i,θ)] y i Laconditiondupremierordreestdonnéepar: l ) (y i X i ; θ N =0 θ m θ m θ [ A m + C ] m y i =0 C m [ )] y i m (X i, θ N =0 m )] θ Σ 1[ y i m (X i, θ N =0, enutilisantlefaitque A/ m+m C/ m=0etque[ C/ m] 1 =V(y)= Σ Remarquons ici que Σestla matrice de covariancedela pseudoloi,
78 qui peut être différente de la matrice de covariance de la vraie loi, qui est inconnue dans le cas général(ie, nous n avons pas fait d hypothèse sur la variance conditionnelle) La vraie matrice de covariance est notée Ω On obtient l équivalent des matrices I N (θ) et J N (θ) de la manière suivante: 2 I N (θ)= = = = E 0 [ lnf(yi m(x i ;θ)) θ [ m E 0 θ Σ 1 (y i m) 2 Σ 1 m ] θ m [ θ Σ 1 E (y i m) 2] Σ 1 m 0 θ m θ Σ 1 ΩΣ 1 m θ, ] lnf(y i m(x i ;θ)) θ oùe 0 []représentel espérancemathématiqueparrapportàlavraie loi deypourobtenirj N (θ)ilfautserappelerqueσdépenddem: [ ] J N (θ)= E 2 lnf(y i m(x i ;θ)) 0 θ θ [ 2 ] m = E 0 θ θ Σ 1 (y i m) [ ( ( m ) )] Σ 1 E 0 θ θ (y i m) Σ 1 m θ = m θ Σ 1 m θ OnremarquedoncquepourΣ Ω,ona: I N (θ) J N (θ) En effectuant un développement limité de la condition du premier 2 On prend les espérances mathématiques par rapport à la vraie loi car c est vers ces quantités que convergeront nos statistiques
79 ordreauvoisinagede θ N =θ,onobtient: l ( ) pp= l y i X i ; θ N θ θ (y i X i ;θ)+ 2 l θ θ (y i X i ;θ) ( θn θ) ) [ pp N( θn θ = 1 2 ] 1 l 1 l N θ θ (y i X i ;θ) N θ (y i X i ;θ), lepremiertermeconvergeversj 1 (θ)etlesecondtermeestlamoyenne de variables aléatoires d espérance nulle et de variance I 1 (θ) En conséquence: ) A N ( N ( θn θ 0,J 1 1 (θ)i 1 (θ)j 1 1 (θ) ), danslapratique,onutilise: Eneffet,onvoitque: θ N A N ( θ,j 1 N (θ)i N(θ)J 1 N (θ)) 1 N J 1 1 (θ)i 1 (θ)j 1 1 (θ)=[nj 1 (θ)] 1 [NI 1 (θ)][nj 1 (θ)] 1 =J 1 N (θ)i N(θ)J 1 N (θ) Reprenons nos trois exemples Dans tous les cas, la spécification de lamoyenneestsupposéejuste OnadoncE(y)=θetdanstouslescas, ontrouve θ N =1/N N y i Pourtant,selonquelaloiestnormale,de Poisson ou de Bernoulli, les variances asymptotiques sont égales à ω/n, θ/n etθ(1 θ)/npourcalculerlesvariancesasymptotiquesdupseudo maximum de vraisemblance, il faut recalculer les matrices I N (θ) On suppose, dans les trois exemples suivants que la vraie variance est égale à ω La suite montre que, lorsque l on ne connaît pas la vraie loi avec certitude, il faut mieux utiliser l estimateur suivant: ) Vas ( θn = ˆω N avec ˆω= 1 N yi 2 Exemple711 PseudoloinormaleN(θ,ω)LamatriceI N (θ)estmaintenant donnée par: I N (θ)= V[y i θ]= N 0 ω, donclavarianceasymptotiquede θ N doitêtreestiméepar: ( ) 1 ( ) 1 N J 1 N (θ)i N(θ)J 1 N (θ)= N N = ω ω ω ω N
80 Exemple712 PseudoloidePoissonP(θ)LamatriceI N (θ)estmaintenant donnée par: I N (θ)= [ V 1+ y ] i 0 θ = Nω θ 2, donclavarianceasymptotiquede θ N doitêtreestiméepar: ( ) 1 ( ) 1 N J 1 N (θ)i N(θ)J 1 N (θ)= Nω N θ θ 2 = ω θ N Exemple713 PseudoloideBernoulliB(θ)LamatriceI N (θ)estmaintenant donnée par: [ y i I N (θ)= V 0 θ(1 θ) 1 ] Nω = 1 θ θ 2 (1 θ) 2, donclavarianceasymptotiquede θ N doitêtreestiméepar: ( ) 1 ( ) 1 N J 1 N (θ)i N(θ)J 1 N (θ)= Nω N θ(1 θ) θ 2 (1 θ) 2 = ω θ(1 θ) N 713 Matrice de covariance robuste à l hétéroscédasticité de forme inconnue Le modèle linéaire standard, estimé par le maximum de vraisemblance sous hypothèse de normalité, fournit un estimateur convergent de b même siladistributiondelaperturbationu i n estpasnormalen(0,ω) C est parce que la loi normale appartient à la famille exponentielle linéaire En effet,ellepeuts écriresouslaforme: f(y,m)=exp{a(m)+b(y)+y C(m)} où m = Xb est l espérance conditionnelle de y Notons dès maintenant quequellequesoitlavaleurduparamètredusecondordreω,fappartient à la famille exponentielle linéaire Nous pouvons donc nous en passer et lui donner une valeur quelconque Ceci tient au fait que le pseudo maximum de vraisemblance à l ordre 1 ne fait pas d hypothèse sur la variance conditionnelle de y Le paramètre ω est alors un paramètre de nuisance que l on peut fixer arbitrairement; ce n est plus nécessairement lavariancedesperturbations,carlavraieloin estpasnormaledanslecas général De plus, dans le cas du modèle linéaire, ceci n affectera pas notre estimateur de b, puisqu il est déterminé indépendamment de l estimateur deωonpeutdoncposerω=1sanspertedegénéralité Ona: A(m)= 1 2 [ m 2 +ln(2π) ], B(y)= y2 2, C(m)= m
81 La matrice de covariance de l estimateur des moindres carrés n est plus estimée par l inverse de l information de Fisher mais par: Vas( N ( bn b ))= Ĵ 1 LamatriceJ 1 (b)resteinchangée: 1 [ ] J 1 (b)=ee 2 lnf X 0 b b =E[X X], X que l on peut estimer de manière convergente par: ) )Ĵ 1 ( bn )Î1 ( bn 1 ( bn (71) ) Ĵ 1 ( bn = 1 N X ix i LamatriceI 1 (b)estégaleà: I 1 (b)=e X E 0 [ lnf b ] lnf [ b =EE X Xu 2], X 0 avec u=y Xb, que l on peut estimer de manière convergente par: ) Î 1 ( bn = 1 N X ix i û 2 i avec û i =y i X i bn On utilise donc finalement: ( ) N ) 1 N ( N ) 1 Vas ( bn = X ix i X ix i û 2 i X ix i La matrice de covariance ainsi obtenue est appelée matrice de covariance robuste (White, 1980) Plus précisément elle est robuste aux hypothèses de normalité et d homoscédasticité des perturbations 3 On l utilise donc systématiquement de nos jours 3 La variance habituelle de l estimateur des moindres carrés ordinaires est robuste à l hypothèse de normalité, seule l hétéroscédascité pose réellement problème ici
82 72 Le pseudo maximum de vraisemblance quasi généralisé 721 La famille exponentielle quasi-généralisée 72 La famille exponentielle quasi généralisée désigne une famille de distributions dont la densité admet la forme suivante: f(y,m,η)=exp{a(m,η)+b(y,η)+c(m,η) y} où E(y)=met V(y)=[ C(m,η)/ m] 1 oùηestunparamètreintervenantdanslavariancedelapseudodistribution Il n est pas forcément égal à la variance de la distribution Les lois de Poisson et de Bernoulli n admettent pas de paramètre spécifique intervenant dans la variance, elles n appartiennent donc pas à la famille exponentielle quasi-généralisée Par contre, la loi normale appartient à cette famille Nous introduisons également la loi binomiale négative qui généralise la loi de Poisson Le lecteur pourra vérifier par lui-même qu elle appartient à la famille linéaire exponentielle à l ordre 1 Exemple714 Loinormale y N(m,η)OnaE(y)=metV(y)=η La densité s écrit: [ ( 1 lnf(y,m,η)=ln exp 1 )] 2πη 2η (y m)2 = m2 2η }{{} A(m,η) 1 2 ln(2πη) y2 2η } {{ } B(y,η) +y m η }{{} C(m,η) Exemple715 LoiGamma y Γ(η,m/η)OnaE(y)=metV(y)= m 2 /ηladensités écrit: lnf(y,m,η)=ln [ y η 1 ] exp( yη/m) (m/η) η Γ(η) = ηln(m/η) lnγ(η) +(η 1)lny } {{ }} {{ } A(m,η) B(y,η) ( +y η ) } {{ m } C(m,η) Exemple716 Loi binomiale négative y BN(m,η) On a E(y) = m et V(y) = m(1+ηm) On remarque que, contrairement à la loi de Poisson, la variance conditionnelle peut être différente de la moyenne conditionnelle On retrouve la loi de Poisson en prenant la limite quand η 0Ladensités applique,danslecas debase, auxvariables entières
83 positives et s écrit: f(y,m,η)= Γ(y+1/η) ( ) y ( ) 1/η ηm 1, Γ(y+1)Γ(1/η) 1+ηm 1+ηm cequiimplique: [ ( ) ] 1/η 1 1 lnf(y,m,η)=ln +ln Γ(y+1/η) 1+ηm Γ(1/η) Γ(y+1) } {{ } } {{ } A(m,η) B(y,η) 722 Estimation ( ηm +yln 1+ηm ) } {{ } C(m,η) 72 L estimateurdupseudomaximumdevraisemblancequasi généralisé(pmvqg)θ N vérifielestroispropriétéssuivantes: 1 N ( θ N θ ) A ( N 0,J 1 1 (θ) ) avec: [ ] m J 1 (θ)=ee X 0 θ Σ 1 m θ 2 Il atteint la borne inférieure des matrices de covariances des estimateurs du pseudo maximum de vraisemblance à l ordre 1 3 Si la vraie loi de y appartient à la famille exponentielle linéaire et si les paramètres m et η sont fonctionnellement indépendants, l estimateur du PMVQG est asymptotiquement équivalent à l estimateur du maximum de vraisemblance sur la vraie loi 723 Les moindres carrés pondérés Supposons que l on ait un modèle linéaire hétéroscédastique dont la forme delavarianceestconnue,donnéepar: V(y i X i )=ω(x i,η)>0 Dans un premier temps, on applique le pseudo maximum de vraisemblance à l ordre 1, sans tenir compte de l hétéroscédasticité des perturbations Cet estimateur est convergent et sa variance asymptotique est donnéeparlarelation(71)dansunsecondtemps,onestimeleparamètre ηpourcela,onutiliselarelation: ( E (y i m i ) 2) =ω(x i,η),
84 ce qui permet d écrire la régression: u 2 i =ω(x i,η)+v i avec E(v i )=0 onobtientdoncunestimateurconvergentdeη,noté η,enremplaçantu 2 i parû 2 i Apartirdecetestimateur,onestimelavariancepar: ω i =ω(x i, η) Ensuite on maximise la pseudo vraisemblance quasi généralisée, obtenue enposantω= ω i danslapseudovraisemblance Onnotequelavariance est différente avec chaque observation et que ω i ne dépend que de b N, pasdebcecidonnel estimateur: b N =argmaxl(y X,b, ω) b =argmax N b 2 ln(2π) 1 2 =argmin b ln ω i 1 2 ( yi X i b ωi ) 2, 1 ω i (y i X i b) 2 ce qui correspond à l estimateur des moindre carrés ordinaires avec une pondération égale à l inverse de l écart-type de la perturbation La variance asymptotique de cet estimateur est donné par: Vas ( b N ) = [Ĵ1 ( bn ) ] 1 = ( N ) 1 1 X ω ix i i
CHAPITRE 8 Les variables entières 81 LemodèledePoisson 811 Introduction La loi de Poisson permet de décrire le nombre de réalisations d un évènementpendantunepériodedetempsdonnéesoity i lavariablequel on souhaite expliquer(eg, le nombre de brevets) Comme l espérance mathématique d une donnée de comptage est toujours strictement positive onl écritsouslaforme: 1 E(y i X i,b)=exp(x i b)>0, où X i est le vecteur des variables explicatives et b le paramètre correspondant On peut réécrire cette relation sous la forme: lne(y i X i,b)=x i b, desorteque lne(y i X i,b) X i =b Cette relation fait apparaître que le paramètre b sera le vecteur des élasticitésdel espérancedeyparrapportàx dèslorsquelesvariables explicatives seront prises en logarithmes Mais, contrairement au cas du modèlelinéaire,ils agirapasicidel élasticitédeyparrapportàx 1 Une variable de comptage ne prend que des valeur positives ou nulle, d où le résultat 85
86 8111 Modèle homogène Le modèle de Poisson homogène s obtient dès lors que l on postule que les y i sont indépendamment et identiquement distribués selon une loi de Poisson de moyenne conditionnelle m i = exp(x i b) La probabilité d observeruneréalisationy i delavariabledelavariabledecomptageest doncdonnéepar: f(y i )= exp( m i)m yi i, y i {0,1,2,} y i! Cette hypothèse implique que la variance conditionnelle est égale à la moyenne conditionnelle: V(y i X i )=E(y i X i ) i Onobtientcemodèleenpostulantqu iln yapasdeperturbationdans l expressionde l espérance conditionnelle de y i Les pertubations expriment généralement une forme d hétérogénéité individuelle inobservable, de sorte qu en leur absence on parle de modèle homogène 8112 Modèle hétérogène On peut penser que le modèle précédent est insuffisant pour représenter les différences entre les individus, car celles-ci ne s expriment que par les variablesdéterministesx i Onpeutpenserqu ilexisteégalementdescaractéristiques individuelles inobservables, supposées sans corrélation avec lesx i,quiinterviennentégalementdansl espérance Lamoyennecomportealorsunepartiedéterministeetunepartiealéatoireu i : lne(y i X i,b)=x i b+u i, où u i est une perturbation qui vérifie E(expu i ) = 1 La moyenne du processus de Poisson est alors elle-même aléatoire de sorte qu il y a deux sources d aléa dans ce modèle : d une part, un aléa sur la moyenne et, d autre part, un aléa lié au tirage dans une loi de Poisson de moyenne donnée Onnotecettemoyenne m i,définiepar: m i =exp(x i b+u i )=exp(x i b)exp(u i )=m i exp(u i ) Pour pouvoir écrire la vraisemblance de ce modèle, il faut faire une hypothèse spécifique sur la loi de exp(u i ) Nous ne suivrons pas cette approche ici car seuls quelques cas peuvent être écrits sous forme explicite; la plupart du temps, il faudrait recourir à l intégration numérique Nous prendrons donc une approche par le pseudo maximum de vraisemblance
87 à l ordre 1, qui ne nécessite que l expression de la moyenne conditionnelle dey i Ici,cetteexpressionesttoutsimplementdonnéepar: E(y i X i,b)=e(m i expu i )=m i E(expu i ) =m i } {{ } 1 Notons ici que l hypothèse n implique aucune perte de généralité tant que le modèle contient un terme constant Si on avait fait l hypothèse que E(expu i )=k,onauraittrouvé: E(y i X i,b)=km i =kexp(x i b)=exp( lnk+x i b), desortequeleterme lnkestabsorbéparletermeconstantdumodèle 812 Estimation L espérance mathématique d un modèle hétérogène est la même que celle d un modèle homogène De plus, nous avons vu précédemment que la loi de Poisson appartient à la famille exponentielle linéaire Dans ces conditions, quelle-est la différence entre l estimateur du maximum de vraisemblance et celui du pseudo maximum de vraisemblance? Réponse : la matrice de covariance asymptotique Celle du pseudo maximum de vraisemblance est robuste 8121 Maximum de vraisemblance La log-vraisemblance pour une observation est donnée par: l i =ln { exp( mi )m y } i i = m i +y i lnm i lny i! y i! On peut également l écrire comme: l(y i,µ i )= exp(µ i )+y i µ i lny i!, = exp(x i b)+y i X i b lny i! avecµ i =X i blesdérivéesparrapportൠi sontégalesà: l i µ i =y i exp(µ i )=y i λ i, Onendéduitquelescoreestégalà 2 l i µ 2 i = exp(µ i )= m i l N b = X i(y i m i ),
88 etquelehessienestégalà: 2 l N b b = X ix i m i 0 La nullité du score exprime ici encore la condition d orthogonalité entrelesvariablesexplicativesx etlerésidudelarégressionû i =y i m i = y i Ê(y i X i,b) La seule différence avec le cas ( habituel ) est que l espérancemathématiqueestnonlinéaire m i =exp X iˆb Commele hessienestdéfini négatif, l estimateurdumaximumde vraisemblance b estuniqueetdonnéparlaconditiondupremierordre: avec l ( b) =0 b X i [ ( )] y i exp X i b =0 La distribution asymptotique de cet estimateur est normale: ) L N ( b b N( 0,J 1 1 (b) ), N + [ ] J 1 (b)=ee 2 lnf X y b b (y X) On remarque que la matrice hessienne ne dépend pas de y, ce qui implique qu elle est égale à son espérance mathématique par rapport à la loideyonestimecettematricepar: Ĵ 1 = 1 N ( ) X ix i exp X i b 8122 Pseudo maximum de vraisemblance Comme l espérance mathématique est identique dans les modèles homogèneethétérogène,etcommelaloidepoissonappartientàlafamille exponentielle linéaire, seule la matrice de covariance asymptotique est changéeona: ) L N ( b b N( 0,J 1 n + 1 (b)i 1 (b)j 1 1 (b) ), oùj 1 (b)aétédéfiniedanslasectionprécédenteet I 1 (b)= E X E y [ lnf b (y X) lnf ] b (y X)
89 OnestimelamatriceI 1 (b)parlemomentempiriquecorrespondant: Î 1 = 1 N = 1 N ( )) 2 X ix i (y i exp X i b X ix i û 2 i Par rapport au cas homogène, les écarts-types sont robustes à la distribution de comptage parce que la loi de Poisson appartient à la famille exponentielle linéaire à l ordre 1 Examinons maintenant la variance conditionnelle de notre variable expliquée On suppose que le terme d hétérogénéité ε i = exp(u i ) suit une loi d espérance 1 et de variance η i > 0 La variance de la variable expliquée est donnée par: E(y i X i )=E ε V y (y i X i,ε i )+V ε E y (y i X i,ε i ) =E ε (exp(x i b+u i ) X i )+V ε (exp(x i b+u i ) X i ) =E ε (exp(x i b)ε i X i )+V ε (exp(x i b)ε i X i ) =exp(x i b)e(ε i ) ε }{{} 1 +exp(2x i b)v ε (ε i ) }{{} η i =exp(x i b)(1+η i exp(x i b)) =m i (1+η i m i ) Ainsi, le modèle possède une variance supérieure à la moyenne et qui croît avec la moyenne 2 Le maximum de vraisemblance du modèle homogène revient à supposer que η i = 0, i; le pseudo maximum de vraisemblance autorise n importe quel profil de variance du terme d hétérogénéité 82 Le modèle binomial négatif Bien que donnant un estimateur convergent, le modèle de Poisson ne donne pas forcément l estimateur le plus efficace en présence d hétérogénéité Plusieurs approches sont possibles pour traiter ce problème Premièrement, on peut postuler une loi pour le terme d hétérogénéité et estimer le modèle par le maximum de vraisemblance; deuxièmement, on peut procéder à une estimation par le pseudo maximum de vraisemblance 2 Larelationprécédentepermetdevoirque dansun modèlede Poissonhomogène, la variance conditionnelle est toujours égale à l espérance conditionnelle
90 quasi généralisé à condition de choisir une loi ayant un paramètre de variance; troisièmement, on peut procéder à une estimation par le maximum de vraisemblance simulé Le modèle binomial négatif peut être utilisé avec les deux premières approches 821 Estimation par le maximum de vraisemblance Onditqu unevariablealéatoirey Nsuituneloibinomialenégativede paramètres(r, p) quand elle admet pour distribution: f(y)= Γ(y+r) Γ(y+1)Γ(r) pr (1 p) y, 0<p<1etr>0, ceciimplique: E(y)= r(1 p) p et V(y)= r(1 p) p 2 Dans notre cas, nous souhaitons obtenir un modèle de Poisson hétérogène, cequiimposelaformesuivantepourlesdeuxpremiersmoments: E(y)=met V(y)=m(1+ηm), desortequ ilfautprendre(r,p)telsque: m= r(1 p) p et m(1+ηm)= r(1 p) p 2 En divisant la variance par l espérance, on obtient: 1+ηm= 1 p p= 1 [0,1] carη>0, m>0 1+ηm Enutilisantladéfinitiondel espérance, ona: r=m p 1 p = 1 η, onpeutdoncréécrireladensitédelamanièresuivante: f(y,m,η)= Γ(y+1/η) ( ) 1/η ( ) y 1 ηm, η>0,m>0 Γ(y+1)Γ(1/η) 1+ηm 1+ηm On retrouve donc les moments d un modèle de Poisson hétérogène Pour obtenir cette distribution, on fait les hypothèses suivantes: 1 Y suituneloidepoissond espérance: m i =m i ε i,
91 2 ε i suit une loi Gamma de paramètres (1/η,η) dont la densité est donnéepar: 3 et de moments g(εi)= ε1/η 1 i exp( ε i /η), η 1/η Γ(1/η) E(ε i )=1, V(ε i )=η Plus précisément, dans un modèle standard: desorteque: m i =exp(x i b) et ε i =exp(u i ), m i =m i ε i =exp(x i b+u i ), ce qui donne un modèle de Poisson avec hétérogénéité Log-Gamma car u i =lnε i La loi binomiale négative s obtient de la manière suivante La densité dumodèlehétérogène,notéf,estégaleà: f (y X,ε)= exp( m) my y! avec m=mε,m=exp(xb) Comme la variable aléatoire ε n est pas observable, on intègre la densité précédente par rapport à cette distribution, afin d obtenir la densité conditionelledey parrapportàx f(y X)=E ε (f (y X,ε))= + Onobtientdoncl expressionsuivante: 4 f(y X)= = + 0 0 f (y X,u)g(ε)dε exp( mε)(mε) y ε 1/η 1 exp( ε/η) dε y! η 1/η Γ(1/η) m y Γ(y+1)η 1/η Γ(1/η) + 0 ε y+1/η 1 exp( ε(m+1/η))dε 3 Dans le cas général, une variable aléatoire ε suit une loi gamma de paramètres (a,b),noté ε Γ(a,b)sielle vérifie : On rappelle également que : 4 Onutilisey!=Γ(y+1) f(ε)= εa 1 e ε/b b a, a,b,ε>0, Γ(a) E(ε)=ab, V(ε)=ab 2 Γ(a)= + 0 x a 1 e x dx
92 arrivéàcestadeoneffectuelechangementdevariable: z=(m+1/η)ε, cequiimplique: ε= ηz ηdz, dε= ηm+1 d où l expression: ηm+1, lim ε 0 z=0, lim ε + z=+, f(y X)= = m y Γ(y+1)η 1/η Γ(1/η) m y Γ(y+1)η 1/η Γ(1/η) = Γ(y+1/η) Γ(y+1)Γ(1/η) = Γ(y+1/η) Γ(y+1)Γ(1/η) 1 η 1/η + 0 ( η ηm+1 ( ) y+1/η 1 ηz η exp( z) ηm+1 ηm+1 dz ) y+1/η 1 η + z y+1/η 1 exp( z)dz ηm+1 0 } {{ } Γ(y+1/η) ) 1/η ( ) y ηm ( η ηm+1 ( 1 ηm+1 ) 1/η ( ηm ηm+1 ηm+1 ) y On utiliser cette densité pour estimer les paramètres par le maximum de vraisemblance 822 Estimation par le pseudo maximum de vraisemblance quasi généralisé La loi binomiale négative appartient à la famille exponentielle linéaire à l ordre 1, ce qui permet d obtenir un estimateur convergent dit de première étape Cet estimateur sera utilisé pour estimer η, et l on pourra ensuite obtenir l estimateur du pseudo maximum de vraisemblance quasigénéralisé Tout d abord, vérifions que la loi binomiale négative appartient à la famille exponentielle linéaire à l ordre 1: lnf(y,m)= 1 η ln(ηm+1) Γ(y+1/η) +ln +y(ln(ηm) ln(ηm+1)), Γ(y+1)Γ(1/η) } {{ } } {{ } } {{ } C(m) A(m) B(y)
93 on vérifie facilement la variance: ( ) 1 dc V(y)= dm ( 1 = m η ηm+1 ( 1 = m(ηm+1) =m(1+ηm) 8221 Estimateur de première étape ) 1 ) 1 Pourcet estimateur onfixe librementla valeurde η >0 Par exemple, on fixe une valeur qui simplifie l expression de la log-vraisemblance, η = 1, mais l estimateur obtenu a peu de chance d être de bonne qualité Ceci importe toutefois peu, car c est l estimateur de seconde étape qui nousintéresse Sionfixe, parexemple,η=1onobtientunestimateur convergentenoptimisantlapseudologvraisemblance: 5 f(y X)= Γ(y+1) ( ) y ( ) 1 m 1 m y = Γ(y+1)Γ(1) m+1 m+1 (m+1) y+1, d oùunepseudologvraisemblanceàl ordre1: l 1 (y X,b)= {y i lnx i b (y i +1)ln(exp(X i b)+1)} La maximisation de cette fonction fournit l estimateur de première étapequel onnote b 8222 Estimateur de seconde étape Il s agit de l étape qui fournit le meilleur estimateur Dans un premier temps, il faut trouver un estimateur convergent de δ Pour cela, on utilise l expression de la variance conditionnelle de y i Onenlève le conditionnement pour ne pas alourdir les notations ( V(y i )=m i 1+ m ) ( i E (y i m i ) 2) =m i +ηm 2 i δ (81) A partir de cette relation, on peut proposer deux estimateurs convergents: 5 A priori, rien n empêcherait de prendre l estimateur du maximum de vraisemblance lui-même, puisque l estimateur du PMV1 de b est convergent pour toutes les valeurs de η Cette approche a l avantage d être moins arbitraire
94 1 Lepremiersebasesuruneréécrituredelarelation(81): ) E ((y i m i ) 2 m i =ηm 2 i, et consiste à régresser (y i m i ) 2 m i sur m 2 i par les moindres carrés ordinaires sans terme constant, ce qui donne: ] N [(y i m i ) 2 m i m 2 i ( ) η 1 =, m i =exp X b N m4 i 2 Un second estimateur est obtenu en réécrivant la relation(81): ( ( (yi ) 2 ) 1 E m 2 (y i m i ) 2 m i )=η η=e 1 1, i m i m i l QG = ce qui donne simplement: [ η 2 = 1 (yi ) ] 2 1 1 N m i m i La pseudo vraisemblance quasi-généralisée est alors définie par: { 1 η } ln( ηm Γ(y i +1/ η) i+1)+ln Γ(y i +1)Γ(1/ η) +y i[ln( ηm i ) ln( ηm i +1)] pour l optimisation, on peut éliminer tous les termes qui de ne dépendentpasdem i,cequidonnefinalement: l QG = = { ( y i lnm i y i + 1 η ) } ln( ηm i +1) { ( y i X i b y i + 1 η ) } ln( ηexp(x i b)+1) Le pseudo score, d espérance nulle, est donné par: s QG = X i ( ) 1+ ηy i y i exp(x i b), 1+ ηexp(x i b) etl estimateurdupmvqg,b,estdéfinipar: ( X i y i exp ( X i b ) ) 1+ ηy i 1+ ηexp ( X i b ) =0
95 Cet estimateur est convergent, asymptotiquement normal et l on estimesamatricedecovariancepar: Vas ( b ) ( ) = [ĴN ] 1 b = [ N enutilisante(y i X i )=m i ( ) ] 1 X ix mi i 1+ ηm i 83 Le modèle avec décision avec m i =exp ( X i b ), Ce modèle généralise le modèle de Poisson en introduisant une forme explicite d hétérogénéité Tous les individus n ont plus la même probabilité de rencontrer l évènement étudié L observations d une donnée de comptage fait donc apparaître deux types d évènements nuls: ceux qui correspondent aux individus qui ne sont pas concernés par l évènement étudié et ceux qui sont concernés mais qui n ont pas rencontré l évènement pendant la période étudiée Le modèle comporte deux parties La première partie est une relation de décision relative à l évènement et se modélise par un modèle pour variable dichotomique La seconde partie de cette relation donne le nombre d évènements conditionnellemnet à laréalisationd aumoinsunévènementetsemodéliseparunmodèlede comptage Le modèle latent qui représente la décision est donné par: d i =X 1i b 1 +u i L individuientre dans le processus de comptage lorsque d i lorsque d i >0Onadonc: { 1 sid d i = i >0 0 sinon Pour les individus qui sont entrés dans le processus de comptage le nombre de réalisations de l évènement étudié z i est distribué selon une loidecomptagef(z i )Cetteloiestdonnéepar: f(z i z i 1)=Pr(d i >0)f(z i ) Onobservedoncuneréalisationnulley i =0soitlorsqued i =0soit lorsquez i =0Danscetteversionsimplifiéedumodèle,onsupposeque lesperturbationsu i sontindépendantesduprocessusdecomptagez i,de sorteque: Pr[y i =0]=Pr[(d i =0) (d i =1 z i =0)] =Pr(d i 0)+(1 Pr(d i 0)) } {{ } Pr(d i >0) Pr(z i =0)
96 Pour procéder à une estimation par le maximum de vraisemblance, il fautpréciserlesdistributionssuiviesparu i etz i Danslemodèleoriginel, ladistributiondeu i estlogistiqueetcelledez i estdepoisson Onadonc: Pr[d 1 i 0]=,Pr[d i >0]= λ 1i, f(z i )= exp( λ 2i)λ zi 2i, 1+λ 1i 1+λ 1i z i! avec λ 1i =exp(x 1i b 1 ) La log-vraisemblance du modèle s écrit donc: l i =(1 d i )lnpr[y i =0]+d i lnf(y i y i 1) =(1 d i )ln[pr(d i 0)+Pr(d i >0)Pr(y i=0)] +d i lnpr(d i >0)f(y i ) [ =(1 d i )ln λ 1i 1 1+λ 1i + λ 1i ] exp( λ 2i ) 1+λ 1i ] +d i [ln +ln exp( λ 2i)λ yi 2i 1+λ 1i y i! =(1 d i )[ln(1+λ 1i exp( λ 2i )) ln(1+λ 1i )] +d i [lnλ 1i ln(1+λ 1i ) λ 2i +y i lnλ 2i lny i!] =(1 d i )ln(1+λ 1i exp( λ 2i )) +d i (lnλ 1i λ 2i +y i lnλ 2i ) ln(1+λ 1i ) 84 Lemodèleavecsaut Il s agit d un modèle qui permet également de s écarter de la proportion de réalisations nulles données par la loi de Poisson simple On considère que le processus qui génère les réalisations nulles diffère de celui qui génère les réalisationspositives Lapremièrepartiedesdonnéesy i =0estgénérée par une loi de Poisson de paramètre λ 1i =exp(x 1i b 1 ) et que la partie des données y i 1 est générée par une loi de Poisson de paramètre λ 2i =exp(x 2i b 2 ) La probabilité d une réalisationnulle est donc égale à: Pr(y i =0)=f 1i (0)=exp( λ 1i ), et celle d une réalisation strictement positive est égale à: f(y i y i >0)= 1 f 1i(0) 1 f 2i (0) f 2(y i ),
97 etl onremarquequel ona: + 1 f 1 (0) f 1 (0)+ 1 f y=1 2 (0) =f 1(0)+ 1 f 1(0) + f 2 (y) 1 f 2 (0) y=1 =f 1 (0)+ 1 f 1(0) 1 f 2 (0) (1 f 2(0)) d où la log-vraisemblance: =1 l i =(1 d i )lnf 1i (0)+d i ln 1 f 1i(0) 1 f 2i (0) f 2(y i ) =(1 d i )lnf 1i (0)+d i ln(1 f 1i (0)) } {{ } Partie Poissit +d i ln f 2i(y i ) 1 f 2i (0) } {{ } Partie censurée avecf ji (0)=exp( λ ji ),j=1,2 La log-vraisemblance est séparable en deux parties indépendantes: la partiedichotomique( Poissit )nedépendqueduparamètreb 1 ;lapartie censurée ne dépend que du paramètre b 2 On peut donc réaliser deux optimisationsséparéespourobtenirb 1 etb 2,lesestimateursdumaximum de vraisemblance correspondants sont asymptotiquement indépendants La log-vraisemblance du modèle Poissit est donnée par: l 1i = (1 d i )exp(x 1i b 1 )+d i ln[1 exp( exp(x 1i b 1 ))], etcelledumodèledepoissoncensurépar: l 2i =d i { exp(x 2i b 2 )+y i X 2i b 2 lny i! ln[1 exp( expx 2i b 2 )]}
CHAPITRE 9 Les variables de durée On rencontre des variables de durée dans de nombreux cas A l origine, les modèles ont été développés pour étudier la durée de vie mais d autres applications ont été mises en oeuvre En économie, on étudie la durée passéeauchômage,dansunemploiouentredeuxemplois,laduréed un trajetde transport, la durée de vie d une entreprise ou encore ladurée d un crédit de type "revolving" Or les variables de durée ont des caractéristiques particulières : elles sont strictement positives et souffrent souventdeproblèmesdecensure Eneffet,l arrêtdelacollecteàunedate donnée(date d arrêt de l alimentation du fichier) fait que des durées commencéesn ontpaseuletempsdesetermineretsontdonccensurées On peut juste affecter une valeur minimale à ces durées observées de manière incomplète On parle de censure linéaire droite Inversement, il est possiblequel oncommencelefichieràunedateoùleprocessusobservéadéjà commencé pour certains individus, la durée est alors censurée à gauche Pour obtenir une bonne estimation, il faut tenir compte de toutes les observations, censurées ou non En effet, plus une durée est longue plus elle a de chances d être censurée, de sorte qu enlever les durées censurées revientàcauserunbiaisdesélectionparexemple,sil onétudieladurée du chômage, enlever les données censurées reviendrait à réaliser une étude sans les chômeurs de longue durée, ce qui est difficilement envisageable Comme pour les variables aléatoires réelles, on définit la loi d une variable de durée par sa fonction de répartition Toutefois, on préfère pour des raisons pratiques, utiliser d autres concepts plus parlants que la fonction de répartition ou la densité Cette pratique provient de la démographie et utilise donc des concepts spécifiques comme le taux de mortalité, la probabilité de survie ou l espérance de vie à la naissance Nous allons montrer que ces concepts sont rigoureusement équivalents à ceux utilisés dans les autres branches de l économétrie 98
99 91 Terminologie ConsidéronsunevariablealéatoirededuréeT >0Safonctionderépartition est définie par la probabilité que cette durée soit inférieure à une valeurdonnéet: F(t)=Pr[T t], t R + Ce concept n est pas toujours le plus pratique pour l interprétation L économétrie des durées utilise, à la place, le concept de fonction de survies(t)quidonnelaprobabilitéqueladurée(devie)soitsupérieure àunevaleurdonnéet: S(t)=Pr[T >t]=1 F(t), son nom vient de la démographie: elle donne la fraction d individu d une génération ayant survécu jusqu à l âge t Ladensitédeladuréeestdonnéepar: f(t)= df(t) dt 1 = lim Pr[t<T t+ t], t 0 t elle représente l intensité d occurence d une durée exactement égale à t Cette intensité peut être supérieure à l unité car il ne s agit pas d une probabilité mais d une densité La probabilité correspondante se calcule surunpetitintervalledetemps t,elleestdonnéepar: Pr[t<T t+ t] f(t) t CettedensitépermetaussidecaractériserlaloideT caronendéduit la fonction de répartition de la manière suivante: F(t)= t 0 f(x)dx Mais la densité est également reliée à la fonction de survie par la relation: f(t)= df(t) dt = d dt (1 S(t))= ds(t) dt La fonction de hasard représente une occurence de mortalité instantanée Comme pour la densité cette occurence peut être supérieure à l unité Elle est définie comme la probabilité conditionnelle de sortir(ie décéder) à la date t sachant que l on vécu jusqu à cette date En effet, letauxdemortalitéàladatetsecalculesurlapopulationsurvivanteà
100 cettedate,etnonsurtoutelapopulationonobtient: 1 h(t)= lim Pr[t<T t+ t T >t] t 0 t 1 Pr[(t<T t+ t) (T >t)] = lim t 0 t Pr[T >t] 1 Pr[t<T t+ t] = lim t 0 t Pr[T >t] 1 = Pr[T >t] lim 1 Pr[t<T t+ t] t 0 } t {{ } f(t) = f(t) S(t) Ceci permet également de calculer l équivalent du taux de mortalité instantané en démographie, sur un intervalle de temps t, qui est égal à: Pr[t<T t+ t T >t] h(t) t Comme la densité et la fonction de répartition, la fonction de hasard caractériselaloideladuréet : h(t)= f(t) S(t) = 1 ds(t) S(t) dt = dlns(t), dt La fonction de hasard peut également être employée pour calculer la fonction de survie: t t dlns(x) h(x)dx= dx 0 0 dx = [lns(x)] t 0 = lns(t)+lns(0) = lns(t), carpourunevariablepositives(0)=pr[t >0]=1Onendéduitque: { t } S(t)=exp h(x)dx, cequiimpliquequel onpeutégalementécrireladensitéenfonctiondu hasard: f(t)=h(t)s(t) { =h(t)exp 0 t 0 } h(x)dx
101 Enfin, remarquons une propriété qui peut s avérer utile pour calculer l espérancedeladurée(ie l espérancedevieàlanaissance): E(T)= = + 0 + 0 xf(x)dx x ds(x) dx dx, enintégrantparpartie(u= x, v =S (x)),onobtient: sous l hypothèse que: E(T)=[ xs(x)] + = + 0 + 0 + 0 S(x)dx, lim xs(x)=0, x + S(x)dx et cette hypothèse est généralement bien vérifiée car les fonctions de survie contiennent souvent des exponentielles Cette formule peut être utile,maisilfautgarderàl espritquedanslaplupartdescaslaméthode laplussimpleestcelledelafonctiongénératricedesmomentsquenous présenterons plus loin 92 Lois usuelles A priori, toutes les lois applicables aux variables réelles positives peuvent être utilisées pour modéliser les variables de durée C est l approche employée pour justifier l utilisation de la loi log-normale Cependant, les méthodes les plus employées (Weibull, Gamma, Gamma Généralisée, Cox) se basent sur des modèles dits à hasard proportionnels que nous définirons plus loi Ces modèles possèdent l avantage de permettre une modélisation directe de la fonction de hasard 921 La loi exponentielle Cette loi, la plus simple, vérifie la propriété forte d indépendance temporelle delafonctiondehasardletauxdemortalité(ie desortie)est constantdansletemps: h(t)=h, t, cette hypothèse définit ce que l on appelle un processus de Poisson(qui estégalementreliéàlaloidepoissondanslecasdesdonnéesdecomptage) En utilisant les propriétés de la section précédente, on retrouve les
102 différentes manières dont on peut caractériser la distribution: { t } S(t)=exp hdx { =exp =exp 0 t h 0 { h[x] t 0 =exp( ht), } dx } F(t)=1 S(t)=1 exp( ht), f(t)=h(t)s(t)=hexp( ht), et + E(T)= exp( hx)dx 0 = [ 1h ] + exp( hx) = 1 h 0 Cette loi est surtout employée dans modèles d économie théorique en raison de sa simplicité 922 LaloideWeibull Cette loi généralise la loi exponentielle en autorisant plusieurs type d évolutiondelafonctiondehasarddansletemps,résuméedanslegraphique 91 On remarque que ces évolutions restent toutefois monotones On a: h(t)=hαt α 1, siα=1onretrouvelemodèleexponentielmais,selonlavaleurdeα,le hasard peut être aussi bien croissant que décroissant avec la durée En utilisant les propriétés de la première section, on obtient les caractéristiques suivantes de la distribution de Weibull: { t } S(t)=exp h(x)dx { =exp =exp 0 t 0 { h[x α ] t 0 =exp( ht α ), } hαx α 1 dx }
103 Figure91: FonctiondehasarddelaloideWeibull la fonction de répartition est donnée par: ladensitépar: F(t)=1 exp( ht α ), f(t)=h(t)s(t) =hαt α 1 exp( ht α ), et on peut également calculer l espérance en utilisant la fonction de survie: E(T)= + onfaitlechangementdevariable: 0 exp( hx α )dx, ( z ) 1/α dx= z=hx α 1 x= h αh 1/αz1/α 1 dz,
104 etlesbornesrestentinchangées: 1 E(T)= 1 αh 1/α + = Γ(1/α) αh 1/α =h 1/α Γ(1+α) 0 z 1/α 1 exp( z)dz Cette loi est une des plus employées dans les applications économétriques 923 La loi Gamma généralisée Cette loi généralise la loi de Weibull, en introduisant un paramètre supplémentaire, qui permet d obtenir une fonction de hasard non monotone Onladéfinitparsadensité: f(t)= αhβ t αβ 1 exp( ht α ) Γ(β) OnretrouveladensitédelaloideWeibullpourβ=1etcelledela loi exponentielle pour α = 1 et β = 1 Pour les autres fonctions, nous auronsbesoindesfonctionsgammatronquées 2 Onnote: etl onremarqueque: Γ(a,x)= Γ(a,x)= x 0 + x u α 1 e u du, u α 1 e u du, lim Γ(a,x)=Γ(a), x + lim Γ(a,x)=Γ(a), x 0 Γ(a,x)+Γ(a,x)=Γ(a) En règle générale on évalue les fonctions Gamma tronquées numériquement Onendéduitlafonctionderépartitiondelavariablededuréede la manière suivante: F(t)= αhβ Γ(β) t 1 Onrappelle que Γ(x+1)=xΓ(x) 2 Enanglais: "incomplete Gamma functions" 0 u αβ 1 exp( hu α )du,
105 on effectue le changement de variable v = hu α, ce qui implique u = h 1/α v 1/α etdu=h 1/α α 1 v 1/α 1 dv,etlesbornesd intégrationdeviennent0etht α : ht α F(t)= αhβ Γ(β) = 1 Γ(β) 0 ht α 0 = Γ(β,htα ), Γ(β) v β 1/α h 1/α β exp( v)h 1/α α 1 v 1/α 1 dv v β 1 exp( v)dv onvérifiequelorsquet 0,Γ(β,0)=Γ(0)=0 desortequef(0)=0, etquelim t + Γ(β,t)=Γ(β),desortequeF(t) 1Lafonctionde survieestdoncdonnéepar: S(t)=1 Γ(β,htα ) Γ(β) = Γ(β,htα ) Γ(β) Ceci ne permet pas d obtenir de forme explicite pour la fonction de hasardparceque: h(t)= f(t) S(t) = αhβ t αβ 1 exp( ht α ) Γ(β,ht α ) Le nom de cette distribution vient du fait qu elle généralise la loi Gamma γ(β,h), qui correspond au cas α = 1 Pour l espérance mathématique, le plus simple est de recourir à la fonction génératrice des moments, calculée plus loin 924 La loi log-normale Notons dès maitenant que cette distribution n est pas reliée aux précédentes Elle consiste à supposer directement que le logarithme de la variable de durée lnt suit une loi normale N ( m,σ 2) Sa densité est donc donnéepar: f(t)= 1 ( ) lnt m σt ϕ, σ oùϕ(t)=(2π) 1/2 exp ( t 2 /2 ) estladensitéde loi normalecentrée et réduite Sa fonction de répartition est donc donnée par: F(t)= t 0 f(x)dx= t 0 1 σx ϕ ( lnx m σ ) dx,
106 onremarquealorsque1/(σx)estladérivéeparrapportàxde(lnx m)/σ, desorteque: [ ( )] t ( ) lnx m lnt m F(t)= Φ =Φ, σ σ car: Onendéduit: ainsique: ( ) lnx m lim Φ =0 x 0 σ ( ) lnt m S(t)=1 Φ, σ ( ) lnt m h(t)= f(t) S(t) = 1 ϕ σ ( ) σt lnt m 1 Φ σ Ceci implique que le hasard admet obligatoirement un maximum En effet, 0 σh (t)= 1 t 2 ϕ(u) 1 Φ(u) +1 t onpose: 1 σt ϕ (u)(1 Φ(u)) ϕ(u) ( 1 σt) ϕ(u) (1 Φ(u)) 2 1 = σt 2 (1 Φ(u)) 2 ( σ(1 Φ(u))ϕ(u) uϕ(u)(1 Φ(u))+ϕ(u) 2) ϕ(u) = σt 2 (1 Φ(u)) 2( σ(1 Φ(u)) u(1 Φ(u))+ϕ(u)) ϕ(u) = σt 2 (1 Φ(u)) 2( (σ+u)(1 Φ(u))+ϕ(u)), κ(u)= ϕ(u) 1 Φ(u), cette fonction est définie par analogie avec la fonction de hasard mais sur une loi normale centrée réduite Notons qu il ne s agit pas à proprement parler d une fonction de hasard parce que u peut prendre des valeurs négatives Cette fonction est strictement croissante, comme le montre le graphique 92: Onpeutécrire: h (t)= 1 σ 2 t 2κ(u)(κ(u) (σ+u)),
107 Figure92: ϕ(x)/(1 Φ(x)) lehasardatteintsonmaximumàunpointu=(lnt m)/σtelque: κ(u)=σ+u Ce type de profil est très particulier, car la présence d un maximum est imposée, et cette hypothèse ne convient pas forcément à tous les processus de durée Il faut donc être vigilant quand on l emploie 93 Modélisation en logarithmes Les variables de durée peuvent toujours être prises en logarithmes, ce qui facilite l interprétation des résultats quand les variables explicatives sont elles-mêmes en logarithmes ou sous forme d incatrices Mais cette modélisation peut également être utilisée pour mieux comprendre les relations entre les différentes loi usuelles, et notamment les loi exponentielles, de Weibull, Gamma et Gamma généralisée
108 931 Rappels 9311 Le changement de variable Nous allons utiliser cette propriété dans toute la section Supposons que l ondisposed unevariablededuréetdedensitéf T (t)etquel oneffectue un changement de variable U = g(t), la densité de la variable u est donnéepar: f U (u)= dg 1 (u) du f ( T g 1 (u) ) 9312 La loi Gamma UnevariablealéatoireXsuituneloiGammadeparamètres(a,b),notée γ(a,b)sisadensités écrit: f X (x)= ba x a 1 exp( bx), x>0, a>0, b>0, Γ(a) lesdeuxpremiersmomentssontégauxàe(x)=a/betv(x)=a/b 2 Sia=1,onretrouvelaloiexponentielle,notéeγ(1,b),dontladensité estégaleà: f X (x)=bexp( bx), etdontlesdeuxpremiersmomentssontégauxàe(x)=1/betv(x)= 1/b 2 Sionprendlecassymétrique,uneloiGammaγ(a,1)onobtientla densité: f X (x)= xa 1 exp( x), Γ(a) dontlesdeuxpremiersmomentssontégauxàe(x)=v(x)=a 932 Modèle exponentiel et loi de Gumbel Posons le modèle en logarithmes suivant: lnt = lnh+u, oùu estunevariablealéatoiredontoncherchelaloionsaitseulement queladuréet suituneloiexponentielleγ(1,h)dedensité: f T (t)=hexp( ht) PourtrouverladensitédelaloideU,onremarqueque: U =ln(ht)=g(t), desorteque: T = 1 h exp(u)=g 1 (U)
109 cequiimplique: d oùladensité: dg 1 (u) du = 1 h exp(u), f U (u)= 1 h exp(u)hexp [ h =exp(u)exp( exp(u)), ( )] 1 h exp(u) quin estautrequeladensitéd uneloidegumbel(ie valeurextrêmede type I, minimum) d espérance égale à l opposée de la constante d Euler, E(U) = γ E, avec γ E 0,57721,, et de variance π 2 /6 Pour trouver directement ces résultats on peut utiliser les deux propriétés suivantes de laconstanted Euler: 3 et γ E = γ 2 E+ π2 6 = + 0 + 0 (lnx)e x dx, (lnx) 2 e x dx On utilise également les propriétés suivantes de la fonction Gamma: Γ(p)= + 0 x p 1 e x dx Γ (p)= + 0 (lnx)x p 1 e x dx, (91) carondériveparrapportàpetnonparrapportàx 4 Ceciimplique: Γ (1)= + 0 (lnx)e x dx= γ E Endérivantunenouvellefoislarelation(91)parrapportàp,onobtient: Γ (p)= + 0 (lnx) 2 x p 1 e x dx, 3 Pourévaluerlaconstanted Euler,onpeututiliserladéfinitionsousformedesérie donnée à l origine par Euler lui-même: + [ ( 1 γ E = k ln 1+ 1 )] k k=1 4 Ona: d ( x p 1 ) = d ( e (p 1)lnx) =(lnx)e (p 1)lnx dp dp =(lnx)x p 1
110 cequiimplique: Γ (1)=γ 2 E+ π2 6, Nous retrouverons les valeurs Γ (1) et Γ (1) lors de l étude de la fonction génératrice des moments de la loi de Gumbel Finalement, on peut réécrire le modèle exponentiel sous la forme: E(lnT)= lnh+e(u) = (lnh+γ E ), de sorte qu en mettant les variables explicatives dans la fonction de hasard, on peut aboutir à un modèle log-linéaire avec une simple correction pour le terme constant du modèle On remarque également que plusletauxdehasardhestélevé,plusl espérancededuréeestfaible 933 Modèle exponentiel et loi exponentielle On peut également définir le modèle exponentiel directement en niveaux et non en logarithmes C est l approche qui est suivie habituellement pour généraliser ce modèle vers les modèles de Weibull, Gamma et Gamma généralisé De manière cohérente avec la section précédente, on pose: T =g(v)= V h, (92) oùv suituneloiexponentielledeparamètre1,notéeγ(1,1),dedensité: f V (v)=exp( v) Ladensitédelavariablededuréetiréedecemodèleestdonnéepar la transformation: T = V h V =ht =g 1 (T) dg 1 (t) dt =h, d oùladensité: f T (t)= dg 1 (t) dt f ( V g 1 (t) ) =hexp( ht), quicorrespondàladensitédelaloiexponentielleγ(1,h)
111 934 Modèle de Weibull Il existe différentes manières de généraliser le modèle exponentiel (92) Une première manière consiste à introduire un paramètre d échelle α > 0 dansladéfinitiondelavariablededurée: 5 ( ) 1/α V T =g(v)=, (93) h onretrouvelemodèleexponentielpourα=1onsupposetoujoursque V suit une loi exponentielle γ(1,1) La loi suivie par T a donc changé puisquel ona: ( ) 1/α V T = V =ht α =g 1 (T) h dg 1 (t) =hαt α 1, dt desortequeladensitédet s écrit: f T (t)= dg 1 (t) dt f ( V g 1 (t) ) =αht α 1 exp( ht α ), qui correspond à la densité d une variable de Weibull On remarque qu en logarithme la relation peut s écrire: lnt = 1 α ( lnh+lnv) = 1 α ( lnh+u), de sorte qu avec nos notations α est un paramètre d échelle qui porte sur l ensemble du modèle L espérance mathématique correspondante s écrit: E(lnT)= 1 α (lnh+γ E), caru suittoujoursuneloiγ(1,1)commedanslemodèleexponentiel 935 Modèle Gamma Le modèle Gamma généralise le modèle exponentiel (92) en changeant la distribution du terme d erreur V au lieu d introduire un paramètre d échelle On suppose, comme dans le modèle exponentiel, que: T =g(v)= V h, 5 Lesnotationsutiliséesicisontunpeudifférentesdecellesutiliséeshabituellement, c est pour pouvoir simplifier les expressions qui apparaîtront dans la suite du chapitre
112 mais cette fois-ci V suit une loi Gamma γ(β,1) La densité de V est doncdonnéepar: f V (v)= vβ 1 e v, β>0, v>0, Γ(β) et l on retrouve le modèle exponentiel en posant β = 1 En utilisant g 1 (t)=ht,onobtient: f T (t)= dg 1 (t) dt f ( V g 1 (t) ) =h (ht)β 1 e ht Γ(β) = hβ t β 1 e ht, Γ(β) quicorrespondàladensitéd uneloigammaγ(β,h)ecritenespérance lemodèleloglinéairedonne: E(lnT)= lnh+e(lnv), etnous calculerons plusloinl espérancede lnv àpartirdesafonction génératrice des moments 936 Modèle Gamma généralisé Il s agit d une troisième généralisation du modèle exponentiel(92) Cette fois-ci, nous allons combiner les deux généralisations du modèle de Weibull etdumodèlegamma Onsuppose, commedanslemodèledeweibull, quelavariablededuréeestdéfinieparlarelation: ( ) 1/α V T =g(v)=, h et, commedanslemodèlegamma,quev suituneloigammaγ(β,1) dedensité: f V (v)= vβ 1 e v, β>0, v>0 Γ(β) On trouve directement la nouvelle densité: f T (t)= dg 1 (t) dt f ( V g 1 (t) ) =hαt α 1(htα ) β 1 e (htα ) Γ(β) = αhβ t αβ 1 exp( ht α ) Γ(β)
113 On note cette distribution γ(β,h,α) On remarque que la distribution exponentielle s obtient pour γ(1, h, 1), la distribution de Weibull γ(1,h,α) et la distribution Gamma pour γ(β,h,1) Le nom de cette distribution vient du fait qu elle généralise la loi Gamma puisque, pour α=1,onobtient: f T (t)= hβ t β 1 exp( ht), Γ(β) ladensitédelaloigammaàdeuxparamètresγ(β,h)lenomesttoutefois trompeur, puisque la loi Gamma généralisée généralise également la loi de Weibull Plus généralement, on obtient les cas particuliers suivants: α=1:t γ(β,h,1)loigamma; β=1:t γ(1,h,α)loideweibull; α=1etβ=1: T γ(1,h,1)loiexponentielle; α 1etβ 1: T γ(β,h,α)loigammagénéralisée Le modèle log linéaire en espérance s écrit maintenant: E(lnT)= 1 α ( lnh+e(lnv)), oùe(lnv)prendlamêmevaleurquepourlemodèlegammadelasection précédente 937 Modèle log-normal On peut également utiliser la méthode du changement de variable pour le modèle log-normal, mais ici la modélisation ne porte pas sur le hasard mais sur l espérance mathématique de la variable de durée, quantité qui est décroissante avec le taux de hasard Dans un modèle avec des variables explicatives, un modèle basé sur l espérance de la variable de durée implique généralement un changement de signe des coefficients par rapport àunmodèlebasésurlafonctiondehasardonpose: lnt =m+σu oùu suituneloinormalecentréeetréduite,desortequelnt suitune loinormalen ( m,σ 2) Onadonclatransformationsuivante: T =exp(m+σu)=g(u) U= lnt m σ =g 1 (T),
114 cequiimplique: dg 1 (t) = 1 dt σt D autrepart,u suituneloinormalededensitéϕ(u),cequiimplique queladensitédet (ie delaloilog-normale)estdonnéepar: f T (t)= dg 1 (t) dt ϕ( g 1 (t) ) = 1 ( ) lnt m σt ϕ σ Ici, par construction, l espérance du modèle log linéaire se réduit à sa plus simple expression: E(lnT)=m+σE(U)=m 94 Calcul des moments Lors des estimations, on peut avoir besoin de faire une prévision de la durée moyenne passée dans l état étudié, ainsi que de calculer la variance pour obtenir unintervalle de confiance à partir de laméthode de Slutsky La méthode la plus simple avec les distributions qui précèdent est, souvent, d utiliser les fonctions génératrices des moments 941 Fonction génératrice des moments 9411 Moments non centrés La fonction génératrice des moments non centrés d une variable aléatoire T estdéfiniepar: M(s)=E ( e st) = + 0 e st f T (t)dt, quand cette intégrale converge On remarque que: Onvérifieque: et, par récurrence, que: M(0)=E ( e 0) =1 M (s)=e ( Te st), d k M ds k (s)=e( T k e st) Enprenantlaquantitéprécédenteens=0,onobtient: d k M ds k (0)=E( T k) On peut donc obtenir les moments non centrés par dérivation au lieu de procéder par intégration, ce qui est plus rapide
115 9412 Moments centrés De la même manière, on peut obtenir certains moments centrés par la fonction: K(s)=lnM(s), onvoitque: K (s)= M (s) M(s), enprenantlafonctionprécédenteaupoints=0ona: K (0)=E(T), en dérivant la fonction K une deuxième fois, on obtient: enlaprenantaupoints=0: K (s)= M (s) M(s) ( M ) 2 (s), M(s) K (0)=E ( T 2) E(T) 2 =V(T) 9413 Moments du logarithme Enfin, en économétrie des durées, on a souvent besoin des fonctions génératrices des moments du logarithme d une variable de durée, parce ce que beaucoup de modèles peuvent s écrire en logarithmes(eg, Exponentiel, Weibull, Gamma, Gamma généralisé et log-normal): M lnt (s)=e ( e slnt) =E(T s ), dont l intérêt est ici évident Pour calculer la variance du logarithme d une variable de durée, on utilsera la fonction correspondante des moments centrés: K lnt (s)=lnk lnt (s)=lne(t s ) 942 Moments des lois usuelles 9421 Loi exponentielle Ladensitéestdonnéepar: f(t)=hexp( ht), t>0,h>0,
116 onadonc: M(s)=E ( e st) =h =h + 0 e (h s)t dt [ 1 h s e (h s)t = h h s, ] + remarquons bien ici que l on a choisi de mettre dans l exponentielle un termeenh scaronutilisecettefonctionens=0,cequigarantitque h s>0etdonclaconvergencedel intégrale Onendéduit: M h (s)= (h s) 2 E(T)=M (0)= 1 h, M (s)= 2h (h s) 3 E( T 2) =M (0)= 2 h 2, on pourrait en déduire la variance par la formule classique: V(T)=E ( T 2) E(T) 2 =2/h 2 (1/h) 2 =1/h 2, mais on peut l obtenir plus directement par la fonction génératrice des moments centrés Elle est définie par: Onendéduit: K(s)=lnh ln(h s) K (s)= 1 h s K (0)=E(T)= 1 h, 1 K (s)= (h s) 2 K (0)=V(T)= 1 h 2 Les fonctions génératrices correspondant au logarithme de la durée lnt sontcellesdelaloidegumbeldonnéesdanslasectionsuivante 9422 Loi de Gumbel On peut calculer la fonctiongénératrice de la loi de Gumbel en remarquant qu une variable de ce type s obtient comme le logarithme d une 0
117 variable exponentielle γ(1, 1) et en utilisant la propriété: K lnt (s)=e(t s ) Ilsuffitdoncdecalculerlemomentd ordresdelaloiexponentielle Enfait,danscecasparticulier,iln yapasdecalculàfaire,puisquel on a: E(T s )= + 0 t s exp( t)dt=γ(1+s), on en déduit la fonction génératrice des moments centrés du logarithme de la loi exponentielle: cequiimplique: K lnt(s)= Γ (1+s) Γ(1+s) K lnt (s)=lnγ(1+s) K lnt (0)=E(lnT)=Γ (1)= γ E, oùγ E estlaconstanted Euler Demême,onvoitque: desorteque: K lnt 9423 Loi Gamma (s)= Γ (1+s) Γ(1+s) K lnt(0)=v(lnt) =Γ (1) Γ (1) 2 ( Γ ) 2 (1+s), Γ(1+s) =γ 2 E+ π2 6 ( γ E) 2 = π2 6 LafonctiongénératricedelaloiGammaγ(β,1)estdéfiniepar: M T (s)=e ( e st) = = + 0 + 0 e sttβ 1 e t Γ(β) dt t β 1 e (1 s)t dt, Γ(β)
118 oneffectuedonclechangementdevariablex=(1 s)t,desortequeles bornessontinchangéesetquedt=(1 s) 1 dxonobtientdonc: M T (s)= 1 + ( ) β 1 x e x 1 Γ(β) 1 s 1 s dx 0 + 1 = (1 s) β x β 1 e x dx Γ(β) 0 } {{ } Γ(β) =(1 s) β Pour obtenir l espérance et la variance de la loi Gamma, on utilise donc: K T (s)=lnm(s)= βln(1 s) La dérivée première donne l espérance de la distribution: K T (s)= β 1 s K T (0)=E(T)=β, etladérivéesecondedonnelavariance: K T(s)= β (1 s) 2 K T(0)=V(T)=β La fonction génératrice du logarithme de cette variable s obtient par: M lnt (s)=e(t s ) + t s+β 1 e t = dt 0 Γ(β) = Γ(s+β), Γ(β) etpourtrouversesdeuxpremiersmomentsonutilise: K lnt (s)=lnm lnt (s)=lnγ(s+β) lnγ(β) Pourlemodèleenlogarithmes,onutilisedonc: ainsique: K lnt(s)= Γ (s+β) Γ(s+β) K lnt(0)=e(lnt)= Γ (β) Γ(β), K lnt(s)= Γ (s+β) Γ(s+β) ( Γ ) 2 (s+β) Γ(s+β) K lnt(0)=v(lnt)= Γ (β) Γ(β) ( Γ ) 2 (β) Γ(β)
119 9424 Loi de Weibull Pour trouver la fonction génératrice des moments de la loi de Weibull, il suffitderemarquerqueu =lnht α suituneloidegumbeldefonction génératricedesmomentségaleàγ(1+s)ceciimplique: avecj=αsonendéduit: ( ) M U (s)=e e sln(htα ) =Γ(1+s) E(h s T αs )=Γ(1+s) E(T αs )=h s Γ(1+s) E ( T j) =h j/α Γ(1+j/α), E(T)=h 1/α Γ(1+1/α) et E ( T 2) =h 2/α Γ(1+2/α), d oùlavariance: V(T)=E ( T 2) E(T) 2 =h 2/α( Γ(1+2/α) Γ(1+1/α) 2) On remarque que l espérance mathématique peut également se simplifierparlaformule: Γ(x)=(x 1)Γ(x 1) Γ(1+1/α)= 1 α Γ ( 1 α ), cequiimplique: E(T)=h 1/α1 α Γ ( 1 α ) L expression des moments du logarithme de la durée est également utilisée dans les applications D après ce qui précède: desorteque: M lnt (s)=e(t s )=h s/α Γ(1+s/α), K lnt (s)=lnm lnt (s) = s α lnh+lnγ(1+s/α),
120 d où les dérivées: K lnt(s)= 1 ( ) lnh+ Γ (1+s/α) α Γ(1+s/α) K lnt(0)= 1 α ( lnh+γ (1)) E(lnT)=( lnh+γ (1))/α E(lnT)= 1 α (lnh+γ E), etque: K lnt(s)= 1 α 2 ( Γ (1) Γ (1) 2) K lnt(0)= 1 α 2 ( Γ (1) Γ (1) 2) V(lnT)= π2 6α 2 9425 Loi Gamma généralisée PourdéfinirlemodèleGammagénéralisé,onsupposequehT α =V suit uneloigammaγ(β,1)lesmomentsdecetteloipeuventêtretrouvés directement en utilisant: E ( V j) = Γ(j+β), Γ(β) cequiimplique: E ( (ht α ) j) = Γ(j+β) Γ(β) E ( T αj) =h jγ(j+β), Γ(β) ilsuffitalorsdeposers=αj( j=s/α)pourobtenir: E(T s )=h s/αγ(s/α+β), Γ(β) ce qui permet d obtenir les moments non centrés: E(T)= h 1/α Γ(1/α+β) Γ(β) et E ( T 2) = h 2/α Γ(2/α+β), Γ(β) dontondéduitlavarianceparlaformuleclassique: V(T)=E ( T 2) E(T) 2 { =h 2/α Γ(2/α+β) Γ(β) ( ) } 2 Γ(1/α+β) Γ(β)
121 Pour obtenir les moments du logarithme de la variablel de durée, il suffit de remarquer que la fonction E(T s ) est identique à M lnt (s) de sorte que l on peut écrire la fonction génératrice des moments centrés: K lnt (s)=lnm lnt (s) d où l espérance du logarithme: etsavariance: = s α lnh+lnγ(s/α+β) lnγ(β), K lnt (s)= 1 α lnh+ 1 Γ (s/α+β) αγ(s/α+β) ( K lnt(0)=e(lnt)= 1 α K lnt(s)= 1 α 2 [ Γ (s/α+β) Γ(s/α+β) 2 lnh+ Γ (β) Γ(β) ( Γ ) ] 2 (s/α+β) Γ(s/α+β) K lnt(0)=v(lnt)= 1 α 2 [ Γ (β) Γ(β) 2 ), ( Γ ) ] 2 (β) Γ(β) 9426 Loi normale La loi log-normale n admet pas de fonction génératrice des moments parce que l intégrale qui la définit n est pas convergente: K T (s)=+, maisonpeutcalculertouslesmomentsdecetteloienutilisantlafonction génératrice des moments de loi normale C est ce qui explique la présence de cette section Soit une variable aléatoire X suivant une loi normale N ( m,σ 2),safonctiongénératricedesmomentspeutêtreobtenuedela manière suivante: K X (s)=e ( e sx) = + e sx 1 σ 2π e 1 2 ( x m σ ) 2 dx, on effectue donc le changement de variable z = (x m)/σ, ce qui ne changepaslavaleurdesbornesetimpliquex=m+σzetdx=σdzon
122 adonc: M X (s)= + =e sm + e s(m+σz) 1 σ 2 2π e 1 2 z σdz =e sm + + =e sm+s2 σ 2 /2 + =e sm+s2 σ 2 /2 e sσz 1 2π e 1 2 z2 dz 1 2π e 1 2(z 2 2sσz) dz 1 2π e 1 2(z 2 2sσz+s 2 σ 2 ) dz 1 2π e 1 2 (z sσ)2 dz, et le second terme de l expression ci-dessus est la somme sur son support deladensitéd uneloinormalen(sσ,1),quiestégaleà1pardéfinition Onadonc: M X (s)=exp ( sm+s 2 σ 2 /2 ) OnpeutendéduiretouslesmomentsdelaloinormalePourobtenir les moments centrés, on prend: onendéduit: ainsique: K X (s)=lnm X (s) K X(s)=m+sσ 2 K X (s)=σ2 9427 Loi log-normale =sm+s 2 σ 2 /2, K X (0)=E(X)=m, K X(0)=V(X)=σ 2 Par définition, la fonction génératrice du logarithme de la variable de duréelnt estidentiqueàcelledelaloinormalen ( m,σ 2) donnéepar: K X (s)=k lnt (s)=e ( e slnt) =E(T s ), onendéduitlesmomentsdelaloilog-normale: E(T s )=exp ( sm+s 2 σ 2 /2 ),
123 cequidonnepourespérance: etpourvariance: 943 Résumé E(T)=exp ( m+σ 2 /2 ), V(T)=E ( T 2) E(T) 2 =exp ( 2m+2σ 2) exp ( 2m+σ 2) =exp ( 2m+σ 2)( exp ( σ 2) 1 ) Le tableau suivant résume les hypothèses qu il faut effectuer pour retrouverchacundesmodèlesàpartirdelarelation suivante: lnt =k 1 +k 2 U, le lecteur notera que les variables explicatives influençant la fonction de hasardouladuréemoyennesetrouventdanslapartiek 1 decemodèle Modèle Hypothèses Exponentiel k 1 = lnh, k 2 =1, exp(u) γ(1,1) Weibull k 1 = α 1 lnh, k 2 =α 1, exp(u) γ(1,1) Gamma k 1 = lnh, k 2 =1, exp(u) γ(β,1) Gammagénéralisé k 1 = α 1 lnh, k 2 =α 1, exp(u) γ(β,1) Log-Normal k 1 =m, k 2 =σ, exp(u) LN(0,1) On peut également résumer l espérance et la variance du terme d erreur: Modèle E(U) V(U) Exponentiel γ E π 2 /6 Weibull γ E π 2 /6 Gamma Γ (β)/γ(β) Γ (β)/γ(β) (Γ (β)/γ(β)) 2 Gammagénéralisé Γ (β)/γ(β) Γ (β)/γ(β) (Γ (β)/γ(β)) 2 Log-Normal 0 1 ainsi que de la perturbation complète du modèle: Modèle E(k 2 U) V(k 2 U) Exponentiel γ E π 2 /6 Weibull γ E /α π 2 / ( 6α 2) Gamma Γ (β)/γ(β) Γ (β)/γ(β) (Γ (β)/γ(β)) 2 Gammagénéralisé α 1 Γ (β)/γ(β) α 2 { Γ (β)/γ(β) (Γ (β)/γ(β)) 2} Log-Normal 0 σ 2
124 95 Introduction des variables explicatives 951 Modèles à hasards proportionnels Soit X i = (X 1i,;X pi ) un vecteur de p variables explicatives, on dit qu un modèle est à hasard proportionnel s il vérifie: h i (t)=h 0 (t)exp(x i b), oùh 0 (t)estunefonctiondehasardappeléehasarddebase Onremarque qu avec cette convention, le ratio des hasard de deux individus ne dépend que des variables explicatives, et non du temps: h i (t) h j (t) =exp((x i X j )b) En prenant la fonction de hasard en logarithmes, on obtient: desortequel onpeutécrire: lnh i (t)=lnh 0 (t)+x i b, lnh i (t) X ki =b k, ceci implique que l on peut interpréter b k comme une élasticité quand la variable explicative k est en logarithmes S il s agit d une indicatrice, le coefficient b k représente (s il est proche de 0) l écart de hasard en pourcentage(100b k )entrelamodalité1etlamodalité0: b k =lnh i (t X ki =1) lnh i (t X ki =0) ( =ln 1+ h ) i(t X ki =1) h i (t X ki =0) h i (t X ki =0) h i(t X ki =1) h i (t X ki =0) h i (t X ki =0) Pour procéder à l estimation, on aura également besoin de la fonction desurvie,àcausedesdonnéescensurées: { t } S i (t)=exp h(x)dx onendéduitladensité: f i (t)=h i (t)s i (t) { =exp exp(x i b) =h 0 (t)exp(x i b)exp 0 t 0 { exp(x i b) } h 0 (x)dx, t 0 } h 0 (x)dx
125 Les modèles exponentiel, de Weibull et Gamma généralisés sont des modèles à hasard proportionnels Toutefois dans le dernier cas, on ne peut pas écrire explicitement les fonction de survie et de hasard Il faut recourir à une intégration numérique 952 Le modèle exponentiel Danslecasdumodèleexponentiel,ona: h 0 (t)=h, desorteque: et desorteque: t h i (t)=hexp(x i b), h 0 (x)dx=h t 0 0 dx=ht, S i (t)=exp{ exp(x i b)ht}, f i (t)=hexp(x i b)exp{ exp(x i b)ht} DanslecasdumodèledeWeibull: h 0 (t)=hαt α 1, d où la fonction de hasard individuelle: et t h i (t)=hαt α 1 exp(x i b), 0 h 0 (x)dx=h cequiimpliquelafonctiondesurvie: etladensité: t 0 =h[x α ] t 0 =ht α, αx α 1 dx S i (t)=exp{ exp(x i b)ht α }, f i (t)=hαt α 1 exp(x i b)exp{ exp(x i b)ht α }
126 Pour la distribution Gamma, il faut évaluer numériquement les fonctiondehasardh 0 (t)etdehasardcumulé Λ 0 (t)= t 0 h 0 (x)dt, le hasard individuel est donné par la formule habituelle alors que la fonctiondesurvieetladensitésontégalesà: S i (t)=exp{ exp(x i b)λ 0 (t)}, f i (t)=h 0 (t)exp(x i b)exp{ exp(x i b)λ 0 (t)} 96 Ecriture de la vraisemblance Pour écrire la log vraisemblance, on définit les variables suivantes: y i estlavariablededuréeobservablecetteduréepeutêtreaussi bien complèté, c est-à-dire observée jusqu à son terme, que censurée, c est-à-dire observée partiellement d i {0,1} est une indicatrice de censure On observe d i = 1 si l observation i est censurée à droite et d i = 0 si la durée est complète Si la durée n est pas censurée la vraisemblance de l individu i est égaleàf i (y i ),sinonelleestégaleàs i (y i ) La log vraisemblance avec censure à droite s écrit toujours: l(y X,θ)= (1 d i )lnf i (y i )+d i lns i (y i ) Enutilisantf i (y i )=h i (y i )S i (y i )onobtient: l(y X,θ)= = (1 d i )(lnh i (y i )+lns i (y i ))+d i lns i (y i ) (1 d i )lnh i (y i )+lns i (y i ) 961 Modèle exponentiel Lesquantitésdontonabesoinsontégalesà: lnh i (y i )=lnh+x i b,
127 et lns i (y i )= exp(x i b)hy i = exp(lnh+x i b)y i, on voit que lnh est le terme constant du modèle de sorte qu il ne faut pas en mettre dans la liste des variables explicatives On peut également faire un changement de paramètres: Z i =(1,X i ) etβ= ( lnh b ) desorteque: Z i β=lnh+x i b, la log-vraisemblance ce réécrit donc: l(y X,β)= d oùlevecteurduscore: et le hessien (1 d i )(Z i β) exp(z i β)y i, N l β (y X,β)= Z i (1 d i exp(z i β)y i ), 2 l N β β (y X,β)= Z iz i exp(z i β)y i 0 Une fois l estimation réalisée, on obtient l estimateur du maximum de vraisemblancedehpar: ) ) ĥ=exp ( β1 =g ( β1, et on estime sa variance asymptotique par: ) Vas(ĥ = g ) g ) ( β1 ) Vas ( β1 ( β1 β 1 β 1 ) ) = Vas ( β1 exp (2 β 1
128 962 Modèle de Weibull Lesquantitésdontonabesoinsontégalesà: lnh i (y i )=lnh+x i b+lnα+(α 1)lny i, et lns i (y i )= exp(x i b)hy α i = exp(lnh+x i b)y α i, onvoitquelnhestletermeconstantdumodèledesortequ ilnefautpas en mettre dans la liste des variables explicatives On peut également faire un changement de paramètres similaire à celui du modèle exponentiel: desorteque: l(y X,θ)= Z i =(1,X i ), β= ( lnh b ) ( α etθ= β ), (1 d i )(Z i β+lnα+(α 1)lny i ) exp(z i β)yi, α pourcalculerlevecteurduscore,onremarqueque: d oùlevecteurduscore: et le hessien dyi α dα = d ( e αlny i ) =y α dα i lny i N l α (y X,θ)= ( ) 1 (1 d i ) α +lny i exp(z i β)yi α lny i l N β (y X,θ)= Z i (1 d i exp(z i β)yi α ) 2 l N { } 1 di α 2(y X,θ)= α 2 +exp(z i β)yi α (lny i ) 2 2 l N β α (y X,θ)= Z i exp(z iβ)yi α lny i 2 l N β β (y X,θ)= Z iz i exp(z i β)yi α
129 Une fois l estimation réalisée, on obtient l estimateur du maximum de vraisemblancedehpar: ) ĥ=exp ( θ1, et on estime sa variance asymptotique comme dans le modèle exponentiel par: ) ) ) Vas(ĥ = Vas ( θ1 exp (2 θ 1 963 Modèle log-normal Ilnes agitpasd unmodèleàhasardproportionnelavecunmodèlelog normal, on fait directement une hypothèse sur la durée elle-même puisque l onposeque: lnt =m+σu, oùu suituneloinormalecentréeetréduite Onpeutdoncvoircemodèle comme une simple extension du modèle linéaire standard normal S il n y avait pas de censure des données, la méthode d estimation adaptée serait simplement celle des moindres carrés ordinaires appliqués au logarithme de la durée Toutefois, comme nous supposons la présence d une censure droite, on ne peut pas appliquer les moindres carrés ordinaires Il faut recourir à la méthode du maximum de vraisemblance Une manière naturelle d introduire des variables explicatives dans ce type de modèle consisteàposersimplementm=xb La densité est alors donnée directement par: f i (y i )= 1 σy i ϕ ( lnyi X i b σ ), etlafonctiondesurviepar: ( ) lnyi X i b S i (y i )=1 Φ, σ ce qui donne la log-vraisemblance de l échantillon: l(y X,θ)= (1 d i )lnf i (y i )+d i lns i (y i ) [ ( ] lnyi X i b = (1 d i ) lnϕ ) lnσ lny i σ [ ( )] lnyi X i b +d i ln 1 Φ, σ
130 on peut simplifier l écriture du modèle en faisant le changement de paramètres suivant: β= b σ, γ= 1 ( ) β σ etθ= γ cequidonne: l(y X,θ)= (1 d i )[lnϕ(γlny i X i β)+lnγ lny i ] Pour alléger les notations, on pose: u i =γlny i X i β Lapremièrepartieduvecteurduscoreestégalà: l N β (y X,θ)= X i { [ (1 d i ) +d i ln[1 Φ(γlny i X i β)] ϕ (u i ) ϕ(u i ) ] } ϕ(u i ) d i, 1 Φ(u i ) àcestadeonutiliseϕ (u)= uϕ(u),cequipermetdesimplifierl expression précédente: l N β (y X,θ)= X i { } ϕ(u i ) (1 d i )u i d i, 1 Φ(u i ) sic i =0 i,onretrouvelesmoindrescarrésordinaires,sinononajouteun terme pour corriger la censure droite Pour l autre paramètre, on trouve : N l γ (y X,θ)= 964 Généralisation ( ) ϕ(u i ) {lny i (1 d i )u i d i 1 Φ(u i ) + 1 d } i γ Les variables de durée peuvent également être censurées à gauche On remarque qu une même durée peut être censurée à la fois à gauche et àdroite Lefait d avoir descensuresàgauche ne changetoutefois rien à notre analyse Eneffet, si l on observe une durée censurée y i, onsait juste que la vraie durée est supérieure ou égale à y i, et ce qu elle soit censuréeàgauche,àdroiteoudesdeuxcôtésdanscecaslacontribution àlavraisemblanceresteégaleàs i (y i )Ilfautjustepenseràdéfinirune indicatrice de censure égale au maximum des deux indicatrices de censure
131 gauche et droite Soit d 1i une indicatrice de censure gauche et d 2i une indicatrice de censure droite, on doit prendre: d i =max(d 1i,d 2i ), dans les expressions de la section précédente Cette règle reste valable si la censure a lieu avec des"trous" différents d une observation à l autre, cardanstouslescaslaseuleinformationdisponibleestquelavraiedurée estsupérieureàladuréeobservéey i
CHAPITRE 10 Les variables tronquées 101 Le modèle tronqué On ditqu un modèle esttronqué lorsques les variables explicatives X i nesontpasobservableslorsquelavaribleexpliquéez i passeendessous d uncertainseuilc i Cecaspeutseproduiresoitlorsquel onn interroge quelesindividuspourlesquelsz i >C isoitlorsquelesréponsesauxvariablesexplicativesx i n ontdesensquelorsquez i >C ipoursimplifier l écriture du modèle, on pose: y i =z i C i, quantitéquipeuttoujoursêtrecalculéelorsquelesseuilsc i sontconnus Aveccechangementdevariable,onobservey i lorsquey i >0( z i > C i )Lavariablelatenteestdécriteparlemodèlelinéairesuivant: y i =X i b+σu i, u i iid N(0,1),,,N avecσ>0laperturbationdumodèleestdoncégaleà: v i =σu i, iid cequi impliquequev i N ( 0,σ 2) Lafonctionderépartitiondelaloi normalecentréeetréduiteestnotéeφ(z)etsadensitéϕ(z)lavariable observable,notéey i,estdéfiniepar: { manquant siy y i = i 0 sinon y i Pour procéder à l estimation il nous faut l expression de la densité de y i tronquéeen0elleestégale,pardéfinition,à: f(y i )=1 (y i >0) 132 f(y i ) Pr[y i >0]
133 La probabilité d observer la variable endogène est donnée par: Pr[yi >0]=Pr[X i b+σu i >0] [ =Pr u i > X ] ib σ ( =1 Φ X ) ib σ ( ) Xi b =Φ, σ etlavraisemblanceestdonnéepar: l i = [ ( 1 ln σ ϕ yi X i b σ y i>0 )] lnφ ( ) Xi b σ Ilfautnotericiqueseuleslesobservationsstrictementpositivesdey i sont utilisables, contrairement au modèle Tobit que nous verrons plus loin où toutes les observations sont utilisables L espérance mathématique de y i estdonnéepar: ( ) + 1 σ ϕ yi X i b σ E(y i )= 0 Φ ( X ib σ on effectue le changement de variable: cequiimplique: d où: y i u= y i X i b, σ ) dy i, lim u= X ib y i 0 σ, lim u=+ et dy i=σdu, y i + + 1 E[y i y i >0]= Φ ( ) X i (X b i b+σu)ϕ(u)du X i b σ σ 1 + = Φ ( σ X ib)x i b ϕ(u)du+ X i b σ Φ ( X ib) σ σ } {{ } =X i b+ σ Φ ( X ib σ =X i b+σ ϕ( X ib σ Φ ( X i b σ Φ ( Xi b σ ) )[ ϕ(u)] + X i b σ ) ), + X i b σ uϕ(u) du } {{ } ϕ (u)
134 cette espérance est valable sur les observations strictement postives et pourra être utilisée lors de l estimation du modèle Tobit On effectue les changements de paramètres suivant: β= b σ et h= 1 σ, ce qui permet d écrire la log-vraisemblance sous la forme: l(y 1,,y N )= lescoreestdoncégalà: { lnh 1 } 2 ln(2π) 1 2 (hy i X i β) 2 lnφ(x i β), l N β = l N h = [ X i hy i X i β ϕ(x ] iβ) Φ(X i β) [ ] 1 h hy2 i + X i βy i Pour simplifier les notations, on pose: m i =X i b et λ i = ϕ(x iβ) Φ(X i β), où λ i est l inverse du ratio de Mills La première partie du score peut doncseréécrire: l N β = X i [h(y i m i ) λ i ] Onvoitquelescore l/ βestd espérancenulle,puisque: E(y i y i >0)=m i + 1 h λ i C estégalementlecaspour l/ hetl onpeutdoncécrire: [ ] 1 E h hy2 i +hm iy i =0 E [ yi y 2 i >0 ] = 1 [ ] 1 h h +hm ie(y i y i >0) E [ y 2 i y i >0 ] = 1 h 2+m ie(y i y i >0) E [ y 2 i y i >0 ] = 1 h 2+m2 i + m iλ i h
135 Cette expression nous servira pour déterminer l algorithme du score Les dérivées secondes sont égales à: 2 N l β β = X ix i [1 λ i (m i +λ i )] 2 l N β h = X iy i 2 N l h 2 = [ ] 1 h 2 +y2 i d où l espérance de l opposé des dérivées secondes: [ ] E 2 l β β = X ix i [1 λ i (m i +λ i )] [ ] E 2 l = β h [ ] E 2 l h 2 = X i [ m i + 1 ] h λ i [ 2 h 2 +m2 i +m iλ i h On peut alors utiliser un algorithme du score en prenant les moindres carrés ordinaires comme valeur initiale, cet estimateur n étant pas convergent L algorithme de Newton-Raphson est ici plus simple que l algorithme du score en raison de la forme particulière des espérances de lavariabletronquéey i 102 Le modèle Tobit LemodèleTobitestunmodèlecensuré, cequisignifiequel onobserve lesvariablesexplicativesx i danstouslescas Onpeutdoncutilisercette information supplémentaire 1021 Estimation Laprobabilitéquelavariablelatenteyi soitnégativeestdonnéepar: ( ) Pr[y i =0]=Pr[yi Xi b <0]=1 Φ, σ et la probabilité d observer une valeur strictement positive est simplement égaleà: f(y i )= 1 ( ) σ ϕ yi X i b, y i >0, σ ]
136 lavraisemblanceestdoncégaleà: l(y 1,,y N )=(1 d i )ln[1 Φ(X i β)] avec: d i = +d i ln { 0 siy i 0 1 sinon { h 2π 1 2 (hy i X i β) 2 }, où la variable dichotomique d i suit une loi de Bernoulli de paramètre Φ(X i β)lescoreestégalà: l N β = X i [ ] ϕ(x i β) d i (hy i X i β) (1 d i ) 1 Φ(X i β) N l h = [ ] 1 d i h hy2 i + hm iy i etl onvérifiequel espéranceduscoreestnulleenutilisant: ainsique: E(d i y i )=E(y i y i >0) Pr(y i >0) ( = m i + 1 ) ϕ i Φ i h Φ i =m i Φ i + 1 h ϕ i, E ( d i yi) 2 ( =E y 2 i y i >0 ) Pr(y i >0) [ ] 1 = h 2+m2 i +m iϕ i Φ i h Φ i ( ) 1 =Φ i h 2 +m2 i + m iϕ i h Les dérivées secondes sont données par: 2 l N β β = X ix ϕ i i {d i +(1 d i ) 1 Φ i 2 l N β h = d i X i y i 2 l N h 2 = ( ) 1 d i h 2 +y2 i ( )} ϕi hm i 1 Φ i
137 d où les espérances mathématiques nécessaires à l algorithme du score: [ ] E 2 l β β = [ ] E 2 l = β h [ ] E 2 l h 2 = 1022 Valeur initiale [ ( )] X ix ϕi i Φ i +ϕ i hm i 1 Φ i X i [ m i Φ i + 1 ] h ϕ i [ Φ i ( 2 h 2 +m2 i ) + m ] iϕ i h Le fait que l on observe toujours les variables explicatives permet de calculer facilement des valeurs initiales Ceci provient du fait que l on peut estimerunmodèleprobitenprenantd i commevariableexpliquéepour les observations strictement positives, on utilise: E(y i y i >0)=X i b+σ ϕ(x iβ) Φ(X i β) ( =σ X i β+ ϕ(x ) iβ) Φ(X i β) =σµ i, (101) avecµ i =X i β+ϕ(x i β)/φ(x i β)cettequantitépeutfacilementêtre estiméeàpartirdel estimateur β delapartieprobitdumodèle: ( ) ϕ X i β µ i =X i β+ ( ) Φ X i β En utilisant directement (101) on peut obtenir un estimateur convergentdeσenrégressanty i surunestimateurconvergentdeµ i parles moindres carrés ordinaires sans terme constant; ce qui donne: i>0 µ y iy i σ=, y i>0 µ2 i dont on déduit la valeur initiale convergente pour le paramètre h: ĥ= 1ˆσ = y i>0 µ2 i y i >0 µ iy i
138 1023 Retour aux paramètres structurels La méthode précédente permet d obtenir des estimateurs convergents des paramètresβethpourrevenirauxparamètresdedépartdumodèle,on utilise la propriété d invariance fonctionnelle et le théorème de Slutsky L invariancefonctionnelleimpliquequeˆb= ˆβ/ĥestl estimateurdumaximumdevraisemblancedebetqueˆσ=1/ĥestl estimateurdumaximum de vraisemblance de σ Le théorème de Slutstky permet de trouver la (ˆb ) Soit: matrice de covariance asymptotique de,σ ( β θ= h la distribution asymptotique de l estimateur du maximum de vraisemblance est normale: N (ˆθ θ ) L N ( 0,Ωˆθ), cequiimplique: avec ), ( ) ) ( L N g(ˆθ g(θ) N 0, g g(θ)=(β/h,1/h)=(b,σ) et θ Ωˆθ ) g θ, ( ) g θ (θ)= Ik /h 0 β/h 2 1/h 2, oùkestlenombredeparamètresduvecteurβonendéduitque: ( ) ( ) b β/ ĥ = σ 1/ĥ ( ) ( ) )( ) b I et V = k /ĥ V( 0 β I k /ĥ β/ĥ2 σ β/ĥ2 1/ĥ2 ĥ 0 1/ĥ2 103 Le modèle Tobit généralisé On présente ici le modèle développé par Heckman dans ses articles de 1976 et 1979 1031 Définition La forme latente comporte maintenant deux équations Une première variablelatentey 1 détermineladécisionetunesecondevariablelatente
139 y 2 déterminelemontantobservéquandladécisionestprise Ona: y 1i=m 1i +σ 1 u 1i y 2i =m 2i+σ 2 u 2i, avecm ji =X i b j et: ( ) [( u1i iid 0 N u 2i 0 Onobserveladécision: y 1i = ) ( 1 ρ, ρ 1 { 0 siy 1i 0 1 sinon ainsiquelemontantlorsquey 1i =1: { manquant siy y 2i = 1i 0 sinon 1032 Estimation y 2i, )] Pour écrire la log vraisemblance, on a besoin de la loi normale bivariée Sadensitéestégaleà: { f(y1,y 2)= 1 2π 1 ( 1 ρ 2exp u 2 2(1 ρ 2 ) 1 2ρu 1 u 2 +u 2 ) } 2 (102) Pour les observations nulles, la probabilité est simplement: ( ) m1i Pr[y 1i =0]=1 Φ =1 Φ(X 1i β 1 ), avecβ 1 =b 1 /σ 1 Pourlesobservationspositives,ilfautcalculer: σ 1 f(y 2 (y 1 >0))= + = X 1iβ 1 f(u 1,u 2 )du 1 + X 1iβ 1 f(u 1 u 2 )ϕ(u 2 )du 1 =ϕ(u 2 ) D aprèsladensité(102)ona: { 1 2π 1 ρ f(u 1 u 2 )= 2exp 1 + 2(1 ρ 2 ) 1 2π exp X 1iβ 1 f(u 1 u 2 )du 1 { ( ) 1 = ϕ u 1 ρu 2 1 ρ 2 1 ρ 2 ( u 2 1 2ρu 1 u 2 +u 2 2) } u2 2 2 }
140 cequipermetd écrire: I= + X 1iβ 1 f(u 1 u 2 )du 1 = + X 1iβ 1 1 en effectuant le changement de variable: ona: du 1 = 1 ρ 2 dz, cequiimplique: enposant: I= z= u 1 ρu 2, 1 ρ 2 ( ) ϕ u 1 ρu 2 du 1, 1 ρ 2 1 ρ 2 lim z= X 1iβ 1 ρu 2, lim z=+, u 1 X 1iβ 1 1 ρ 2 u 1 + + =1 X 1i β 1 ρu 2 1 ρ 2 ϕ(z)dz X 1i β 1 ρu 2 1 ρ 2 ( ϕ(z)dz ) X 1i β 1 ρu 2 =1 Φ 1 ρ 2 ( ) X 1i β 1 +ρu 2 =Φ 1 ρ 2 =Φ on obtient finalement: I=Φ ( X 1i β 1 +ρ(y 2i X 2i b 2 )/σ 2 1 ρ 2 h= 1 σ 2 et β 2 = b 2 σ 2, ( ) ) X 1i β 1 +ρ(hy 2i X 2i β 2 ) 1 ρ 2 LalogvraisemblancedumodèleTobitgénéraliséestdoncégaleà: l(β 1,β 2,h)= ln(1 Φ(X 1i β 1 )) y 1i=0 + y 1 + y 1 ( ) X 1i β 1 +ρ(hy 2i X 2i β 2 ) lnφ 1 ρ 2 { h ln exp 1 } 2π 2 (hy 2i X 2i β 2 ) 2,
141 1033 Valeur initiale CommedanslemodèleTobitsimple,ilestpossibledetrouverunevaleur initiale à partir d une méthode en deux étapes Pour cela, on utilise l espérance conditionnelle suivante: E(y 2i y 1i >0)=X 2ib 2 +σ 2 E(u 2i u 1i > X 1i β 1 ) =X 2i b 2 +ρσ 2 ϕ(x 1i β 1 ) Φ(X 1i β 1 ) Dansunpremiertemps,onestimedoncunmodèleProbitsurtoutes les observations, ce qui permet d obtenir un estimateur de β 1 noté ˆβ 1 Onestimeensuitel inverseduratiodemillsnoté λ i : ) ϕ (X 1iˆβ1 λ i = ), Φ (X 1iˆβ1 enrégressantlesobservationspositivesdey 2 surx 2et ˆM i onobtientun estimateur convergent de b 2 et de ρσ 2 On peut ensuite soit estimer le modèle en faisant un balayage sur ρ soit utiliser une expression similaire surlavarianceconditionnelledey 2 pourestimerρlelecteurintéressé estinvitéàsereporteràl ouvragedecgouriéroux 1034 Amélioration de l estimation La plupart des logiciels n ont besoin que de la log-vraisemblance pour déterminer le maximum de la fonction précédente, surtout si elle prend pour valeur initiale l estimateur en deux étapes de Heckman, parce qu il est convergent Toutefois, pour pouvoir estimer un système d équation incluant une variable modélisée par un Tobit généralisé, il faut disposer des dérivées premières analytiques Elles permettent de calculer la matrice de covariance de la forme réduite du modèle Ceci permet également d accélérer les procédures d optimisation numériques On pose les notations suivantes: µ 1i =X 1i β 1, µ 2i =X 2i β 2i et λ 2i =ϕ ( ) ( ) 1 µ 1i +ρ(hy 2i µ 2i ) µ 1i +ρ(hy 2i µ 2i ) Φ 1 ρ 2 1 ρ 2
142 La log vraisemblance pour une observation s écrit: l i =(1 y 1i )ln(1 Φ(µ 1i )) ( ) µ 1i +ρ(hy 2i µ 2i ) +y 1i lnφ 1 ρ 2 +y 1i ( lnh 1 2 ln(2π) 1 2 (hy 2i µ 2i ) 2 ) Les dérivées pour chaque observation s écrivent donc: l i = y 1iλ 2i µ (1 y 1i)ϕ 1i, 1i 1 ρ 2 1 Φ 1i { l i µ 2i =y 1i l i h =y 1i { hy 2i µ 2 ρy 1iλ 2i 1 ρ 2 } ρy 2i λ 2i 1 ρ 2 +1 h y 2i(hy 2i µ 2i ) l i ρ =y 1iλ 2i ( 1 ρ 2 ) 3/2 {ρµ1i +hy 2i µ 2i } Onendéduitlesdérivéesparrapportauxparamètres: l β 1 = X 1i l i, µ 1i l β 2 = 1035 Programmation X 2i l i, µ 2i, N l h = l i h }, N l et ρ = l i ρ Pour procéder à l optimisation de la log vraisemblance, il est pratique de procéder aux changements de paramètres suivants: h=exp(γ 1 )>0, ρ=sin(γ 2 ) [ 1,+1], onobtientalorslesdérivéesdelamanièresuivante: et l i = l i h = l i γ 1 h γ 1 h exp(γ 1), l i = l i ρ = l i γ 2 ρ γ 1 ρ cos(γ 2) Pour les valeurs initiales, on utilise la régression sur les données quantitatives observables: { i y 1 =1}, y 2i =X 2i b 2 +c λ 1i +v 2i,
143 avec: ) ϕ (X 1i β1 λ 1i = ), c=ρ σ 2 Φ (X 1i β1 A la suite de Gouriéroux(1989), on prend comme valeur initiale σ 2 2= 1 N 1 i y 1 =1 ( v 2 2i+ĉ 2 λ1i (X 1i β1 + λ 1i )), cequiimplique: ainsique: ĥ= 1 σ 2 2 donc γ 1 =lnĥ, ρ= ĉ σ 2 =ĥ ĉ donc γ 2=sin 1 ( ρ)
CHAPITRE 11 Estimation de modèles à plusieurs équations 111 Estimation de la forme réduite Pour fixer les idées, on cherche à estimer le système à deux équations suivant: { y 1 = a 12 y 2+X 1 b 1 +u 1 y 2 = a 21 y 1+X 2 b 2 +u 2 (111) enrésolvantcesystèmeparrapportauxvariablesexpliquées(y 1,y 2 )en fonction des variables explicatives et des perturbations, on obtient la formeréduitedumodèle: { y 1 = Xπ 1 +v 1 y 2 = Xπ 2 +v 2 oùx estlamatricedetouteslesvariablesexplicativeset: v 1 = u 1+a 12 u 2 1 a 12 a 21, v 2 = a 21u 1 +u 2 1 a 12 a 21 (112) On voit que ce système peut être estimé très simplement, équation par équation, puisqu il n y a plus de variable qualitative endogène dans les membres de droite des équations de la forme réduite Le seul problème consiste à estimer la matrice de covariance globale des ces estimateurs obtenus séparément Ilestfaciledevoirquelesestimateursdelaformeréduite( π 1, π 2 )peuvent être obtenus par la maximisation d un objectif de la forme suivante : π=arg max Ψ 1 (π 1 ;y 1i,X i )+ Ψ 2 (π 2 ;y 2i,X i ) (113) (π 1,π 2) 144
145 Eneffet,ladérivéeparrapportàπ 1 nefaitintervenirquelapremière partie de l objectif, qui réalise l estimation par le(pseudo) maximum de vraisemblance,alorsqueladérivéeparrapportàπ 2 nefaitintervenirque la dérivée par rapport à la seconde partie de l objectif En conséquence, les conditions du premier ordre de ce problème sont identiques à celles des estimations séparées ce qui implique que les estimateurs obtenus en maximisant l objectif (113) sont numériquement identiques à ceux obtenus par les estimations séparées Il nous reste à voir comment calculer la matrice de covariance de π pour résoudre notre problème Le problème d optimisation se réécrit: π=argmax π Ψ(π;y i,x i ) ι=1 avec y = (y 1,y 2 ) et Ψ(π;y i,x i ) = Ψ 1 (π 1 ;y 1i,X i )+Ψ 2 (π 2 ;y 2i,X i ) L estimateurdelaformeréduiteestdéfinipar: Ψ π ( π;y i,x i )=0 La matrice de covariance est donnée par le résultat suivant, qui s applique aux M-estimateurs en général(gouriéroux et Monfort, 1989): avec N( π π) L N(0,Σ), Σ=J 1 IJ 1, [ ] J=E 2 Ψ π π (π;y,x), [ ] Ψ I=E π (π;y,x) Ψ π (π;y,x) Dans la pratique, on estimera ces quantités par: Ĵ= 1 N 2 Ψ π π ( π;y i,x i ) et Î= 1 N Ψ π ( π;y i,x i ) Ψ π ( π;y i,x i ) On en déduit les remarques importantes suivantes:
146 1 Les dérivées secondes croisées entre équations sont toutes nulles puisque le paramètre d une équation de la forme réduite n apparaît que dans cette équation 2 Delapremièreremarque,ondéduitlerésultatsuivant: Ωˆπ = ( J 1 11 0 0 J 1 22 )( )( I11 I 12 J 1 I 12 I 22 = 11 0 0 J 1 22 ) ( J 1 11 I 11J11 1 J11 1 I 12J22 1 J22 1 I 12J11 1 J22 1 I 22J22 1 3 Les estimateurs des matrices de covariance asymptotiques de chaque équation pris séparément, qui sont situées sur la diagonale, sont identiques à ceux du pseudo maximum de vraisemblance 4 La covariance asymptotique entre les estimateurs des deux équationsestdonnéepar: Covas( N( π1 π 1 ), ) N( π 2 π 2 ) =J11 1 I 12J22 1 5 Il faut donc sauvegarder les dérivées premières individu par individu pour pouvoir estimer la matrice de covariance de l estimateur de la formeréduite LaseulenouveautéestdonclamatriceI 12,quel on estimera par: ) Î 12 = 1 N Ψ 1 ( π 1 ;y 1i,X 1i ) Ψ 2 π 1 π 2 ( π 2 ;y 2i,X 2i ), et que l on obtient par un simple produit croisé des matrices des dérivées premières individuelles 112 Estimation de la forme structurelle En reportant les formes réduites de (y 1,y 2) dans le système (111) on obtient les identités suivantes: Xπ 1 +v 1 =a 12 (Xπ 2 +v 2 )+X 1 b 1 +u 1 Xπ 2 +v 2 =a 21 (Xπ 1 +v 1 )+X 2 b 2 +u 2 en prenant l espérance mathématique du système précédent, on obtient leségalités: { Xπ1 = Xπ 2 a 12 +X 1 b 1 Xπ 2 = Xπ 1 a 21 +X 2 b 2 (114)
147 Pour obtenir une relation entre les paramètres du modèle, on introduit lesmatricesd exclusione 1 ete 2,définiesdelamanièresuivante: X 1 =XE 1, X=XE 2 Ces matrices résument les contraintes qui permettent d identifier le modèle, c est-à-dire de remonter de la forme réduite du modèle à sa forme structurelle On obtient la propriété suivante: { { X(π1 π 2 a 12 E 1 b 1 ) = 0 X(π 2 π 1 a 21 E 2 b 2 ) = 0 π1 π 2 a 12 E 1 b 1 = 0 π 2 π 1 a 21 E 2 b 2 = 0 (115) car X est de plein rang colonne Les relations(115) s appelent les contraintes identifiantes La méthode des moindres carrés asymptotiques permet d estimer la forme structurelle du modèle à partir d un estimateur convergent et asymptotiquement normal(can) de la forme réduite Onnotecetestimateur: L N(ˆπ π) N(0,Ωˆπ ) Les équations auxilliaires sont définies par: { ˆπ1 = ˆπ 2 a 12 +E 1 b 1 +ω 1 ˆπ 2 = ˆπ 1 a 21 +E 2 b 2 +ω 2 (116) où ω = (ω 1,ω 2 ) est un terme d erreur qui vérifie Plim Nω = 0 Ce système peut être estimé en deux étapes Une première étape set à estimer la matrice de covariance asymptotique de ω; la seconde étape sert à obtenir l estimateur optimal On estime d abord la relation suivante par les moindres carrés ordinaires: ( ) ( ) ˆπ1 ˆπ2 E = 1 0 0 ˆπ 2 0 0 ˆπ 1 E 2 } {{ } } {{ } ˆπ on obtient l estimateur suivant: Ĥ ˆβ=(Ĥ Ĥ) 1Ĥ ˆπ a 12 b 1 a 21 b 2 } {{ } β ( ω1 + ), ω 2 } {{ } ω Cetestimateurdepremièreétapepermetdecalculerlavariancedeωde la manière suivante: [( ] ( ) 1 a12 E1 b ω= ) I a 21 1 k ˆπ+ 1, E 2 b 2 } {{ } A
148 cequiimplique: V(ω)=AV(ˆπ)A, onobtientunestimateurdecettevarianceenremplaçant(a 12,a 21 )par leurs estimations: ( ) 1 â12 Â= I â 21 1 k et V(ω)=ÂV(ˆπ)Â L estimateuroptimalβ estobtenuenappliquantlesmoindrescarrés généralisés à la relation(116): β =(Ĥ V(ω) 1 Ĥ) 1Ĥ V(ω) 1ˆπ, (117) etsamatricedecovariancepeutêtreestiméepar: ) 1 V(β )=(Ĥ V (ω) 1 Ĥ avec V (ω)=a V(ˆπ)A et A =( 1 a 12 a 21 1 ) I k On peut effectuer une troisième itération en remplaçant V(ω) par V (ω)danslarelation(117)
Annexe A Moments empiriques et moments théoriques A1 Moments empiriques des vecteurs Le but de cette section est de se familiariser avec les notations de calcul matriciel, car c est sous cette forme qu apparaissent le plus souvent les moments empiriques Il faut donc savoir les simplifier quand on les recontre dans une expression A11 Moyenne arithmétique Lamoyennearithmétiqued unvecteurcolonnez=(z 1,z 2,,z N ) peut se trouver sous les formes équivalentes suivantes: carona: et: z e=(z 1,z 2,,z N ) z= z e e e = z e N = 1 N 1 1 1 e e=(1,1,,1) z i, =z 1+z 2 ++z N = z i, 1 1 1 = } 1+1++1 {{ } =N N fois 149
150 A12 Variance empirique La variance empirique de la série z, notée V e (z), peut se trouver sous les formes équivalentes: car z ze= V e (z)= 1 N z 1 z 2 z N = 1 N (z i z) 2 zi 2 (z)2 = 1 N (z ze) (z ze), = z z N (z)2 z z z = z 1 z z 2 z z N z, cequiimplique: (z ze) (z ze)=(z 1 z,z 2 z,,z N z) z 1 z z 2 z z N z =(z 1 z) 2 +(z 2 z) 2 ++(z N z) 2 = (z i z) 2 Enposantz=0,ontrouve: z z= zi 2 A13 Ecart-type empirique Il s agitsimplementde laracine carréedelavariance empirique Onle note: σ e (x)= V e (x)
151 A14 Covariance empirique Lacovarianceempiriqueentrelevecteurz=(z 1,z 2,,z N ) etlevecteur x=(x 1,x 2,,x N ),Cov e (z,x),s écrit: Eneffet: Cov e (x,z)= 1 N = 1 N (z i z)(x i x) z i x i zx = 1 N (z ze) (x xe) = z x N zx (z ze) (x xe)=(z 1 z,z 2 z,,z N z) x 1 x x 2 x x N x =(z 1 z)(x 1 x)++(z N z)(x N x) = (z i z)(x i x) Enposantz=0=xdansl expressionprécédente,ona: z x= z i x i Onremarquedeplusquelorsquez=x: Cov e (x,x)= 1 N = 1 N (x i x)(x i x) (x i x) 2 =V e (x)
152 A15 Corrélation empirique Le coefficient de corrélation linéaire empirique entre les séries z et x, noté ρ e (x,z)estdéfinipar: ρ e (x,z)= Cov e(x,z) Ve (x)v e (z) = Cov e(x,z) σ e (x)σ e (z) Il peut donc prendre différentes formes en fonction des expressions que nousavonsvuplushautonpeutfaireapparaîtresonexpressiondansla définition des différents estimateurs A2 Moments empiriques des matrices A21 Moyenne arithmétique On considère maintenant une matrice X de dimension (N,p) Chaque lignedex correspondàuneobservationetchaquecolonnedex corrrespondàunevariable OnnotecesvariablesX= ( X (1) X (2) X (p)) Ona: X= X e = 1 }{{} N N (p,1) X (1) X (2) X (p) e= 1 N X (1) e X (2) e X (p) e = x 1 x 2 x p A22 Matrice de covariance empirique Contrairement au cas univarié, on définit une matrice qui contient à la fois les variances et les covariances des variables Les variances sont sur ladiagonaledelamatricedecovariance Ona: V e (X)= X X N XX On peut définir la matrice des produits croisés des variables explicatives X X à partir du modèle écrit par observations ou par variables Selon le contexte une expression peut s avérer plus pratique que l autre, et il faut pouvoir passer facilement entre les différentes expressions
153 Par rapport aux variables, on a: X (N,p) X (N,p) = X (1) X (2) X (p) (X (1) X (2) X (p)) = X (1) X (1) X (1) X (2) X (1) X (p) X (1) X (2) X (2) X (2) X (2) X (p) X (p) X (1) X (p) X (2) X (p) X (p) = N N x2 i1 x i1x i2 N x i1x ip N x N i1x i2 x2 i2 N x i2x ip N x N i1x ip x i2x ip N x2 ip LamatricedesmomentsempiriquesnoncentrésdeXestdéfiniepar: X X N = N 1 N x2 i1 N 1 N x i1x ip N 1 N x i1x i2 N 1 N x i2x ip N 1 N x i1x ip N 1 N x2 ip On en déduit la matrice de covariance empirique: V e (X)= N 1 N x2 i1 N 1 N x i1x ip x i1x i2 N 1 N x i2x ip x i1x ip N 1 N x2 ip x 1 x 2 ( ) x1 x 2 x p N 1 N N 1 N x p
154 = N 1 N x2 i1 N 1 N x i1x ip N 1 N x i1x i2 N 1 N x i2x ip N 1 N x i1x ip N 1 N x2 ip x 2 1 x 1 x p x 1 x 2 x 2 x p x 1 x p x 2 p = N 1 N x2 i1 x 2 1 N 1 N x i1x ip x 1 x p N 1 N x i1x i2 x 1 x 2 N 1 N x i2x ip x 2 x p N 1 N x i1x ip x 1 x p N 1 N x2 ip x2 p On obtient donc finalement: V e (X)= V e (x 1 ) Cov e (x 1,x 2 ) Cov e (x 1,x p ) Cov e (x 1,x 2 ) V e (x 2 ) Cov e (x 2,x p ) Cov e (x 1,x p ) Cov e (x 2,x p ) V e (x p ) Par rapport aux observations La matrice de covariance empirique peut s écrire: V e (X)= 1 N X ix i XX ona:
155 X ix i = (x i1,x i2,,x ip ) x i1 x i2 x ip = x 2 i1 x i1 x i2 x i1 x ip x i1 x i2 x 2 i2 x i2 x ip x i1 x ip x i2 x ip x 2 ip = N x2 i1 N x i1x i2 N x i1x ip N x N i1x i2 x2 i1 N x i2x ip N x N i1x ip x i2x ip N x2 ip =X X On retrouve donc le même résultat que précédemment De même pour les produits croisés entre les variables explicatives et la variable expliquée, ona: X y (N,p)(N,1) = X (1) X (2) X (p) y= X (1) y X (2) y X (p) y Les moments centrés donnent donc: = N x i1y i N x i2y i N x ipy i N = X i y i Cov e (X,y)= 1 N X iy i Xy= X y N Xy Le vecteur correspondant est égal à: Cov e (X,y)= N 1 N x i1y i N 1 N x i2y i N 1 N x ipy i x 1 x 2 x p y
156 = = = N 1 N x i1y i N 1 N x i2y i N 1 N x ipy i N 1 N N 1 N x i1y i x 1 y x i2y i x 2 y N 1 N x ipy i x p y Cov e (x 1,y) Cov e (x 2,y) Cov e (x p,y) x 1 y x 2 y x p y Sous certaines conditions, les moments empiriques que nous venons de voir convergent en probabilité vers les moments théoriques correspondants Ce point est examiné dans la section suivante A3 Convergence en probabilité A1 Soit b N unevariablealéatoiredontlaréalisationdépend du nombre d observations disponibles dans un échantillon(noté N) On ditquecettesuitedevariablesaléatoires b N convergeenprobabilitévers une valeur b lorsque le nombre d observations N tend vers l infini, si elle vérifie la propriété suivante: ] ε>0,pr[ bn b >ε 0 N + Laconvergenceenprobabilitéde b N versbestnotéedemanièreabrégée par l expression: Plim b N =b, où Plim est l abréviation de probability limit (ie, limite en probabilité) Elle s écrit également: P bn b N +
157 Cettedéfinitionsignifiequel évènement b N s écartedebd unedistance supérieure à ε est de probabilité nulle (ie, impossible) lorsque N + Cettepropriétés étendàcertainesfonctionsde b N,commele montre le théorème suivant THÉORÈME A1 [Slutsky] Soit b N une suite de variables aléatoires qui converge en probabilité versb: Plim b N =b, etsoitg()unefonctioncontinuedéfinieaupointbona: ) ) Plimg ( bn =g (Plim b N =g(b) Les définitions précédentes et le théorème de Slutsky s étendent au cas vectoriel en raisonnant composante par composante En particulier le théorème de Slutsky permet de simplifier considérablement le calcul des limites en probabilités Prenons deux estimateurs convergents, â d un paramètreaet bd unparamètrebona: Plimâ+ b=plimâ+plim b=a+b, carlafonctiong(a,b)=a+bestcontinueetlesestimateursconvergent enprobabilité Demême,enutilisantlesfonctionsg(a,b)=ab,g(a,b)= a/b(pourb 0)onobtientlespropriétés: Plimâ b=plimâplim b=ab, Plimâ b = Plimâ Plim b = a b, b 0 A4 Inégalité de Bienaymé-Chebichev Le théorème suivant est très important Il nous permet notamment de démontrerlaloidesgrandsnombresetlefaitquelaconvergenceenmoyenne quadratique implique la convergence en probabilitéen une seule ligne THÉORÈME A2 [Inégalité de Bienaymé-Chebichev] SoitZ unevariabledecarréintégrable,ona: δ>0,pr[ Z δ] 1 δ 2E( Z 2) : Soit la variable de Bernoulli: { 1 si Z δ D= 0 sinon
158 son espérance mathématique est égale à: D autre part: E(D)=1 Pr[ Z δ]+0 Pr[ Z <δ]=pr[ Z δ] 1 Si Z δonad=1donc: Z δ 2 Si Z <δonad=0donc: Z δ 1 Z2 δ 2 D=1 0 Z2 δ 2 D=0 doncdanstouslescasona: Z 2 ( ) Z 2 δ 2 D E δ 2 E(D) 1 δ 2E( Z 2) Pr[ Z δ] RemarqueA1 EnposantZ=X E(X),onobtientl expression: δ>0,pr[ X E(X) δ] 1 δ 2V(X), [ carv(x)=e (X E(X)) 2] La convergence en probabilité est parfois difficile à vérifier directement, on utilise alors une conditions suffisante, qui correspond en fait à la convergence en moyenne quadratique A2 Soit b N unevariablealéatoiredontlaréalisationdépend du nombre d observations disponibles dans un échantillon(noté N) On ditquecettesuitedevariablesaléatoires b N convergeenmoyennequadratique vers une valeur b lorsque le nombre d observations N tend vers l infini, si elle vérifie une des deux propriétés équivalentes suivantes: ) 2 ] 1 E[ ( bn b 0 lorsque N + ) ) 2 E ( bn b et V ( bn 0 lorsque N +
159 Onnotecerésultat: bn mq N + b Cettedéfinitionportedirectementsurladistanceentre b N etbelle impose que cette distance s annule quand le nombre d observations devient suffisamment grand L équivalence entre les deux définitions vient dudéveloppementsuivant: 1 ) 2 ] ] [ )] 2 E[ ( bn b =V[ bn b + E( bn b ) ( ) 2 0 =V ( bn + E ( bn b) Les deux termes précédents sont positifs ou nuls donc pour que l expression ) s annulelorsquen +,ilfautquel onaitsimultanémentv ( bn 0 ) ete ( bn b A1 Soit b N unesuitedevariablesaléatoires,ona: bn mq N + b Plim b N =b, la convergence en moyenne quadratique implique la convergence en probabilité : C est une conséquence de l inégalité de Bienaymé-Chebichev En posant Z= b N betδ=ε>0danslethéorème[a2],onobtient: ] ε>0, 0 Pr[ bn b ε 1 [ ) ] 2 ( bn ε 2E b N + 0 A5 Laloifaibledesgrandsnombres Cette section permet de faire le lien entre les moments empiriques que nousavonsvuplushautetlaconvergenceenprobabilitéquenousvenons de voir Elle signifie que sous certaines conditions, les moments empiriques convergent en probabilité vers les moments théoriques correspondants On l appelle loi faible des grands nombres, car la convergence en probabilité est également appelée convergence faible La version de cette loiquenousutilisonsestdueàmarkov(cf Petrov1995,p134) 1 On rappelle que : V(X) = E ( X 2) E(X) 2 E ( X 2) = V(X)+E(X) 2 Ici on pose X= b n b
160 THÉORÈME A3 [Markov] Soit (X 1,,X N ) une suite de variables aléatoires qui admettent une espérancemathématiquee(x k )=m k pourtoutevaleurdek {1,,N}, et qui vérifient la propriété suivante: alors 1 N 2V [ N X k ] 0 lorsque N +, k=1 [ 1 Plim X k 1 N N k=1 m k ]=0 : IlsuffitdeposerZ=N 1 N k=1 (X k m k )dansl inégalitédebienaymé- Chebichev(théorème[A2]): ] [ 1 δ>0,pr[ X k 1 m k δ 1 N ] N N δ 2 N 2V X k 0 N + k=1 k=1 k=1 Eneffet,ona: k=1 k=1 k=1 E(Z)= 1 [E(X k ) m k ]=0 N k=1 [ [ ] 1 V(Z)=V X k 1 1 m k ]=V X k N N N carn 1 [ N k=1 m kestunequantitécertaineetquel ona:v N 1 ] N k=1 X k N ] N V[ 2 k=1 X k Une moyenne arithmétique de variable aléatoires converge donc vers la moyenne des espérances mathématiques des [ variables aléatoires, à condition que la variance de leur moyenne V N 1 ] N k=1 X k tende vers 0 lorsquen + ExempleA1 Onconsidèreunéchantillondevariables(X 1,,X k )indépendantes, d espérance et de variance constantes : k,m k = m et V(X k ) = σ 2 Sous hypothèse d indépendance, on obtient la condition suivante: [ N ] 1 N 2V X k = 1 N 2 V(X k )= Nσ2 N 2 = σ2 0 quand N + N k=1 k=1 k=1 =
161 D autrepartn 1 N k=1 m k=n 1 (N m)=monadonclerésultat de convergence suivant: PlimX=m, la moyenne empirique converge vers l espérance mathématique commune desvariables(x 1,,X k ) ExempleA2 Onconsidèreunéchantillondevariables(X 1,,X k )indépendantesdevariancesdifférentesetfinies: V(X k )=σk 2 Lamoyenne arithmétiquedecesvariancesn 1 N k=1 σ2 k =σ estégalementfinieen effet: σ max k=1,,n σ2 k quiestfinie cequiimplique: [ N ] 1 N 2V X k k=1 Onendéduitque: = 1 N 2 σk= 2 σ 0 quand N + N k=1 PlimX=Plim 1 N E(X k ) k=1 A6 Théorème de la limite centrale Le théorème suivant nous permet de déterminer la loi asymptotique de la plupart de nos estimateurs THÉORÈME A4 (Liapunov) Soit u 1,u 2,,u N une suite de variablesaléatoiresindépendantesd espérancesmathématiquese(u i )=µ i et devariances respectives V(u i )=E(u i µ i ) 2 =σi 2 0,,,n On supposeégalementquelemomentabsolud ordretroisexistee u i µ i 3 = β i isoient: ( N ) 1/3 ( N 1/2 B N = β i,d N = σi) 2, alors,silimb N /D N =0lorsqueN +,ona: u i µ i D N N(0,1) N +
Annexe B Algèbre linéaire B1 Calcul matriciel OnconsidèreunematriceA=[A ij ]deformat(m,n) 1 LatransposéedeA,notéeA,estdéfinieparA =[A ji ],onintervertit donc les lignes et les colonnes 2 A est de plein rang colonne si ses colonnes sont linéairement indépendantes C est-à-dire si: α IR n, Aα=0 α=0 3 A est de plein rang ligne si ses lignes sont linéairement indépendantes(ie,sia estdepleinrangcolonne) OnconsidèremaintenantdeuxmatricesAdeformat(m,n)etB de format(r,p) 1 Le produit matriciel de A par B n existe que si le nombre de colonnes de A est égal au nombre de lignes de B : n = r Dans cecas,onlenotef =ABetilestdeformat(m,p) 2 Les élements de la matrice produit F = [F ij ] = AB sont définis commelesproduitsscalairesdelai èmelignedeaetdelaj ième colonne de B 3 AB n est généralement pas égal à BA, le produit matriciel n est pas commutatif 4 A(B+C)=AB+BC 162
163 5 (A+B)C=AC+BC 6 (AB) =B A On considère maintenant deux matrices carrées A de format(m, m) etbdeformat(r,r) 1 Unematriceestcarréesielleaautantdelignesquedecolonnes 2 UnematricecarréeAestsymétriquesiA =A 3 La trace d une matrice carrée A est définie par la somme de ses élementsdiagonauxonlanotetr(a)= m A ii 4 tr(a+b)=tr(a)+tr(b) 5 Si ABC est une matrice carrée et si les formats sontcompatibles : tr(abc) = tr(cab) = tr(bca) Il n est pas nécessaire que chaque matrice soit carrée à l intérieur des produits précédents 6 Si A est une matrice carrée de plein rang (ligne ou colonne), elle admetuneinversenotéea 1 tellequeaa 1 =A 1 A=I 7 SilesmatricesAetBsontinversibles: (AB) 1 =B 1 A 1 8 UnematricecarréeAestidempotentesiA 2 =A B2 Matrices définies positives B1 UnematriceAdeformat(m,m)estsemidéfiniepositive lorsque: α IR m, s(α,a)=α Aα 0 B2 Une matrice A de format (m,m) est définie positive lorsque: α IR m,α 0, s(α,a)=α Aα>0 La propriété suivante est utile pour comparer les variances des différents estimateurs B1 SoitX (n,p) unematricequelconque,alorsx X estsemi définie positive : EnposantA=X X,onobtient: s(α,x X)=α X Xα=(Xα) (Xα) = Xα 2 0 }{{} (1,n) }{{} (n,1)
164 La propriété suivante est utile pour montrer l existence de certains estimateurs B2 SoitX (n,p) unematricedepleinrangcolonne,rang(x)= p,alorsx X estdéfiniepositive(doncderangégalàp) : LamatriceX estdepleinrangcolonne: α IR p, X α=0 α=0 donc Xα 2 nepeutêtrenulquedanslecasα=0enconséquence: α IR p,α 0, Xα 2 >0 B3 Produits de Kronecker SoientdeuxmatricesA=[A ij ]deformat(a,b)etb=[b ij ]deformat (c,d) LeproduitdeKroneckerdelamatriceAparlamatriceB, noté A B, donne une matrice F =[F ij ] de format (ac,bd) Cette matrice estdéfiniepar: A 1,1 B A 1,2 B A 1,b B A 2,1 B A 2,2 B A 2,b B F =[A ij B]=, A a,1 B A a,2 B A a,b B chaque élément originel de la matrice A se voit multiplié par la totalité de la matrice B Chacun des éléments de la matrice ci-dessus est donc dedimensionségalesàcellesdeb,etc estdeformat(ac,bd)lespropriétés suivantes sont valables sous réserve que les formats des matrices autorisent les multiplications matricielles indiquées 1 Dans le cas général (A B) n est pas égal à (B A), le produit de Kronecker n est donc pas commutatif 2 0 A=0 3 A 0=0,maisattention,leformatdece0n estpasnécessairement le même que celui de la propriété précédente 4 A (B+C)=A B+A C
165 5 (A+B) C=A B+B C 6 (x,y) IR 2,(xA) (yb)=xy(a B) 7 (A B)(C D)=(AC BD) 8 (A B) =(A B ) 9 SiAetBsontinversibles: (A B) 1 =A 1 B 1 10 tr(a B)=trAtrB
Annexe C La loi normale La loi normale centrée réduite admet pour densité: φ(u)= 1 } exp { u2, 2π 2 elle est d espérance nulle et variance unitaire Plus généralement, on peut définiruneloinormaled espérancemetdevarianceσ 2 endéfinissantla variable suivante: laréciproquedelafonctionest: Y =g(u)=m+σu, U N(0,1), g 1 (y)= y m, σ etladensitédey estdonnéepar: f(y)=φ ( g 1 (y) ) dg 1 (y) dy = 1 ( ) y m σ φ σ La fonction génératrice des moments de la loi normale centrée réduite estdéfiniepar: M(s)=E ( e su) = = + + exp(su) 1 2π exp ) ( u2 du 2 ( 1 exp 1 ( u 2 2su )) du 2π 2 166
167 C1 Loi normale univariée tronquée Onconsidèreuneloinormalededensité: f(y)= 1 ( ) y m σ φ, σ etonchercheladensitédelaloitronquéeenunseuilcladensitédela loitronquéeestdéfiniepar: f(y y>c)= f(y)1 (y>c) Pr(y>c) Pour calculer l espérance mathématique de la loi tronquée, il nous fautlaquantité: I= = + + onfaitlechangementdevariable: cequiimplique: c yf(y)1 (y>c) dy y 1 ( ) y m σ φ dy, σ z= y m, σ y c limz= y c σ, lim z=+,y=m+σz et dy=σdz, y + onobtientdonc: I= =m + (c m)/σ + (c m)/σ (m+σz)φ(z)dz + φ(z)dz+σ =m(1 Φ(c m)/σ)+σ (c m)/σ + (c m)/σ =mφ((m c)/σ)+σφ((m c)/σ), zφ(z)dz φ (z)dz
168 d autre part: ( y m Pr(y>c)=Pr > c m ) σ σ ( y m =1 Pr c m ) σ σ ( ) c m =1 Φ σ ( ) m c =Φ, σ cequiimplique: ( I m c ) E(y y>m)= Pr(y>c) =m+σφ σ Φ ( m c ), (C1) la quantité: ( m c λ σ estégaleàl inverseduratiodemills )= φ(( )) m c σ ), Φ ( m c σ C2 Loi normale bivariée Cette annexe présente la loi normale bivariée ainsi que les distributions conditionnelles qui y sont associées On se limite ici à deux variables, mais l extension à un nombre quelconque est possible On considère deux variables(y 1,y 2 )d espérance(m 1,m 2 )etdematricedecovariance: V ( y1 y 2 ) = ( σ 2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ 2 2 Laloinormalebivariéeestdéfinieparladensité: 1 φ 2 (y 1,y 2 )= 2πσ 1 σ 2 1 ρ 2 { ( [y1 ] 2 [ ] )} 2 1 m 1 y2 m 2 exp 2(1 ρ 2 + 2ρ y 1 m 1 y 2 m 2 ) σ 1 σ 2 σ 1 σ 2 C3 Loi normale conditionnelle Ladensitédelaloiconditionnelledey 1 sachanty 2 estdéfiniepar: ), φ c (y 1 y 2 )= φ 2(y 1,y 2 ), (C2) f 2 (y 2 ) σ
169 oùf 2 (y 2 )estladensitémarginaledey 2 Ona: f 2 (y 2 )= 1 ( ) y2 m 2 φ, σ 2 où φ() est la densité de la loi normale centrée réduite En prenant le ratio(c2)onobtient: { ( 1 1 1 y1 m φ c (y 1 y 2 )= 1 exp σ 1 1 ρ 2 2π 2(1 ρ 2 ρ y ) 2 } 2 m 2 ) σ 1 σ 2 ( [ 1 = σ φ 1 y 1 m 1 ρ σ ] ) 1 (y 2 m 2 ) 1 1 ρ 2 σ 1 1 ρ 2 σ 2 ( [ ( 1 = σ φ 1 y 1 m 1 +ρ σ )] ) 1 (y 2 m 2 ) 1 1 ρ 2 σ 1 1 ρ 2 σ 2 il s agit de la densité d une loi normale d espérance: etdevariance: σ 2 E(y 1 y 2 )=m 1 +ρ σ 1 σ 2 (y 2 m 2 ) V(y 1 y 2 )=σ1 2 ( 1 ρ 2 ) Plus généralement, on peut montrer directement que: y 1 =m 1 +ρ σ 1 σ 2 (y 2 m 2 )+ε 1, (C3) oùε 1 estuneperturbationnormaleindépendantedey 2 Pourvoircela,il suffitderemarquerqueε 1 estunecombinaisonlinéairedeloisnormaleset est donc une variable normale Pour l indépendance, il suffit de calculer la covariance entre ε 1 et y 2, puisque l indépendance est équivalente à l absencedecorrélationpourcetteloi Ona: ( Cov(ε 1,y 2 )=Cov y 1 m 1 ρ σ ) 1 (y 2 m 2 ),y 2 σ 2 =Cov(y 1,y 2 ) ρ σ 1 σ 2 V(y 2 ) =ρσ 1 σ 2 ρ σ 1 σ 2 σ 2 2 =0, desortequeε 1 ety 2 sontindépendantes L espérancedeε 1 estnulle: ( E(ε 1 )=E y 1 m 1 ρ σ ) 1 (y 2 m 2 ) =0, σ 2
170 etsavarianceestégaleà: ( V(ε 1 )=V y 1 m 1 ρ σ ) 1 (y 2 m 2 ) σ 2 ( =σ1v 2 y1 m 1 ρ y ) 2 m 2 σ 1 σ 2 =σ1 2 ( 1+ρ 2 2ρ 2) ( 1 ρ 2 ) =σ 2 1 La propriété(c3) est très pratique lorsque l on étudie la troncature d une variable normale par une autre variable normale C4 Loi normale bivariée tronquée Ici, on recherche l espérance conditionnelle d une première variable tronquée par la valeur d une seconde variable avec laquelle elle est corrélée Cecasseretrouvelorsquel onestimeuneéquationdesalaireentenant compte de la participation On cherche donc la valeur de l espérance conditionnelle suivante: ( E(y 1 y 2 >c)=e m 1 +ρ σ ) 1 (y 2 m 2 )+ε 1 σ 2 y 2>c =m 1 +ρ σ 1 (E(y 2 y 2 >c) m 2 )+E(ε 1 y 2 >c) σ 2 ( ) =m 1 +ρ σ φ m2 c 1 σ 2 m 2 +σ 2 ( ) m 2 +E(ε 1 ), σ 2 Φ m2 c σ 2 en utilisant la propriété (C1) et l indépendance entre y 2 et ε 1 Après simplification, on obtient: ( ) m2 c E(y 1 y 2 >c)=m 1 +ρσ 1 λ (C4) σ 2
Annexe D Simplification du calcul des dérivées La plupart des modèles font intervenir dans la log-vraisemblance des termes linéaires: m(x,b)=xb où X est un vecteur ligne 1 p et b un vecteur colonne 1 p Cette propriété vient de la forme latente linéaire de la plupart des modèles à variables qualitatives Pour estimer le modèle, on a besoin des dérivées de lafonctionàmaximiserparrapportàunvecteurbenfait,nousallons voir un certain nombre de simplifications qui permettent de se limiter à des dérivées par rapport à une variable réelle non vectorielle Toutd abord, la fonctionàmaximiserestlasomme de N fonctions qui ne diffèrent que par les valeurs que prennent les variables expliquée et explicatives La forme fonctionnelle reste la même quelle que soit l observation Dans le cas le plus simple: l(y,x,b)= g(y i,x i,b), où la fonction g est identique pour tous les individus C est la forme que l on obtient systématiquement sous hypothèse d indépendance, où la fonction g est le logarithme de la densité de probabilité Elle se simplifie souvent comme: l(y,x,b)= g(y i,m i,ξ) avecm i =X i b, où ξ est un paramètre, indépendant de b, généralement du second ordre (ie, de variance ou de corrélation) Les observations des variables explicativespourlei èmeindividusontrangéesdansunvecteurlignex i = 171
172 (X 1i,,X pi ) et b est le vecteur colonne correspondant b=(b 1,,b p ) On traite les paramètres de ξ séparément comme des paramètres réels car ilssontenpetitnombredanslescasusuelsladérivationneposedonc pas de problème particulier par rapport à ξ Nous sommes donc ramenés aucalculdeladérivéeparrapportauvecteur bilestclairqu ilsuffitde dériver: g(y i,m i,ξ), et de faire la somme des dérivées ensuite Ceci est valable aussi bien pour les dérivées premières que pour les dérivées secondes En dérivant enchaîne,ona: g b (y i,m i,ξ)= g (y i,m i,ξ) m i m i b La première dérivée est celle d une fonction réelle et s effectue comme d habitude La deuxième dérivée est obtenue en empilant les dérivées danslemêmesensquelevecteurparrapportauquelondérive(ie, en ligneouencolonne) Eneffet,parconvention: m i b = m i = b 1 b p m i /b 1 m i /b p, enremarquantquem i =X i b=x 1i b 1 ++X pi b p,ona m i /b j =X ji pourj=1,,pdonc,enempilantcesdérivées: m i b = X 1i X ki =X i Enconséquencelegradient,pouruneobservationi,estégalà: g b (y i,m i,ξ)=x g i (y i,m i,ξ) m } i {{ } R Lecalculduhessienestsimplifiédufaitdelalinéaritédem i enb,qui impliquequeladérivéesecondedem i parrapportàbestnulle:
173 2 g b b (y i,m i,ξ)= 2 g m 2 (y i,m i,ξ) m i m i i b b + g (y i,m i,ξ) 2 m i m i }{{} b b =0 = 2 g m 2 (y i,m i,ξ) m i m i i b b =X ix 2 g i m 2 (y i,m i,ξ) i } {{ } R Lecalculsefaitdoncentroisétapes: 1 Calcul des dérivées première et seconde par rapport à une variable réellem=xb 2 MultiplicationparX i pourlegradientetparx i X ipourlehessien 3 Addition des dérivées sur l ensemble des observations Exemple D1 Nous verrons plus loin que la log-vraisemblance du modèle Logitpouruneobservationipeuts écriresouslaforme: l i =y i lnp(m i )+(1 y i )ln(1 p(m i )), oùy i {0,1}estlaréponsequalitativequel onétudie(0pour non et 1pour oui )etplafonctionderépartitiondelaloilogistique Comme précédemmentm i =X i brésumel influencedesvariablesexplicativesx i surlechoixy i quiaétéeffectuéparl individuionremarquedèsmaintenantquelafonctionderépartitiondelaloilogistiqueestégaleà: ce qui entraîne que p(m)= 1 1+exp( m), X R, p (m)= exp( m) 1+exp( m) =p(m)(1 p(m)) Nous pouvons donc écrire la log-vraisemblance sous la forme: l(b)= g(y i,m i ) avecg(y i,m)=y i lnp(m)+(1 y i )ln(1 p(m)), m R
174 Ladérivéepremièredegparrapportàmestégaleà: g m (y p (m) i,m)=y i p(m) (1 y p (m) i) 1 p(m) =y i p(m), après simplification La dérivée seconde est égale à: Lescores écritdonc: 2 g m 2(y i,x)= p (m)= p(m)(1 p(m)) s(b)= etlehessienestégalà: H(b)= X i g m (y i,m i )= X i (y i p(m i )), X ix i 2 g m 2(y i,m i )= X ix i p(m i )(1 p(m i ))