Modèles dichotomiques Spécification linéaire One Pager Novembre 2013 Vol. 8 Num. 006 Copyright Laréq 2013 http://www.lareq.com Modèles dichotomiques Spécification linéaire 1 «Le véritable travail, c est de savoir attendre... Je n ai besoin de rien, mais rien ne me suffirait.» Jean Edmond Cyrus Rostand (1894 1977) Résumé Ce papier propose une brève introduction aux modèles à variable dépendante dichotomique (Logit Probit). Mots clé : Logit, Probit. Abstract This paper discusses on the dichotomous dependent variable models (Logit and Probit). Introduction L une des extensions majeures de l économétrie dans les années 60 70 fut incontestablement liée à l utilisation croissante des données microéconomiques relatives à des caractéristiques économiques d agents individuels tels que les firmes, les consommateurs ou les centres de profits. Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères qualitatifs comme par exemple, le sexe, la nationalité, la catégorie socio-professionnelle, le type d études réalisées, le fait de travailler ou au contraire d être au chômage, d acher ou de ne pas acher un certain produit, c. Cependant, la modélisation l étude des caractères quantitatifs par les méthodes d inférences traditionnelles ne sont pas possibles. Ainsi, pour remédier à cte difficulté, plusieurs modèles ont été mis en œuvre. Ceux ci sont des extensions directes du modèle linéaire. Il s agit notamment des modèles Logit, Probit, Tobit ou modèles linéaires généralisés. Et ce papier, qui est une introduction à cte nouvelle approche, se propose de présenter les modèles dichotomiques simples, notamment les modèles Logit développés particulièrement par Verhulst (1938, 1945, 1947), puis Berkson (1944, 1951) ; les modèles Tobit introduits par Bliss (1934) Gaddum (1933). Ainsi, dans une section première, il est question d analyser les modèles binaires univariés, dans les sections deuxième troisième, d examiner la problématique de la spécification linéaire des 1 Je remercie Jean Paul K. Tsasa pour ses commentaires. 61
modèles à variables endogènes dichotomiques modèles logit probit. de procéder à une brève présentation des Les modèles binaires univariés Les modèles binaires univariés ont été développés dans l optique de fournir un cadre d analyse formel qui permtrait de modéliser le lien pouvant exister entre une variable dépendante, notées ne prenant que deux modalités (variable dichotomique) une variable indépendante quelconque. Ainsi, le modèle s écrit : A titre illustratif, considérons un échantillon de individus, tel qu on observe pour chacun d eux le statut socio économique : employé salarié ou chômeur. On note par la variable codée associée à la nature du statut en cause. On pose, pour : En notant l âge de l individu une variable aléatoire telle que : il y a lieu d exprimer ce problème à l aide du modèle Le choix renu traditionnellement du codage pour les modèles dichotomiques, perm de définir en réalité la probabilité de tirer dans l échantillon considéré l individu qui dispose d un emploi rémunérateur ou non. Ainsi, en notant : alors, l espérance de s écrit : 62
En vertu des axiomes de Kolmogorov 1, pour tout sous - ensemble de l univers représentant toutes les éventualités possibles, on a que : la probabilité est à support positif: (axiome de positivité) ; la probabilité de l univers est de masse unitaire : ; la probabilité est additive : Dès lors, la modélisation des variables dichotomiques ne peut se faire par une spécification linéaire standard, au regard de la restriction du domaine de définition des probabilités. Problématique de la spécification linéaire des modèles dichotomiques Comme vu précédemment, les modèles à variables dépendantes qualitatives se distinguent du modèle linéaire classique. Ainsi, l estimation de ce type des modèles exige la mise en œuvre des techniques appropriées devant prendre en compte quelques spécificités caractéristiques desdits modèles. Si l on se proposait d appliquer une forme fonctionnelle linéaire, on fera face à plusieurs difficultés techniques. En eff, dans ces modèles, la variable endogène, dichotomique ne prend que les valeurs 0 ou 1. Par conséquent, la spécification linéaire implique que la perturbation ne devra également prendre que deux valeurs, conditionnellement au vecteur : Pour l équation s écrit : pour l équation : Ainsi, la perturbation du modèle doit nécessairement admtre une loi discrète, ce qui exclurait en particulier l hypothèse de normalité des résidus! Par ailleurs, lorsque l on suppose que les résidus associée à l événement est alors déterminée de façon unique : sont de moyenne nulle, la probabilité Une simple manipulation algébrique donne le complément à l unité de l expression : où la composante est telle que : 1 Andreï Nikolaïevitch Kolmogorov (1903 1987), mathématicien russe, qui fut le premier à établir une connexion entre la théorie de la mesure de Borel, la théorie de l intégration de Lebesgue les probabilités, proposa ainsi un ensemble d axiomes qui permit la formalisation de l étude des probabilités en une théorie mathématique. 63
Cependant, rien ne garantie que la partie satisfait toujours telles conditions, avec est un estimateur des moindres carrés appliqués dans alors que l équation définie en n aurait aucun sens si ces contraintes ne sont pas garanties. Et en plus, même si l on parvenait à assurer le fait que toutes ces contraintes soient satisfaites par l estimateur des moindres carrés des paramètres du modèle linéaire, il n en demeurerait pas moins une difficulté liée à la présence d hétéroscédasticité. En eff, il convient de remarquer la matrice de variance covariance des résidus varie entre les individus en fonction de leur statut associé aux exogènes : Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus de calculer la variance de la variable aléatoire comme suit : Connaissant l équation devient : Ce résultat justifie ainsi la présence d hétéroscédasticité dans la variance du terme de l erreur. Sachant qu une telle difficulté ne peut être résolu par l usage d une technique d estimation par les moindres carrés ordinaires, ni par les moindres carrés généralisés même si on tenait compte de la contrainte d inégalité, puisqu en réalité, la matrice de variance covariance des perturbations dépend du vecteur des paramètres à estimer dans la spécification linéaire. Ce dernier est par nature supposé inconnu. Somme toute, les difficultés que présente l application d une forme fonctionnelle linéaire aux modèles à variable endogène dichotomique l usage de la méthode des moindres carrés, ont incité les économètres à développer des techniques appropriés pour traiter adéquatement les différents problèmes évoqués précédemment. D où, notamment les modèles logit probit 1. Modèles Logit Probit Le modèle logit ou à régression logistique le modèle probit permtent de modéliser les interactions existant entre une variable dépendante dichotomique un vecteur de variables aléatoire à la seule différence, le logit utilise une fonction logistique, le probit, une fonction probit. 1 On distingue également d autres types de modèles tels que les modèles linéaires, extension des modèles logit. 64
En eff, la fonction Logit a été proposée initialement par Verhulst (1838, 1845, 1847), puis développé plus tard par le statisticien américain Joseph Berkson dans les années 1940. Elle a été formalisée par analogie en opposition au terme Probit, notion développée par le biologiste américain Chester Ittner Bliss le pharmacologue britannique John Gaddum dans les années 1930. Le modèle logit est tel que : où est le vecteur paramétrique. En parallèle, la fonction probit correspond à la réciproque de la fonction de la répartition de la loi normale centrée réduite : Et le modèle probit consiste à utiliser la fonction de répartition d une variable normale centrée réduite : où désigne la fonction de densité d une loi normale centrée réduite sa fonction de répartition. Pour estimer ces modèles, on applique généralement la méthode d estimation du maximum de vraisemblance. Voir Togba Tsasa (2013) pour de plus amples détails. Somme toute, ce papier s est proposé de mtre en évidence les difficultés qu implique une formalisation linéaire des modèles à variable dépendante dichotomique leur estimation par la méthode des moindres carrés. A ce titre, il place donc une première pierre dans l édifice à ériger dans les publications ultérieures dans le cadre du traitement de l étude des modèles à variables qualitatives. 65
Bibliographie BERKSON Joseph, 1944, Application of the Logistic Function to Bio Assay, Journal of the American Statistical Association, 39 (227): 357 65. BERKSON Joseph, 1950, Are There Two Regressions?, Journal of the American Statistical Association, 45 (250): 164 180. BERKSON Joseph, 1980, Minimum Chi Square, Not Maximum Likelihood!, Annals of Mathematical Statistics, 8, 457 487. BLISS Chester I., 1934a, The mhod of probits, Science, 79, 38 39. BLISS Chester I., 1934b, The mhod of probits, Science, 79, 409 410. BLISS Chester I., 1935, The calculation of the dosage-mortality curve, Annals of Applied Biology, 22, 134 167. With an appendix by Ronald A. FISHER. CRAMER Jan S., 2003, The origins and development of the logit model, Version mise à jour du chapitre 9 du Livre Logit Models from Economics and Other Fields, Cambridge University Press, 2003, University of Amsterdam and Tinbergen Institute, Amsterdam août), 19p. GADDUM John H., 1933, Reports on Biological Standard III. Mhods of Biological Assay Depending on a Quantal Response, London: Medical Research Council. Special Report Series of the Medical Research Council, no. 183. GREENE William, 2001, Econométrie, 7è éd. Pearson Education, édition francophone dirigée par Didier Schlacther, Traduction par Theophile Azomahou, Phu Nguyen Van & Wladimir Raymond, Paris, 988p. KINTAMBU Emmanuel Gustave, 2007, Introduction à l économétrie, Université de Kinshasa, [Cf. pp. 59 67], p. TOGBA Yves Jean Paul TSASA, 2013, «Estimation du Maximum de Vraisemblance», One Pager Laréq (septembre), 7 (9): 65 70. TSASA Jean Paul, 2012, «Repère historique de l économétrie», One Pager Laréq (Janvier), 1 (2): 5 14. VERHULST Pierre François, 1838, «Notice sur la Loi que la Population Poursuit dans son Accroissement», Correspondance mathématique physique, 10, 113 121. VERHULST Pierre François, 1845, «Recherches Mathématiques sur la Loi d'accroissement de la Population», Nouveaux Mémoires de l'académie Royale des Sciences Belles-Ltres de Bruxelles, 18, 1 42. VERHULST Pierre François, 1847, «Deuxième Mémoire sur la loi d'accroissement de la Population», Mémoires de l'académie Royale des Sciences, des Ltres des Beaux-Arts de Belgique, 20, 1 32 WOOLDRIDGE Jeffrey M., 2008, Introductory Economrics: A Modern Approach, International edition of 4th revised edition, South Western, 808p. YULE George U., 1925, The growth of population and the factors which control it, Journal of the Royal Statistical Sociy, 138, 1 59. 66