Modèles dichotomiques et Spécification linéaire



Documents pareils
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Corps des nombres complexes, J Paul Tsasa

Chapitre 3. Les distributions à deux variables

Principe de symétrisation pour la construction d un test adaptatif

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

TABLE DES MATIERES. C Exercices complémentaires 42

Évaluation de la régression bornée

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Économétrie, causalité et analyse des politiques

Filtrage stochastique non linéaire par la théorie de représentation des martingales

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Données longitudinales et modèles de survie

Aspects de droit anglais

Exemple PLS avec SAS

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

NON-LINEARITE ET RESEAUX NEURONAUX

Lire ; Compter ; Tester... avec R

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

APPEL A COMMUNICATIONS

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

DEA ès Sciences de Gestion. DES en Sciences Economiques. Ingénieur diplômé de l'ecole Polytechnique de Paris.

Christian BONTEMPS né le 08 juillet 1969

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Le modèle de régression linéaire

Déploiement OOo en environnement Windows Terminal Server

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exercice : la frontière des portefeuilles optimaux sans actif certain

Edna Ekhivalak Elias Commissioner of Nunavut Commissaire du Nunavut

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

1 Complément sur la projection du nuage des individus

REALISATION D UNE CALCULATRICE GRACE AU LOGICIEL CROCODILE CLIPS 3.

Théorèmes de Point Fixe et Applications 1

Improving the breakdown of the Central Credit Register data by category of enterprises

Insérer des images dans Base

RAPID Prenez le contrôle sur vos données

Frank LASCK. Courriel : f.lasch@montpellier-bs.com Fonction : Professeur. Biographie

Chapitre 2 Le problème de l unicité des solutions

Bureau de décision et de révision en valeurs mobilières

TRANSPORT ET LOGISTIQUE :

Soumission des articles pour l ICOFOM Study Series

L OBSERVATOIRE DE LA BIOLOGIE DE SYNTHESE SYNTHETIC BIOLOGY OBSERVATORY

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Forthcoming Database

DIPLOME D'ETUDES APPROFONDIES EN ECONOMIE ET FINANCE THEORIE DES MARCHES FINANCIERS. Semestre d hiver

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Application Form/ Formulaire de demande

I4 : Bases de Données

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Jean Sykes Nereus, la collaboration européenne, et le libre accès

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Introduction à l approche bootstrap

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

Industrial Phd Progam

Machines virtuelles Cours 1 : Introduction

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Thèmes de recherche. Projets en cours

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

INF6304 Interfaces Intelligentes

STATISTIQUES. UE Modélisation pour la biologie

Bases de données. Chapitre 1. Introduction

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

LA VEILLE MULTILINGUE ET LE PROCESSUS DE TRADUCTION. Marilena MILCU, Assistant Professor, PhD, Lucian Blaga University of Sibiu

Utiliser un proxy sous linux

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Prototype de canal caché dans le DNS

La visualisation d information

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Data issues in species monitoring: where are the traps?

Lois de probabilité. Anita Burgun

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position

Théorie et codage de l information

Photoactivatable Probes for Protein Labeling

Les débats sur l évolution des

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

FORMULAIRE DE STATISTIQUES

LES INÉGALITÉS s accroissent dans

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La mesure de Lebesgue sur la droite réelle

Laboratoire 4 Développement d un système intelligent

Modèles pour données répétées

BASE DE DONNÉES DES ASPECTS SOCIOÉCONOMIQUES EN MÉDITERRANÉE OCCIDENTALE

Laboratory accredited by the French Home Office (official gazette date February 5 th, 1959, modified) Valid five years from August 27 th, 2013

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

EXIN Agile Scrum Master

Les modèles de choix binaire

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Transcription:

Modèles dichotomiques Spécification linéaire One Pager Novembre 2013 Vol. 8 Num. 006 Copyright Laréq 2013 http://www.lareq.com Modèles dichotomiques Spécification linéaire 1 «Le véritable travail, c est de savoir attendre... Je n ai besoin de rien, mais rien ne me suffirait.» Jean Edmond Cyrus Rostand (1894 1977) Résumé Ce papier propose une brève introduction aux modèles à variable dépendante dichotomique (Logit Probit). Mots clé : Logit, Probit. Abstract This paper discusses on the dichotomous dependent variable models (Logit and Probit). Introduction L une des extensions majeures de l économétrie dans les années 60 70 fut incontestablement liée à l utilisation croissante des données microéconomiques relatives à des caractéristiques économiques d agents individuels tels que les firmes, les consommateurs ou les centres de profits. Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères qualitatifs comme par exemple, le sexe, la nationalité, la catégorie socio-professionnelle, le type d études réalisées, le fait de travailler ou au contraire d être au chômage, d acher ou de ne pas acher un certain produit, c. Cependant, la modélisation l étude des caractères quantitatifs par les méthodes d inférences traditionnelles ne sont pas possibles. Ainsi, pour remédier à cte difficulté, plusieurs modèles ont été mis en œuvre. Ceux ci sont des extensions directes du modèle linéaire. Il s agit notamment des modèles Logit, Probit, Tobit ou modèles linéaires généralisés. Et ce papier, qui est une introduction à cte nouvelle approche, se propose de présenter les modèles dichotomiques simples, notamment les modèles Logit développés particulièrement par Verhulst (1938, 1945, 1947), puis Berkson (1944, 1951) ; les modèles Tobit introduits par Bliss (1934) Gaddum (1933). Ainsi, dans une section première, il est question d analyser les modèles binaires univariés, dans les sections deuxième troisième, d examiner la problématique de la spécification linéaire des 1 Je remercie Jean Paul K. Tsasa pour ses commentaires. 61

modèles à variables endogènes dichotomiques modèles logit probit. de procéder à une brève présentation des Les modèles binaires univariés Les modèles binaires univariés ont été développés dans l optique de fournir un cadre d analyse formel qui permtrait de modéliser le lien pouvant exister entre une variable dépendante, notées ne prenant que deux modalités (variable dichotomique) une variable indépendante quelconque. Ainsi, le modèle s écrit : A titre illustratif, considérons un échantillon de individus, tel qu on observe pour chacun d eux le statut socio économique : employé salarié ou chômeur. On note par la variable codée associée à la nature du statut en cause. On pose, pour : En notant l âge de l individu une variable aléatoire telle que : il y a lieu d exprimer ce problème à l aide du modèle Le choix renu traditionnellement du codage pour les modèles dichotomiques, perm de définir en réalité la probabilité de tirer dans l échantillon considéré l individu qui dispose d un emploi rémunérateur ou non. Ainsi, en notant : alors, l espérance de s écrit : 62

En vertu des axiomes de Kolmogorov 1, pour tout sous - ensemble de l univers représentant toutes les éventualités possibles, on a que : la probabilité est à support positif: (axiome de positivité) ; la probabilité de l univers est de masse unitaire : ; la probabilité est additive : Dès lors, la modélisation des variables dichotomiques ne peut se faire par une spécification linéaire standard, au regard de la restriction du domaine de définition des probabilités. Problématique de la spécification linéaire des modèles dichotomiques Comme vu précédemment, les modèles à variables dépendantes qualitatives se distinguent du modèle linéaire classique. Ainsi, l estimation de ce type des modèles exige la mise en œuvre des techniques appropriées devant prendre en compte quelques spécificités caractéristiques desdits modèles. Si l on se proposait d appliquer une forme fonctionnelle linéaire, on fera face à plusieurs difficultés techniques. En eff, dans ces modèles, la variable endogène, dichotomique ne prend que les valeurs 0 ou 1. Par conséquent, la spécification linéaire implique que la perturbation ne devra également prendre que deux valeurs, conditionnellement au vecteur : Pour l équation s écrit : pour l équation : Ainsi, la perturbation du modèle doit nécessairement admtre une loi discrète, ce qui exclurait en particulier l hypothèse de normalité des résidus! Par ailleurs, lorsque l on suppose que les résidus associée à l événement est alors déterminée de façon unique : sont de moyenne nulle, la probabilité Une simple manipulation algébrique donne le complément à l unité de l expression : où la composante est telle que : 1 Andreï Nikolaïevitch Kolmogorov (1903 1987), mathématicien russe, qui fut le premier à établir une connexion entre la théorie de la mesure de Borel, la théorie de l intégration de Lebesgue les probabilités, proposa ainsi un ensemble d axiomes qui permit la formalisation de l étude des probabilités en une théorie mathématique. 63

Cependant, rien ne garantie que la partie satisfait toujours telles conditions, avec est un estimateur des moindres carrés appliqués dans alors que l équation définie en n aurait aucun sens si ces contraintes ne sont pas garanties. Et en plus, même si l on parvenait à assurer le fait que toutes ces contraintes soient satisfaites par l estimateur des moindres carrés des paramètres du modèle linéaire, il n en demeurerait pas moins une difficulté liée à la présence d hétéroscédasticité. En eff, il convient de remarquer la matrice de variance covariance des résidus varie entre les individus en fonction de leur statut associé aux exogènes : Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus de calculer la variance de la variable aléatoire comme suit : Connaissant l équation devient : Ce résultat justifie ainsi la présence d hétéroscédasticité dans la variance du terme de l erreur. Sachant qu une telle difficulté ne peut être résolu par l usage d une technique d estimation par les moindres carrés ordinaires, ni par les moindres carrés généralisés même si on tenait compte de la contrainte d inégalité, puisqu en réalité, la matrice de variance covariance des perturbations dépend du vecteur des paramètres à estimer dans la spécification linéaire. Ce dernier est par nature supposé inconnu. Somme toute, les difficultés que présente l application d une forme fonctionnelle linéaire aux modèles à variable endogène dichotomique l usage de la méthode des moindres carrés, ont incité les économètres à développer des techniques appropriés pour traiter adéquatement les différents problèmes évoqués précédemment. D où, notamment les modèles logit probit 1. Modèles Logit Probit Le modèle logit ou à régression logistique le modèle probit permtent de modéliser les interactions existant entre une variable dépendante dichotomique un vecteur de variables aléatoire à la seule différence, le logit utilise une fonction logistique, le probit, une fonction probit. 1 On distingue également d autres types de modèles tels que les modèles linéaires, extension des modèles logit. 64

En eff, la fonction Logit a été proposée initialement par Verhulst (1838, 1845, 1847), puis développé plus tard par le statisticien américain Joseph Berkson dans les années 1940. Elle a été formalisée par analogie en opposition au terme Probit, notion développée par le biologiste américain Chester Ittner Bliss le pharmacologue britannique John Gaddum dans les années 1930. Le modèle logit est tel que : où est le vecteur paramétrique. En parallèle, la fonction probit correspond à la réciproque de la fonction de la répartition de la loi normale centrée réduite : Et le modèle probit consiste à utiliser la fonction de répartition d une variable normale centrée réduite : où désigne la fonction de densité d une loi normale centrée réduite sa fonction de répartition. Pour estimer ces modèles, on applique généralement la méthode d estimation du maximum de vraisemblance. Voir Togba Tsasa (2013) pour de plus amples détails. Somme toute, ce papier s est proposé de mtre en évidence les difficultés qu implique une formalisation linéaire des modèles à variable dépendante dichotomique leur estimation par la méthode des moindres carrés. A ce titre, il place donc une première pierre dans l édifice à ériger dans les publications ultérieures dans le cadre du traitement de l étude des modèles à variables qualitatives. 65

Bibliographie BERKSON Joseph, 1944, Application of the Logistic Function to Bio Assay, Journal of the American Statistical Association, 39 (227): 357 65. BERKSON Joseph, 1950, Are There Two Regressions?, Journal of the American Statistical Association, 45 (250): 164 180. BERKSON Joseph, 1980, Minimum Chi Square, Not Maximum Likelihood!, Annals of Mathematical Statistics, 8, 457 487. BLISS Chester I., 1934a, The mhod of probits, Science, 79, 38 39. BLISS Chester I., 1934b, The mhod of probits, Science, 79, 409 410. BLISS Chester I., 1935, The calculation of the dosage-mortality curve, Annals of Applied Biology, 22, 134 167. With an appendix by Ronald A. FISHER. CRAMER Jan S., 2003, The origins and development of the logit model, Version mise à jour du chapitre 9 du Livre Logit Models from Economics and Other Fields, Cambridge University Press, 2003, University of Amsterdam and Tinbergen Institute, Amsterdam août), 19p. GADDUM John H., 1933, Reports on Biological Standard III. Mhods of Biological Assay Depending on a Quantal Response, London: Medical Research Council. Special Report Series of the Medical Research Council, no. 183. GREENE William, 2001, Econométrie, 7è éd. Pearson Education, édition francophone dirigée par Didier Schlacther, Traduction par Theophile Azomahou, Phu Nguyen Van & Wladimir Raymond, Paris, 988p. KINTAMBU Emmanuel Gustave, 2007, Introduction à l économétrie, Université de Kinshasa, [Cf. pp. 59 67], p. TOGBA Yves Jean Paul TSASA, 2013, «Estimation du Maximum de Vraisemblance», One Pager Laréq (septembre), 7 (9): 65 70. TSASA Jean Paul, 2012, «Repère historique de l économétrie», One Pager Laréq (Janvier), 1 (2): 5 14. VERHULST Pierre François, 1838, «Notice sur la Loi que la Population Poursuit dans son Accroissement», Correspondance mathématique physique, 10, 113 121. VERHULST Pierre François, 1845, «Recherches Mathématiques sur la Loi d'accroissement de la Population», Nouveaux Mémoires de l'académie Royale des Sciences Belles-Ltres de Bruxelles, 18, 1 42. VERHULST Pierre François, 1847, «Deuxième Mémoire sur la loi d'accroissement de la Population», Mémoires de l'académie Royale des Sciences, des Ltres des Beaux-Arts de Belgique, 20, 1 32 WOOLDRIDGE Jeffrey M., 2008, Introductory Economrics: A Modern Approach, International edition of 4th revised edition, South Western, 808p. YULE George U., 1925, The growth of population and the factors which control it, Journal of the Royal Statistical Sociy, 138, 1 59. 66