Econométrie. février 2008. Boutin, Rathelot

Documents pareils

Les modèles de choix binaire

«Cours Statistique et logiciel R»

NON-LINEARITE ET RESEAUX NEURONAUX

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Méthodes de Simulation

Régression linéaire. Nicolas Turenne INRA

IBM SPSS Regression 21

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Introduction à l approche bootstrap

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Econométrie et applications

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Arbres binaires de décision

STATISTIQUES. UE Modélisation pour la biologie

1 Définition de la non stationnarité

Résolution d équations non linéaires

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Cours de méthodes de scoring

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Simulation de variables aléatoires

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA) Econométrie pour la Finance

Guide d économétrie appliquée

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Théorie de l estimation et de la décision statistique

Équations non linéaires

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Master 2: Econométrie 2

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

MCMC et approximations en champ moyen pour les modèles de Markov

Université de Caen Basse-Normandie. Christophe Chesneau.

Modèles pour données répétées

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

3 Approximation de solutions d équations

Contributions en Automatique Non-Linéaire

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Modèles Estimés sur Données de Panel

VI. Tests non paramétriques sur un échantillon

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Pratique de la Régression Logistique

Nouveau Programme de Troisième Cycle Interuniversitaire (NPTCI)

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

TABLE DES MATIERES. C Exercices complémentaires 42

Coup de Projecteur sur les Réseaux de Neurones

Le modèle de régression linéaire

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Comment bien régresser: La statistique peut-elle se passer d artefacts?

INITIATION AU LOGICIEL SAS

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Travaux dirigés d introduction aux Probabilités

Programmes des classes préparatoires aux Grandes Ecoles

PROGRAMME (Susceptible de modifications)

Les méthodes économétriques d évaluation

Données longitudinales et modèles de survie

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

Soutenance de stage Laboratoire des Signaux et Systèmes

Table des matières. I Mise à niveau 11. Préface

De la mesure à l analyse des risques

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Théorie et codage de l information

Contributions à l apprentissage statistique en grande dimension, adaptatif et sur données atypiques

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

PROBABILITES ET STATISTIQUE I&II

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Modélisation et simulation

La théorie des anticipations de la structure par terme permet-elle de rendre compte de l évolution des taux d intérêt sur euro-devise?

Espérance conditionnelle

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Chapitre 4 : Régression linéaire

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Couples de variables aléatoires discrètes

Introduction au datamining

Assurance maladie en Suisse : les assurances supplémentaires nuisent-elles à la concurrence sur l assurance de base?

Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Exemples d application

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Méthodes d apprentissage statistique «Machine Learning»

ANALYSE DU RISQUE DE CRÉDIT

Modèles et Méthodes de Réservation

EXERCICES ET QUESTIONS DE COURS

Programmes des classes préparatoires aux Grandes Ecoles

Evaluation des modèles non-linéaires à effets mixtes

LES MODELES DE SCORE

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires

Transcription:

5ème séance Xavier Boutin Roland Rathelot Supélec février 2008

Plan Variables binaires

La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une variable continue? Dans ce cas, on remarque que E(y X ) = P(y = 1 X ) Donc, P(y = 1 X ) = β 0 + β 1 x 1 +...β k x k

Le modèle linéaire de probabilité P(y = 1 X ) = β 0 + β 1 x 1 +...β k x k Conséquences : L effet marginal de x j est constant : β j Rien ne garantit que ŷ i soit entre 0 et 1

Hétéroscédasticité u i = y i X i β avec y i {0, 1} et X i β continu. La variance de u va donc dépendre de X d une manière un peu complexe : hétéroscédasticité Lorsque l on fait l estimation d un MLP, il faut directement utiliser la matrice robuste de White.

MLP Résumé E(y x) pas sur le bon support : mauvaises propriétés sur les bords Hétéroscédasticité systématique Malgré tout, le MLP est intéressant et donne des résultats plutôt bons dans la plupart des cas : on peut souvent commencer par là quand on estime un modèle à variable d intérêt binaire.

Passer à un modèle non-linéaire P(y = 1 X ) = G(β 0 + β 1 x 1 +...β k x k ) où G(.) est une fonction définie sur R et à valeurs sur l ouvert (0, 1). Conséquences : L effet marginal de x j ne sera plus constant mais dépendra de X Par définition, la probabilité prédite sera bien une probabilité On ne peut plus estimer ce genre de modèle par MCO

Probit et logit Les deux fonctions G les plus utilisées sont : G(z) = Φ(z) la cumulative de la loi normale : modèle probit G(z) = exp(z)/[1 + exp(z)] : modèle logit

Variable latente Logit et probit sont deux modèles à variable latente : on peut définir Y, variable latente, inobservable : Y = X β + u Y = 1[Y > 0] avec u distribué dans la loi adéquate.

Effets partiels Quel est l impact d une augmentation de x j sur P(y = 1 X ) = E(y X )? E(y X ) x j = g(x β)β j avec g = G L effet partiel dépend donc de g(x β), donc : de la distribution postulée pour les erreurs de l endroit où on se trouve

Estimation par maximum de vraisemblance (1) On postule la loi jointe des variables On écrit la densité de y sachant X i, conditionnellement aux paramètres à estimer β : f (y X i, β) = [G(X i β)] y [1 G(X i β)] 1 y, y = 0, 1

Estimation par maximum de vraisemblance (2) La log-vraisemblance est une fonction des paramètres, sachant les données : l i (β) = y i log[g(x i β)] + (1 y i ) log[1 G(X i β)] On maximise i l i(β) sur les β

Estimation par maximum de vraisemblance (3) On définit la hessienne pour l observation i comme la matrice K K : H i (β) = 2 β l i(β), dérivées partielles secondes de la vraisemblance. L estimation ˆβ du MV est asymptotiquement convergent : où A o = E[H i (β o )]. N( ˆβ βo ) d N (0, A 1 o )

Estimation par maximum de vraisemblance (4) En pratique : Soit la vraisemblance est facile à dériver et l on calcule analytiquement le score (dérivée première) et la hessienne (dérivée seconde) : on peut ainsi les évaluer pour tout β du support Soit la dérivation s avère compliquée et l on se contente de dérivation numérique pour calculer le score et la hessienne au point où l on en a besoin Pour obtenir ˆβ, on utilise un algorithme de maximisation numérique, qui exige de calculer,on utilise un algorithme de maximisation numérique (de type Newton) pour chaque itération, la vraisemblance, le score et la hessienne.

Diagnostics dans des modèles binaires En définissant des valeurs prédites ŷ i = 1{G(X i ˆβ) > 0.5}, on peut calculer des pourcentages de valeurs correctement prédites P(ŷ i = y i y i = 1) et P(ŷ i = y i y i = 0) Ici, on n observe pas de résidus, mais des pseudo-résidus û i = y i G(X i ˆβ) : on peut définir un pseudo-r 2 avec les pseudo-résidus

Estimation et inférence sur les effets partiels La magnitude des coefficients n est pas interprétable telle quelle. Quantités intéressantes : effet partiel de X j : δ j (β) = P(y = 1 X )/ x j = g(x β)β j Variance de δ j : [ β δ j ( ˆβ)] ˆV [ β δ j ( ˆβ)] si ˆV est la matrice de var-cov de β

Logit et probit sous R On utilise la fonction glm(y x, family = binomial(xxxit)), où xxxit est probit ou logit La fonction glm() donne directement les écarts-types et un test de significativité interprétable comme un t-test Les tests de restrictions multiples sont hors programme

Plan Variables binaires