Le modèle linéaire généralisé (logit, probit,...)

Documents pareils
Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Un exemple de régression logistique sous

Données longitudinales et modèles de survie

«Cours Statistique et logiciel R»

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

TRANSPORT ET LOGISTIQUE :

Modèle GARCH Application à la prévision de la volatilité

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

L exclusion mutuelle distribuée

Analyse de la variance Comparaison de plusieurs moyennes

I La théorie de l arbitrage fiscal de la dette (8 points)

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

M2 IAD UE MODE Notes de cours (3)


Coup de Projecteur sur les Réseaux de Neurones

Principe d un test statistique

TABLE DES MATIERES. C Exercices complémentaires 42

Correction du baccalauréat STMG Polynésie 17 juin 2014

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Estimation et tests statistiques, TD 5. Solutions

Econométrie et applications

Imputation du salaire d ego dans TeO

Exercices Corrigés Premières notions sur les espaces vectoriels

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

données en connaissance et en actions?

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Accélérer l agilité de votre site de e-commerce. Cas client

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Exemple PLS avec SAS

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

NON-LINEARITE ET RESEAUX NEURONAUX

Lire ; Compter ; Tester... avec R

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Programmation linéaire

Cours de méthodes de scoring

Exemples d application

BIG Data et R: opportunités et perspectives

Filtrage stochastique non linéaire par la théorie de représentation des martingales

UNIVERSITE CENTRALE DE TUNIS

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Projet L1, S2, 2015: Simulation de fourmis, Soutenance la semaine du 4 mai.

Lois de probabilité. Anita Burgun

Arbres binaires de décision

Programmes des classes préparatoires aux Grandes Ecoles

DOCUMENTS EXIGÉS POUR LES CREDITS DIRECTS AUX PARTICULIERS

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Simulation de variables aléatoires

UNIVERSITE DE LORRAINE Référence GALAXIE : 465

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Modèles pour données répétées

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Régression logistique. Benoit Crabbé

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

CCP PSI Mathématiques 1 : un corrigé

1 Modélisation d être mauvais payeur

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

1 Définition de la non stationnarité

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

CYCLE DE VIE DES TRANSACTIONS

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

STATISTIQUES. UE Modélisation pour la biologie

Systèmes de communications numériques 2

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

Quantification des Risques

Industrial Phd Progam

Résolution d équations non linéaires

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

Probabilités sur un univers fini

Baccalauréat universitaire (bachelor) en mathématiques et sciences informatiques

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178


Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

LA REFORME LMD EN COTE D IVOIRE :

DOSSIER DE CANDIDATURE APPLICATION FORM

Modélisation du comportement habituel de la personne en smarthome

Transcription:

Le modèle linéaire généralisé (logit, probit,...) Master 2 Recherche SES-IES Analyse de données Ana Karina Fermin Université Paris-Ouest-Nanterre-La Défense http://fermin.perso.math.cnrs.fr/

1 Modèle de régression logistique 2 Cotes et rapports de cotes 3 Données groupées 4 Références Fermin Régression logistique Chap. Rég. Log. 2 / 23

Objectif. On souhaite expliquer une variable réponse Y par une variable explicative X (ou plusieurs variables explicatives X 1, X 2,..., X p ) lorsque Y est 0 (échec) ou 1 (succès). Exemples: Médecine : Y vaut 1 si le patient atteint la maladie, 0 sinon. La variable X est l âge. Banque : Y vaut 1 si le client fait défaut sur sa dette. La variable X est par exemple l âge, la profession, le montant moyen mensuel d utilisation de la carte de crédit, le revenu du client,..., etc. Sociologie : Y vaut 1 si le fils est cadre, 0 sinon. La variable X est par exemple le niveau d éducation du père., Fermin Régression logistique Chap. Rég. Log. 3 / 23

Modélisation (cas multiple avec p variables) La loi de Y est déterminée par π(x ) = P(Y = 1 X 1, X 2,..., X p ) Nous supposons π(x ) = F (β 0 + β 1 X 1 + β 2 X 2 +... + β p X p ), où F est une fonction de répartition inversible donnée avec β 0, β 1,..., β p inconnus. En pratique les coefficients β 0, β 1,..., β p doivent être déterminés à partir des données. Modèle théorique Y = F (β 0 + β 1 X 1 + β 2 X 2 +... + β p X p ) + ε, où le bruit ε est une variable aléatoire centrée. Fermin Régression logistique Chap. Rég. Log. 4 / 23

Estimation En pratique, les coefficients β 0, β 1,..., β p doivent être déterminés à l aide des données. On utilise la méthode du Maximum de Vraisemblance (MV). En général la méthode de MV fournit des estimateurs avec des bonnes propriétés statistiques. Fermin Régression logistique Chap. Rég. Log. 5 / 23

Commençons par définir la fonction log-vraisemblance associée au modèle logit et probit log-vraisemblance n LV(β) = Y i log(f (X i )) + (1 Y i ) log(1 F (X i )) i=1 avec β = (β 0, β 1,..., β p ). Les logiciels de statistiques calculent la fonction LV(β) et cherchent les coefficients β 0, β 1,..., β p que maximisent cette fonction à l aide d un algorithme itérative. Dans ce cours on va juste utiliser et interpréter les résultats donnés par le logiciel R (vous n avez pas besoin de connaitre les résultats théoriques de la log-vraissemblance associée au modèle )!!! Fermin Régression logistique Chap. Rég. Log. 6 / 23

Notre objectif est modéliser π(x ) = P(Y = 1 X 1, X 2,..., X p ) Modèle théorique Y = π(x ) + ε, où π(x) = F (β 0 + β 1 X 1 + β 2 X 2 +... + β p X p ) et ε est centrée. Exemples de fonctions F : logit : F est la fonction de répartition de la loi logistique. probit : F est la fonction de répartition de la loi Gaussienne standard. Fermin Régression logistique Chap. Rég. Log. 7 / 23

Régression logistique Fonction de répartition de la loi logistique On parle de régression logit ou logistique lorsque pour tout t R, F (t) = exp(t) 1 + exp(t). π(x) = exp(β 0 + β 1 x 1 + β 2 x 2 +... + β p x p ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 +... + β p x p ) ( ) π(x) log = β 0 + β 1 x 1 + β 2 x 2 +... + β p x p 1 π(x) Fermin Régression logistique Chap. Rég. Log. 8 / 23

1 Modèle de régression logistique 2 Cotes et rapports de cotes 3 Données groupées 4 Références Fermin Régression logistique Chap. Rég. Log. 9 / 23

Cotes (odds) et rapports de cotes (odds ratios) Dans le cas où la variable réponse Y est à valeurs dans {0, 1} et x = (x 1, x 2,..., x p ), on définit : La cote : C(x) = π(x) 1 π(x). Le rapport de cotes : OR = C(x ) C(x). Fermin Régression logistique Chap. Rég. Log. 10 / 23

Cas de la régression logistique simple avec X qualitative Cas Simple : Supposons qu on dispose d une unique variable explicative X de type qualitative à deux modalités {0,1}. Nous avons fait un exemple à la main à l aide d un tableau de contingence pour les données de la mobilité sociale (voir vos notes de CM). Si l on suppose que π(x) = exp(β 0 + β 1 x 1 ) 1 + exp(β 0 + β 1 x 1 ) on a alors ( ) π(x) log = β 0 + β 1 x 1 1 π(x) avec β 0 et β 1 inconnus. β 0 = log(c(0)) et β1 = log(c(1)/c(0)) = log(or) Fermin Régression logistique Chap. Rég. Log. 11 / 23

Exemple 2 (cf. Ricco Rakotomalala) On étudie la variable binaire CHD qui prend la valeur 1 si présence d un problème cardiaque et 0 si absence. On souhait étudier la relation entre CHD et la variable explicative âge (AGE) Le fichier maladie_cardiovasculaire.txt comporte 100 lignes, dont les cinq premières sont : > head(maladie,5) ID AGRP AGE CHD 1 1 1 20 0 2 2 1 23 0 3 3 1 24 0 4 4 1 25 0 5 5 1 25 1 Fermin Régression logistique Chap. Rég. Log. 12 / 23

Yes CHD No 20 30 40 50 60 70 AGE Fermin Régression logistique Chap. Rég. Log. 13 / 23

1 Modèle de régression logistique 2 Cotes et rapports de cotes 3 Données groupées 4 Références Fermin Régression logistique Chap. Rég. Log. 14 / 23

Données groupées Supposons que l on ait K groupes, i.e. seulement K valeurs possibles pour la de variable explicative X, et que pour chaque groupe k, k = 1,..., K, on dispose de n k observations. Ainsi, P(Y kj = 1 X k = x k ) = π(x k ), j {1,..., n k }. On dit dans ce cas que les données sont groupées. Sinon, on dit que les données sont individuelles Remarque : On peut ramener des données individuelles au cas de données groupées en segmentant selon les variables explicatives. Fermin Régression logistique Chap. Rég. Log. 15 / 23

Retour à l exemple 2 Le tableau suivant donne c k le centre de chaque classe d age, n k le nombre de patients selon la classe d age, la proportion de malades selon la classe d age π k = n k [CHD = 1]/n k,... Age k c k n k n k [CHD=0] n k [CHD=1] π k [20,29] 24.5 10 9 1 0.10 [30,34] 32 15 13 2 0.13 [35,39] 37 12 9 3 0.25 [40,44] 42 15 10 5 0.33 [45,49] 47 13 7 6 0.46 [50,54] 52 8 3 5 0.63 [55,59] 57 17 4 13 0.76 [60,69] 64.5 10 2 8 0.80 Fermin Régression logistique Chap. Rég. Log. 16 / 23

1.00 0.75 p 0.50 Legend CHD p (avec 8 part.) 0.25 0.00 20 30 40 50 60 70 AGE Fermin Régression logistique Chap. Rég. Log. 17 / 23

Retour à l exemple 2 : Extrait de sorties R > CHD.logit = glm(chd~age, family=binomial(link="logit")) > summary(chd.logit) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.30945 1.13365-4.683 2.82e-06 *** AGE 0.11092 0.02406 4.610 4.02e-06 *** --- Null deviance: 136.66 on 99 degrees of freedom Residual deviance: 107.35 on 98 degrees of freedom AIC: 111.35 Number of Fisher Scoring iterations: 4 Fermin Régression logistique Chap. Rég. Log. 18 / 23

0.75 0.50 Legend logist prop 0.25 0.00 20 30 40 50 60 70 AGE Fermin Régression logistique Chap. Rég. Log. 19 / 23

Exemple 3 (cf. RIII) Nous traitons un problème de défaut bancaire. Nous cherchons à déterminer quels clients seront en défaut sur leur dette de carte de crédit (ici defaut = 1 si le client fait défaut sur sa dette). La variable defaut est la variable réponse. Nous disposons d un échantillon de taille 10000 et 3 variables explicatives student: variable qualitative à 2 niveaux (student et non-student) balance: montant moyen mensuel d utilisation de la carte de crédit income: revenu du client Fermin Régression logistique Chap. Rég. Log. 20 / 23

Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -1.075e+01 3.692e-01-29.116 < 2e-16 *** student -7.149e-01 1.475e-01-4.846 1.26e-06 *** balance 5.738e-03 2.318e-04 24.750 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2920.6 on 9999 degrees of freedom Residual deviance: 1571.7 on 9997 degrees of freedom AIC: 1577.7 Rappelons qu on dispose d un échantillon de taille n = 10000 Fermin Régression logistique Chap. Rég. Log. 21 / 23

1 Modèle de régression logistique 2 Cotes et rapports de cotes 3 Données groupées 4 Références Fermin Régression logistique Chap. Rég. Log. 22 / 23

Références : An introduction to Generalized Linear Models, A.J. Dobson (2002) Statistiques avec R, Pierre-André Cornillon et al. (2010), Presses universitaires de Rennes. Applied econometrics with R, Christian Kleiber et Achim Zeileis (2011), Springer. Fermin Régression logistique Chap. Rég. Log. 23 / 23