Régression logistique. Dr Cécile Couchoud

Documents pareils
«Cours Statistique et logiciel R»

Coup de Projecteur sur les Réseaux de Neurones

TRANSPORT ET LOGISTIQUE :

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

IBM SPSS Regression 21

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

SAS ENTERPRISE MINER POUR L'ACTUAIRE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Simulation de variables aléatoires

Cancer bronchique primitif: données épidémiologiques récentes

Approche centrée e sur le patient

MABioVis. Bio-informatique et la

Méthodes de Simulation

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Utiliser des fonctions complexes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 2 Le problème de l unicité des solutions

Docteur José LABARERE

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Cours de méthodes de scoring

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Format de l avis d efficience

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Études épidémiologiques analytiques et biais

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

TABLE DES MATIERES. C Exercices complémentaires 42

Quelles sont les principales formules utiles pour l étude de cas de vente?

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

ITIL Gestion de la capacité

Corrigé des TD 1 à 5

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Introduction au datamining

Données longitudinales et modèles de survie

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Première partie : Les travaux d inventaire. Fiches Mr Cisternino : Les travaux d inventaire 1 / 24

Principe d un test statistique

Probabilités III Introduction à l évaluation d options

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Développement itératif, évolutif et agile

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Les Français sont-ils égaux face à la prévention? Résultats approfondis du Baromètre santé 2005

Valorisation d es des options Novembre 2007

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

EVALUATION DES METHODES D AIDE A L ARRET DU TABAGISME

!-.!#- $'( 1&) &) (,' &*- %,!

Quantification Scalaire et Prédictive

L olivier Assurances Licence 3 Econométrie Lyon II

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

CCP PSI Mathématiques 1 : un corrigé

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Annexe commune aux séries ES, L et S : boîtes et quantiles

nos graphiques font leur rentrée!

Une fonction ressources humaines performante?*

Arbres binaires de décision

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

CONFÉRENCE TÉLÉPHONIQUE SUR LES RÉSULTATS RÉSULTATS POUR LE TRIMESTRE CLOS LE 31 MARS mai 2015

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

NON-LINEARITE ET RESEAUX NEURONAUX

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Régression logistique. Benoit Crabbé

SITES DE LUTTE CONTRE LE TABAGISME

Licence 2 Mathématiques- Semestre 3 Introduction aux mathématiques

Emissions des moteurs diesel : Nouveau classement par le Centre International de Recherche sur le Cancer (CIRC)

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

La fonction exponentielle

TSTI 2D CH X : Exemples de lois à densité 1

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Statistique descriptive. Interrogation 2 : à rendre le Jeudi 18 novembre

Processus aléatoires avec application en finance

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE


Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

SUIVI MÉDICAL DU DIABÈTE CHEZ LES ASSURÉS DE LA MGEN

Dell Software International Limited City Gate Park Mahon Cork Ireland

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Associations Dossiers pratiques

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Projet Fonds Assuétudes 2007

Géométrie discrète Chapitre V

Logiciel XLSTAT version rue Damrémont PARIS

4 Exemples de problèmes MapReduce incrémentaux

(Customer Relationship Management, «Gestion de la Relation Client»)

Exercices de Statistique HEI /2015 A. RIDARD

Correction du baccalauréat ES/L Métropole 20 juin 2014

Estimation du coût de l incessibilité des BSA

Comprendre vos relevés de comptes CFD/FOREX:

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

PROGRAMME (Susceptible de modifications)

Témoignage. 3èmes RV du Nucléaire Civil ENSOSP Aix-en-Provence 29 Janvier 2014

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

et ATIH Diapositive n 1 Direction générale de l offre de soins - DGOS

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Transcription:

Régression logistique Dr Cécile Couchoud

But de la régression logistique Modélisation d une variable dépendante (que l on veut prédire ou expliquer) qualitative dichotomique : sains/malades, exposés/non exposés Sa relation avec des variables explicatives : association? prévisions? causalité? Si variables dépendantes à plusieurs modalités : régression polytomique

Exemple : cancer de la prostate selon l âge Représentation des patients 1 0 0 10 20 30 40 50 60 70 80 90 100

Exemple : probabilité cumulée d avoir un cancer de la prostate selon l âge 1,0 0,5 0,0 10 20 30 40 50 60 70 80 90 100

Modélisation linéaire??? 1,5 1,0 0,5 0,0 10 20 30 40 50 60 70 80 90 100-0,5 Attention! Probabilité : par définition comprise entre 0 et 1

Relation sigmoïdale 1,0 0,5 0,0 10 20 30 40 50 60 70 80 90 100 Pour modéliser une probabilité, on utilise une fonction de répartition (ou fonction cumulative) d une loi

Pourquoi «régression»? Régression de «y» par rapport à «x» Espérance mathématique de y conditionnelle à x : E( y x) Ex : fonction «doublement» E( y x =3) = 6 Lien entre espérance conditionnelle et probabilité 1 (ex : «malade») avec probabilité = p y = 0 (ex : «sain») avec probabilité = 1 p E (y x) = 1 x p + 0 x (1-p) = p

Pourquoi «logistique»? Choix du modèle Logit = fonction de répartition de la loi logistique 1 P(M + /X=x) = f(x) = 1+exp (- α+βx) On aurait pu choisir le modèle Probit (fonction répartition de la loi Normale) Permet le calcul de l OR

Transformation logit P Par définition, Logit P = Ln 1 - P Pour P = P(M + /X=1), Logit P = α+β P1 / (1 P1) OR = Ln OR = Logit P1 Logit P0 P0 / (1 P0) = α+β α = β

Exemple : FR d angor Logit [P(angor=1 diabète)] = β0+β1 diabète Logit [P(angor =1 diabète =1)] = β0+β1 Logit [P(angor =1 diabète =0)] = β0 Odds = p/1-p OR = p 1 /(1-p 1 ) / p 0 /(1 p 0 ) e e Logit [P(diabète =1 sexe=1)] e OR= = Logit [P(diabète =1 sexe=0)] e β0+β1 β0 OR diabète = e β1 Voir cours sur mesures d association

Exp(1.653) = 5,2226 Les diabétiques ont un risque 5 fois plus élevé d avoir un angor

Au final Logit [P(y=1 x 1,x 2 x n )] = β 0 +β1x 1 + β n x n Estimation de β0,β 1, β 2., Exponentielle de β0,β 1, β 2., β n Odds Ratio de chaque variable explicative β0,β 1, β 2., β n

Interprétation?

Estimation du modèle Méthode du maximum de vraisemblance Algorithme numérique Hypothèses sous-jacentes : Indépendance des observations Si données répétées, structure hiérarchique.. autres modèles

Significativité des coefficients? Test de Wald ou test du rapport de vraisemblance H0 : β 0 =0 Intervalle de confiance Contient la valeur 1?

Intercept : constante du modèle β 0 = L «effet» de la catégorie de référence = probabilité de y lorsque toutes les co-variables sont nulles Logit [P(y=1 âge, sexe)] = β 0 +β1âge+ β 2 sexe β 0 = probabilité d une femme d âge 0 Recodage de l âge : centrer la variable autour de sa moyenne β 0 = probabilité d une femme à l âge moyen dans l échantillon

Variable explicative dichotomique OR = e β1 OR associé au passage de la catégorie de référence 0 à la catégorie 1 OR ajusté sur les autres variables Exemple : OR diab/non diab = 5.2 Les diabétiques ont une probabilité d avoir un angor qui est multiplié par 5.2 par rapport aux non diabétiques

Variables explicatives à plusieurs modalités On choisit une catégorie de référence Variables indicatrices (dummy) Ex : 1 variable :Tabac=1 si fumeur, =2 si ex fumeur = 3 si non fumeur 2 variables : fum=1 si fumeur, exfum=1 si ex fumeur Logit [P(y=1 x 1,x 2 x n )] = β 0 +β1fum+ β 2 exfum OR fumeur/non = e β1 OR ex fumeur/non = e β2 OR fumeur/ex fumeur = e β1 β2

Si on n avait pas créer de variables indicatrices Logit [P(y=1 x 1,x 2 x n )] = β 0 +β1tabac OR fumeur/exfumeur = e β = OR ex fumeur/non = e β Sous-entend un effet linéaire entre les catégories fumeur-ex fumeur-non fumeur

Variables explicatives continues OR = e β1 OR associé à un accroissement unitaire Ex : OR âge (1 an) =1.02 Pour chaque augmentation de 1 an, le risque de maladie augmente de 2% OR âge (10 ans)= (e β1 ) 10 =1.22 Pour chaque augmentation de 10 ans, le risque de maladie augmente de 22%

Arbitrage du codage Exemple de l âge Variable continu Risque identique pour chaque augmentation d 1 an d âge Variable en plusieurs catégories Risque d une catégorie d âge par rapport à la catégorie de référence

Interaction En cas d interaction (terme d interaction significatif) On présente les 2 OR séparément (pas de sens de donner un OR «moyen») Exemple : effet de l âge chez la femme et effet de l âge chez l homme Voir cours sur interaction

Choix des variables du modèle :1 Variables à inclure : Variable(s) d intérêt Facteurs de confusions potentiels FR connus Issus de l analyse des données (p = 20%) Termes d interaction Stratégie de sélection : Pas-à-pas descendante Méthode ascendante Méthode automatique Manuelle

Choix des variables du modèle : 2 Adéquation d un modèle par rapport à un autre? Modèle 1 : Logit [P(y=1 âge, sexe)] = β 0 +β1âge+ β 2 sexe Modèle 2 : Logit [P(y=1 âge)] = β 0 +β1âge Si β 2 =0, Modèle 2=Modèle 1 Modèle 2 est un sous-modèle du modèle 1 Modèle 2 est emboîté dans modèle 1 Sur le plan statistique : comparaison de 2 modèles emboîtés méthode du rapport de vraisemblance : 2ln V2/V1 suit χ2 à k ddl Test H0 : β 2 =0 (si un seul paramètre de différence)

Epi info

Comparaison des 2 modèles Modèle 1 : sexe + diabète + tabac Modèle 2 : diabète + tabac Coefficient du sexe? Coeff = -1,168, SE = 0,33 Z-statistic = -3,507, p=0,0005 Rapport vraisemblance? -2logM1 = 353,4-2logM2 = 367,6 Diff = 14,1 χ2 à 1ddl, p<0,001

Choix des variables du modèle : 3 Attention au surajustement «overfitting» : «Au moins 10 outcomes positifs par covariable» Attention données manquantes Finalité du modèle : Pronostic Étiologique : facteurs confusions +++ Capacité d interprétation