Régression logistique

Transcription

1 Régression logistique Erik-André Sauleau - Nicolas Meyer erik-andre.sauleau@medecine.u-strasbg.fr - nmeyer@unistra.fr Laboratoire de Biostatistiques - Faculté de Médecine Pôle de Santé Publique CHU - STRASBOURG Mars 2009

2 Plan 1 Introduction 2 Rappels sur risques relatifs et odds-ratios 3 Fonction et modèle logistiques 4 Codage des variables 5 Estimations et adéquation 6 Modélisation 7 Exemple - TP

3 Où en sommes nous? 1 Introduction Le programme Le cadre général Intérêts de la régression logistique 2 Rappels sur risques relatifs et odds-ratios 3 Fonction et modèle logistiques 4 Codage des variables 5 Estimations et adéquation 6 Modélisation

4 Le programme Compétence 4 : régression logistique 1 Savoir écrire les modèles théoriques et expérimental, comprendre le lien avec la régression linéaire multiple et la relation entre coefficient de régression et odds-ratio 2 Connaître l importance du codage des variables explicatives et la nécessité de recodage pour certaines variables (problème de log-linéarité) 3 Savoir identifier les colinéarités entres deux variables, en connaître les conséquences et vérifier les conditions d application du modèle 4 Maîtriser les techniques de sélection des variables du modèle, en particulier les techniques pas à pas dans le cas des modèles à visée prédictive 5 Savoir interpréter les résultats de l analyse en termes d odds-ratio

5 Le cadre général Définition de la régression logistique Modèle statistique permettant d étudier les relations entre 1 Un ensemble de variables qualitatives X i 2 Une variable qualitative Y Modèle linéaire généralisé utilisant une fonction logistique comme fonction de lien Extensions Variable Y multinomiale (régression polychotomique ordonnée ou non) Des X i quantitatives Outil majeur en épidémiologie

6 Le cadre général Un exemple de problème... La rechute d un cancer est-elle liée au taux d expression d un gène? 1 une variable qualitative Y : rechute oui / non 2 une variable quantitative X : dosage 3 n-échantillon Prédire Y connaissant X Régression linéaire simple : y i = α + βx i + ε i

7 Le cadre général... et sa résolution Les données

8 Le cadre général... et sa résolution La régression linéaire Y = 0,22 + 0,44X

9 Le cadre général... et sa résolution La variable X en 10 classes

10 Le cadre général... et sa résolution Les proportions de rechute par classe de X

11 Le cadre général... et sa résolution L estimation des proportions par régression logistique

12 Intérêts de la régression logistique Une interprétation cohérente... Modéliser les liens entre plusieurs variables explicatives X i qualitatives (ou quantitatives) et une variable résultat qualitative Expression des probabilités sur une échelle entre 0 et 1 Quantification du risque : odds-ratio

13 Où en sommes nous? 1 Introduction 2 Rappels sur risques relatifs et odds-ratios Les cohortes Les cas-témoins 3 Fonction et modèle logistiques 4 Codage des variables 5 Estimations et adéquation 6 Modélisation

14 Les cohortes Les données disponibles Malades Non malades Total Exposés a b a + b Non exposés c d c + d Total a + c b + d N = a + b + c + d

15 Les cohortes Les risques Malades Non malades Exposés a b Non exposés c d Risque d être malade quand on est exposé : P 1 = P r(m + E + ) = a a+b Risque d être malade quand on n est pas exposé : P 0 = P r(m + E ) = c c+d Risque relatif : RR = P 1 P 0 = a(c+d) c(a+b)

16 Les cohortes L intervalle de confiance du risque relatif Malades Non malades Exposés a b Non exposés c d Pour une meilleure convergence asymptotique vers la loi normale, on transforme le RR en son logarithme Variance de l estimation : V[ln (ˆRR)] = 1 P 1 (a+b)p P 0 (c+d)p 0 = b a(a+b) + d c(c+d) Intervalle de confiance : exp Test du RR à 1 [ln (ˆRR) ± z α/2 V[ln (ˆRR)] ]

17 Les cohortes L odds-ratio La cote de z : Malades Non malades Exposés a b Non exposés c d z 1 z Un rapport de cotes : z 1 z u 1 u P Odds-ratio : 1 1 P 1 / P 0 1 P 0 1 P 1 = b a+b et P 1 1 P 1 1 P 0 = d c+d et P 0 1 P 0 Odds-ratio : OR = ad bc = a b = c d

18 Les cohortes L intervalle de confiance de l odds ratio Malades Non malades Exposés a b Non exposés c d Pour une meilleure convergence asymptotique vers la loi normale, on transforme l OR en son logarithme Deux méthodes ] 1 Woolf : exp [ln (ˆOR) ± z α/2 a + 1 b + 1 c + 1 d [ { }] Miettinen : exp ln (ˆOR) 1 ± z α/2 χ 2 Test de l OR à 1

19 Les cas-témoins L odds-ratio dans les cas-témoins Malades Non malades Exposés a b Non exposés c d Risque d être exposé quand on est malade : R 1 = P r(e + M + ) = a a+c Risque d être exposé quand on n est pas malade : R 0 = P r(e + M ) = b b+d R Odds-ratio : 1 1 R 1 / R 0 1 R 0 1 R 1 = c a+c et R 1 1 R 1 1 R 0 = d b+d et P 0 1 R 0 Odds-ratio : OR = ad bc = a c = b d

20 Les cas-témoins Une même expression de l odds-ratio Même estimation et même intervalle de confiance pour l odds-ratio dans les cohortes et les cas-témoins L odds-ratio est plus employé que le risque relatif Quand la maladie est rare, OR RR

21 Où en sommes nous? 1 Introduction 2 Rappels sur risques relatifs et odds-ratios 3 Fonction et modèle logistiques Un préalable : la fonction logistique Le modèle logistique 4 Codage des variables 5 Estimations et adéquation 6 Modélisation

22 Un préalable : la fonction logistique Définition Fonction logistique Description Strictement croissante, monotone Varie de 0 à 1 pour x allant de à + Courbe sigmoïde, point d inflexion correspondant à f(x) = 1/2 Symétrique autour du point d inflexion Formalisation 1 f(x) = 1+e (α+βx) α est un paramètre de position β est un paramètre de forme

23 Un préalable : la fonction logistique Des exemples de fonctions logistiques

27 Le modèle logistique Définition Modèle logistique = régression logistique Pour un sujet j, Y j suit une loi de Bernoulli P r(y = 1 X) = f(x) = 1 1+e (α+βx) = eα+βx 1+e α+βx Le miracle du logit... Le miracle de l odds-ratio...

28 Le modèle logistique Retour à une cohorte Malades (y = 1) Non malades (y = 0) Exposés (x = 1) a b Non exposés (x = 0) c d Probabilité d être malade quand on est exposé : P r(m + E + 1 ) = P 1 = P r(y = 1 x = 1) = 1+e (α+β) Probabilité d être malade quand on n est pas exposé : P r(m + E ) = P 0 = P r(y = 1 x = 0) = 1 1+e α Probabilité de ne pas être malade quand on est exposé : P r(m E + ) = 1 P 1 = e (α+β) 1+e (α+β) Probabilité de ne pas être malade quand on n est pas exposé : P r(m E ) = 1 P 0 = e α 1+e α

29 Le modèle logistique Retour à une cohorte Malades (y = 1) Non malades (y = 0) Exposés (x = 1) a b Non exposés (x = 0) c d OR = P 1 1 P 1 / P 0 1 P 0 OR = P r(m + E + ) P r(m E ) P r(m + E ) P r(m E + ) OR = 1 e α 1+e (α+β) 1+e α = e α 1 e (α+β) 1+e α e (α+β) 1+e (α+β) Le miracle de l odds-ratio = e α+α+β = e β OR = e β ou ln (OR) = β

30 Le modèle logistique Le passage au logit ( ) Définition : logit(z) = ln z 1 z Appliqué à la fonction logistique 1 1 z = 1+e (α+βx) 2 1 z = e (α+βx) 1+e (α+βx) 3 1 z/(1 z) = ( ) e (α+βx) 4 z ln 1 z = ln (1) ln ( e (α+βx)) = α + βx Le deuxième miracle logit(p r(y = 1 X)) = α + βx

31 Le modèle logistique Le passage au logit Lien avec la régression linéaire simple logit(p r(y = 1 X)) = α + βx vs E(Y X) = α + βx Modéliser E(Y) ou Pr(Y=1) c est pareil! E(Y ) = 1 P r(y = 1) + 0 P r(y = 0) = P r(y = 1) Fonction linéaire des variables avec le logit Les erreurs sont binomiales

32 Où en sommes nous? 1 Introduction 2 Rappels sur risques relatifs et odds-ratios 3 Fonction et modèle logistiques 4 Codage des variables 5 Estimations et adéquation 6 Modélisation 7 Exemple - TP

33 Notre cohorte Malades (y = 1) Non malades (y = 0) Exposés (x = x 1 ) a b Non exposés (x = x 0 ) c d Probabilité d être malade quand on est exposé : P r(m + E + 1 ) = P 1 = P r(y = 1 x = x 1 ) = 1+e (α+βx 1 ) Probabilité d être malade quand on n est pas exposé : P r(m + E 1 ) = P 0 = P r(y = 1 x = x 0 ) = 1+e (α+βx 0 ) Probabilité de ne pas être malade quand on est exposé : P r(m E + ) = 1 P 1 = e (α+βx 1 ) 1+e (α+βx 1 ) Probabilité de ne pas être malade quand on n est pas exposé : P r(m E ) = 1 P 0 = e (α+βx 0 ) 1+e (α+βx 0 )

34 Notre cohorte Malades (y = 1) Non malades (y = 0) Exposés (x = x 1 ) a b Non exposés (x = x 0 ) c d OR = P 1 1 P 1 / P 0 1 P 0 OR = P r(m + E + ) P r(m E ) P r(m + E ) P r(m E + ) OR = 1 1+e (α+βx 1 ) e (α+βx 0 ) 1+e (α+βx 0 ) 1 1+e (α+βx 0 ) e (α+βx 1 ) 1+e (α+βx 1 ) = e (α+βx0) e (α+βx 1 ) = e α βx 0+α+βx 1 OR = e β(x 1 x 0 ) Si x 0 = 0 et x 1 = 1, on retrouve bien OR = e β

35 Notre cohorte Malades (y = 1) Non malades (y = 0) Exposés (x = x 1 ) a b Non exposés (x = x 0 ) c d OR = P 1 1 P 1 / P 0 1 P 0 OR = e β(x 1 x 0 ) logit(p 1 ) logit(p 0 ) = β(x 1 x 0 )

36 Rôle majeur du codage OR = e β(x 1 x 0 ) { x0 = 0 Si alors OR x 1 = 1 1 = e β { x0 = 1 Si alors OR x 1 = 0 2 = e β { x0 = 1 Si alors OR x 1 = 1 3 = e 2β { x0 = 0 Si alors OR x 1 = 2 4 = e 2β OR 4 = OR 3 = (1/OR 2 ) 2 = (OR 1 ) 2

37 Exposition multinomiale Modèle logistique logit(p r(y = 1 X)) = α + βx Exposition Malades (y = 1) Non malades (y = 0) Forte (x = 2) a b Moyenne (x = 1) c d Faible (x = 0) e f Probabilité d être malade quand on est fortement exposé : P r(m + x = 2) = P 2 = 1 1+e (α+2β) Probabilité d être malade quand on est moyennement exposé : P r(m + x = 1) = P 1 = 1 1+e (α+β) Probabilité d être malade quand on est faiblement exposé : P r(m + x = 0) = P 0 = 1 1+e α

38 Exposition multinomiale Exposition Malades (y = 1) Non malades (y = 0) Forte (x = 2) a b Moyenne (x = 1) c d Faible (x = 0) e f OR 2 = P 2 1 P 2 / P 0 1 P 0 = e 2β OR 1 = P 1 1 P 1 / P 0 1 P 0 = e β = (OR 1 ) 2 ( ) OR = P 2 1 P 2 / P 1 1 P 1 = e β Choix d une catégorie de référence Hypothèse de progression de l effet de l exposition

39 Un a parte sur l exposition Typologie de variables Quantitative = mesurable sur une échelle 1 Continue = valeurs réelles (Ex : Age) 2 Discrète = valeurs isolées (Ex : Nombre d enfants) Notion de continuité relative à l échelle 10, 13, 13, 15 vs 10, 10, 10, 15 Qualitative = non mesurable sur une échelle 1 Sans ordre, catégorielle (Ex : Sexe) 2 Ordonnée, semi-quantitative (Ex : Stade clinique) Transformation : quantitatif en semi-quantitatif <10, 10-14, >15

40 Un a parte sur l exposition Les mesures d exposition Quantitative Dosimétrie, mesures au poste de travail Durée d exposition Qualitative Exposé - non exposé Catégorie socioprofessionnelle Semi-quantitative Exposition forte - moyenne - faible Exposition <10 ans, 10-19, >20 ans

41 Un a parte sur l exposition Finalement trois cas Variables Exposition Qualitative Semiqualitative Quantitative Catégorielle Cas 1 Ordonnée Cas 2 Continue Cas 3 Discrète Cas 3

42 Retour sur le codage des variables Cas 1 : Variable catégorielle (Ex : CSP) 1 Hypothèse 0, 1,..., trop forte 2 Variables indicatrices et codage dit partiel X X 1 X 2 X 3 c c c c On a remplacé 1 variable à k modalités par k 1 variables un nouvel a parte sur le multivarié

43 Une première extension du modèle Le cas multivarié Modèle logistique : modéliser les liens entre plusieurs variables explicatives X i qualitatives (ou quantitatives) et une variable résultat qualitative 1 P r(y = 1 (X 1,..., X I )) = ou logit(p r(y = 1 X) = α + βx 1+e (α+ I i β i x i ) β i est le logarithme de l odds-ratio associé à une augmentation d une unité de la variable X i, toutes les autres variables étant fixées OR ajusté

44 Retour sur le codage des variables catégorielles (Cas 1) X X 1 X 2 X 3 c c c c logit(p r(y = 1 X) = α + β 1 x 1 + β 2 x 2 + β 3 x 3 logit(p r(y = 1 x = c 0 ) = α logit(p r(y = 1 x = c 1 ) = α + β 1 logit(p r(y = 1 x = c 2 ) = α + β 2 logit(p r(y = 1 x = c 3 ) = α + β 3 Les β i sont les logarithmes des odds-ratios associés aux différentes catégories par rapport à la catégorie de référence logit(p r(y = 1 x = c i ) logit(p r(y = 1 x = c 0 ) = β i

45 Un codage alternatif : le codage marginal X X 1 X 2 X 3 c c c c

46 Un codage alternatif : le codage marginal X X 1 X 2 X 3 c c c c logit(p r(y = 1 X) = α + β 1 x 1 + β 2 x 2 + β 3 x 3 logit(p r(y = 1 x = c 0 ) = α β 1 β 2 β 3 = α + β 0 logit(p r(y = 1 x = c 1 ) = α + β 1 logit(p r(y = 1 x = c 2 ) = α + β 2 logit(p r(y = 1 x = c 3 ) = α + β 3 Les β i sont les logarithmes des odds-ratios associés aux différentes catégories par rapport à une référence moyenne représentée par β 0 logit(p r(y = 1 x = c i )) logit(p r(y = 1 x = c 0 )) = β i β 0 Quel sens?

47 La prise en compte d interaction Interaction entre X 1 et X 2 mesurée par X 1 X 2 logit(p r(y = 1 (X 1,X 2 )) = α + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 X 1 X 2 OR e β e β 2+β 3 OR e β 1 e β 1+β 3 Absence d interaction si β 3 = 0

48 Le codage des variables ordonnées (Cas 2) Différentes possibilités Perte de la notion d ordre Variables indicatrices et codage partiel Codage marginal Codage Helmert ou codage orthogonal Attribuer des scores 1, 2, 3,... et traiter comme une variable quantitative cas 3 A discuter au cas par cas (Ex : stades cliniques I, II et III)

49 Le codage des variables ordonnées (Cas 2) Contraste de Helmert X X 1 X 2 X 3 c c c c β 1 est l odds-ratio de c 1 par rapport à c 0 β 2 est l odds-ratio de c 2 par rapport à la moyenne de c 0 et c 1 β 3 est l odds-ratio de c 3 par rapport à la moyenne de c 0, c 1 et c 2

50 Le codage des variables ordonnées (Cas 2) Codage orthogonal ou contraste polynomial X X 1 X 2 X 3 c 0 = c 1 = c 2 = c 3 = Valeurs différentes selon les valeurs de X et leur espacement Permet de tester des tendances : le logit augmente-t-il proportionnellement aux valeurs de X? X 1 teste une tendance linéaire, X 2 une tendance quadratique,... A manipuler avec précautions

51 Les variables quantitatives (Cas 3) Que signifie le β dans OR = e β(x 1 x 0 )? 1 β est le logarithme de l odds-ratio associé à une augmentation d une unité de la variable d exposition Une autre valeur peut avoir plus de sens : par exemple 10 β pour une augmentation de 10 mmol d un dosage et non d 1 mmol

52 Résumé du codage sur des exemples Age Trois formes... 1 Quantitative continue : 10, 12, 15, 15, 18, 21 2 Qualitative ordonnée : <15, <15, 15-19, 15-19, 15-19, >20 3 Qualitative catégorielle : c 0, c 0, c 1, c 1, c 1, c 2... et trois cas... 1 Quantitative continue : cas 3 2 Qualitative ordonnée : cas 2 ou cas 3 3 Qualitative catégorielle : cas 1

53 Résumé du codage sur des exemples Age Trois formes et trois cas mais quatre situations 1 Quantitative continue : e β est l OR associé à un vieillissement de 1 an, e 5β de 5 ans 2 Qualitative ordonnée et codage orthogonal ou Helmert : interprétation particulière 3 Qualitative ordonnée et choix de score (1, 2, 3) : e β est l OR associé à un vieillissement de 1 classe 4 Qualitative catégorielle et codage partiel ou marginal : e βi est l OR associé à la classe c i par rapport à une référence (une classe ou une moyenne)

54 Résumé du codage sur des exemples Nombre d enfants Une forme... 1 Quantitative discrète : 0, 1, 2, 3,..., >7... mais deux situations... 1 Quantitative discrète mais comme une continue : e β est l OR associé à un enfant de plus, e 2β est l OR associé à deux enfants de plus 2 Quantitative discrète mais codage orthogonal ou Helmert : interprétation particulière 3 Qualitative catégorielle et codage partiel ou marginal : pas beaucoup de sens

55 Résumé du codage sur des exemples Sexe Une forme, un cas et une situation 1 Qualitative catégorielle : s 0 ou s 1 e β est l OR associé au sexe 1 par rapport au sexe 0 Même situation que pour une variable quantitative discrète ou une qualitative ordonnée à deux valeurs (0 ou 1)

56 Résumé du codage sur des exemples Catégorie socioprofessionnelle Une forme, un cas et une situation éthiquement acceptables 1 Qualitative catégorielle : c 0, c 1, c 2,... Qualitative catégorielle et codage partiel : e β i est l OR associé à la classe c i par rapport à la classe de référence Qualitative catégorielle et codage marginal

57 Où en sommes nous? 1 Introduction 2 Rappels sur risques relatifs et odds-ratios 3 Fonction et modèle logistiques 4 Codage des variables 5 Estimations et adéquation Rappel sur la vraisemblance Estimations et tests Adéquation des modèles 6 Modélisation

58 Rappel sur la vraisemblance Rappel sur le maximum de vraisemblance Si on observe un échantillon, c est que c est celui qui avait la plus grande chance d être observé. C est donc celui qui a la plus grande vraisemblance. On cherche alors les valeurs des paramètres qui maximisent cette vraisemblance et on en déduit que les valeurs obtenues pour les paramètres sont les bonnes valeurs.

59 Estimations et tests Ce qu on a à estimer logit(p r(y = 1 X) = α + I 1 β ix i Les Y et X sont observés On cherche les valeurs de chaque β i On ne peut pas utiliser les moindres carrés estimateurs du maximum de vraisemblance

60 Estimations et tests Les estimateurs du maximum de vraisemblance Vraisemblance d une observation 1 Pour un sujet j malade, V j = P r(y = 1 X) = 1 1+e (α+ βx) 2 Pour un sujet j sain, V j = P r(y = 0 X) = e (α+ βx) Vraisemblance de l échantillon V = N 1 V j = 1 N sujets 2 N 1 sujets non malades Logvraisemblance de l échantillon Annulation des dérivées premières EMV Méthodes itératives 1+e (α+ βx) Estimation d une matrice de variance-covariance des paramètres intervalles de confiance N1 e (α+ βx) N 1+e (α+ βx)

61 Estimations et tests Exemple de calcul d estimateurs Malades Non malades Exposés a b Non exposés c d

62 Estimations et tests Exemple de calcul d estimateurs Exposés Non exposés ( Malades ) a 1 1+e (α+β) ( 1 1+e α ) c Non malades ( ) e (α+β) b 1+e (α+β) ( e α 1+e α ) d V = e b(α+β) e dα (1+e (α+β) ) a+b (1+e α ) c+d L = b(α+β) dα (a+b) ln ( 1 + e (α+β)) (c+d) ln (1 + e α )

63 Estimations et tests Exemple de calcul d estimateurs EMV L α = L β = 0 L = b(α+β) dα (a+b) ln ( 1 + e (α+β)) (c+d) ln (1 + e α ) { L β = b + (a + b) e (α+β) = 0 1+e (α+β) L α = b d + (a + b) e (α+β) + (c + d) e α = 0 1+e (α+β) 1+e α { e α = d 1+e α c+d e (α+β) = b 1+e (α+β) a+b { α = ln c d α + β = ln a b { α = ln c d β = ln ad bc

64 Estimations et tests Tests des paramètres Cas univarié Intérêt : OR = 1 β = 0 On a ˆβ et ˆσ β et donc un intervalle de confiance 1 β : ˆβ ± z α/2ˆσ β 2 OR : e ˆβ±z α/2 ˆσ β ˆβ Test de Wald : rejet de H 0 si ˆσ β > z α/2 Test du rapport des vraisemblances (modèles emboîtés) : 2(L 1 L 0 ) χ 2 1ddl 1 L 1 : logvraisemblance du modèle logit(p r(y = 1 X)) = α + β 2 L 0 : logvraisemblance du modèle logit(p r(y = 1 X)) = α Vraisemblances pénalisées (AIC)

65 Estimations et tests Tests des paramètres Premier cas multivarié Intérêt : OR i = 1 β i = 0 Test du rapport des vraisemblances : 2(L 1 L 0 ) χ 2 1ddl 1 L 1 : logvraisemblance d un modèle logit(p r(y = 1 X) = α + j =i β jx j + β i 2 L 0 : logvraisemblance du modèle logit(p r(y = 1 X) = α + j =i β jx j

66 Estimations et tests Tests des paramètres Second cas multivarié Intérêt : OR k = = OR k+p = 1 β k = = β k+p = 0 Test du rapport des vraisemblances : 2(L 1 L 0 ) χ 2 pddl 1 L 1 : logvraisemblance d un modèle logit(p r(y = 1 X) = α + j / (k,,k+p) β jx j + l=k+p 2 L 0 : logvraisemblance du modèle logit(p r(y = 1 X) = α + j / (k,,k+p) β jx j Utile pour une variable catégorielle transformée en plusieurs variables indicatrices l=k β l x l

67 Estimations et tests Exemple de tests Les données On étudie la relation entre l âge et le risque d infection par un virus sur 356 sujets Age N Séropositifs Fréquence

68 Estimations et tests Exemple de tests Codage de l âge Age Score Codage partiel Score

69 Estimations et tests Exemple de tests Les tests de vraisemblance Modèle sans âge logit(p r(y = 1 age) = α : L 0 = 172,2 Modèle avec âge 0,..., 5 logit(p r(y = 1 age) = α + β age : L 1 = 168,7 Modèle avec âge en variables indicatrices logit(p r(y = 1 age) = α + β 1 x 1 + β 5 x 5 : L 2 = 166,9 Comparaisons 2(L 2 L 0 ) = 10,4 χ 2 5ddl, p = 0,64 2(L 1 L 0 ) = 6,9 χ 2 1ddl, p < 0,01 2(L 2 L 1 ) = 3,5 χ 2 4ddl, p = 0,30 Quelle conclusion? Quel modèle est adéquat?

70 Estimations et tests Les problèmes numériques Une cellule vide peut créer un odds-ratio infini Des variables peuvent complètement séparer malades et non malades Variable combinaison linéaire des autres Problèmes de non-convergence ou de colinéarité Signalés par les logiciels Estimations ponctuelles des β aberrantes Variances des estimations immenses

71 Adéquation des modèles Adéquation des modèles R 2 comme en régression linéaire mais Valeur maximum = 0,36 Interprétation différente et délicate χ 2 d adéquation Test de la déviance χ 2 d Hosmer-Lemeshow Test de C.C. Brown Teste la transformation logistique contre d autres transformations Interprétation délicate en multivarié Analyse des résidus : très délicat

72 Adéquation des modèles Les χ 2 d adéquation Test de la déviance 1 Modèle saturé logvraisemblance maximale L max Les prédictions correspondent aux fréquences observées Un paramètre par observation 2 Le modèle dont on veut tester l adéquation a un logvraisemblance L 1 3 La déviance est D = 2(L max L 1 ) 4 On peut écrire la déviance sous une forme D = 2 O ln ( ) O O sont les événements observés E sont les événements attendus par le modèle à tester 5 La déviance suit une loi du χ 2 mais les conditions d applications sont rarement remplies E

73 Adéquation des modèles Les χ 2 d adéquation Test d Hosmer-Lemeshow 1 Regrouper les observations en 10 classes d effectif à peu près égal 2 χ 2 d adéquation (O E) 2 E O sont les événements observés par classe E sont les événements attendus par classe 3 La statistique suit une loi du χ 2 à 8 degrés de liberté

75 Ajustement et facteurs indépendants Le cas multivarié logit(p r(y = 1 X)) = α + βx β i est le logarithme de l odds-ratio associé à une augmentation d une unité de la variable X i, toutes les autres variables étant fixées OR ajusté

76 Ajustement et facteurs indépendants Cas de deux variables explicatives En univarié 1 OR (1) 1 associé à la variable X 1 2 OR (1) 2 associé à la variable X 2 En multivarié : on tient compte simultanément des deux variables 1 Nouvel OR (2) 1 associé à la variable X 1, ajusté sur X 2 2 Nouvel OR (2) 2 associé à la variable X 2, ajusté sur X 1

77 Ajustement et facteurs indépendants Pourquoi OR (2) est différent de OR (1)? Facteur de confusion (différence majeure) Informations redondantes corrélation Colinéarité (plus de deux facteurs)

78 Ajustement et facteurs indépendants Pourquoi OR (2) est différent de OR (1)? Facteur de confusion (différence majeure) Informations redondantes corrélation Colinéarité (plus de deux facteurs) Pourquoi OR (2) n est pas différent de OR (1)? X 1 et X 2 sont des facteurs indépendants et tenir compte de l effet de X 2 ou pas ne change rien sur l effet de X 1

79 Objectifs de la modélisation Explicatif : chercher la meilleure association de variables explicatives pour expliquer Y notion de parcimonie Prédictif : chercher la meilleure association de variables explicatives pour prédire Y pas toujours parcimonieux

80 Choix des variables Grand nombre de variables d exposition Première sélection par des tests univariés (au risque de 0.10 ou 0.20) Tester les interactions entre variables Ne retenir que les variables significatives simultanément Retenir les effets principaux quand on retient une interaction Procédures pas à pas De nombreuses autres méthodes

81 Choix des variables Pas à pas ascendant Partir du modèle plus simple Modèle avec uniquement la constante Modèle avec les variables forcées Ajouter une à une les variables significatives Tests du rapport des vraisemblances La plus significative en premier Variable transformées par des variables indicatrices en bloc On s arrête quand il n y a plus de variables significatives

82 Choix des variables Pas à pas descendant Partir du modèle le plus complexe Retirer une à une les variables non significatives Tests du rapport des vraisemblances La moins significative en premier Variable transformées par des variables indicatrices en bloc On s arrête quand il n y a plus de variable non significative dans le modèle

83 Choix des variables Procédure stepwise En pas à pas ascendant ou descendant On peut revenir en arrière à chaque étape Pour tenir compte des corrélations entre variables Une variable peut s effondrer sur une autre variable très corrélée la rejoint