La Régression Logistique

La Régression Logistique Pr Roch Giorgi roch.giorgi@ap-hm.fr Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée

Introduction (1) Modèle multivarié Exprimer une variable Y en fonction de plusieurs variables X i Y ( X +...+X +...+X ) = f i = 1,..., k 1 i k Y : caractérise la maladie (ou sa distribution dans la population) Variable quantitative ou qualitative X i : caractérisent les facteurs de risque de la maladie Variables quantitatives et/ou qualitatives

Introduction (2) Objectifs Prédire la valeur de Y en fonction des X i Quantifier l association entre Y et une exposition à un facteur caractérisé par X i en tenant compte de Plusieurs facteurs de confusion Variables quantitatives = relation linéaire dose-effet Y = f ( X +...+ +.. + X ) 1 i X. p

Régression : Exemple (1) Modélisation de la proportion de décès en fonction de la dose d un produit toxique Dose X j 0 10 30 50 70 90 100 n j 30 30 30 30 30 1 29 d j 0 3 3 13 25 1 28 p j 0 0,10 0,10 0,43 0,83 1,00 0,97 Utilisation de la régression linéaire p x pourrait être < 0 ou > 1 px = a + bx Observations non indépendantes entres elles : problèmes pour l estimation de la variance Équivalence des fréquences observées aux différentes doses alors que les effectifs peuvent être différents

Régression : Exemple (2) Modélisation de la proportion de décès en fonction de la dose d un produit toxique Dose X j 0 10 30 50 70 90 100 n j 30 30 30 30 30 1 29 d j 0 3 3 13 25 1 28 p j 0 0,10 0,10 0,43 0,83 1,00 0,97 Modélisation d une fonction des probabilités ( p) = p ( p) logit Ln 1 Pour tout p sur [0, 1] on aura une réponse sur ]-, + [ La proportion est directement modélisée, donc la variance Le poids de chaque fréquence observée dépend du nombre total de sujets ayant reçu la dose correspondante Modèle de Régression Logistique

Régression : Exemple (3) Si la fonction Logit est une fonction linéaire de la dose, on a ( ) ( ) Logit p = Ln p 1 p = α + βx donc p p x ( 1 ) = exp( α + β ) et p ( α + βx) ( α βx) ( α βx) exp 1 = = 1+ exp + 1+ exp + { }

Régression : Exemple (4) 1 0,8 Probabilité 0,6 0,4 0,2 0 x Représentation de : p 1 = 1 + exp 2 + 4 { ( x) }

Régression Logistique Variable à expliquer Y : qualitative binaire Présence / Absence d une maladie, d un signe, Modélise la probabilité que Y = 1 Variables explicatives X i : qualitative à n ( 2) classes, quantitative Age < 70 / Age 70 Age < 50 / 50 Age < 60 / 60 Age < 70 / Age 70 Age 40, 41, 42,

1 Variable X Binaire (1) { - Y= 0=M + { 1=M X= P( M ) 0=Non Exposé 1=Exposé = 1 + exp + X + 1 { ( α β )} P(M + ) P(M - ) Exposé : X=1 P 1 1 = 1 + exp α + β { ( )} 1-P 1 { ( α + β) } ( α β) = exp 1 + exp + { } Non Exposé : X=0 P 0 1 = 1 + exp α { } 1-P 0 { ( α )} ( α ) exp = 1 + exp { } OR P /1 P P /1 P 1 1 = = 0 0 exp ( β )

1 Variable X Binaire (2) Remarque Logit P ( P ) =Ln 1-P ( + ) ( ) P=P M X=x Logit P = α + βx Linéarité en β ( ) Ln OR P /1 P 1 1 = Ln P0 /1 P0 =Ln /1 Ln /1 ( P1 P1) ( P0 P0) ( α β) α = + Ln ( OR ) = β

Plusieurs Variables X Binaires (1) ( + ) 1 k P M X,..., X ( ) Logit P = α β i X i k + i=1 1 = k 1+ exp α + βix i= 1 i Pour une exposition E donnée ( ) β E Logit P = α X β i X i ( β ) k + + i=2 exp =OR lié à l exposition E ajusté sur les X i

Interprétation des Coefficients (1) ( ) Logit P = α + βx X ( ) X=x Logit P = α + βx 0 0 0 ( ) X=x Logit P = α + βx 1 1 1 OR = Odds Ratio entre les catégories 0 et 1 ( ) ( ) ( ) = β ( ) Ln OR =Logit P Logit P x x ( ) { β } OR=exp x x 1 0 Écart entre les 2 catégories 1 0 1 0

Interprétation des Coefficients (2) Variable X qualitative binaire X X=0 : non exposé X=1 : exposé ( ) { β } OR=exp x x 1 0 OR=exp ( β ) Exemple Y : cancer de la vessie X = 0 : non fumeurs X = 1 : fumeurs OR quantifie l excès de risque de cancer de la vessie chez les fumeurs par rapport aux non fumeurs

Variable X Qualitative à plus de 2 Classes ( ) α + β1 1+ β2 2 + β3 3 Logit P = X X X (1) X=0 Non fumeur X 1 X 2 X 3 0 0 0 X=1 Tabac brun 1 0 0 X=2 Tabac mixte 0 1 0 X=3 Tabac blond 0 0 1 OR =exp ( x x ) { β } i 0 i i 0 OR 1 ( ) Logit ( P 0 ) =α Logit ( P ) = ( ) ( ) 0 =exp β1 OR 2 0 =exp( β2 ) OR =exp β 3 0 α + β X 1 1 1 Logit P = α + β X 2 2 2 Logit P = α + β X 3 3 3 ( ) 3

Variable X Qualitative à plus de 2 Classes Si X est décomposé en 3 variables, elles doivent être toutes les 3 présentes (ou absentes) en même temps (2) X 1 X 2 X 3 X=0 Non fumeur 0 0 0 X=1 Tabac brun 1 0 0 X=2 Tabac mixte 0 1 0 X=3 Tabac blond 0 0 1 Logit ( P ) =α Logit ( P) + ' Logit ( P) + ' =α β X 1 1 =α β X 2 2 OR 1 0, 3 OR ( ' ) 1 =exp β 2 0, 3 ( ' ) 2 =exp β Pas de sens

Notion d Interaction (1) Type de tabac X 1 = 0 : Tabac blond ou mixte X 1 = 1 : Tabac brun Inhalation X 2 = 0 : Inhalent pas X 2 = 1 : Inhalent Odds ratio associés au tabac Si X 2 = 0 : OR(X 1,1 0 ) = 1,07 Si X 2 = 1 : OR(X 1,1 0 ) = 2,43 La relation entre le type de tabac et le cancer de la vessie n est pas la même selon qu il y ait ou pas inhalation Il y a une interaction entre le type de tabac et l inhalation

Notion d Interaction (2) Étude de la relation entre une maladie et l exposition à un facteur X 1 tout en tenant compte de l exposition à un X 2 ( ) α + β1 1+ β2 2 Logit P = X X avec X 1 et X 2 en 0/1 ( ) ( ) 1 ( ) si X = 1 : Ln OR = α + β + β α + β = β 2 X 1 2 2 1 si X = 0 : Ln OR = α + β α = β 2 X 1 1 1 L OR quantifiant la relation entre X 1 et M est le même quelle que soit la valeur de X 2 il n y a pas d interaction

Modèle avec Interaction Prise en compte d une interaction entre X 1 et X 2 ( ) α + β1 1+ β2 2 + β3 1 2 Logit P = X X X X avec X 1 et X 2 en 0/1 ( ) ( ) si X = 1 : Ln OR = α + β + β + β α + β 2 X 1 2 3 2 1 ( ) Ln OR =β + β X 1 3 1 ( ) si X = 0 : Ln OR = α + β α = β 2 X 1 1 1 Il y aura interaction entre X 1 et X 2 si β 3 0

Modèle avec Interaction : Exemple Type de tabac X 1 = 0 : Tabac blond ou mixte X 1 = 1 : Tabac brun ( ˆ ) Inhalation X 2 = 0 : Inhalent pas X 2 = 1 : Inhalent Logit P = 0,39 + 0, 066.TAB + 0,19.INHA + 0,82.TAB INHA avec 0,82 significativement 0 1,5 1 1,08 Ln(OR) 0,5 0,19 0 0 0,06-0,5 Blond-Mixte Brun Inhalent pas Inhalent

Régression Logistique avec R Fonction «glm» Variable à expliquer (0/1) Variable explicative (quantitative) Variable explicative (qualitative 3 classes) glm(hypo ~ poidsmer + scolarite, family=binomial, data=hypo2) Type de famille statistique Nom du fichier de données

Estimation des Paramètres (et variance) Estimation ponctuelle Attribuer une valeur au paramètre étudié à partir des observations faites sur l échantillon Estimateur Formule (procédure mathématique) utilisée pour obtenir l estimation D un échantillon à un autre L estimateur est le même L estimation varie selon les observations Repose sur la méthode du maximum de vraisemblance

Vraisemblance d un Échantillon Probabilité d obtenir un échantillon tel que celui qui est observé Exemple Fréquence d une maladie dans une population = 10% Quelle est P 1 =P(5 malades, n=20)? P(M)=0,10 P(nonM)=0,90 P(5 M et 15 nonm)=0,10 5 x0,90 15 Plusieurs configuration de 5 M parmi 20 20! 5 15 P1 = 0,10 0,90 = 0, 03 5!15! Si la fréquence de la maladie dans la population = 25% 20! 5 15 P2 = 0, 25 0,75 = 0, 20 5!15! Fonction de vraisemblance

Fonction de Vraisemblance 0,3 n=20 Malades=5 Vraisemblance 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Prévalence

Maximum de Vraisemblance (1) ( x) P M X= + 1 Échantillon de taille N = 1 + exp + Vraisemblance observation (x i, y i ), y i =1 M Vraisemblance de l observation (x i, y i ) = probabilité de faire cette observation Contribution à la vraisemblance du sujet i Le sujet est malade i { ( α βx) } + ( xi ) p =P M X= 1 = 1 + exp + { ( α βxi )} Le sujet n est pas malade exp{ ( x )} ( - ) i q i =P M X= x = α + β i 1 + exp{ ( α + βxi )}

Maximum de Vraisemblance (2) Vraisemblance de l ensemble des observations (probabilité d observer l ensemble de l échantillon) V = N n exp { ( α + βxi )} { ( α βxi )} 1+ exp + Maximum de vraisemblance non malades ensemble de l échantillon Choisir comme estimateur de α et β les valeurs et qui rendent V maximum c.à.d, parmi tous les modèles possibles on choisi celui qui rend l observation de l échantillon la plus probable Estimateur asymptotiquement sans biais, distribution asymptotiquement normale ˆα ˆβ

Maximum de Vraisemblance (3) L( β ) β β

Estimation : Exemple avec R Fichier de données «hypotrophie» Variable : «scolarite» > fit2 <- glm(hypo ~ scolarite, family=binomial, data=hypo2) > summary(fit2) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -0.3102 0.3970-0.781 0.4346 scolarite12+15-0.1694 0.4689-0.361 0.7179 scolarite16+ -0.8448 0.4634-1.823 0.0683 α β 1 (OR 12+15/<12 = exp(-0.1694) = 0.84) β 2 (OR 16+/<12 = exp(-0.8448) = 0.43)

Tests des Paramètres (1) Hypothèse testée H 0 : β= β 0 (le plus souvent, β=0) H 0 rejetée si ˆβ est «trop» éloigné de β 0 Test de Wald ˆβ Test du rapport de vraisemblance Écart entre et β 0 (rapporté à la variance) est trop grand Écart entre V max et V 0 est trop grand : Test du score La tangente à la courbe en est trop éloignée de l horizontale

Tests des Paramètres (2) L( β ) L( β ) L( β 0 ) Wald ou maximum de vraisemblance Rapport de vraisemblance Score β 0 β β

Tests des Paramètres (3) Test de Wald z ˆ β 2 2 2 = ~ χ 2 ddl=nd de variables S ˆ β Remarque : quand il y a une seule variable, on a ˆ β z = ~ N 0, 1 S ˆ β ( ) pour α=5%, z α/2 =1,96

Tests des Paramètres (4) Test du rapport de vraisemblance Modèle 1 : Logit P = α + β X vraisemblance V 1 Modèle 2 : Logit P = α + β X + β X vraisemblance V 2 V 1 V 2, car modèle 2 plus complet ˆβ 2 ( ) 1 1 ( ) ' ' ' 1 1 2 2 significativement différent de 0 si V 1 significativement inférieur à V 2 2 ( ) ( ) 2 Ln V2 Ln V1 ~ χ à 1 ddl Nombre de degrés de liberté fonction du nombre de paramètres à tester

Test des Paramètres : Exemple avec R Fichier de données «hypotrophie» Variables : «scolarite» et «poidsmer» Coefficients: Degré de signification pour chacun des paramètres estimés Estimate Std. Error z value Pr(> z ) (Intercept) 1.90809 0.99601 1.916 0.0554. poidsmer -0.03389 0.01415-2.395 0.0166 * scolarite12+15-0.56259 0.50706-1.110 0.2672 scolarite16+ -1.07963 0.48797-2.213 0.0269 * Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Test du Rapport de Vraisemblance Ne s applique qu à deux modèles emboîtés Un modèle est emboîté dans un autre modèle quand il est un sous-ensemble de ce dernier Modèle 1 : Logit P = α + β X + β X Modèle 2 : Modèle 3 : ( ) 1 1 2 2 ( ) ' ' ' ' + 1 1 + 2 2 + 3 '' '' '' '' ( ) =α + β X1 + β2x2 + β 4 Logit P =α β X β X β X 3 Logit P S étend au test de plusieurs coefficients à la fois Modèle 1 : V 1 Modèle 2 : 1 2 2 i V 2 X 1 4 ( ) α + β1 1 + β2 2 k ' ' ' ' ( ) X Logit P = X X Logit P = α β β β X + X 1 + + i= 1 2 ( ) ( ) 2 Ln V2 Ln V1 ~ χ à k ddl i x

Remarque : la Déviance (1) Déviance = variation de la log-vraisemblance Deviance = 2 Ln VM ( ) Ln( V ) m M = grand modèle m = petit modèle Modèle parfait : Probabilité que l événement étudié soit observé vaut 1 quand il est observé et 0 sinon

Remarque : la Déviance (2) Déviance résiduelle du modèle nul (Null deviance dans R) ( ) Ln( V ) Deviance Nul = 2 Ln VSaturé Nul Déviance résiduelle du modèle x (Residual deviance dans R) ( ) Ln( V ) Deviance = 2 Ln V x Saturé x

Remarque : la Déviance (3) Effet du facteur Deviance Nul Deviance x = 2 Ln Vx ( ) Ln( V ) suit une loi du χ 2 si le modèle nul est vrai à 1 ddl Nul Comparaison de 2 modèles emboîtés Deviance m Deviance M = 2 Ln VM ( ) Ln( V ) m suit une loi du χ 2 si le modèle nul est vrai à M - m ddl

Test de Modèles Emboîtés : Exemple avec R Fichier de données «hypotrophie» Variables : «scolarite» et «poidsmer» Teste : effet de «scolarite» > fit1<-glm(hypo~poidsmer, family=binomial, data=hypo2) > fit2<-glm(hypo~poidsmer+scolarite, family=binomial, data=hypo2) > deviance(fit1) [1] 230.6330 > deviance(fit2) [1] 225.0269 > dev <- deviance(fit1) - deviance(fit2) > 1 - pchisq(dev, 2) [1] 0.06062354 Modèle fit1 emboîté dans le modèle fit2 Différence des déviances qui suit une loi du χ 2 si le modèle nul est vrai à 3-1 ddl

Codage des Variables Variable ordonnée X 1 X 2 X=0 0 0 X=1 1 0 X=2 0 1 Modèle 1 : Logit P = ( ) α + β1x1 Logit P = α + β X + β X ' ' ' 1 2 Modèle 2 : ( ) 1 2 Le modèle 1 est un cas particulier du modèle 2 pour ( ) Logit P = α + β X + β X ' ' ' 1 2 1 2 = α + β X + 2β X ' ' ' 1 2 1 1 1 ( ) = α + β X + 2X = α + β X ' ' ' ' 1 2 2 ' ' β = β = β 2 1

Codage des Variables Quantitatives (1) X : variable quantitative Modèle 1 : ( ) Logit P = α + βx Impose une linéarité entre Logit(P) et X Tester si cette hypothèse est réaliste

Codage des Variables Quantitatives (2) Méthode 1 Modèle 1 : ( ) Logit P = α + βx ( ) 2 3 Modèle 2 : Logit P = α1+ β1x + β2x + β3x +... ou Logit ( P ) = α1+ β1x + β2lnx +... ou Comparaison des modèles 1 et 2 par le rapport de leurs vraisemblances Test de β 2 = β 3 = = 0 Si non nuls ce n est pas linéaire, il faut donc les inclure

Codage des Variables Quantitatives (3) Méthode 2 Modèle 1 : ( ) Logit P = α + βx Transformer X en (k-1) variables qualitative X binaires Modèle 2 : ( ) Logit P = α k 1 + i= 1 β X Le Modèle 2 peut donner des idées des regroupements en classe à réaliser i ' i

Test d Adéquation du Modèle Adéquation : capacité à bien représenter les données Soit les variables Y : malade / non malade, X 1, X 2, X 3, Pour le sujet i Observation : y i = 0 ou y i = 1 + Modèle logistique : yˆ = P M X,..., X = ( 1 ) i k k 1 1+ exp α + i= 1 β X i i Comparer ce qui est prédit par le modèle à ce qui est observé sur l échantillon ~ χ 2 de comparaison d une distribution observée à une distribution théorique Test de Hosmer-Lemeshow

Choix du Modèle (1) Choix des variables Choix du codage Choix des interactions Imposées par les connaissances (variables «forcées») Procédure de sélection basée sur des critères statistiques Pas à pas ascendante Pas à pas descendante

Choix du Modèle (2) Procédure pas à pas ascendante Débuter par le modèle vide, ou par le modèle ne contenant que les variables non soumises à un test Sélectionner la variable X k ne faisant pas partie du modèle la plus liée statistiquement avec Y Continuer à partir du nouveau modèle en sélectionnant la variable X p ne faisant pas partie du nouveau modèle la plus liée statistiquement avec Y Arrêt lorsque aucune variable ne peux entrer dans le nouveau modèle Critères inclusion Rapport de vraisemblance Test de Wald Ajout si modification significative au seuil 5%, ou autre

Choix du Modèle (3) Procédure pas à pas descendante Débuter par le modèle contenant toutes les variables, ainsi que les éventuelles interactions Éliminer la variable X k faisant partie du modèle la moins liée statistiquement avec Y Continuer à partir du nouveau modèle en éliminant la variable X p faisant partie du nouveau modèle la moins liée statistiquement avec Y Arrêt lorsque aucune variable ne peux sortir du nouveau modèle Critères d exclusion Rapport de vraisemblance Test de Wald Élimination si modification non significative au seuil 5%, ou autre

Principales Étapes de l Analyse Contrôle de la qualité des informations recueillies Avec contrôle de la cohérence des observations par rapport à la question posée, au protocole et aux connaissances sur la question posée Analyses statistiques Étude des liens bruts entre les facteurs potentiellement explicatifs et le facteur à expliquer Étude des liens ajustés entre un facteur potentiellement explicatif et le facteur à expliquer Analyses multivariées plus détaillées Interprétation des résultats

Sources Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Stengel B, Clavel J. Épidémiologie : Principes et méthodes quantitatives. INSERM, Paris. Whitehead J. An Introduction to Logistic Regression http://www.appstate.edu/~whiteheadjc/service/logit/index.htm