La régression de Poisson Théorie et Applications SAS Albert Bonniot Grenoble (Version du 02/2012)
Introduction Principe : Modéliser une variable discrète positive En principe un nombre de quelque chose (comptage) Un événement plutôt rare Exemple = Nombre de visites chez le médecin Nombre de failles d un système d exploitation Nombre d appels à un standard téléphonique
Modèle de Poisson P( y = r) = λ r e r! λ Avec r = 0,1,2, Et λ le paramètre Propriété de la loi de Poisson : E(Y) = Var(Y) = λ La moyenne est égale à la variance! Le seul paramètre λ permet de modifier la forme de la distribution On a besoin d estimer un λ qui permette à la distribution théorique de coller à celle de nos données
Modèle de Poisson 0,3 0,25 P(y=r) 0,2 0,15 Λ = 2 0,1 0,05 Variance = 2 0 0 1 2 3 4 5 6 7 8 9 10 r 0,25 0,2 P(y=r) 0,15 0,1 Variance = 3 Λ = 3 0,05 0 0 1 2 3 4 5 6 7 8 9 10 r
Modèle de Poisson Modèle de Poisson fait partie des modèles linéaires généralisés : Fontion de lien LOG et distribution de POISSON PROC GENMOD sous SAS Fonction GLM sous R log λ = β + β x + β x 2 +... + β x i 0 1 i 1 2 i2 k ik On modélise le log du λ comme une combinaison linéaire des covariables X et de leurs paramètres β
Données illustration Étude FRATER Étudier le nombre d arrachements de tuyaux en réanimation par semaine N = 97 semaines Y = nbre d arrachement /semaine X = Age médian des patients de la semaine i Proportion de femmes dans la semaine i Nombre minimum d infirmière dans la semaine i Etc
Modélisation sous SAS proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=poisson; run; Analyse des résultats estimés de paramètres Paramètre DF Estimation Erreur Wald 95Limites de confiance standard % Khi 2 Pr > Khi 2 Intercept 1 1.0598 0.0866 0.8900 1.2296 149.64 <.0001 p_femme 1-0.0082 0.0039-0.0158-0.0006 4.49 0.0341 Scale 0 1.0000 0.0000 1.0000 1.0000 Exp(β p_femme ) s interprète comme un Risque Relatif (RR) : Ex : RRp_femme=exp(-0.0082)=0.992 donc le nombre d incidents diminue de 1/0.992 = 0.82% pour chaque augmentation de 1 point du pourcentage de femmes /!\ L effet des variables quantitatives sur Y doit être log linéaire
Modélisation sous SAS Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 95 187.8591 1.9775 Scaled Deviance 95 187.8591 1.9775 Pearson Chi-Square 95 163.4784 1.7208 Scaled Pearson X2 95 163.4784 1.7208 Log Likelihood -15.7139 DF = Nombre obs. Nombre de paramètres La Déviance (-2log L) suit un Chi 2(n-p ddl) Pearson Chi square estime la déviance On s intéresse surtout à la quantité (VALEUR/DF) : Doit être très proche de 1 Dans notre cas : D =1.98 Problème de Sur dispersion
Problème de sur dispersion Problème majeur du modèle de Poisson Hypothèse du modèle de Poisson : E(Y) = Var(Y) = λ En réalité la variance est souvent plus élevée! Sous estimation des écarts types surestime les stats de test augmente significativité! Des solutions existent : Introduire un terme de bruit qui correspond à la variance de Y non expliqué par les variables Modèle de régression négative binomiale (extension du modèle de Poisson) Autres solutions plus complexes (non traité)
Sur dispersion Correction avec un terme de bruit : Dscale : Par le ratio Déviance/DF Pscale : Par le ratio Pearson X2/DF Dans la littérature le 2 nd est préféré proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=poisson PSCALE; run; Dev/DF = Dscale Pea/DF = Pscale
Scale = Racine(1.72) SE scaled =SE * Scale Khi2 scaled =Khi2/scale² Surdispersion Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 95 187.8591 1.9775 Scaled Deviance 95 109.1680 1.1491 Pearson Chi-Square 95 163.4784 1.7208 Scaled Pearson X2 95 95.0000 1.0000 Log Likelihood -9.1316 Analyse des résultats estimés de paramètres Paramètre DF Estimation Erreur standard Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1 1.0598 0.1137 0.8371 1.2826 86.96 <.0001 p_femme 1-0.0082 0.0051-0.0182 0.0018 2.61 0.1063 Scale 0 1.3118 0.0000 1.3118 1.3118 Après correction de la surdispersion la variable proportion de femmes n est plus significative!
Régression Binomiale négative Extension du modèle de Poisson pour palier au problème de sur dispersion Inclusion d un terme de bruit log β β i x β 0 + 1 i1 + 2xi2 λ = +... + β x + σε k ik i proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin; run;
Régression binomiale négative Paramètre DF Estimation Erreur standard Analyse des résultats estimés de paramètres Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1 1.0604 0.1163 0.8325 1.2884 83.12 <.0001 p_femme 1-0.0083 0.0050-0.0181 0.0016 2.70 0.1004 Dispersion 1 0.3393 0.1143 0.1153 0.5633 Les résultats sont très proches des précédents
Ajustement par variable OFFSET Exemple du temps d exposition Processus de comptage Le temps d exposition peut être différent entre les observations Influence évidente de la durée d exposition sur le nombre d événements observés 12 appels 6 appels 10 appels 15 appels Le temps d exposition est un facteur connu mais qui ne nous intéresse pas donc on veut ajuster dessus
Ajustement par variable OFFSET Solution : Introduire le temps d exposition t P( y = r) = ( λ t i i ) r e r! log i log( ti ) + β0 + β1xi 1 + β2xi 2 λ λ = +... + β x + σε Le temps est introduit sans coefficient, il est pris en compte mais son coefficient forcé a 1.0 Dans notre cas, le nombre de patients présents dans la semaine i peut être introduit comme variable OFFSET! proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=nb_patients; run; i t i k ik i
Sélection des variables Est-ce que une variable X apporte de l information sur Y? Test de Type 3 Est-ce que l ajout d une variable X dans le modèle précédent apporte de l information de façon significative? Test de Type 1 (séquentiel) proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=logtemps; Output out=sortie pred=lambdaest TYPE1 TYPE3; run;
Sélection de variables Exemple de procédure de sélection de type «Backward» 1. Tester l apport de Déviance de chaque variable indépendamment (Test de Type 3) 2. Entrer toutes les variables retenues dans le modèle 3. Retirer une à une les variables les moins significatives jusqu à ce que les variables restantes soient toutes significatives D autres méthodes peuvent être appliquées!
Prédiction Avec nos paramètres estimés précédemment : A Combien d arrachement de tuyau peut on s attendre s il y a 80 % de femme? Log(λ est ) = 1.0604-0.0083 P_FEMMEi = 0.3964 Exp(log(λi est )) = λi est = exp(0.3964) = 1.48 arrachements! Le λiest est la valeur «attendue» de Y pour l individu i Notes : Ne pas oublier d introduire la variable offset si elle existe. SAS donne en sortie l estimation du λ est pour chaque individu proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=logtemps; Output out=sortie pred=lambdaest; run;
Avantages et inconvénients Avantages Spécialement adapté aux variables discrètes Assez simple à utiliser Inconvénients Problème de sur dispersion quasi systématique Avoir une variable dépendante avec une distribution poissonienne (pas évident!)
Modèle sur étude FRATER Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 91 152.9359 1.6806 Scaled Deviance 91 101.9964 1.1208 Pearson Chi-Square 91 136.4477 1.4994 Scaled Pearson X2 91 91.0000 1.0000 Log Likelihood 1.1655 Modèle de Poisson Pearson Khi2 scale Offset = Log(nb jours-patient) Paramètre DF Estimation Erreur standard Analyse des résultats estimés de paramètres Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1-4.2643 0.7176-5.6709-2.8578 35.31 <.0001 p_sypt_chpsurv 1 0.0324 0.0104 0.0120 0.0527 9.73 0.0018 p_sympt_coma 1 0.0499 0.0134 0.0237 0.0761 13.93 0.0002 p_femme 1-0.0147 0.0048-0.0242-0.0052 9.24 0.0024 p_kta 1 0.0974 0.0367 0.0255 0.1693 7.05 0.0079 p_sondeu 1-0.0252 0.0103-0.0453-0.0050 6.01 0.0143 Scale 0 1.2245 0.0000 1.2245 1.2245
p_obs 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 nb_i nci dent s PLOT Obser ve Pr edi t
pcum_obs 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 nb_i nci dent s PLOT Obser ve Pr edi t