Séminaire d Epidémiologie Animale Analyse de données de dénombrements et de taux

Protocole n 001117004 Le contexte La distribution de Poisson Le modèle de (régression) de Poisson Interprétation des coefficients du modèle de Poisson Exemple : Impact de la FCO sur la mortalité des veaux Evaluation du modèle La sur-dispersion Modélisation de la sur-dispersion Impact de la FCO sur la mortalité des veaux (suite) 28-30/09/2011 Service Biométrie (CL)

Le contexte Protocole n 001117004 On s intéresse à la fréquence d apparition d un certain événement sur une population donnée. Les variables analysées sont essentiellement des dénombrements : Le nombre d IA fécondantes, le nombre de mammites par vache au cours d une lactation, le nombre d animaux positifs à un test sérologique Caractéristiques de ces variables : 1. Le nombre d occurrences n est pas borné en théorie. 2. Ce nombre peut être rapporté à une population à risque variable (taille de troupeau) ou bien avec un recul différent suivant les animaux (cas des sorties d animaux du troupeau). Dans ce dernier cas le nombre de cas est rapporté à un nombre «d animaux * unité de temps» et la variable analysée est un taux d incidence. 28-30/09/2011 Service Biométrie (CL) 2

La distribution de Poisson { } r( ) Y= y 0... P Y = y = y µ * µ exp( ) y! µ est la moyenne de Y (E(Y) = µ) ainsi que la variance (var(y) = µ) 0,50 0,50 0,40 0,40 0,30 0,30 0,20 0,20 0,10 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 µ= 0,8 µ= 5 28-30/09/2011 Service Biométrie (CL) 3

Deux façon de présenter la loi de Poisson : 1.«temporelle» La distribution de Poisson On observe les apparitions successives de l événement étudié M pendant l intervalle [t ; t+ t]. Si le risque instantané d apparition de l événement est constant pendant l intervalle [t ; t+ t], le temps entre deux événement T suit uneloiexponentielle de paramètre τ. Alors le nombre d évènements observés dans l intervalle [t ; t+ t] suit une loi de Poisson de paramètre µ = t/ τ. Lien avec les modèles de Survie Exemple: On a estimé à τ =150 jours le temps moyen entre deux mammites dans une population donnée sur une lactation de t=300 jours. Le nombre de mammites pendant une lactation Y P(µ=300/150=2) 28-30/09/2011 Service Biométrie (CL) 4

2.«Binomiale» La distribution de Poisson On s intéresse à l apparition d une maladie dans une population de taille N importante. On pose que la maladie est rare (Prévalence π << 1) Alors la distribution du nombre de cas observés dans un échantillon de taille n suit une loi binomiale B(n, π) qui peut être approximée par une loi de Poisson de paramètre µ = n * π Exemple suite: Protocole n 001117004 La probabilité d occurrence d une mammite un jour donné est π = 1/150=0,0067. Le nombre moyendemammitessur300jours,basésurlabinomialeb(300, 0,0067) est300 * 0,0067=2 28-30/09/2011 Service Biométrie (CL) 5

Le modèle de (régression) de Poisson Protocole n 001117004 Cas«temporel» (modélisation d un taux d incidence) On modélise la fréquence d observation Y d un événement donné M dans une cohorte pendant une période [t ; t+ t]. Le modèle posé est un modèle de Poisson de paramètre µ. Tous les animaux n ont pas le même recul dans l étude (sorties d animaux de la cohorte). On tient compte du nombre d unités de temps pendant lesquels chaque animal est à risque vis-à-vis de l événement M. Le nombre moyen d événements µ s exprime en fonction du nombre total d animaux * unité de temps à risquedet du taux d incidence moyen par unité de temps λ. E(Y) = µ= D * λ 28-30/09/2011 Service Biométrie (CL) 6

Le modèle de (régression) de Poisson Protocole n 001117004 Le taux d incidence moyen λ peut être modélisé en fonction de l exposition à des facteurs de risque X. λ = λ (x) = exp β 0 + β1 * x ( ) Le modèle sur le nombre d occurrence Y s écrit alors : En échelle Log : ( ) = * ( β 0 + β1 * ) E Y X D exp x ( ( )) = β + β + ( ) Log e E Y X 0 1 * x Log e D [1] Le terme Loge(D) est appelé «OFFSET». C est un terme de calage qui représente pour chaque animal son nombre de jours d exposition au risque. 28-30/09/2011 Service Biométrie (CL) 7

Casd unevariablexbinaire (=1 exposé / =0 non exposé ) Interprétation des coefficients du modèle de Poisson ( ( )) = β + β + ( ) Log e E Y X 0 1 * x Log e D ( ) * ( ) * E Y x = 1 D λ(1) λ(1) β 1 = Loge Loge Loge E Y x = 0 = D λ(0) = λ(0) exp(β1) représente le rapport des taux d incidence entre animaux soumis au facteur de risque x (x=1) et les animaux non exposés (x=0). Cas d une variable X continue Protocole n 001117004 exp(β1) représente l accroissement (multiplicatif) du taux d incidence pour un accroissement de une unité du niveau du facteur de risque X. 28-30/09/2011 Service Biométrie (CL) 8

Étude FCO 28-30/09/2011 Service Biométrie (CL) 9

Étude FCO Le contexte Étudier les conséquences de l épizootie de FCO en 2007 sur la mortalité des veaux. Période étudiée : juillet à décembre 2007 Période de référence : juillet à décembre 2006 Étude sur trois systèmes de production Laitiers, allaitants, mixtes Analyse présentée sur systèmes laitiers Catégorie : veaux de moins de 1 mois 28-30/09/2011 Service Biométrie (CL) 10

Population étudiée (pour la session) 8619 élevages laitiers renseignés les deux années Taille 1(= 30]) ; 2(=]30 70]) ; 3(=]70 ) Unité statistique : l élevage Étude FCO taille témoins cas 1 451 105 2 1120 703 3 2447 3793 4018 4601 Protocole n 001117004 Définition d un élevage cas : élevage ayant eu un cas de FCO déclaré pendant la période étudiée. 28-30/09/2011 Service Biométrie (CL) 11

Étude FCO Variable analysée Le nombre de veaux déclarés morts pendant la période ( nb_anx_morts_c1 ) OFFSET Le nombre de veaux * jours à risque ( anx_jours_risque ). Covariables 1. L année (référence 2006 ( AN1 )) 2. La taille des troupeaux ( Taille ) 28-30/09/2011 Service Biométrie (CL) 12

Étude FCO Histogrammes par année du nombre d animaux_jours à risque 30 25 20 (1) Variable N Minimum Quartile inf Median nb_anx_moy_2006 69 131 317 432 nb_anx_moy_2007 69 151 381 457 2006 1 Percent 15 10 Mean Quartile sup Maximum 480 570 1100 518 614 1279 5 0 30 25 2007 2 Percent 20 15 (1) 69élevages * années:anx_jours_risque>18000 31(2006); 38(2007) 10 5 0 0 4500 9000 13500 18000 22500 27000 31500 36000 40500 45000 49500 54000 58500 63000 67500 72000 76500 81000 anx_jours_risque 28-30/09/2011 Service Biométrie (CL) 13

Étude FCO Histogrammes par année du taux d incidence de mortalité(λ) (x 1000) 79,2% d élevages * année sans cas (81,9% 2006 ; 76,5% 2007) 2006 1 Percent 90 80 70 60 50 40 30 20 10 0 90 80 Variable N Minimum Quartile_inf Median nb_anx_moy_2006 58 2 28 45 nb_anx_moy_2007 58 10 26 42 anx_jours_risque 58 23,0 89,0 144,0 Mean Quartile_sup Maximum 45 57 115 43 54 112 156,6 194,0 430,0 70 60 2007 2 Percent 50 40 30 58élevages * années:λ>5 29(2006); 29(2007) 20 10 0 0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0 taux_anx_morts_c1 28-30/09/2011 Service Biométrie (CL) 14

Étude FCO Le modèle (SAS) nb_anx_morts_c1 = fco taille annee 3 effets marginaux fco * taille fco * annee annee * taille 3 interactions d ordre 1 fco * taille * annee interaction d ordre 2 / distance=negbin Binomiale Négative offset=nb_anx_jours_c1 Loge(nb_anx_jours_risque) scale=pearson correction de la sur-dispersion type3; effets ajustés de type 3 Modèle complet(paramétrage maximal) 28-30/09/2011 Service Biométrie (CL) 15

Étude FCO Résultats (témoins) témoins Taille n λ(année 1) λ(année 2) IR(An 2/1) 30] 451 0,174 0,120 0,687 [0,094 ; 0,324] [0,062 ; 0,231] [0,279 ; 1,695] ]30 70] 1120 0,145 0,125 0,862 [0,114 ; 0,184] [0,098 ; 0,160] [0,613 ; 1,212] ]70 2447 0,098 0,109 1,111 [0,087 ; 0,110] [0,098 ; 0,122] [0,945 ; 1,306] Total 4018 0,135 0,118 0,870 [0,108 ; 0,170] [0,093 ; 0,149] [0,628 ; 1,205] λ(année 1) = taux d incidence prédit année 1 (x 10 3 ); IR = λ(année 2)/ λ(année 1) [inf ; sup] = intervalles de confiance au niveau 95% 28-30/09/2011 Service Biométrie (CL) 16

Étude FCO Résultats (cas) Cas Taille n λ(année 1) λ(année 2) IR(An 2/1) 30] 105 0,277 0,188 0,678 [0,101 ; 0,760] [0,069 ; 0,515] [0,163 ; 2,825] ]30 70] 703 0,115 0,225 1,955 [0,086 ; 0,154] [0,178 ; 0,285] [1,350 ; 2,833] ]70 3793 0,073 0,125 1,713 [0,067 ; 0,080] [0,116 ; 0,136] [1,512 ; 1,940] Total 4601 0,133 0,174 1,315 [0,093 ; 0,189] [0,123 ; 0,247] [0,803 ; 2,152] λ(année 1) = taux d incidence prédit année 1 (x 10 3 ); IR = λ(année 2)/ λ(année 1) [inf ; sup] = intervalles de confiance au niveau 95% 28-30/09/2011 Service Biométrie (CL) 17

Étude FCO Protocole n 001117004 Comparaison cas vs témoin par année IR(cas /témoin) Taille Année 1 Année 2 An 2/1 30] 1,591 1,570 0,987 [0,487; 5,197] [0,471; 5,229] [0,182; 5,339] ]30 70] 0,793 1,800 2,269 [0,546; 1,153] [1,284 ; 2,523] [1,371 ; 3,755] ]70 0,746 1,150 1,541 [0,642 ; 0,867] [1,001 ; 1,320] [1,257 ; 1,890] IR = λ(cas, Année t)/ λ(témoins, Année t) [inf ; sup] = intervalles de confiance au niveau 95% 28-30/09/2011 Service Biométrie (CL) 18

Étude FCO (Conclusions) 1. Pas d accroissement de la mortalité en 2007 chez les élevages témoins (taux d incidence moyen λ(témoins,2006)=0.14 animal * jour;[0,11 ;0,17 ] (taux d incidence moyen λ(témoins,2007)=0.12 animal * jour;[0,09 ;0,15 ] 2. Accroissement de la mortalité chez les élevages cas en 2007 pour les élevages de taille 2 et 3 taille 2 : IR = 2,0 (pouruntauxd incidence λ=0,12 en2006) taille 3 : IR = 1,7 (λ=0,07 en2006) 3. Risques comparables des élevages cas et témoins en 2006 Risque plus faible chez les élevages cas en 2006 pour les troupeaux de taille 3 IR(cas/témoins) = 0,75(explication?...) Taux d incidence plus élevés chez les élevages cas en 2007 pour les troupeaux de taille 2 et 3 Taille 2 : λ(cas)=0,23 vs λ(témoins)=0,13 ; Taille 3 : λ(cas)=0,13 vs λ(témoins)=0,11 ; L accroissement du taux d incidence (IR) des élevages cas par rapport aux témoins est plus élevé en 2007 (par rapport à 2006) pour les élevages de taille 2 (évident) et 3. 28-30/09/2011 Service Biométrie (CL) 19

Evaluation du modèle Protocole n 001117004 On dispose des mêmes outils que pour les données binaires. - résidus de Pearson Khi-deux de Pearson - résidus de déviance Khi-deux de déviance + résidus d Anscombe (très similaires aux résidus de deviance mais distribués suivant une loi Normale si le modèle de Poisson ajuste correctement les données ) Le problème de la sur-dispersion Très souvent à l origine d un modèle mal ajusté sur les données 28-30/09/2011 Service Biométrie (CL) 20

La sur-dispersion Causes Variables cachées (variables latentes ), Loi de Poisson inappropriée Conséquence La variance de la réponse Y est supérieure à la variance de la loi de Poisson posée sur les données. var( Y ) = φ * µ φ 1 Protocole n 001117004 Le paramètre φ est appelé paramètre de dispersion. Une valeur de ce paramètre supérieure à 1 est le signe d une sur-dispersion des données par rapport à la variance du modèle de Poisson. Vérification S ii y a sur-dispersion les statistiques de Khi-deux de Pearson et de Deviance sont supérieures (en moyenne) à leurs degrés de liberté (n p 1) où n est le nombre de données et p le nombre de variables X. 28-30/09/2011 Service Biométrie (CL) 21

La sur-dispersion Protocole n 001117004 Une première solution Une solution proposée par certain logiciels (SAS entre autres) consiste à rester dans le cadre du modèle de Poisson et à corriger les écarts-types des estimations des paramètres β en les multipliant par ˆφ. Les estimations des paramètres β restent inchangées mais les tests sont corrigés à la baisse. Cette méthode n est toutefois pas recommandée lorsque la sur-dispersion est due à des variables omises dans le modèle (risque de biais). Une seconde solution On autre solution consiste à modéliser la forme de la variance du nombre d évènements de façon à tenir compte de la sur-dispersion. Au choix du modèle posé sur la variance correspond une loi de probabilité sur Y différente de la loi de Poisson. Trois approches sont possibles, proposées par les logiciels. 28-30/09/2011 Service Biométrie (CL) 22

Modélisation de la sur-dispersion Modélisation de la variance ( ) ( ) var Y 1 = + α * µ * µ Cette expression du paramètre de dispersion φ = (1 + α * µ) correspond à une loi de probabilité Binomiale Négative du nombre d évènements Y (Agresti, A. (1990)). Si α = 0 on retrouve la distribution de probabilité de Poisson. Le modèle s écrit de façon analogue au modèle de Poisson E(Y) = µ = D * λ avec λ = exp(β0 + β1 * x) Le coefficient β1 a la même interprétation que dans le cas du modèle de Poisson. Des modèles plus complexes peuvent être posés dans lesquels le paramètre α peut être fonction devariables Zfigurantparmilesvariables Xoupas 28-30/09/2011 Service Biométrie (CL) 23

Modélisation de la sur-dispersion Protocole n 001117004 La loi de Poisson généralisée Cette loi est une loi à deux paramètres, un paramètre d échelle µ et un paramètre de forme ζ (Joe, H., Zhu, R. (2005)). La moyenne et la variance de cette loi sont : La moyenne : La variance : * µ E( Y) = µ = 1 ζ * µ µ var( Y) = = 1 ζ 1 ζ ( ) ( ) 3 2 Cette loi de probabilité qui correspond à un paramètre de dispersion fonction du paramètre de forme φ=1/(1-ζ) 2 fournit parfois des bons résultats lorsque l ajustement par une Poisson ou une binomiale négative a échoué. 28-30/09/2011 Service Biométrie (CL) 24

Modélisation de la sur-dispersion Protocole n 001117004 Les modèles zero-inflated Il existe des situations où aucun des modèles précédents n ajuste correctement les données. C est le cas notamment lorsque l on observe un nombre très élevé d individus chez lesquels l événement ne s est pas produit. On peut rencontrer ce type de situations lorsque l événement est la conséquence de deux processus qui se superposent. Par exemple dans le cas de la Pneumonie enzootique chez les porcs, causée principalement par la bactérie Mycoplasma hyopneumoniae. La bactérie peut être à l état endémique dans certains élevages et absente dans d autres [VER 18.7]. Chacun de ces élevages va contribuer aux nombre d élevages sans cas déclarés. Les modèles Zero-Inflated Poisson ZIP permettent de prendre en compte ce type de situations. 28-30/09/2011 Service Biométrie (CL) 25

Les modèles ZIP Ces modèles ont deux composantes analysées simultanément. - Un modèle logistique sur le nombre de résultats sans observation de l événement (Y=0) - Un modèle de Poisson (ou une autre loi, binomiale négative, Poisson Généralisé) sur les autres réponses de Y (1, 2 ) Test possible pour comparer les modèles ZIP à des modèles plus simples (test de Vuong ) Dans SAS deux procédures permettent ce type d ajustement GENMOD et COUNTREG dans SAS/ETS (option ZIP de model) 28-30/09/2011 Service Biométrie (CL) 26

Étude FCO : évaluation du modèle Overdispersion Distribution de Poisson : φ = 3,04 Distribution Binomiale Négative : φ = 1,48 Zéro-Inflated Model Pas de facteurs identifiés prédicteurs de la probabilité d être exempt de cas Finalement Distribution Binomiale Négative avec correction de la sur-dispersion résiduelle 28-30/09/2011 Service Biométrie (CL) 27

Étude FCO : évaluation du modèle Analyse des résidus Protocole n 001117004 35 50 30 40 25 20 30 Percent Percent 15 20 10 10 5 0-10.0-9.2-8.4-7.6-6.8-6.0-5.2-4.4-3.6-2.8-2.0-1.2-0.4 0.4 1.2 2.0 2.8 3.6 4.4 5.2 6.0 6.8 7.6 8.4 9.2 10.0 Raw Residual Résidus bruts 0-1.0-0.2 0.6 1.4 2.2 3.0 3.8 4.6 5.4 6.2 7.0 7.8 8.6 9.4 10.2 11.0 11.8 12.6 13.4 14.2 15.0 15.8 16.6 17.4 18.2 19.0 19.8 20.6 21.4 22.2 23.0 23.8 24.6 Pearson Residual Résidus de Pearson 28-30/09/2011 Service Biométrie (CL) 28

. 20 Raw Residual Étude FCO : évaluation du modèle Années FCO Taille Raw Residual Raw Residual 20 20 10 10 10 0 0 0-10 -10-10 -20-20 -20 1 2 annee 0 1 fco 1 2 3 taille Pearson Residual Pearson Residual Pearson Residual 30 30 30 20 20 20 10 10 10 0 0 0-10 -10-10 1 2 annee 0 1 fco 1 2 3 taille 28-30/09/2011 Service Biométrie (CL) 29

Étude FCO : évaluation du modèle Protocole n 001117004. 28-30/09/2011 Service Biométrie (CL) 30

Éléments de bibliographie Agresti, A. (1990) categorical Data Analysis, New-York: John Wiley & Sons.. Dohoo, I., Martin, W., Stryhn, H. : Veterinary Epidemiologic Research 2003 AVC Inc. Cameron, A. C., Trivedi, P. K. (1998), Regression Analysis of Count Data, Cambridge: Cambridge University Press. Joe, H., Zhu, R. (2005), "Generalized Poisson Distribution: The Property of Mixture of Poisson and Comparison with Negative Binomial Distribution," Biometrical Journal, 47, 219 229 28-30/09/2011 Service Biométrie (CL) 31