Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Transcription

1 M1 MLG Année Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3. Les données sont extraites du registre des cancers du Tarn. Elles concernent des patients ayant déclaré un cancer entre 1982 et L objet de cette analyse est d étudier le nombre de cancers en fonction de la localisation du cancer et du sexe du patient ; pour cela, on met en œuvre un modèle log-linéaire à 2 facteurs croisés. 1. Copiez la table SAS cancer (envoyée par mail). La table contient les variables suivantes : la localisation (notée loc), à 3 niveaux : A = Voies digestives ; B = Peau ; C = Organes génitaux et voies urinaires le sexe (noté sexe) : 1 = Femme / 2 = Homme, le nombre de patients (noté n). Vérifiez son contenu. Eléments de réponse : La table cancer contient 6 observations correspondant aux 6 combinaisons possibles entre la localisation (A, B ou C) et le sexe (Homme/Femme). La variable n fournit le nombre de patients atteints de cancers répartis selon la localisation du cancer et le sexe du patient. 2. Affichez la table de contingence à l aide de la procédure FREQ. Etant donné le format de la table SAS (données regroupées par localisation et par sexe), vous devez utiliser l instruction weight (qui attribue à chaque cellule un poids égal à n) : proc freq data=... ; weight n ; tables loc * sexe / chisq ; run; Commentez ce tableau croisé. Eléments de réponse : Le test d indépendance du Khi-2 est significatif (p-value= 0.03) montrant une dépendance significative entre les 2 facteurs. En commentant les profils-lignes et les profilscolonnes, on peut en déduire que : Chez les femmes, les cancers de type A et C sont les plus fréquents (respectivement, 48% et 39%), contrairement aux cancers de type B (12%). Chez les hommes, la fréquence des cancers de type B est similaire (11.7%). En revanche, les cancers de type C sont plus présents (47%) que chez les femmes au détriment des cancers de type C (41%). Globalement, sur l ensemble de l échantillon, il y a 59% de femmes : cette proportion est plus élevée parmi les cancers de type A (63%) que parmi les cancers de type C (54%). 3. Lancez la procédure GENMOD pour estimer le modèle saturé de la façon suivante : 1

2 proc genmod data=... ; class loc sexe ; model n = loc sexe / dist=poisson link=log; run; Note : en spécifiant loc sexe en variables explicatives, cela revient à spécifier loc sexe loc*sexe, c est-à-dire le modèle avec interactions (saturé). A partir des informations détaillées sur les sorties de la procédure GENMOD, suivez les commentaires sur les résultats obtenus : Informations sur le modèle Informations sur le modèle Data Set (A) Distribution (B) Link Function (C) Dependent Variable (D) SASUSER.CANCER Poisson Log n Number of Observations Read (E) 6 Number of Observations Used (E) 6 Informations sur le niveau de classe (F) Classe Niveaux Valeurs loc 3 A B C sexe (A) Table / Data set : table SAS utilisée dans la procédure. (B) Distribution : distribution de la variable réponse. Dans le cas d un modèle log-linéaire, on modélise un nombre d évènements, distribué selon une loi de Poisson, comme spécifié dans le code de la procédure par dist. (C) Link function : Fonction de lien associée à la loi de Poisson : fonction ln, comme mentionné dans le code de la procédure par link. (D) Dependent variable : variable réponse que l on cherche à expliquer par ce modèle, c est le nombre d évènements observés. (E) Nombre d observations lues/utilisées : Nombre d observations lues et utilisées pour l analyse. Le nombre d observations utilisées peut être inférieur au nombre d observations lues en cas de valeur manquante. Par défaut, SAS supprime les observations manquantes ou incomplètes. Le nombre d observations correspond au nombre de lignes dans la table SAS ; ici, c est le nombre de combinaisons possibles obtenues en croisant tous les facteurs. (F) Level information : liste les facteurs pris en compte dans le modèle, spécifiés comme variable qualitative dans l instruction CLASS. SAS y précise le nombre de niveaux de chaque facteur et les valeurs de ces niveaux. Ajustement global du modèle Critères d évaluation de l adéquation Critère DDL (K) Valeur (L) Valeur/DDL (M) Deviance (G)

3 Scaled Deviance (I) Pearson Chi-Square (H) Scaled Pearson X2 (I) Log Likelihood (J) Algorithm converged. L ajustement du modèle est mesuré selon plusieurs critères : la Deviance (G) qui mesure l écart entre l ajustement du modèle saturé et celui du modèle estimé, et la statistique du Khi-deux de Pearson (H) qui compare les effectifs observés avec les effectifs prédits par le modèle estimé. Ces critères sont nuls pour le modèle saturé, dont l ajustement est parfait (y i = ŷ i ). (I) Scaled Deviance et Scaled Pearson X2 : ces critères sont issus des deux critères précédents. Dans le cas où la distribution de la variable réponse ne dépend que d un seul paramètre, ces critères sont égaux aux précédents. Ce n est pas le cas si on estime un paramètre lié à la variance. (J) Log likelihood : donne la valeur de la log-vraisemblance. (K) DF : donne le nombre de degrés de liberté du modèle = nombre d observations (de cellules) - nombre de paramètres estimés. Le DDL du modèle saturé est nul puisque le nombre de paramètres estimés dans un modèle saturé est égal au nombre d observations. (L) Value : donne la valeur de chaque critère. (M) Value/DF : calcule la valeur des critères divisée par le nombre de degrés de liberté. Par exemple, pour la déviance, on obtient la déviance relative. C est grâce à cette colonne que l on peut juger de la qualité d ajustement du modèle estimé. Plus les valeurs relatives sont proches de 1, meilleur est l ajustement du modèle. Une déviance relative inférieure à 3 indique un bon ajustement. Un mauvais ajustement du modèle est associé à une déviance relative élevée (> 10). Estimations des paramètres Paramètres estimés par l analyse du maximum de vraisemblance Intervalle de Valeur Erreur confiance de Khi-2 Paramètre (N) DDL (O) estimée (P) type (Q) Wald à 95 % (R) de Wald (S) Pr > Khi-2 (S) Intercept <.0001 loc A loc B <.0001 loc C sexe sexe loc*sexe A loc*sexe A loc*sexe B loc*sexe B loc*sexe C loc*sexe C Scale Ce tableau donne les estimations des paramètres du modèle selon le paramétrage SAS et teste la nullité de chaque paramètre. Attention ce tableau ne donne pas les résultats des tests sur l effet de chaque composante du modèle. 3

4 (N) Paramètre / Parameter : donne la liste de tous les niveaux des facteurs et de toutes les interactions entre facteurs, spécifiés dans la procédure. Selon le paramétrage SAS, les paramètres associés aux derniers niveaux sont nuls, car le dernier niveau sert de référence. (O) DDL / DF : nombre de degrés de liberté associé au test de nullité d un paramètre : 1 si le paramètre est estimé, 0 si le paramètre est fixé à 0 selon le paramétrage SAS (pour les derniers niveaux). (P) Valeur estimée / estimate : donne les valeurs des paramètres estimés. Dans le cas du modèle log-linéaire, les variables explicatives sont des facteurs pour lesquels on n estime pas un seul paramètre comme c est le cas pour une variable explicative quantitative, mais on en estime un par niveau du facteur (-1). Chaque paramètre associé à un niveau ou à une cellule représente l écart entre ce niveau et le dernier niveau (de référence), ou entre cette cellule et la dernière cellule. (Q) Erreur Type / Standard errors : donne les erreurs standard de chaque paramètre estimé, permettant d évaluer la précision des estimations. Ils sont utilisés pour calculer les intervalles de confiance de chaque paramètre, et la statistique de Wald pour tester la nullité de chaque paramètre. (S) Khi-2 de Wald et Pr>Khi-2 / Chi-square et Pr>Chisq : donne, pour chaque paramètre, la valeur de la statistique de test de Wald et la p-value associée, pour tester l hypothèse de nullité du paramètre (sachant que d autres variables explicatives sont dans le modèle). On compare la p-value au risque 5%. Si la p-value est inférieure à 5%, on rejette H 0 et on conclut que le paramètre est significativement différent de 0, c est-à-dire que le niveau testé est significativement différent du niveau de référence. Synthèse des résultats : Etant donné que l on estime le modèle saturé, les critères de qualité d ajustement (Déviance et Chi-2 de Pearson) sont nuls. Ce modèle fournit le meilleur ajustement possible. Les paramètres estimés montrent que certains d entre eux sont significativement différents de 0, indiquant un effet du facteur Localisation et des interactions significatives. Par exemple, on observe que le paramètre associé à Loc=B est estimé à , indiquant que la fréquence des cancers de type B est plus basse que celle des cancers de type C. On observe également un paramètre d interaction élevé pour Loc=A et Sexe=1 suggérant que les cancers de type A sont sur-représentés chez les femmes. A souligner que l on retrouve dans ce tableau les paramètres nuls associés aux derniers niveaux de chaque facteur, selon les contraintes du paramétrage SAS. Toutefois cette syntaxe de base ne permet pas de juger de l effet de chaque composante du modèle, d où la question suivante. 4. Dans l instruction model, rajoutez l option type3. Quel est son effet? Interprétez. Eléments de réponse : L option type3 affiche un nouveau tableau LR Statistics for type 3 analysis permettant de juger de l effet de chaque composante (facteur / interaction) en se basant la statistique du rapport de vraisemblance. On teste l absence d effet de chaque composante (correspondant à H 0 ) en comparant le modèle estimé avec le modèle sous H 0 (ne contenant pas la composante). Une p-value inférieure à 5% indique un effet significatif de la composante ; plus la p-value est faible, plus l effet de la composante est fort. 4

5 Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 loc <.0001 sexe <.0001 loc*sexe On détecte ici un effet très significatif de la localisation et du sexe (p-value< ), mais aussi une interaction significative entre les 2 facteurs (p-value= 0.03). On retrouve les résultats du test d absence d interaction sur la sortie de la procédure FREQ (sous la ligne du test du Chi-2). Très important! Cette option n est pas optionnelle : il est obligatoire d afficher ce tableau pour juger de l effet de chaque composante, sous cette forme (associée à la statistique du rapport de vraisemblance) ou sous la forme suivante (correspondant au test de Wald). 5. Même question pour l option type3 wald. Eléments de réponse : L option type3 wald donne les mêmes résultats que l option précédente, mais les tests sont basés sur la statistique de Wald. On en déduit les mêmes effets significatifs. 6. Relancez la procédure GENMOD pour le modèle d indépendance (en spécifiant uniquement loc et sexe comme variables explicatives). Comparez ces résultats au modèle saturé et commentez. Eléments de réponse : Le modèle d indépendance ne contient plus les termes d interaction. On observe à nouveau des effets très significatifs de chaque facteur (p-value < ), mais les critères AIC et BIC sont plus élevés, respectivement et 54.75, alors qu ils valent et pour le modèle saturé. Cela est logique puisqu en retirant des interactions significatives, on perd en qualité d ajustement. 7. Concluez. Eléments de réponse : Pour conclure, on a mis en évidence que les cancers n étaient pas répartis de façon équiprobable selon le sexe (plus de femmes atteintes) et selon la localisation (moins de cancers de la peau). On a également montré que la répartition des cancers selon la localisation n est pas la même chez les hommes et chez les femmes. En effet, les femmes sont plus touchées par les cancers sur voies digestives, alors chez les hommes, ce sont les cancers sur voies urinaires et appareils génitaux qui sont les plus fréquents. 5

6 2 Accidents : modèle log-linéaire à trois facteurs croisés Les données traitées ici concernent des accidents de voitures. Les accidents enregistrés (notés nbaccid) sont classés selon 3 facteurs : alcool : absorption d alcool avant l accident (0=non, 1=oui) ; ceint : usage de la ceinture de sécurité au moment de l accident (0=non, 1=oui) ; bles : gravité des blessures (1=pas de blessure, 2=blessures légères, 3=blessures sérieuses et 4=blessures très graves ou fatales). Le croisement de ces 3 facteurs donne une table de contingence à 16 cellules. On veut étudier la répartition des accidents de la route selon les 3 facteurs. On met alors en œuvre sur ces données un modèle log-linéaire à 3 facteurs croisés. 1. Copiez la table SAS suivante accid.sas7bdat. Indications : Elle comprend 16 observations correspondant aux 16 combinaisons possibles entre les 3 facteurs et 4 colonnes (les 3 facteurs dans l ordre cité ci-dessus, et le nombre d accidents par cellule). 2. Quelle est la variable réponse? Quelles sont les variables explicatives? Quel est l objectif de cette modélisation? Eléments de réponse : On met en œuvre un modèle log-linéaire à 3 facteurs croisés pour modéliser le nombre d accidents de la route (variable réponse) selon les 3 facteurs (variables explicatives) : consommation d alcool avant l accident, usage de la ceinture de sécurité et gravité des blessures. L objectif de cette modélisation est d étudier la répartition du nombre d accidents de la route selon chaque facteur, et de détecter d éventuelles dépendances/interactions entre ces facteurs. Par exemple, la gravité des blessures est-elle corrélée à la consommation d alcool et au port de la ceinture? (Attention, on n étudie pas ici les effets de facteurs sur la présence ou non d un accident). 3. Estimez le modèle saturé en utilisant la procédure GENMOD (avec l option type3 vue à l exemple précédent). Commentez ces premiers résultats. Eléments de réponse : On met en œuvre le modèle saturé à 3 facteurs croisés, contenant toutes les interactions possibles, par la procédure GENMOD : proc genmod data=sasuser.accid ; class alcool ceint bles ; model nbaccid = alcool ceint bles / dist=poisson link=log type3 ; run; Nous obtenons les estimations du modèle saturé contenant au total 16 paramètres. Dans un premier temps, on étudie les effets de chaque composante selon les statistiques de test du rapport de vraisemblance (de type 3) : Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 alcool <.0001 ceint <.0001 alcool*ceint <.0001 bles <.0001 alcool*bles <.0001 ceint*bles alcool*ceint*bles On observe que l interaction d ordre 3 n est pas significative (p-value= 0.17 > 0.05). En revanche, toutes les interactions d ordre 2 ainsi que les effets de chaque facteur sont significatifs 6

7 (p-value< 0.05). Dans une prochaine étape, on pourra donc supprimer l interaction d ordre 3 et estimer le modèle d association homogène. 4. Dans ce modèle saturé, on estime que l interaction entre les facteurs Ceinture et Blessures est significative (p-value = ), alors que les paramètres associés à cette interaction ne sont pas significativement non-nuls (p-value > 0.50). Comment expliquez-vous cela? Eléments de réponse : Les paramètres estimés correspondent à l écart entre un niveau (ou une cellule), et le dernier niveau (ou la dernière cellule) qui sert de référence. Par exemple, le paramètre associé à alcool=0 égal à mesure l écart entre les accidents sans consommation d alcool (codé 0) et avec (codé 1, pris pour référence selon la paramétrage SAS). Si le facteur étudié a plusieurs niveaux, il se peut que les paramètres estimés soient nuls, indiquant que les premiers niveaux ne sont pas significativement différents du dernier niveau. En revanche, il se peut qu il y ait des différences entre d autres niveaux, mais cela n est pas directement observable avec le paramétrage SAS. C est ce qui se passe avec l interaction entre les facteurs ceinture et blessure, il n y a pas de différence par rapport à la dernière cellule, mais il doit y en avoir entre d autres cellules. Si on détecte un effet significatif pour un facteur, cela signifie qu il y a des différences entre au moins 2 niveaux de ce facteur. 5. En adoptant une démarche descendante logique (suppression des interactions non significatives, puis des facteurs non significatifs si possible), trouvez le meilleur modèle expliquant le nombre d accidents. Commentez. Eléments de réponse : On a montré à la question 4 que l interaction d ordre 3 n était pas significative. On peut donc estimer le modèle d association homogène contenant les effets des 3 facteurs et les 3 interactions d ordre 2. L analyse de type 3 permettant de tester l effet de chaque composante montre que toutes les composantes sont très significatives (p-value< ). Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 alcool <.0001 ceint <.0001 bles <.0001 alcool*ceint <.0001 ceint*bles <.0001 alcool*bles <.0001 Par ailleurs, on peut comparer ce modèle avec le modèle saturé selon les critères AIC et BIC : pour le modèle saturé : Critères d évaluation de l adéquation Critère DDL Valeur Valeur/DDL Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Full Log Likelihood AIC (smaller is better) AICC (smaller is better). BIC (smaller is better)

8 pour le modèle d association homogène : Critères d évaluation de l adéquation Critère DDL Valeur Valeur/DDL Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Full Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) On observe que les critères AIC et BIC sont plus faibles pour le modèle sans l interaction 3. De plus, la déviance du modèle d association homogène est inférieure à 3, montrant un bon ajustement du modèle aux données. 6. Pour compléter les résultats du modèle sélectionné, utilisez la procédure FREQ pour obtenir les tris croisés entre 2 facteurs correspondant aux interactions significatives. Synthétisez l ensemble de ces résultats pour caractériser les accidents de la route selon les 3 facteurs étudiés. Eléments de réponse : L analyse par modèle log-linéaire à 3 facteurs croisés montre des dépendances deux-à-deux entre les facteurs, ainsi qu un effet de chaque facteur (modèle d association homogène). Pour commenter ces résutats, on s appuie sur les tableaux croisés entre 2 facteurs. Globalement, les accidents sont en majorité survenus : sans port de la ceinture de sécurité (84.0%) (à l époque de l étude, le port de la ceinture n était pas obligatoire) et sans consommation d alcool (94%). On observe que 90.8% des accidents n ont pas occasionné de blessures, 5.4% des blessures légères, 3.5% des blessures sérieuses et 0.4% des blessures fatales. La proportion de conducteurs sans ceinture augmente avec la gravité des blessures : de 83.7% pour les accidents sans blessure, jusqu à 87.8% pour les accidents avec blessures graves. Plus les accidents sont graves, plus la proportion de conducteurs ayant consommé de l alcool est importante : de 5.5% pour les accidents sans blessure, jusqu à 20.3% pour les accidents avec blessures graves. La proportion de personnes avec ceinture est deux fois moins importante quand la personne a consommé de l alcool : 16.5% contre 7.1%. En conclusion, on a pu montrer que les blessures sont aggravées par le non-port de la ceinture de sécurité et par la consommation d alcool. 8