Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés



Documents pareils
Données longitudinales et modèles de survie

T de Student Khi-deux Corrélation

Modèles pour données répétées

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TABLE DES MATIERES. C Exercices complémentaires 42

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

IBM SPSS Regression 21

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Logiciel XLSTAT version rue Damrémont PARIS

Exemple PLS avec SAS

Analyse de la variance Comparaison de plusieurs moyennes

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Principe d un test statistique

Un exemple de régression logistique sous

Relation entre deux variables : estimation de la corrélation linéaire

données en connaissance et en actions?

«Cours Statistique et logiciel R»

VI. Tests non paramétriques sur un échantillon

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Estimation et tests statistiques, TD 5. Solutions

Imputation du salaire d ego dans TeO

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Exemples d application

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Influence de la partition homme/femme et de l expériance kilométrique dans l assurance automobile

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

NON-LINEARITE ET RESEAUX NEURONAUX

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Arbres binaires de décision

Protocoles DHCP et DNS

INF6304 Interfaces Intelligentes

Evolution de la fréquence des sinistres en assurance RC automobile

Introduction à l approche bootstrap

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Evolution de la fréquence des sinistres en assurance RC automobile

TP 03 B : Mesure d une vitesse par effet Doppler

L aspect de votre logiciel a été modifié et reprend désormais la nouvelle charte graphique Sage.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

EXCEL et base de données

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Fluctuation d une fréquence selon les échantillons - Probabilités

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Introduction au Data-Mining

Optimisation des ressources des produits automobile première

Traitement des données avec Microsoft EXCEL 2010

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Cours 9 : Plans à plusieurs facteurs

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

MODELE A CORRECTION D ERREUR ET APPLICATIONS

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Lire ; Compter ; Tester... avec R

Analyse des correspondances avec colonne de référence

STATISTIQUES. UE Modélisation pour la biologie

Statistique inférentielle TD 1 : Estimation

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Gender Directive Impacts opérationnels pour les assureurs

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Programme «maladie» - Partie II «Objectifs / Résultats» Objectif n 2 : développer la prévention

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

La crise économique vue par les salariés français

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Disparités entre les cantons dans tous les domaines examinés

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Prestations de conseil en SRM (Storage Ressource Management)

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Exercices Corrigés Premières notions sur les espaces vectoriels

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Le chi carré. Le sommaire. Approche quantitative

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Enquête auprès des parents

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Travaux pratiques avec RapidMiner

1 Définition de la non stationnarité

Analyse de la bande passante

Corefris RAPPORT ANNUEL Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

Introduction à la statistique non paramétrique

Lecture critique et pratique de la médecine

CAISSE REGIONALE DU CREDIT AGRICOLE MUTUEL D AQUITAINE

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Que faire lorsqu on considère plusieurs variables en même temps?

L allocataire dans un couple : l homme ou la femme?

Transcription:

M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3. Les données sont extraites du registre des cancers du Tarn. Elles concernent des patients ayant déclaré un cancer entre 1982 et 1984. L objet de cette analyse est d étudier le nombre de cancers en fonction de la localisation du cancer et du sexe du patient ; pour cela, on met en œuvre un modèle log-linéaire à 2 facteurs croisés. 1. Copiez la table SAS cancer (envoyée par mail). La table contient les variables suivantes : la localisation (notée loc), à 3 niveaux : A = Voies digestives ; B = Peau ; C = Organes génitaux et voies urinaires le sexe (noté sexe) : 1 = Femme / 2 = Homme, le nombre de patients (noté n). Vérifiez son contenu. Eléments de réponse : La table cancer contient 6 observations correspondant aux 6 combinaisons possibles entre la localisation (A, B ou C) et le sexe (Homme/Femme). La variable n fournit le nombre de patients atteints de cancers répartis selon la localisation du cancer et le sexe du patient. 2. Affichez la table de contingence à l aide de la procédure FREQ. Etant donné le format de la table SAS (données regroupées par localisation et par sexe), vous devez utiliser l instruction weight (qui attribue à chaque cellule un poids égal à n) : proc freq data=... ; weight n ; tables loc * sexe / chisq ; run; Commentez ce tableau croisé. Eléments de réponse : Le test d indépendance du Khi-2 est significatif (p-value= 0.03) montrant une dépendance significative entre les 2 facteurs. En commentant les profils-lignes et les profilscolonnes, on peut en déduire que : Chez les femmes, les cancers de type A et C sont les plus fréquents (respectivement, 48% et 39%), contrairement aux cancers de type B (12%). Chez les hommes, la fréquence des cancers de type B est similaire (11.7%). En revanche, les cancers de type C sont plus présents (47%) que chez les femmes au détriment des cancers de type C (41%). Globalement, sur l ensemble de l échantillon, il y a 59% de femmes : cette proportion est plus élevée parmi les cancers de type A (63%) que parmi les cancers de type C (54%). 3. Lancez la procédure GENMOD pour estimer le modèle saturé de la façon suivante : 1

proc genmod data=... ; class loc sexe ; model n = loc sexe / dist=poisson link=log; run; Note : en spécifiant loc sexe en variables explicatives, cela revient à spécifier loc sexe loc*sexe, c est-à-dire le modèle avec interactions (saturé). A partir des informations détaillées sur les sorties de la procédure GENMOD, suivez les commentaires sur les résultats obtenus : Informations sur le modèle Informations sur le modèle Data Set (A) Distribution (B) Link Function (C) Dependent Variable (D) SASUSER.CANCER Poisson Log n Number of Observations Read (E) 6 Number of Observations Used (E) 6 Informations sur le niveau de classe (F) Classe Niveaux Valeurs loc 3 A B C sexe 2 1 2 (A) Table / Data set : table SAS utilisée dans la procédure. (B) Distribution : distribution de la variable réponse. Dans le cas d un modèle log-linéaire, on modélise un nombre d évènements, distribué selon une loi de Poisson, comme spécifié dans le code de la procédure par dist. (C) Link function : Fonction de lien associée à la loi de Poisson : fonction ln, comme mentionné dans le code de la procédure par link. (D) Dependent variable : variable réponse que l on cherche à expliquer par ce modèle, c est le nombre d évènements observés. (E) Nombre d observations lues/utilisées : Nombre d observations lues et utilisées pour l analyse. Le nombre d observations utilisées peut être inférieur au nombre d observations lues en cas de valeur manquante. Par défaut, SAS supprime les observations manquantes ou incomplètes. Le nombre d observations correspond au nombre de lignes dans la table SAS ; ici, c est le nombre de combinaisons possibles obtenues en croisant tous les facteurs. (F) Level information : liste les facteurs pris en compte dans le modèle, spécifiés comme variable qualitative dans l instruction CLASS. SAS y précise le nombre de niveaux de chaque facteur et les valeurs de ces niveaux. Ajustement global du modèle Critères d évaluation de l adéquation Critère DDL (K) Valeur (L) Valeur/DDL (M) Deviance (G) 0 0.0000. 2

Scaled Deviance (I) 0 0.0000. Pearson Chi-Square (H). 0.0000. Scaled Pearson X2 (I). 0.0000. Log Likelihood (J) 4149.5564 Algorithm converged. L ajustement du modèle est mesuré selon plusieurs critères : la Deviance (G) qui mesure l écart entre l ajustement du modèle saturé et celui du modèle estimé, et la statistique du Khi-deux de Pearson (H) qui compare les effectifs observés avec les effectifs prédits par le modèle estimé. Ces critères sont nuls pour le modèle saturé, dont l ajustement est parfait (y i = ŷ i ). (I) Scaled Deviance et Scaled Pearson X2 : ces critères sont issus des deux critères précédents. Dans le cas où la distribution de la variable réponse ne dépend que d un seul paramètre, ces critères sont égaux aux précédents. Ce n est pas le cas si on estime un paramètre lié à la variance. (J) Log likelihood : donne la valeur de la log-vraisemblance. (K) DF : donne le nombre de degrés de liberté du modèle = nombre d observations (de cellules) - nombre de paramètres estimés. Le DDL du modèle saturé est nul puisque le nombre de paramètres estimés dans un modèle saturé est égal au nombre d observations. (L) Value : donne la valeur de chaque critère. (M) Value/DF : calcule la valeur des critères divisée par le nombre de degrés de liberté. Par exemple, pour la déviance, on obtient la déviance relative. C est grâce à cette colonne que l on peut juger de la qualité d ajustement du modèle estimé. Plus les valeurs relatives sont proches de 1, meilleur est l ajustement du modèle. Une déviance relative inférieure à 3 indique un bon ajustement. Un mauvais ajustement du modèle est associé à une déviance relative élevée (> 10). Estimations des paramètres Paramètres estimés par l analyse du maximum de vraisemblance Intervalle de Valeur Erreur confiance de Khi-2 Paramètre (N) DDL (O) estimée (P) type (Q) Wald à 95 % (R) de Wald (S) Pr > Khi-2 (S) Intercept 1 5.2523 0.0724 5.1105 5.3941 5269.00 <.0001 loc A 1-0.1463 0.1063-0.3546 0.0620 1.90 0.1686 loc B 1-1.4021 0.1628-1.7213-1.0830 74.15 <.0001 loc C 0 0.0000 0.0000 0.0000 0.0000.. sexe 1 1 0.1638 0.0984-0.0290 0.3567 2.77 0.0959 sexe 2 0 0.0000 0.0000 0.0000 0.0000.. loc*sexe A 1 1 0.3614 0.1390 0.0890 0.6339 6.76 0.0093 loc*sexe A 2 0 0.0000 0.0000 0.0000 0.0000.. loc*sexe B 1 1 0.2765 0.2113-0.1377 0.6907 1.71 0.1907 loc*sexe B 2 0 0.0000 0.0000 0.0000 0.0000.. loc*sexe C 1 0 0.0000 0.0000 0.0000 0.0000.. loc*sexe C 2 0 0.0000 0.0000 0.0000 0.0000.. Scale 0 1.0000 0.0000 1.0000 1.0000 Ce tableau donne les estimations des paramètres du modèle selon le paramétrage SAS et teste la nullité de chaque paramètre. Attention ce tableau ne donne pas les résultats des tests sur l effet de chaque composante du modèle. 3

(N) Paramètre / Parameter : donne la liste de tous les niveaux des facteurs et de toutes les interactions entre facteurs, spécifiés dans la procédure. Selon le paramétrage SAS, les paramètres associés aux derniers niveaux sont nuls, car le dernier niveau sert de référence. (O) DDL / DF : nombre de degrés de liberté associé au test de nullité d un paramètre : 1 si le paramètre est estimé, 0 si le paramètre est fixé à 0 selon le paramétrage SAS (pour les derniers niveaux). (P) Valeur estimée / estimate : donne les valeurs des paramètres estimés. Dans le cas du modèle log-linéaire, les variables explicatives sont des facteurs pour lesquels on n estime pas un seul paramètre comme c est le cas pour une variable explicative quantitative, mais on en estime un par niveau du facteur (-1). Chaque paramètre associé à un niveau ou à une cellule représente l écart entre ce niveau et le dernier niveau (de référence), ou entre cette cellule et la dernière cellule. (Q) Erreur Type / Standard errors : donne les erreurs standard de chaque paramètre estimé, permettant d évaluer la précision des estimations. Ils sont utilisés pour calculer les intervalles de confiance de chaque paramètre, et la statistique de Wald pour tester la nullité de chaque paramètre. (S) Khi-2 de Wald et Pr>Khi-2 / Chi-square et Pr>Chisq : donne, pour chaque paramètre, la valeur de la statistique de test de Wald et la p-value associée, pour tester l hypothèse de nullité du paramètre (sachant que d autres variables explicatives sont dans le modèle). On compare la p-value au risque 5%. Si la p-value est inférieure à 5%, on rejette H 0 et on conclut que le paramètre est significativement différent de 0, c est-à-dire que le niveau testé est significativement différent du niveau de référence. Synthèse des résultats : Etant donné que l on estime le modèle saturé, les critères de qualité d ajustement (Déviance et Chi-2 de Pearson) sont nuls. Ce modèle fournit le meilleur ajustement possible. Les paramètres estimés montrent que certains d entre eux sont significativement différents de 0, indiquant un effet du facteur Localisation et des interactions significatives. Par exemple, on observe que le paramètre associé à Loc=B est estimé à 1.4021, indiquant que la fréquence des cancers de type B est plus basse que celle des cancers de type C. On observe également un paramètre d interaction élevé pour Loc=A et Sexe=1 suggérant que les cancers de type A sont sur-représentés chez les femmes. A souligner que l on retrouve dans ce tableau les paramètres nuls associés aux derniers niveaux de chaque facteur, selon les contraintes du paramétrage SAS. Toutefois cette syntaxe de base ne permet pas de juger de l effet de chaque composante du modèle, d où la question suivante. 4. Dans l instruction model, rajoutez l option type3. Quel est son effet? Interprétez. Eléments de réponse : L option type3 affiche un nouveau tableau LR Statistics for type 3 analysis permettant de juger de l effet de chaque composante (facteur / interaction) en se basant la statistique du rapport de vraisemblance. On teste l absence d effet de chaque composante (correspondant à H 0 ) en comparant le modèle estimé avec le modèle sous H 0 (ne contenant pas la composante). Une p-value inférieure à 5% indique un effet significatif de la composante ; plus la p-value est faible, plus l effet de la composante est fort. 4

Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 loc 2 225.85 <.0001 sexe 1 24.05 <.0001 loc*sexe 2 7.00 0.0302 On détecte ici un effet très significatif de la localisation et du sexe (p-value< 0.0001), mais aussi une interaction significative entre les 2 facteurs (p-value= 0.03). On retrouve les résultats du test d absence d interaction sur la sortie de la procédure FREQ (sous la ligne du test du Chi-2). Très important! Cette option n est pas optionnelle : il est obligatoire d afficher ce tableau pour juger de l effet de chaque composante, sous cette forme (associée à la statistique du rapport de vraisemblance) ou sous la forme suivante (correspondant au test de Wald). 5. Même question pour l option type3 wald. Eléments de réponse : L option type3 wald donne les mêmes résultats que l option précédente, mais les tests sont basés sur la statistique de Wald. On en déduit les mêmes effets significatifs. 6. Relancez la procédure GENMOD pour le modèle d indépendance (en spécifiant uniquement loc et sexe comme variables explicatives). Comparez ces résultats au modèle saturé et commentez. Eléments de réponse : Le modèle d indépendance ne contient plus les termes d interaction. On observe à nouveau des effets très significatifs de chaque facteur (p-value < 0.0001), mais les critères AIC et BIC sont plus élevés, respectivement 55.58 et 54.75, alors qu ils valent 52.58 et 51.33 pour le modèle saturé. Cela est logique puisqu en retirant des interactions significatives, on perd en qualité d ajustement. 7. Concluez. Eléments de réponse : Pour conclure, on a mis en évidence que les cancers n étaient pas répartis de façon équiprobable selon le sexe (plus de femmes atteintes) et selon la localisation (moins de cancers de la peau). On a également montré que la répartition des cancers selon la localisation n est pas la même chez les hommes et chez les femmes. En effet, les femmes sont plus touchées par les cancers sur voies digestives, alors chez les hommes, ce sont les cancers sur voies urinaires et appareils génitaux qui sont les plus fréquents. 5

2 Accidents : modèle log-linéaire à trois facteurs croisés Les données traitées ici concernent des accidents de voitures. Les 86769 accidents enregistrés (notés nbaccid) sont classés selon 3 facteurs : alcool : absorption d alcool avant l accident (0=non, 1=oui) ; ceint : usage de la ceinture de sécurité au moment de l accident (0=non, 1=oui) ; bles : gravité des blessures (1=pas de blessure, 2=blessures légères, 3=blessures sérieuses et 4=blessures très graves ou fatales). Le croisement de ces 3 facteurs donne une table de contingence à 16 cellules. On veut étudier la répartition des accidents de la route selon les 3 facteurs. On met alors en œuvre sur ces données un modèle log-linéaire à 3 facteurs croisés. 1. Copiez la table SAS suivante accid.sas7bdat. Indications : Elle comprend 16 observations correspondant aux 16 combinaisons possibles entre les 3 facteurs et 4 colonnes (les 3 facteurs dans l ordre cité ci-dessus, et le nombre d accidents par cellule). 2. Quelle est la variable réponse? Quelles sont les variables explicatives? Quel est l objectif de cette modélisation? Eléments de réponse : On met en œuvre un modèle log-linéaire à 3 facteurs croisés pour modéliser le nombre d accidents de la route (variable réponse) selon les 3 facteurs (variables explicatives) : consommation d alcool avant l accident, usage de la ceinture de sécurité et gravité des blessures. L objectif de cette modélisation est d étudier la répartition du nombre d accidents de la route selon chaque facteur, et de détecter d éventuelles dépendances/interactions entre ces facteurs. Par exemple, la gravité des blessures est-elle corrélée à la consommation d alcool et au port de la ceinture? (Attention, on n étudie pas ici les effets de facteurs sur la présence ou non d un accident). 3. Estimez le modèle saturé en utilisant la procédure GENMOD (avec l option type3 vue à l exemple précédent). Commentez ces premiers résultats. Eléments de réponse : On met en œuvre le modèle saturé à 3 facteurs croisés, contenant toutes les interactions possibles, par la procédure GENMOD : proc genmod data=sasuser.accid ; class alcool ceint bles ; model nbaccid = alcool ceint bles / dist=poisson link=log type3 ; run; Nous obtenons les estimations du modèle saturé contenant au total 16 paramètres. Dans un premier temps, on étudie les effets de chaque composante selon les statistiques de test du rapport de vraisemblance (de type 3) : Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 alcool 1 1158.56 <.0001 ceint 1 1613.60 <.0001 alcool*ceint 1 57.04 <.0001 bles 3 7740.36 <.0001 alcool*bles 3 105.16 <.0001 ceint*bles 3 15.62 0.0014 alcool*ceint*bles 3 5.01 0.1708 On observe que l interaction d ordre 3 n est pas significative (p-value= 0.17 > 0.05). En revanche, toutes les interactions d ordre 2 ainsi que les effets de chaque facteur sont significatifs 6

(p-value< 0.05). Dans une prochaine étape, on pourra donc supprimer l interaction d ordre 3 et estimer le modèle d association homogène. 4. Dans ce modèle saturé, on estime que l interaction entre les facteurs Ceinture et Blessures est significative (p-value = 0.0014), alors que les paramètres associés à cette interaction ne sont pas significativement non-nuls (p-value > 0.50). Comment expliquez-vous cela? Eléments de réponse : Les paramètres estimés correspondent à l écart entre un niveau (ou une cellule), et le dernier niveau (ou la dernière cellule) qui sert de référence. Par exemple, le paramètre associé à alcool=0 égal à 18.34 mesure l écart entre les accidents sans consommation d alcool (codé 0) et avec (codé 1, pris pour référence selon la paramétrage SAS). Si le facteur étudié a plusieurs niveaux, il se peut que les paramètres estimés soient nuls, indiquant que les premiers niveaux ne sont pas significativement différents du dernier niveau. En revanche, il se peut qu il y ait des différences entre d autres niveaux, mais cela n est pas directement observable avec le paramétrage SAS. C est ce qui se passe avec l interaction entre les facteurs ceinture et blessure, il n y a pas de différence par rapport à la dernière cellule, mais il doit y en avoir entre d autres cellules. Si on détecte un effet significatif pour un facteur, cela signifie qu il y a des différences entre au moins 2 niveaux de ce facteur. 5. En adoptant une démarche descendante logique (suppression des interactions non significatives, puis des facteurs non significatifs si possible), trouvez le meilleur modèle expliquant le nombre d accidents. Commentez. Eléments de réponse : On a montré à la question 4 que l interaction d ordre 3 n était pas significative. On peut donc estimer le modèle d association homogène contenant les effets des 3 facteurs et les 3 interactions d ordre 2. L analyse de type 3 permettant de tester l effet de chaque composante montre que toutes les composantes sont très significatives (p-value< 0.0001). Statistique LR pour Analyse de Type 3 Source DDL Khi-2 Pr > Khi-2 alcool 1 3431.09 <.0001 ceint 1 3041.55 <.0001 bles 3 28282.9 <.0001 alcool*ceint 1 377.00 <.0001 ceint*bles 3 42.32 <.0001 alcool*bles 3 474.72 <.0001 Par ailleurs, on peut comparer ce modèle avec le modèle saturé selon les critères AIC et BIC : pour le modèle saturé : Critères d évaluation de l adéquation Critère DDL Valeur Valeur/DDL Deviance 0 0.0000. Scaled Deviance 0 0.0000. Pearson Chi-Square. 0.0000. Scaled Pearson X2. 0.0000. Log Likelihood 809113.0959 Full Log Likelihood -62.6787 AIC (smaller is better) 157.3574 AICC (smaller is better). BIC (smaller is better) 169.7188 7

pour le modèle d association homogène : Critères d évaluation de l adéquation Critère DDL Valeur Valeur/DDL Deviance 3 5.0136 1.6712 Scaled Deviance 3 5.0136 1.6712 Pearson Chi-Square 3 5.0159 1.6720 Scaled Pearson X2 3 5.0159 1.6720 Log Likelihood 809110.5891 Full Log Likelihood -65.1855 AIC (smaller is better) 156.3710 AICC (smaller is better) 338.3710 BIC (smaller is better) 166.4147 On observe que les critères AIC et BIC sont plus faibles pour le modèle sans l interaction 3. De plus, la déviance du modèle d association homogène est inférieure à 3, montrant un bon ajustement du modèle aux données. 6. Pour compléter les résultats du modèle sélectionné, utilisez la procédure FREQ pour obtenir les tris croisés entre 2 facteurs correspondant aux interactions significatives. Synthétisez l ensemble de ces résultats pour caractériser les accidents de la route selon les 3 facteurs étudiés. Eléments de réponse : L analyse par modèle log-linéaire à 3 facteurs croisés montre des dépendances deux-à-deux entre les facteurs, ainsi qu un effet de chaque facteur (modèle d association homogène). Pour commenter ces résutats, on s appuie sur les tableaux croisés entre 2 facteurs. Globalement, les accidents sont en majorité survenus : sans port de la ceinture de sécurité (84.0%) (à l époque de l étude, le port de la ceinture n était pas obligatoire) et sans consommation d alcool (94%). On observe que 90.8% des accidents n ont pas occasionné de blessures, 5.4% des blessures légères, 3.5% des blessures sérieuses et 0.4% des blessures fatales. La proportion de conducteurs sans ceinture augmente avec la gravité des blessures : de 83.7% pour les accidents sans blessure, jusqu à 87.8% pour les accidents avec blessures graves. Plus les accidents sont graves, plus la proportion de conducteurs ayant consommé de l alcool est importante : de 5.5% pour les accidents sans blessure, jusqu à 20.3% pour les accidents avec blessures graves. La proportion de personnes avec ceinture est deux fois moins importante quand la personne a consommé de l alcool : 16.5% contre 7.1%. En conclusion, on a pu montrer que les blessures sont aggravées par le non-port de la ceinture de sécurité et par la consommation d alcool. 8