EXEMPLE D UTILISATION DE LA PROCEDURE CATMOD ALIMENTATION DES ALLIGATORS Le tableau provient d une étude concernant les facteurs influençant le choix de la nourriture principale d alligators. L échantillon est formé de 9 alligators capturés dans quatre lacs de Floride. La variable à modéliser est la nourriture principale, en volume, trouvée dans l estomac des alligators. Cette variable (Choix) a cinq catégories : poissons, invertébrés, autres, oiseaux, reptiles. Les variables explicatives, outre le lac, sont le sexe des alligators ( Genre) : male ou femelle, et leur taille codée en deux catégories : taille (,3 mètres) taille ( >,3 mètres ). On trouve dans les cinq colonnes de droite le nombre d alligators qui se sont nourris principalement de poissons, d invertébrés, d oiseaux, de reptiles ou d autres nourritures. Lac Genre Taille Poissons Invertébrés Autres Oiseaux ( Birds) Hancock Male 7 5 4 Femelle 6 3 3 3 3 Oklawaha Male Trafford George Femelle Male Femelle Male Femelle 3 3 3 8 3 9 3 8 7 9 7 6 4 9 5 4 3 Reptiles 6 6 TABLEAU Cas Alimentation Alligators Procédure CATMOD SAS
) L objectif de l étude est de construire un modèle explicatif de la variable choix à l aide des variables lac, genre, taille. Dans ce but on utilise la procédure CATMOD. Indiquer les cinq options disponibles pour les fonctions de réponse. Lesquelles sont utilisables pour ce type de données? ) Comment doit on présenter les données pour le programme CATMOD? On indiquera en particulier le nombre de lignes. 3) Indiquer ce que l on entend par fonction de réponse logit généralisé. En utilisant les notations du cours, on écrira précisément les différents termes. On démontrera comment on en déduit les probabilités associées aux différentes modalités de la variable à expliquer Y. 4) Les résultats obtenus avec l option par défaut de CATMOD pour le modèle avec uniquement les effets principaux : lac, genre, taille sont fournis dans le tableau. Que pensez vous de ce modèle? Tester l apport de chaque variable. 5) Les résultats concernant le modèle simplifié ( effets lac et taille ) sont présentés dans le tableau 3. Quelle est l utilité dans la procédure CATMOD de l instruction : «population lac genre taille;». Pourquoi n était-elle pas nécessaire dans le modèle avec les trois effets principaux lac genre taille? (tableau ) 6) Commenter les résultats du tableau 3. 7) A partir du modèle simplifié, calculer pour les males de taille du lac Hancock, les probabilités estimées des choix de nourriture poissons, invertébrés. Indiquer aussi les probabilités estimées des choix de nourriture poissons, invertébrés pour les femelles de taille du lac Hancock. ( compléter le tableau 4 ). 8) Le tableau 5 présente les sorties d une modélisation à l aide de la fonction identité. Un message d erreur apparaît. Comment peut-on l expliquer? Comment peut-on éviter ce type de problème dans SAS? 9) Le tableau 6 présente les résultats du modèle utilisant la fonction identité, prenant en compte les effets principaux lac genre taille. Que pensez-vous de ce modèle? Que peut-on proposer? Cas Alimentation Alligators Procédure CATMOD SAS
ANNEXE : ALIMENTATION DES ALLIGATORS TABLEAU : Procédure CATMOD ; Modèle avec les effets principaux lac, genre, taille. proc catmod data=alligat order=data; weight freq; model choix= lac genre taille; run; Data Summary Response choix Response Levels 5 Weight Variable freq Populations 6 Data Set ALLIGAT Total Frequency 9 Frequency Missing Observations 56 Population Profiles Sample lac genre taille Sample Size H M 3 H M 7 3 H F 6 4 H F 9 5 O M 5 6 O M 6 7 O F 5 8 O F 9 T M T M 8 T F T F 3 G M 7 4 G M 5 G F 4 6 G F Response Profiles Response choix P I 3 A 4 B 5 R Cas Alimentation Alligators Procédure CATMOD SAS 3
Maximum Likelihood Analysis of Variance Source DF Chi-Square Pr > ChiSq Intercept 4 6.4 <. lac 36.3.3 genre 4.8.78 taille 4 5.89.3 Likelihood Ratio 4 5.6.8 Analysis of Maximum Likelihood Estimates Standard Chi- Effect Parameter Estimate Error Square Pr > ChiSq Intercept.77.344 6.5 <..6.378 9..7 3.6564.3863.89.893 4 -.836.476.35.555 lac 5.557.5777.9.345 6 -.39.6768 3.7.544 7.797.67.35.445 8.85.744.9.76 9 -.85.4735 3..76 -.9.496..9855 -.46.689 5.4.48 -.759.8988 3.64.56 3 -.389.4843 8.3.44 4 -.97.4953.36.5485 5 -.47.594.6.4379 6 -.4593.6645.48.4894 genre 7.338.346.84.3598 8.83.35.5.846 9.875.3777.5.696.6.4544..985 taille.785.333.74.389.9466.3386 7.8.5 3.438.3573.4.356 4 -.866.477.4.8396 Cas Alimentation Alligators Procédure CATMOD SAS 4
TABLEAU 3 : MODELE SIMPLIFIE, EFFETS LAC ET TAILLE proc catmod data=alligat order=data; weight freq; population lac genre taille; model choix= lac taille / freq prob predict ; run; Maximum Likelihood Analysis of Variance Source DF Chi-Square Pr > ChiSq Intercept 4 7.39 <. lac 35.49.4 taille 4 8.76.9 Likelihood Ratio 44 5.48.784 Analysis of Maximum Likelihood Estimates Standard Chi- Effect Parameter Estimate Error Square Pr > ChiSq Intercept.839.3398 9.3 <...368 9..5 3.6795.388 3.7.75 4 -.95.4738.39.5334 lac 5.464.5589.56.456 6 -.34.664 4.8.433 7.6556.67.7.8 8.89.74.35.455 9 -.7996.47.88.896.374.496..94 -.38.679 4.84.78 -.7353.8953 3.76.56 3 -.76.4677 7.44.64 4 -.543.48.8.597 5 -.3467.53.46.499 6 -.477.64.54.46 taille 7.756.9.37.5448 8.947.34 9..7 9.344.357..945 -.397.43..789 Cas Alimentation Alligators Procédure CATMOD SAS 5
TABLEAU 4 : EXTRAIT DU TABLEAU DES PREVISIONS MODELE SIMPLIFIE. Maximum Likelihood Predicted Values for Probabilities ------Observed------ ------Predicted----- Standard Standard lac genre taille choix Probability Error Probability Error Residual H M P.5385.383???.7??? I.769.739???.443??? A.3846.349.537.637.39 B.74.356 -.7 R.475.85 -.47 H M P.574.87.57.9. I.3.4 -.3 A.857.77.94.79.97 B.49.33.49.76. R.78.46 -.7 H F P.654.954???.7??? I.54.67???.443.3 A.54.67.537.637 -.38 B.769.53.74.356.65 R.769.53.475.85.95 H F P.3333.57.57.9 -.37 I.3.4 -.3 A.3333.57.94.79.393 B..386.49.76.83 R..48.78.46.393 Cas Alimentation Alligators Procédure CATMOD SAS 6
TABLEAU 5 : MODELE FONCTION IDENTITE proc catmod data=alligat order=data; weight freq; response marginals; model choix= lac genre taille; run; The CATMOD Procedure Data Summary Response choix Response Levels 5 Weight Variable freq Populations 6 Data Set ALLIGAT Total Frequency 9 Frequency Missing Observations 56 Population Profiles Sample lac genre taille Sample Size H M 3 H M 7 3 H F 6 4 H F 9 5 O M 5 6 O M 6 7 O F 5 8 O F 9 T M T M 8 T F T F 3 G M 7 4 G M 5 G F 4 6 G F Response choix P I 3 A 4 B 5 R ERROR: The response functions are linearly dependent since the number of functions per population, 4, is greater than or equal to the number of response levels,, in population. Cas Alimentation Alligators Procédure CATMOD SAS 7
TABLEAU 6 : MODELE FONCTION IDENTITE effectifs modifiés. proc catmod data=alligat order=data; weight freq; response marginals; population lac genre taille; model choix= lac genre taille/ addcell =. ; run; Analysis of Variance Source DF Chi-Square Pr > ChiSq Intercept 4 33.6 <. lac 4.89 <. genre 4.9.8 taille 4 4.33 <. Residual 4 63.4.5 Analysis of Weighted Least Squares Estimates Standard Chi- Effect Parameter Estimate Error Square Pr > ChiSq Intercept.463.7 89.5 <..88.49 33.89 <. 3.4.6 46.7 <. 4.36. 8.5.43 lac 5.676.489.75.6 6 -.47.97 47.66 <. 7.67.437.93.649 8.69.9.79.3747 9 -.68.49 5.65.75.349.476 4.36 <. -.8.36 4.84. -.53.37 3.39.656 3 -.98.47 3.9 <. 4.89.469 3.6.579 5.56.39.8.794 6.79.97.83.369 genre 7.884.6.58.7 8 -.35.85 3.6.576 9 -.33.4..555 -.5..87.354 taille -.58.7 4.6.36.958.98 3.48 <. 3 -.68.3.56.453 4 -.3.6.56. Cas Alimentation Alligators Procédure CATMOD SAS 8