EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical Analysis», Prentice-Hall, 1982. Ces données financières annuelles ont été recueillies sur des entreprises approximativement deux ans avant leur faillite, et à peu prés à la même époque, sur des sociétés financièrement solides. On dispose de quatre ratios pour décrire la situation financière de 46 entreprises. X1 = Cash flow/ Dette totale X2 = Revenu net / Total des actifs au bilan X3 = Actif réalisable et disponible / Passif courant X4 = Actif réalisable et disponible / Ventes nettes Y= 1 si faillite, 2 sinon Dans cette annexe nous présentons brièvement les résultats obtenus avec le logiciel SAS. Présentation des données INSTRUCTIONS SAS data donnees; input X1 X2 X3 X4 Y $ num $; datalines; -0.4485-0.4106 1.0865 0.4526 1 1- -0.5633-0.3114 1.5134 0.1642 1 2-0.1661 0.0351 2.4527 0.1370 2 45+ 0.5808 0.0371 5.0594 0.1268 2 46+ ; proc print data=donnees; data donnees; set donnees; if Y=1 then Y='Faillite'; if Y=2 then Y='OK';
TABLEAU 1 : LES DONNEES OBS X1 X2 X3 X4 Y NUM 1-0.4485-0.4106 1.0865 0.4526 1 1-2 -0.5633-0.3114 1.5134 0.1642 1 2-3 0.0643 0.0156 1.0077 0.3978 1 3-4 -0.0721-0.0930 1.4544 0.2589 1 4-5 -0.1002-0.0917 1.5644 0.6683 1 5-6 -0.1421-0.0651 0.7066 0.2794 1 6-7 0.0351 0.0147 1.5046 0.7080 1 7-8 -0.0653-0.0566 1.3737 0.4032 1 8-9 0.0724-0.0076 1.3723 0.3361 1 9-10 -0.1353-0.1433 1.4196 0.4347 1 10-11 -0.2298-0.2961 0.3310 0.1824 1 11-12 0.0713 0.0205 1.3124 0.2497 1 12-13 0.0109 0.0011 2.1495 0.6969 1 13-14 -0.2777-0.2316 1.1918 0.6601 1 14-15 0.1454 0.0500 1.8762 0.2723 1 15-16 0.3703 0.1098 1.9941 0.3828 1 16-17 -0.0757-0.0821 1.5077 0.4215 1 17-18 0.0451 0.0263 1.6756 0.9494 1 18-19 0.0115-0.0032 1.2602 0.6038 1 19-20 0.1227 0.1055 1.1434 0.1655 1 20-21 -0.2843-0.2703 1.2722 0.5128 1 21-22 0.5135 0.1001 2.4871 0.5368 2 22+ 23 0.0769 0.0195 2.0069 0.5304 2 23+ 24 0.3776 0.1075 3.2651 0.3548 2 24+ 25 0.1933 0.0473 2.2506 0.3309 2 25+ 26 0.3248 0.0718 4.2401 0.6279 2 26+ 27 0.3132 0.0511 4.4500 0.6852 2 27+ 28 0.1184 0.0499 2.5210 0.6925 2 28+ 29-0.0173 0.0233 2.0538 0.3484 2 29+ 30 0.2169 0.0779 2.3489 0.3970 2 30+ 31 0.1703 0.0695 1.7973 0.5174 2 31+ 32 0.1460 0.0518 2.1692 0.5500 2 32+ 33-0.0985-0.0123 2.5029 0.5778 2 33+ 34 0.1398-0.0312 0.4611 0.2643 2 34+ 35 0.1379 0.0728 2.6123 0.5151 2 35+ 36 0.1486 0.0564 2.2347 0.5563 2 36+ 37 0.1633 0.0486 2.3080 0.1978 2 37+ 38 0.2907 0.0597 1.8381 0.3786 2 38+ 39 0.5383 0.1064 2.3293 0.4835 2 39+ 40-0.3330-0.0854 3.0124 0.4730 2 40+ 41 0.4785 0.0910 1.2444 0.1847 2 41+ 42 0.5603 0.1112 4.2918 0.4443 2 42+ 43 0.2029 0.0792 1.9936 0.3018 2 43+ 44 0.4746 0.1380 2.9166 0.4487 2 44+ 45 0.1661 0.0351 2.4527 0.1370 2 45+ 46 0.5808 0.0371 5.0594 0.1268 2 46+
1) CONSTRUCTION D UN MODELE DE REGRESSION LOGISTIQUE RELIANT Y AUX VARIABLES X1, X2, X3, X4. INSTRUCTIONS SAS proc logistic data=donnees simple; model Y= X1 X2 X3 X4; Le tableau 2 permet de comparer le groupe 1 et le groupe 2 sur l ensemble des variables explicatives. On remarque que pour le groupe 2 les moyennes des variables X1, X2, X3 sont plus élevées. En revanche les moyennes de X4 sont très voisines pour les deux groupes. Data Set: WORK.DONNEES Response Variable: Y Response Levels: 2 Number of Observations: 46 Link Function: Logit TABLEAU 2 : DESCRIPTION DES VARIABLES The LOGISTIC Procedure Response Profile Ordered Value Y Count 1 Faillite 21 2 OK 25 Simple Statistics for Explanatory Variables Standard Variable Y Mean Deviation Minimum Maximum X1 Faillite -0.068824 0.210329-0.563300 0.370300 OK 0.235356 0.217601-0.333000 0.580800 ------------ ------------ ------------ ------------ Total 0.096491 0.261499-0.563300 0.580800 X2 Faillite -0.081862 0.144622-0.410600 0.109800 OK 0.055052 0.048099-0.085400 0.138000 ------------ ------------ ------------ ------------ Total -0.007452 0.123628-0.410600 0.138000 X3 Faillite 1.367490 0.405645 0.331000 2.149500 OK 2.593892 1.022724 0.461100 5.059400 ------------ ------------ ------------ ------------ Total 2.034013 1.006203 0.331000 5.059400 X4 Faillite 0.438114 0.210756 0.164200 0.949400 OK 0.426440 0.161804 0.126800 0.692500 ------------ ------------ ------------ ------------ Total 0.431770 0.183682 0.126800 0.949400
Les tests du quotient des vraissemblances, du score ou de Wald présentés dans le tableau 3 conduisent tous au rejet de l hypothèse H 0 de nullité de l ensemble des coefficients. H 0 : β 1 = β 2 = β 3 = β 4 = 0 Néanmoins, seule la variable X3 a un apport marginal significatif dans le modèle complet. TABLEAU 3 : MODELE DE REGRESSION LOGISTIQUE RELIANT Y AUX VARIABLES X1, X2, X3, X4. The LOGISTIC procedure Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 65.421 37.457 SC 67.250 46.601-2 Log L 63.421 27.457 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 35.9639 4 <.0001 Score 22.3037 4 0.0002 Wald 12.2118 4 0.0158 Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 5.3711 2.3928 5.0385 0.0248 X1 1-7.1975 6.0172 1.4308 0.2316 X2 1 3.8096 13.7273 0.0770 0.7814 X3 1-3.4285 1.2151 7.9610 0.0048 X4 1 2.9266 3.0803 0.9027 0.3421 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits X1 <0.001 <0.001 99.094 X2 45.132 <0.001 >999.999 X3 0.032 0.003 0.351 X4 18.663 0.045 >999.999 Association of Predicted Probabilities and Observed Responses Percent Concordant 94.1 Somers' D 0.884 Percent Discordant 5.7 Gamma 0.885 Percent Tied 0.2 Tau-a 0.448 Pairs 525 c 0.942 2) UTILISATION DE LA REGRESSION LOGISTIQUE PAS A PAS DESCENDANTE POUR OBTENIR UN MODELE DONT TOUS LES COEFFICIENTS DE REGRESSION SONT SIGNIFICATIFS INSTRUCTIONS SAS proc logistic data=donnees ; model Y= X1 X2 X3 X4 /selection=backward; output out=stat; Les tableaux 4 et 5 et nous montrent les étapes d une sélection descendante. Les variables X2 et X4 sont successivement éliminées. Sur cet exemple l utilisation d une procédure de sélection ascendante, non présentée dans ce document conduit au choix du même modèle.
TABLEAU 4 : SELECTION DESCENDANTE ETAPES 1 ET 2 Step 1. Effect X2 is removed: Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 65.421 35.534 SC 67.250 42.848-2 Log L 63.421 27.534 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 35.8875 3 <.0001 Score 21.3885 3 <.0001 Wald 11.9770 3 0.0075 Residual Chi-Square Test Chi-Square DF Pr > ChiSq 0.0773 1 0.7811 Step 2. Effect X4 is removed: Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 65.421 34.604 SC 67.250 40.090-2 Log L 63.421 28.604 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 34.8169 2 <.0001 Score 21.1195 2 <.0001 Wald 11.5038 2 0.0032 Residual Chi-Square Test Chi-Square DF Pr > ChiSq 1.0494 2 0.5917 NOTE: No (additional) effects met the 0.05 significance level for removal from the model.
TABLEAU 5 : DESCRIPTION DU MODELE OBTENU PAR SELECTION DESCENDANTE Summary of Backward Elimination Effect Number Wald Step Removed DF In Chi-Square Pr > ChiSq 1 X2 1 3 0.0770 0.7814 2 X4 1 2 0.9318 0.3344 Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 5.9674 1.9904 8.9885 0.0027 X1 1-6.5887 2.9181 5.0979 0.0240 X3 1-3.0322 1.0041 9.1192 0.0025 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits X1 0.001 <0.001 0.419 X3 0.048 0.007 0.345 Association of Predicted Probabilities and Observed Responses Percent Concordant 93.5 Somers' D 0.872 Percent Discordant 6.3 Gamma 0.874 Percent Tied 0.2 Tau-a 0.443 Pairs 525 c 0.936
3) UTILISATION DU TEST LACK OF FIT DE HOSMER ET LEMESHOW INSTRUCTIONS SAS proc logistic data=donnees; model Y=X1 X3 / lackfit; Ce test basé sur la comparaison des effectifs observés et des effectifs prévus dans chaque groupe constitué en fonction du risque de faillite, permet de tester si le modèle construit est correct. Le niveau de probabilité associé à la statistique calculée confirme l intérêt du modèle construit à l aide des variables X1 et X3. TABLEAU 6 : TEST LACK OF FIT DE HOSMER ET LEMESHOW The LOGISTIC Procedure Hosmer and Lemeshow Goodness-of-Fit Test Y = Faillite Y = OK ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Group Total Observed Expected Observed Expected 1 5 0 0.00 5 5.00 2 5 0 0.14 5 4.86 3 5 1 0.44 4 4.56 4 6 0 1.24 6 4.76 5 5 2 1.66 3 3.34 6 5 4 3.48 1 1.52 7 5 5 4.35 0 0.65 8 5 4 4.71 1 0.29 9 5 5 4.97 0 0.03 Goodness-of-fit Statistic = 5.4779 with 7 DF (p=0.6019)
4) REPRESENTATION DES DONNEES DANS LE PLAN X1 X3 Instructions SAS data a; set donnees; If y=1 then label='-'; else label='+'; x5=(5.9674/3.0322)-(6.5887/3.0322)*x1; proc plot data=a; plot X3*X1= ''$ num X5*X1='*' / overlay; Commentaires : Le graphique présenté dans le tableau 7 visualise dans le plan défini par les variables X1 et X3 la droite correspondant à la probabilité 0,5 de faire faillite. En notant g la fonction définie par g(x) = 5,9674-6,5887 X1-3,0322 X3 il suffit d écrire qu une probabilité de faire faillite égale à 0,5 correspond à g(x) = 0. Ceci justifie la définition de la variable X5 définie dans le programme SAS et représentée en fonction de X1 dans le graphique proposé au sein du tableau 7. On remarque sur ce graphique qu en prenant un seuil de décision égal à 0,5 quatre individus sont mal reclassés. Il s agit des entreprises 13, 15, 16 et 34. Pour les entreprises 13, 15, 16 la probabilité de faillite prévue par le modèle construit est inférieure à 0,5 ( tableau 8 ). En réalité elles ont fait faillite. L entreprise 34 pour laquelle la probabilité prévue de faillite est égale à 0,9746 ( tableau 8 ) n a elle pas fait faillite.
TABLEAU 7 : VISUALISATION DE LA DROITE CORRESPONDANT A UNE PROBABILITE 0,5 DE FAIRE FAILLITE Plot of X3*X1$num. Symbol points to label. Plot of x5*x1. Symbol used is '*'. X3 6 ˆ 5 ˆ 46+ 27+ 26+ 42+ 4 ˆ * 24+ 3 ˆ * 40+ 44+ * * 33+ 28+ 35+ * 45 37 30+ 22+ * 36+ 25+ 39+ * 13-32+ 2 ˆ *29+23+15-43+ 16- * 31+ 38+ 17-18- * 2-5- 4-7- * 10-8- 9- * 21-19- 12- * 41+ 1-14- 20- * 1 ˆ 3- * * 6- * 34+ 11-0 ˆ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ -0.6-0.4-0.2 0.0 0.2 0.4 0.6 X1
5) ETUDE DETAILLEE DU MODELE DE REGRESSION LOGISTIQUE CONSTRUIT AVEC LES VARIABLES X1 ET X3 INSTRUCTIONS SAS proc logistic data=donnees1; model Y= X1 X3 / ctable pprob =(0 to 0.48 by 0.04, 0.5, 0.52 to 1 by 0.04 ); output out=out xbeta=xbeta stdxbeta=stdxbeta predicted=predicted lower=lower upper=upper reschi=reschi resdev=resdev ; proc print data=out; var Y predicted lower upper reschi resdev; Commentaires : Le tableau 8 présente les probalités de faillite prévues pour les différentes entreprises, les intervalles de confiance associés et les résidus de Pearson et residus déviance pour l ensemble des individus. On peut remarquer les valeurs très élevées de ces résidus pour les individus déjà cités 13, 15, 16 et 34. Le tableau 9 présente la table de classement des individus en fonction de différents seuils de probabilité. On y trouve en particulier la sensibilité et la spécificité. Remarquons que le niveau de probabilité maximisant ces deux critères se situe entre 0,56 et 0,60. Précisons que les affectations des individus ne sont pas réalisées par resubstitution mais par une méthode s apparentant à de la validation croisée. Ainsi pour le seuil de probabilité 0,5 on trouve six individus mal classés ( il y a trois individus mal classés dans chaque groupe), alors que par resubstition il n y a en tout que 4 individus mal classés. La figure 1 visualise le risque de faillite en fonction des valeurs de la variable X3. Comme il s agit d un modèle à deux variables, on a pris dans ce graphique la valeur moyenne de X1. Ce graphique réalisé avec STATGRAPHICS montre nettement que le risque de faillite diminue quand X3 augmente.
TABLEAU 8 : PROBABILITES CALCULEES, RESIDUS Obs Y predicted lower upper reschi resdev 1 Faillite 0.99642 0.86210 0.99992 0.05997 0.08473 2 Faillite 0.99388 0.75159 0.99989 0.07848 0.11081 3 Faillite 0.92331 0.63606 0.98809 0.28819 0.39947 4 Faillite 0.88416 0.60845 0.97402 0.36196 0.49621 5 Faillite 0.86808 0.57633 0.96954 0.38983 0.53193 6 Faillite 0.99152 0.85426 0.99957 0.09250 0.13053 7 Faillite 0.76386 0.48938 0.91609 0.55601 0.73399 8 Faillite 0.90312 0.63645 0.98025 0.32753 0.45145 9 Faillite 0.79073 0.49803 0.93502 0.51444 0.68527 10 Faillite 0.92787 0.66045 0.98838 0.27882 0.38695 11 Faillite 0.99847 0.92632 0.99997 0.03921 0.05542 12 Faillite 0.82028 0.52315 0.94997 0.46808 0.62947 13 Faillite 0.34932 0.15132 0.61779 1.36482 1.45037 14 Faillite 0.98498 0.79578 0.99909 0.12348 0.17397 15 Faillite 0.33636 0.15459 0.58419 1.40462 1.47618 16 Faillite 0.07455 0.01069 0.37526 3.52334 2.27872 17 Faillite 0.86928 0.58747 0.96880 0.38779 0.52933 18 Faillite 0.64326 0.39263 0.83416 0.74470 0.93936 19 Faillite 0.88800 0.61286 0.97544 0.35514 0.48740 20 Faillite 0.84449 0.50992 0.96592 0.42913 0.58142 21 Faillite 0.98171 0.77335 0.99882 0.13649 0.19213 22 OK 0.00698 0.00028 0.14800-0.08386-0.11839 23 OK 0.34875 0.16804 0.58676-0.73179-0.92614 24 OK 0.00162 0.00004 0.06392-0.04034-0.05703 25 OK 0.10618 0.02634 0.34278-0.34466-0.47381 26 OK 0.00012 0.00000 0.02384-0.01095-0.01548 27 OK 0.00007 0.00000 0.01965-0.00827-0.01170 28 OK 0.07894 0.01587 0.31297-0.29276-0.40555 29 OK 0.46355 0.22571 0.71921-0.92957-1.11604 30 OK 0.07018 0.01372 0.29049-0.27473-0.38148 31 OK 0.35335 0.15757 0.61485-0.73921-0.93375 32 OK 0.17194 0.05679 0.41729-0.45568-0.61429 33 OK 0.27432 0.06611 0.66872-0.61483-0.80081 34 OK 0.97462 0.69204 0.99848-6.19714-2.71068 35 OK 0.05406 0.00880 0.26890-0.23906-0.33339 36 OK 0.14336 0.04266 0.38597-0.40909-0.55631 37 OK 0.10844 0.02746 0.34381-0.34876-0.47913 38 OK 0.17926 0.04464 0.50518-0.46735-0.62858 39 OK 0.00955 0.00041 0.18588-0.09817-0.13850 40 OK 0.27435 0.01924 0.87931-0.61488-0.80086 41 OK 0.27718 0.03040 0.82426-0.61925-0.80572 42 OK 0.00002 0.00000 0.01043-0.00466-0.00659 43 OK 0.19555 0.06476 0.46044-0.49303-0.65969 44 OK 0.00246 0.00007 0.08184-0.04971-0.07025 45 OK 0.07149 0.01417 0.29197-0.27749-0.38517 46 OK 0.00000 0.00000 0.00378-0.00136-0.00192
TABLEAU 9 : TABLE DE CLASSEMENT Classification Table Correct Incorrect Percentages Prob Non- Non- Sensi- Speci- False False Level Event Event Event Event Correct tivity ficity POS NEG 0.000 21 0 25 0 45.7 100.0 0.0 54.3. 0.040 20 8 17 1 60.9 95.2 32.0 45.9 11.1 0.080 20 11 14 1 67.4 95.2 44.0 41.2 8.3 0.120 20 14 11 1 73.9 95.2 56.0 35.5 6.7 0.160 20 15 10 1 76.1 95.2 60.0 33.3 6.3 0.200 20 17 8 1 80.4 95.2 68.0 28.6 5.6 0.240 20 18 7 1 82.6 95.2 72.0 25.9 5.3 0.280 20 18 7 1 82.6 95.2 72.0 25.9 5.3 0.320 18 18 7 3 78.3 85.7 72.0 28.0 14.3 0.360 18 19 6 3 80.4 85.7 76.0 25.0 13.6 0.400 18 21 4 3 84.8 85.7 84.0 18.2 12.5 0.440 18 22 3 3 87.0 85.7 88.0 14.3 12.0 0.480 18 22 3 3 87.0 85.7 88.0 14.3 12.0 0.500 18 22 3 3 87.0 85.7 88.0 14.3 12.0 0.520 18 23 2 3 89.1 85.7 92.0 10.0 11.5 0.560 18 24 1 3 91.3 85.7 96.0 5.3 11.1 0.600 18 24 1 3 91.3 85.7 96.0 5.3 11.1 0.640 17 24 1 4 89.1 81.0 96.0 5.6 14.3 0.680 17 24 1 4 89.1 81.0 96.0 5.6 14.3 0.720 17 24 1 4 89.1 81.0 96.0 5.6 14.3 0.760 16 24 1 5 87.0 76.2 96.0 5.9 17.2 0.800 15 24 1 6 84.8 71.4 96.0 6.3 20.0 0.840 13 24 1 8 80.4 61.9 96.0 7.1 25.0 0.880 9 24 1 12 71.7 42.9 96.0 10.0 33.3 0.920 7 24 1 14 67.4 33.3 96.0 12.5 36.8 0.960 6 24 1 15 65.2 28.6 96.0 14.3 38.5 1.000 0 25 0 21 54.3 0.0 100.0. 45.7