Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005
PLAN DE LA PRÉSENTATION Introduction Revue de littérature et principaux travaux Positionnement de la recherche Méthodologie et traitements Résultats résumés de la recherche Conclusion Discussion et recommandations l'optimisation 2005 2
MISE EN CONTEXTE Le risque de crédit est présent dans tous les contrats financiers et constitue la principale source de pertes pour les institutions financières Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq dernières années touchant les plus grandes entreprises au monde (Enron corp. & Worldcom corp.), dépassant $63 milliards durant le premier semestre de l année 2002 la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens permettant de minimiser les pertes l'optimisation 2005 3
QUELQUES DÉFINITIONS Défaillance des entreprises : Un concept difficile à cerner car il n y a pas de consensus en la matière : défaut, faillite, détresse, vulnérabilité financière, liquidation Deux définitions sont généralement retenues : La liquidation judiciaire (code 02 chapitre 11), concept purement juridique La vulnérabilité financière (code 03 chapitre 7), notion plus large Le risque de défaillance est le risque de cessation de paiement des dettes Le Credit scoring : Une méthode statistique de détection précoce de la défaillance des entreprises en les classant en firmes défaillantes et autres saines ou survivantes Le scoring est utilisée également dans différents domaines liés au Marketing, au recouvrement financier, au GRH. l'optimisation 2005 4
APERÇU JURIDIQUE Augmentation du nombre d entreprises qui se mettent sous la protection de la loi 268 sur la faillite La multiplicité croissante des outils financiers : Produits dérivés, Contrats à terme et Options Merton et Perold (1993) ont développé le concept de Capital-risque (espérance maximale de perte) Accord de Bâle I (1988) : Standards de réglementation Accord de Bâle II (2004) : trois piliers pour la solidité du système financier 1. Ajout de l évaluation du risque opérationnel 2. Supervision et contrôle par les autorités de surveillance 3. Cellules internes de gestion de risque l'optimisation 2005 5
REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX Les trois principales méthodes utilisées sont : Analyse Discriminante Multivariée (MDA) et modèle logit Arbres de décision et algorithmes de Partitionnement Récursif (PR) Réseaux de Neurones (NN) l'optimisation 2005 6
APERÇU HISTORIQUE Dès les années trente, volonté de comprendre le phénomène de la défaillance à postériorité Fitzpatrick (1932) Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la solvabilité et la rentabilité des entreprises Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection des entreprises en situation difficile Beaver (1966 & 1968) : Analyse dichotomique Altman (1968) : Analyse discriminante multivariée D autres travaux ont suivi : Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif Coats & Fant (1993) : Réseaux de Neurones l'optimisation 2005 7
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) Les principaux travaux utilisant cette méthode ont commencé par : Le modèle initial de Altman (1968) : Financial ratios, Discriminant Analysis and predicting of corporate Bankruptcy 66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1946-1965) Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5 Avec X1 = Fonds de Roulement / Actif total X2 = Réserves / Passif total X3 = Résultat avant intérêts et impôts / Actif total X4 = Capitalisation boursière / Ensemble des dettes X5 = Chiffre d'affaires / Actif total l'optimisation 2005 8
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) le modèle Zêta de Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit sur un échantillon de 111 entreprises industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1969-1975) Avec X1 = Résultat avant intérêts et impôts / Actif total X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total) X3 = Résultat avant intérêts et impôts / Charges financières X4 = Réserves / Passif total X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement) X6 = Total de la capitalisation boursière / Capitaux permanents X7 = log (Actifs totaux) l'optimisation 2005 9
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) le modèle de scoring pour la banque de France de Mireille Bardos (1998) : Detecting the risk of company failure at the Banque de France sur un échantillon d entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie f ( X ( µ ) * T Où X = ( X, X,..., X ) n n est le vecteur représentant les valeurs des p ratios de 1 n2 n p l entreprise n µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes T est la matrice de variance covariance totale pour l ensemble des p ratios Alors, le critère de décision était donc : Si f ( X n ) > 0 l entreprise survivra Si f ( X n ) 0 l entreprise fera faillite n ) = s µ d * ( X µ 1 s d n 2 µ ) l'optimisation 2005 10
ARBRES DE DÉCISION (PR) Les principaux travaux utilisant cette méthode ont commencé par : Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984) Introduction to Tree Classification Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : Introducing Recursive Partitioning for financial Classification : The case of financial Distress Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes, une sélection des variables les plus discriminantes sur l ensemble des 20 variables calculées pour la période (1971 1981) l'optimisation 2005 11
RÉSEAUX DE NEURONES (NN) Les principaux travaux utilisant cette méthode ont commencé par : le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) : Artificial neural networks in bankruptcy prediction: General framework and crossvalidation analysis Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : Recognizing Financial Distress Patterns Using a Neural Network Tool 141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT pour la période (1970 1989) l'optimisation 2005 12
Méthodes d ensemble (ME) Un ensemble de classificateurs individuels permettant d assurer la combinaison de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999) Méthodes se basant sur la perturbation du processus d apprentissage 2 types de méthodes ensemblistes : Bagging : Bootstrap Aggregating développé par Breiman (1996) Moyenne de différentes versions du modèle se basant sur des échantillons aléatoires avec remise est utilisant le maximum de votes Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001) Boosting : développé par Schapire (1990) Règles de prédiction extrêmement précises grâce à la combinaison des résultats de modèles faibles se basant sur la notion du vote pondéré l'optimisation 2005 13
POSITIONNEMENT DE LA RECHERCHE Objectifs de la recherche : Analyse comparative entre différentes méthodes de prédiction : AMD, modèle Logit, arbres de décision, combinaison d arbres de classification Méthodes non paramétriques performeront-elles mieux que les méthodes paramétriques & linéaires? Utilisation des méthodes d ensemble ( Bagging & Boosting ) l'optimisation 2005 14
MÉTHODOLOGIE ET TRAITEMENTS La source de données est représentée par les rapports financiers des entreprises américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002 Présentation des données : Année Taux de faillite COMPUS TAT Survivantes Échantillon retenu Faillites Taux de faillite Faillites Survivantes Population de COMPUSTAT 835 10348 Après épuration 445 6124 Années - entreprises 1332 40144 1992 1993 1994 1995 1996 0,74% 1,08% 0,71% 0,64% 0,54% 1808 1972 2093 2035 2246 11 56 47 33 33 0,60% 2,80% 2,20% 1,60% 1,40% Total 11183 6569 41476 1997 0,52% 2564 30 1,20% 1998 0,65% 2860 41 1,40% Année N - 1 N - 2 N - 3 N - 4 N - 5 1999 2000 0,79% 1,24% 3324 3806 45 92 1,30% 2,40% Nombre d entreprises 7 125 300 242 187 2001 2002 0,76% 0,43% 3822 3525 42 15 1,10% 0,40% Moyenne 0,74% 1,49% l'optimisation 2005 15
Échantillonnage Deux échantillons : Apprentissage et validation basés sur un échantillonnage stratifié selon la variable cible Apprentissage Validation Année Faillites Survivantes Total Faillites Survivantes Total Horizon 3 ans 259 24627 24886 172 16418 16590 Horizon 4 ans 404 24482 24886 270 16320 16590 Horizon 5 ans 517 24369 24886 344 16246 16590 l'optimisation 2005 16
MÉTHODOLOGIE Méthodes utilisées : Analyse Discriminante Multivariée Régression Logistique Arbres de décision Combinaison d arbres de classification ( Bagging & Boosting ) Critères et paramètres d évaluation des modèles : Sensitivité Taux global de bonne classification Spécificité Coûts de mauvaise classification : C10 C20 C30 C40 C50 l'optimisation 2005 17
Résultats horizon 3 ans 100,00% 99,00% 98,00% AD10 97,00% Spécificité 96,00% 95,00% BAG50 BOO50 94,00% BAG40 93,00% 92,00% 91,00% 70,00% 75,00% 80,00% 85,00% 90,00% 95,00% 100,00% Sensitivité l'optimisation 2005 18
Résultats horizon 3 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,92% 78,38% 99,69% 97,28% 79,65% 97,09% Bagging C40 96,58% 98,07% 96,60% 94,28% 98,84% 94,33% Bagging C50 96,73% 99,61% 96,76% 96,08% 99,42% 96,11% Boosting C50 94,13% 98,84% 94,18% 94,91% 98,84% 94,95% l'optimisation 2005 19
Résultats horizon 4 ans l'optimisation 2005 20
Résultats horizon 4 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,85% 78,47% 99,51% 99,75% 76,67% 99,38% Bagging C50 96,14% 99,01% 96,19% 96,12% 99,26% 96,17% Boosting C40 92,63% 98,02% 92,72% 93,56% 98,15% 93,63% Boosting C50 92,45% 98,27% 92,55% 94,02% 98,89% 94,10% l'optimisation 2005 21
Résultats horizon 5 ans l'optimisation 2005 22
Résultats horizon 5 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,56% 68,67% 98,92% 99,58% 67,44% 98,92% Bagging C50 94,01% 94,58% 94,02% 93,75% 94,48% 93,77% Boosting C40 91,99% 95,74% 92,07% 93,48% 95,06% 93,51% Boosting C50 92,34% 95,94% 92,41% 92,59% 95,64% 92,65% l'optimisation 2005 23
CONCLUSION Confirmation des deux hypothèses de départ : << L application des méthodes ensemblistes et non paramétriques ont permit d améliorer la qualité de la prédiction du phénomène de faillite chez les entreprises pour les différents horizons temporels considérés >> l'optimisation 2005 24
DISCUSSION ET RECOMMANDATIONS Plusieurs pistes de recherche : Tester la validité des modèles développés, dans un contexte réel de scoring, sur des données réelles des entreprises Introduction d autres types de variables : données de marché, informations macroéconomiques Application des mêmes méthodes sur des données canadiennes Intégration d autres types de méthodes dans l analyse comparative : réseaux de neurones, modèles mixtes. l'optimisation 2005 25
l'optimisation 2005 26