Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit



Documents pareils
Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Méthodes d apprentissage statistique «Machine Learning»

La méthode des scores, particulièrement de la Banque de France

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ANALYSE DU RISQUE DE CRÉDIT

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT

Les modèles de prévision de la défaillance des entreprises françaises : une approche comparative

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Arbres binaires de décision

SAS ENTERPRISE MINER POUR L'ACTUAIRE

L utilisation des réseaux de neurones artificiels en finance. Philippe PAQUET Professeur de Gestion

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Forum 2014 de Making Finance Work For Africa (MFW4A)

Rating et probabilité de défaut des entreprises européennes :

Le risque Idiosyncrasique

Agenda de la présentation

Apprentissage Automatique

TABLE DES MATIÈRES TITRE I- LES ÉTATS FINANCIERS... 7 TITRE II- LA FISCALITÉ CORPORATIVE... 55

Introduction au datamining

Diagnostic financier - Corrigé

- 2 - «le risque de voir son client ne pas respecter son engagement financier, à savoir, dans la plupart des cas, un remboursement de prêt.

SCORING ET ANTICIPATION DE DEFAILLANCE DES ENTREPRISES : UNE APPROCHE PAR LA REGRESSION LOGISTIQUE

CAISSE REGIONALE DU CREDIT AGRICOLE MUTUEL D AQUITAINE

Développements récents de la méthode des scores de la Banque de France

La classification automatique de données quantitatives

MAÎTRISE ÈS SCIENCES EN GESTION. MICROPROGRAMMES Exploitation de données en intelligence d affaires Analytique d affaires - Énergie 2014 ANNUAIRE

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Travailler avec les télécommunications

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cours de méthodes de scoring

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

Rapport financier du premier trimestre de

données en connaissance et en actions?

Où investir en 2014? Grand colloque sur la gestion des actifs des caisses de retraite

Filière «Économie et Entreprise» 2015/2016

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

1 Modélisation d être mauvais payeur

Why Software Projects Escalate: The Importance of Project Management Constructs

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Application du data mining pour l évaluation de risque en assurance automobile

Formation continue. Ensae-Ensai Formation Continue (Cepe)

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Mise en place du Mécanisme de Supervision Unique (MSU)

Comment évaluer une banque?

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

TABLE DES MATIERES. C Exercices complémentaires 42

Gestion obligataire passive

Analyse financière par les ratios

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Fiche. Le diagnostic financier. 1 Introduction. 2 Le contexte du diagnostic. A Les objectifs du diagnostic financier. B Les préalables du diagnostic

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Esarc - Pôle formations à distance

Analyse nancière : quelques ratios

4. Résultats et discussion

La surveillance prudentielle du secteur financier

Philippe BESSE*, Hélène MILHEM*, Olivier MESTRE*,**, Anne DUFOUR***, Vincent-Henri PEUCH*** Résumé

MGP 702c Marketing & Financement d événements. Remarques (1) Remarques (3) Remarques (2)

Enjeux mathématiques et Statistiques du Big Data

Vers une Optimisation de l Algorithme AntTreeStoch

Stages de Formation en Statistique Appliquée et Logistique

COLLOQUE SUR LA RETRAITE ET LES PLACEMENTS AU QUÉBEC L INVESTISSEMENT GUIDÉ PAR LE PASSIF

Accélérer l agilité de votre site de e-commerce. Cas client

Fondements de Finance

Banque le Choix du Président

DCG session 2010 UE4 Finance d entreprise Corrigé indicatif. Dossier 1 - Diagnostic financier

Coup de Projecteur sur les Réseaux de Neurones

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

1. Référence : Pièce B-4, HQD-2, document 1, page 9, tableau R-2.1.

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Data Mining et Statistique

2 Traité de gestion bancaire

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Banque Zag. Troisième pilier de Bâle II et III Exigences de divulgation. 31 décembre 2013

Stages de Formation en Statistique Appliquée et Logistique

L assurance, un secteur singulier : En quoi les assurances diffèrent-elles des banques? Synthèse Juin 2010

METTEZ DU GÉNIE DANS VOS FINANCES AVEC LES FONDS FÉRIQUE. Offerts aux ingénieurs et diplômés en génie, à leurs familles et à leurs entreprises

Journées d études IARD

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Présentation des termes et ratios financiers utilisés

I N V I T A T I O N Cycle de formation

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

INF6304 Interfaces Intelligentes

Transcription:

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005

PLAN DE LA PRÉSENTATION Introduction Revue de littérature et principaux travaux Positionnement de la recherche Méthodologie et traitements Résultats résumés de la recherche Conclusion Discussion et recommandations l'optimisation 2005 2

MISE EN CONTEXTE Le risque de crédit est présent dans tous les contrats financiers et constitue la principale source de pertes pour les institutions financières Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq dernières années touchant les plus grandes entreprises au monde (Enron corp. & Worldcom corp.), dépassant $63 milliards durant le premier semestre de l année 2002 la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens permettant de minimiser les pertes l'optimisation 2005 3

QUELQUES DÉFINITIONS Défaillance des entreprises : Un concept difficile à cerner car il n y a pas de consensus en la matière : défaut, faillite, détresse, vulnérabilité financière, liquidation Deux définitions sont généralement retenues : La liquidation judiciaire (code 02 chapitre 11), concept purement juridique La vulnérabilité financière (code 03 chapitre 7), notion plus large Le risque de défaillance est le risque de cessation de paiement des dettes Le Credit scoring : Une méthode statistique de détection précoce de la défaillance des entreprises en les classant en firmes défaillantes et autres saines ou survivantes Le scoring est utilisée également dans différents domaines liés au Marketing, au recouvrement financier, au GRH. l'optimisation 2005 4

APERÇU JURIDIQUE Augmentation du nombre d entreprises qui se mettent sous la protection de la loi 268 sur la faillite La multiplicité croissante des outils financiers : Produits dérivés, Contrats à terme et Options Merton et Perold (1993) ont développé le concept de Capital-risque (espérance maximale de perte) Accord de Bâle I (1988) : Standards de réglementation Accord de Bâle II (2004) : trois piliers pour la solidité du système financier 1. Ajout de l évaluation du risque opérationnel 2. Supervision et contrôle par les autorités de surveillance 3. Cellules internes de gestion de risque l'optimisation 2005 5

REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX Les trois principales méthodes utilisées sont : Analyse Discriminante Multivariée (MDA) et modèle logit Arbres de décision et algorithmes de Partitionnement Récursif (PR) Réseaux de Neurones (NN) l'optimisation 2005 6

APERÇU HISTORIQUE Dès les années trente, volonté de comprendre le phénomène de la défaillance à postériorité Fitzpatrick (1932) Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la solvabilité et la rentabilité des entreprises Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection des entreprises en situation difficile Beaver (1966 & 1968) : Analyse dichotomique Altman (1968) : Analyse discriminante multivariée D autres travaux ont suivi : Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif Coats & Fant (1993) : Réseaux de Neurones l'optimisation 2005 7

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) Les principaux travaux utilisant cette méthode ont commencé par : Le modèle initial de Altman (1968) : Financial ratios, Discriminant Analysis and predicting of corporate Bankruptcy 66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1946-1965) Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5 Avec X1 = Fonds de Roulement / Actif total X2 = Réserves / Passif total X3 = Résultat avant intérêts et impôts / Actif total X4 = Capitalisation boursière / Ensemble des dettes X5 = Chiffre d'affaires / Actif total l'optimisation 2005 8

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) le modèle Zêta de Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit sur un échantillon de 111 entreprises industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1969-1975) Avec X1 = Résultat avant intérêts et impôts / Actif total X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total) X3 = Résultat avant intérêts et impôts / Charges financières X4 = Réserves / Passif total X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement) X6 = Total de la capitalisation boursière / Capitaux permanents X7 = log (Actifs totaux) l'optimisation 2005 9

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) le modèle de scoring pour la banque de France de Mireille Bardos (1998) : Detecting the risk of company failure at the Banque de France sur un échantillon d entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie f ( X ( µ ) * T Où X = ( X, X,..., X ) n n est le vecteur représentant les valeurs des p ratios de 1 n2 n p l entreprise n µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes T est la matrice de variance covariance totale pour l ensemble des p ratios Alors, le critère de décision était donc : Si f ( X n ) > 0 l entreprise survivra Si f ( X n ) 0 l entreprise fera faillite n ) = s µ d * ( X µ 1 s d n 2 µ ) l'optimisation 2005 10

ARBRES DE DÉCISION (PR) Les principaux travaux utilisant cette méthode ont commencé par : Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984) Introduction to Tree Classification Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : Introducing Recursive Partitioning for financial Classification : The case of financial Distress Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes, une sélection des variables les plus discriminantes sur l ensemble des 20 variables calculées pour la période (1971 1981) l'optimisation 2005 11

RÉSEAUX DE NEURONES (NN) Les principaux travaux utilisant cette méthode ont commencé par : le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) : Artificial neural networks in bankruptcy prediction: General framework and crossvalidation analysis Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : Recognizing Financial Distress Patterns Using a Neural Network Tool 141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT pour la période (1970 1989) l'optimisation 2005 12

Méthodes d ensemble (ME) Un ensemble de classificateurs individuels permettant d assurer la combinaison de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999) Méthodes se basant sur la perturbation du processus d apprentissage 2 types de méthodes ensemblistes : Bagging : Bootstrap Aggregating développé par Breiman (1996) Moyenne de différentes versions du modèle se basant sur des échantillons aléatoires avec remise est utilisant le maximum de votes Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001) Boosting : développé par Schapire (1990) Règles de prédiction extrêmement précises grâce à la combinaison des résultats de modèles faibles se basant sur la notion du vote pondéré l'optimisation 2005 13

POSITIONNEMENT DE LA RECHERCHE Objectifs de la recherche : Analyse comparative entre différentes méthodes de prédiction : AMD, modèle Logit, arbres de décision, combinaison d arbres de classification Méthodes non paramétriques performeront-elles mieux que les méthodes paramétriques & linéaires? Utilisation des méthodes d ensemble ( Bagging & Boosting ) l'optimisation 2005 14

MÉTHODOLOGIE ET TRAITEMENTS La source de données est représentée par les rapports financiers des entreprises américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002 Présentation des données : Année Taux de faillite COMPUS TAT Survivantes Échantillon retenu Faillites Taux de faillite Faillites Survivantes Population de COMPUSTAT 835 10348 Après épuration 445 6124 Années - entreprises 1332 40144 1992 1993 1994 1995 1996 0,74% 1,08% 0,71% 0,64% 0,54% 1808 1972 2093 2035 2246 11 56 47 33 33 0,60% 2,80% 2,20% 1,60% 1,40% Total 11183 6569 41476 1997 0,52% 2564 30 1,20% 1998 0,65% 2860 41 1,40% Année N - 1 N - 2 N - 3 N - 4 N - 5 1999 2000 0,79% 1,24% 3324 3806 45 92 1,30% 2,40% Nombre d entreprises 7 125 300 242 187 2001 2002 0,76% 0,43% 3822 3525 42 15 1,10% 0,40% Moyenne 0,74% 1,49% l'optimisation 2005 15

Échantillonnage Deux échantillons : Apprentissage et validation basés sur un échantillonnage stratifié selon la variable cible Apprentissage Validation Année Faillites Survivantes Total Faillites Survivantes Total Horizon 3 ans 259 24627 24886 172 16418 16590 Horizon 4 ans 404 24482 24886 270 16320 16590 Horizon 5 ans 517 24369 24886 344 16246 16590 l'optimisation 2005 16

MÉTHODOLOGIE Méthodes utilisées : Analyse Discriminante Multivariée Régression Logistique Arbres de décision Combinaison d arbres de classification ( Bagging & Boosting ) Critères et paramètres d évaluation des modèles : Sensitivité Taux global de bonne classification Spécificité Coûts de mauvaise classification : C10 C20 C30 C40 C50 l'optimisation 2005 17

Résultats horizon 3 ans 100,00% 99,00% 98,00% AD10 97,00% Spécificité 96,00% 95,00% BAG50 BOO50 94,00% BAG40 93,00% 92,00% 91,00% 70,00% 75,00% 80,00% 85,00% 90,00% 95,00% 100,00% Sensitivité l'optimisation 2005 18

Résultats horizon 3 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,92% 78,38% 99,69% 97,28% 79,65% 97,09% Bagging C40 96,58% 98,07% 96,60% 94,28% 98,84% 94,33% Bagging C50 96,73% 99,61% 96,76% 96,08% 99,42% 96,11% Boosting C50 94,13% 98,84% 94,18% 94,91% 98,84% 94,95% l'optimisation 2005 19

Résultats horizon 4 ans l'optimisation 2005 20

Résultats horizon 4 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,85% 78,47% 99,51% 99,75% 76,67% 99,38% Bagging C50 96,14% 99,01% 96,19% 96,12% 99,26% 96,17% Boosting C40 92,63% 98,02% 92,72% 93,56% 98,15% 93,63% Boosting C50 92,45% 98,27% 92,55% 94,02% 98,89% 94,10% l'optimisation 2005 21

Résultats horizon 5 ans l'optimisation 2005 22

Résultats horizon 5 ans Apprentissage Validation Modèle Spécificité Sensitivité Global Spécificité Sensitivité Global AD C10 99,56% 68,67% 98,92% 99,58% 67,44% 98,92% Bagging C50 94,01% 94,58% 94,02% 93,75% 94,48% 93,77% Boosting C40 91,99% 95,74% 92,07% 93,48% 95,06% 93,51% Boosting C50 92,34% 95,94% 92,41% 92,59% 95,64% 92,65% l'optimisation 2005 23

CONCLUSION Confirmation des deux hypothèses de départ : << L application des méthodes ensemblistes et non paramétriques ont permit d améliorer la qualité de la prédiction du phénomène de faillite chez les entreprises pour les différents horizons temporels considérés >> l'optimisation 2005 24

DISCUSSION ET RECOMMANDATIONS Plusieurs pistes de recherche : Tester la validité des modèles développés, dans un contexte réel de scoring, sur des données réelles des entreprises Introduction d autres types de variables : données de marché, informations macroéconomiques Application des mêmes méthodes sur des données canadiennes Intégration d autres types de méthodes dans l analyse comparative : réseaux de neurones, modèles mixtes. l'optimisation 2005 25

l'optimisation 2005 26