Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones



Documents pareils
Coup de Projecteur sur les Réseaux de Neurones

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

L utilisation des réseaux de neurones artificiels en finance. Philippe PAQUET Professeur de Gestion

INF6304 Interfaces Intelligentes

Introduction au datamining

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ANALYSE DU RISQUE DE CRÉDIT

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Résolution d équations non linéaires

Cours de méthodes de scoring

Chapitre 2 Le problème de l unicité des solutions

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Classification Automatique de messages : une approche hybride

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

Principe de symétrisation pour la construction d un test adaptatif

Filtrage stochastique non linéaire par la théorie de représentation des martingales

NON-LINEARITE ET RESEAUX NEURONAUX

Relation entre deux variables : estimation de la corrélation linéaire

données en connaissance et en actions?

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

3 Approximation de solutions d équations

La méthode des scores, particulièrement de la Banque de France

Chapitre 3. Les distributions à deux variables

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Arbres binaires de décision

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Chapitre 2/ La fonction de consommation et la fonction d épargne

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Introduction à l approche bootstrap

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Principe d un test statistique

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Complément d information concernant la fiche de concordance

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Économétrie, causalité et analyse des politiques

Synthèse «Le Plus Grand Produit»

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

4.2 Unités d enseignement du M1

Introduction au Data-Mining

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Leçon 12. Le tableau de bord de la gestion des stocks

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Modélisation aléatoire en fiabilité des logiciels

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Les modèles de prévision de la défaillance des entreprises françaises : une approche comparative

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

CHAPITRE 5. Stratégies Mixtes

L'analyse de la structure financière

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

L apprentissage automatique

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Le théorème des deux fonds et la gestion indicielle

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Fonctions de plusieurs variables

Évaluation de la régression bornée

Optimisation, traitement d image et éclipse de Soleil

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Quantification Scalaire et Prédictive

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Résumé des communications des Intervenants

Comment évaluer une banque?

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

23. Interprétation clinique des mesures de l effet traitement

Méthodes d apprentissage statistique «Machine Learning»

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Correction du baccalauréat ES/L Métropole 20 juin 2014

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Enjeux mathématiques et Statistiques du Big Data

Gestion obligataire passive

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Présentation des termes et ratios financiers utilisés

Table des matières. I Mise à niveau 11. Préface

FIMA, 7 juillet 2005

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Résolution de systèmes linéaires par des méthodes directes

Transcription:

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones Abdeljelil Farhat Unité de recherche EAS-Mahdia Faculté des sciences économiques et de gestion de Mahdia, Université de Monastir, Tunisie. Sami Mestiri Unité de recherche EAS-Mahdia Faculté des sciences économiques et de gestion de Mahdia, Université de Monastir, Tunisie. Manel Hamdi Unité de recherche IFGT-Tunisia Faculté des sciences économiques et de gestion de Tunis, Université El Manar, Tunisie. Résumé : L objectif de cet article est de comparer deux techniques de classification des entreprises : la régression logistique semi paramétrique et les réseaux de neurones dans le but de prévoir le risque la défaillance des entreprises tunisiennes. L échantillon utilisé comporte 528 firmes tunisiennes de différents secteurs d activités dont nous disposons des bilans et des comptes financiers des exercices 1999-2006. Une différence a été constatée entre le modèle de régression logistique et celui reposant sur un réseau de neurones artificiels en termes de performance de distinction entre les entreprises saines et les entreprises en détresse financière. En fait, nous avons démontré que les modèles basés sur les réseaux de neurones donnent des résultats des prévisions de la défaillance financière en terme de bon classement ainsi que par les résultats obtenus de la courbe ROC.. Mots clés : Prévision ; Risque de crédit ; Régression logistique semi paramétrique ; Réseaux de neurones ; Courbe ROC. Abstract : The aim of this paper is to compare two different forecasting models : the semi parametric logistic model versus the neural networks in order to predict the credit risk of banks in Tunisia. The sample includes 528 Tunisian firms from different sectors of activities that we have balance sheets and income statements for fiscal years 1999-2006. There was performance 1

difference between models based on logistic regression and an artificial neural network for differentiating the financial health firm and firm default. The results obtained show that the use of artificial neural network improves the quality of model predictions in terms of good classification as well as by the ROC curve result. Key words :Forecasting ; Logistic semi parametric model ; Neural networks ; Curve ROC. 1 Introduction La prévision de la détresse financière d entreprises est une procédure très importante pour ceux qui y sont impliqués (actionnaires, gestionnaires, salariés, prêteurs, fournisseurs, clients et surtout l État). Les modèles de prévision servent comme "système d alerte " pour les gestionnaires d entreprises qui peuvent entreprendre des actions de prévention contre le risque de faillite (par exemple, opération de rachat, de liquidation, de redressement, etc.). D autre part, ces modèles peuvent aussi être utiles pour les professionnels des établissements financiers dans l évaluation et la sélection des entreprises auxquelles ils prêtent des crédits. En partant de ces considérations et devant l ampleur du phénomène, diverses études et recherches ont été menées dans ce sens durant ces trente dernières années. Elles visaient à mettre en évidence les principaux indicateurs permettant de prévoir à temps les difficultés éprouvées par les entreprises. Nous pouvons citer parmi les premiers travaux, à titre d exemple, ceux de Beaver (1966) et Altman(1968). Depuis cette période et jusqu à nos jours, le nombre d études sur l évaluation des risques de faillite et la prévision de la détresse financière des entreprises ne cesse d accroître. Il suffit de citer Bardos et Zhu (1997), Chava et Jarrow (2004) et Hillegeist (2004). La grande majorité de ces recherches s appuie sur des outils d analyse statistique de grandeurs comptables et de ratios financiers pour discriminer les entreprises saines des entreprises défaillantes. Ces études ont abouti à une fonction de score qui est un indicateur de synthèse censé de donner en un chiffre, le degré de défaillance possible d une entreprise. Dans une étude relative à des entreprises américaines, Press et Wilson (1978) ont utilisé des données en coupe transversale des ratios financiers pour déterminer les ratios les plus déterminants de la faillite des entreprises à partir du modèle de la régression logistique. Une caractéristique importante de ce modèle est que la moyenne conditionnelle de la variable expliquée est 2

liée paramétriquement aux variables explicatives. Cependant, la considération que la forme fonctionnelle entre les variables est linéaire n est pas souvent appropriée surtout lorsque le phénomène étudié est compliqué. Pour contourner cette lacune, Zhang et Lin (2003) ont proposé une modélisation plus flexible des variables explicatives ou le prédicteur linéaire dans le modèle de régression est remplacé par des fonctions non paramétriques. Le nouveau modèle est nommé par "Modèle de régression logistique semi paramétrique". L intérêt principal de ce modèle est qu il permet de distinguer les relations linéaires et non linéaires au sein d un même modèle. D un autre côte, pour améliorer la prise de décision du banquier, Tam et Kiang (1992) et Altman (1994) ont intégré les progrès enregistrés en matière d intelligence artificielles pour la construction des modèles de prévision de la détresse financière des firmes. Des autres chercheurs ont proposé l emploi de modèles basés sur les réseaux de neurones, on cite à titre d exemple (Perez, 2006 ; Chih-Fong et Jhen-Wei, 2008 ;Tilmont, 1998 ; Bardos et Zhu, 1997). Les modèles développés sont non linéaires et non paramétriques et tiennent compte des avancées effectuées en matière de reproduction artificielle des réseaux de neurones et de génétique. Ce papier s intègre dans le cadre de comparaison deux techniques de classification des entreprises : la régression logistique semi paramétrique et les réseaux de neurones, en utilisant un processus de validation. Ce processus sert à estimer les performances du modèle qui vient d être construit sur un jeu de données. Notre démarche empirique se base sur le calcul des taux de mauvaise classement et élaboration de la courbe de ROC pour chacun du modèle de score construits. L article est organisé comme suit : Dans la section 1, nous présenterons la structure des données de notre étude. Dans la section 2, la régression logistique semi paramétrique sera appliquer pour la prévision de la détresse financière. La troisième section sera réserver à la présentation et à l application de la technique des réseaux de neurones artificiels. Dans la section 4, nous étudierons la validation des fonctions de scores établies. Ce papier s achèvera par l analyse de quelques conclusions et commentaires. 3

2 La structure des données 2.1 L échantillon La source d information qui a été utilisée pour cette étude est la Banque centrale de Tunis. Une série de données financières a été collectée à partir des documents de synthèse (bilans et comptes de résultats) sur la période (1999-2006). Notre base de données est constituée d un échantillon de 528 entreprises appartenant à différents secteurs d activité. 2.2 Les variables explicatives Les ratios financiers sont des variables les plus souvent utilisées dans le modèle de prévision du risque. Comme il existe des dizaines de ratios, le choix de ces variables indépendantes est un problème fondamental dans l élaboration d un modèle de prédiction de défaillance. Dans notre application, nous avons choisi de retenir des ratios liés aux différentes dimensions de l analyse financière et qui représentent les différents critères d appréciation de la bonne santé d une entreprise. Les thèmes sont la structure financière, rotation, rentabilité, charges financières, la solvabilité et la liquidité. Les variables explicatives de l étude sont récapitulées dans le tableau de l annexe 1. La batterie des variables de l étude comporte 26 ratios. 2.3 La variable expliquée Le critère de classification retenu pour la détermination de la variable expliquée a priori est l état juridique de l entreprise. Ce critère est jugé bon du fait qu il reflète la solvabilité des entreprises. La structure de cet échantillon est décrite sous deux classes juridiques : saines ou défectueuses. La variable expliquée Y peut être écrite par des valeurs binaires : Y = { 1 pour les entreprises en détresse 0 pour les entreprises saines (1) En adoptant ces critères de classement, nous avons pu décomposer a priori l échantillon en deux sous-groupes. Le premier groupe est composé par 448 entreprises saines et le second groupe est composé par 80 entreprises en situation de détresse. 4

3 L analyse par le modèle de régression logistique semi paramétrique 3.1 Présentation générale du modèle D après la figure (1), Les nuages des points les données des ratios en fonction des rapports de chances correspondants (figure 1) montre que les variables R 7, R 9, R 10, R 20, R 23 ont une liaison linéaire avec leurs rapports de chances tandis que les données de la variable R 21 a une relation non linéaire. Sur la base de ces constats tirées a partir de la figure 1, il est intéressant de considérer une modification de la variable R 21 dans le modèle de régression. Ainsi, le modèle de régression logistique semi paramétrique s écrit sous la forme suivante : ( ) pi log 1 p i = β 1 R 7,i + β 3 R 9,i + β 4 R 10,i + β 4 R 14,i +β 5 R 15,i + β 6 R 20,i + f(r 21,i ) (2) Avec p i = P (y i = 1 R i ), pour(i = 1,..., n) est la probabilité a posteriori d appartenance au groupe d entreprises en détresse, β est un coefficient inconnu et f est une fonction de lissage inconnue. 3.2 Présentation économétrique du modèle D après les nuages des points de la variable R 21, il semble que la relation entre cette variable et les rapports de chances prend une forme quadratique. Par conséquent, nous proposons d approximer la fonction de lissage f par des bases de fonctions puissances tronquées du seconde degré : f(r 21,i ) = δ 0 + δ 1 R 21,i + δ 2 R 2 21,i + K b k (R 21,i κ k ) 2 + (3) où κ 1,..., κ K est un ensemble de noeuds distincts tirés des observations de la variable R 21 et X + = max(0; X). Le nombre de noeuds K est assez grand (d ordre K 30) pour assurer l exigibilité de la courbe. 5 k=1

En suivant l approche de Wand et Ngo (2004), le modèle de régression logistique semi paramétrique s écrit sous la forme du modèle de régression logistique à effets aléatoires. En effet, en remplaçant l équation (2) dans (3), on obtient le modèle suivant : ( ) pi log 1 p i = δ 0 + δ 1 R 21,i + δ 2 (R 21,i ) 2 + β 1 R 7,i + β 3 R 9,i K +β 4 R 14,i + β 5 R 20,i + b k (R 21,i κ k ) + (4) k=1 Pour écrire le modèle (4) sous la forme matricielle, nous désignons par : 1 R 21,1 (R 21,1 ) 2.. R 20,1 a)x = : : : : est une matrice composée par les 1 R 21,n (R 21,n ) 2.. R 20,n variables explicatives, (R 21 κ 1 ) +... (R 21 κ K ) + b) Z = : : est une matrice (n, K) composée (R 2n κ 1 ) +... (R 2n κ K ) + par les bases, c) β = (δ 0, δ 1, δ 2, β 1, β 3, β 4, β 5 ) est un vecteur des paramètres inconnus, d) b = (b 1,..., b K ) est un vecteur composé par les coefficient associés à la matrice Z et f) P = (P (y 1 = 1),..., P (y n = 1)) est le vecteur des probabilités a posteriori. Le modèle (4) admet une représentation matricielle sous la forme suivante : ( ) P log = Xβ + Zb (5) 1 P En supposant que le vecteur des effets aléatoires b normalement distribués N(0, G θ ), l estimation du modèle de régression logistique semi paramétrique (5) revient à estimer le modèle de régression logistique à effets aléatoires. L estimation des paramètres β et θ peut être réalisé par la méthode de Quasi-Vraisemblance Pénalisée (PQL) développée par Breslow et Clayton 6

(1993). L application de la méthode PQL consiste à définir le vecteur fonctionnel par Y = Xβ + Zb + (Y P ) avec = diag{p i (1 p i )} et aussi la matrice fonctionnelle de poids par Σ = W 1 + ZG θ Z, avec W = diag{p i }. 3.3 Les résultats d estimation du modèle La table (1) rapporte les résultats d estimation du modèle (5) pour les données de notre échantillon. Les ratios Valeurs estimés Pouv. discrim. t value p value (cst) -2.0467-18.687 0.0000 R 7 : Rotation de l actif 0.2795 0.0017 3.846 0.0001 R 9 : Rentabilité économique 9.8834 0.5277 8.164 0.0000 R 10 : Rentabilité des capitaux -12.4510 0.4674-8.210 0.0000 R 14 : Taux de rentabilité des capitaux 0.03277 0.0000 1.742 0.0815 R 15 : Rotation des capitaux -0.19147 0.0000-4.691 0.0000 R 23 :Ratio de charges financières -0.83057 0.0031-2.538 0.0112 Tab. 1 les estimateurs du modèle de régression logistique semi paramétrique σ 2 k α2 k σ 2 k α 2 k Le pouvoir discriminant du ratio R k est défini par le rapport : avec σ k est l écart type du ratio R k. Il exprime l influence du ratio dans la fonction de score. D après la table (1), les ratios R 9 et R 10 jouent un rôle capital dans la formation de la fonction de score des entreprises puisque ces ratios ont un pouvoir discriminant de l ordre de 99%. D après la table (1), nous remarquons que l effet estimé de la variable R 9 (la rentabilité économique) a un signe positif. Cela signifie que l augmentation des frais financiers fait diminuer la rentabilité économique ce qui explique l accroissement de la probabilité d être en détresse. Par contre la variable R 10 (la rentabilité des capitaux investis) présente un signe négatif ce qui induit que l augmentation des résultats net implique une augmentation de risque de défaillance. La fonction de lissage dans le modèle de régression logistique semiparamétrique (2) permet de détecter un effet de seuil de ratios sur la probabilité d etre en détresse. Aprés l estimation des composantes du modèle par la méthode PQL nous avons obtenu la courbe de la fonction f(r 21 ) estimée de la variable capacité d endettement à long terme avec son intervalle de confiance à 95%. D après ce graphe (2), pour un seuil inférieur à 1, la probabilité de 7

détresse est une fonction décroissante de la capacité d endettement à long terme et pour un seuil supérieur à 1, elle devient croissante. 4 Les réseaux de neurones Dans le paragraphe précédent, nous avons vu que l analyse par le modèle de régression logistique semi paramétrique est une procédure économétrique caractérisés par deux étapes (la création d un modèle suivie par l estimation de ses paramètres).cependant, les réseaux de neurones appartiennent a une catégorie différente d outils d analyse des données. Comme leur nom le suggère, les réseaux de neurones ont eu comme point de départ les connaissances biologiques et plus précisément neuro-physiologiques à propos du cerveau humain. 4.1 Présentation générale du réseaux de neurones Le développement de la technique des réseaux de neurones artificiels découle d une imitation de certains mécanismes du cerveau humain. Un réseau de neurone est un ensemble d unités interconnectées qui disposent d une grande capacité d apprentissage et de traitement de l information. Il s agit en fait d un algorithme mathématique qui permet de traiter parfaitement les connaissances relatives à la relation entre les valeurs d entrées et de sorties, afin de classer correctement les situations. Un réseau de neurones est généralement formé d une couche d entrée représentant les neurones d entrées (variables d input), d une couche de sortie représentent le vecteur des variables d outputs permettant de transférer les informations en dehors du réseau, et d une ou de plusieurs couches cachées présentant l ensemble des noeuds cachés ayant des connexions entrantes qui proviennent des neurones d entrée. Ces unités n ont pas d interaction directe avec l environnement. Elles permettent au réseau d apprendre des tâches complexes en exploitant, progressivement, les caractéristiques les plus significatives des neurones d entrées. Un poids est attribué à chaque connexion du réseau, et l ensemble correspond au schéma de pondérations de la figure Le recours aux réseaux de neurones artificiels a débuté avec le travail pionnier de McCulloch et Pitts (1943) lors de la mise au point de l algorithme de rétropropagation des erreurs, qui a fait naître l espoir de pouvoir tirer 8

partie des phénomènes présents pour la prévision des phénomènes futurs. Cet algorithme, développé par la suite par Rumelhart, Hinton et Williams (1985), comprend deux phases : une phase de forward propagation et une phase de backward propagation. La procédure de calibration du réseau de neurones est une méthode de calcul de poids optimaux. L algorithme le plus utilise dans ce but est l algorithme de rétropropagation,( Backpropagation), qui peut être utilisé pour l apprentissage surveillé. Dans la propagation forward, chaque neurone de la couche d entrée reçoit un signal externe, le traite et l émet aux neurones de la couche cachée. A ce niveau l entrée globale, que reçoit chaque neurone caché, est donnée par la somme pondérée de tous les entrées. a j = N i=0 w (1) ij x i (6) Ou x i est le neurone de rang i de la couche d entrée, qui en contient N. w ij est la pondération du signal émis par le neurone x i, de la couche d entrée, vers le neurone h j de la couche cachée. a j est le signal total reçu par le neurone h j de la couche cachée, qui en contient m. Les neurones de cette dernière couche, agrègent les signaux émis par la couche d entrée, sur la base de la fonction d activation et gênèrent des signaux de sortie. La fonction d activation calcule la transformation de l état d activation à l instant k + 1 à partir de l état d activation à l instant k. h j = g 1 (a j ) (7) Ces signaux seront transférés, après traitement, à la couche suivante qui subit les mêmes transformations pour obtenir enfin la sortie calculée par le réseau : a k = m j=0 w (2) kj h j (8) La fonction de sortie calcule la valeur de sortie d un neurone en fonction de son état d activation. [ m ( N )] y k = g 2 w (2) kj g 1 w (1) ij x i (9) j=0 9 i=0

Le choix de la fonction d activation dépend du type de l application. Dans certaines applications, on utilise souvent des sigmoïdes comme fonctions d activation. Dans d autres exemples on utilise la fonction logit ou la tangente hyperbolique. Un réseau de neurones artificiels composé de couches successives et avec des fonctions d activation sigmoïdales s appelle perceptron multi-couche (Multilayer-Perzeptron - MLP). 4.2 Procédure d apprentissage : l algorithme de rétropropagation La seconde phase "Backward" détermine la direction et le degré d ajustement aux pondérations de connexions individuelles. Le processus d apprentissage peut être considéré comme un problème de minimisation avec une fonction objectif E définie dans l espace de pondérations W. L apprentissage surveillé est un apprentissage par correction des erreurs. Ainsi, il faut d abord définir une fonction d erreur. Cette fonction pourrait être par exemple l erreur moyenne quadratique : E (w) = 1 N N m (y i,j yi,j) 2 (10) i=1 j=1 Ou N représente le nombre de couples (x i, y i ) utilisés pour l apprentissage, m est le nombre de neurones dans la couche de sortie et y i est la réponse du réseau pour l entrée x i. L algorithme de rétropropagation peut être appliqué pour n import quel type de fonction d erreur. La fonction d erreur dépend de tous le poids du réseau et doit être minimisée. A cause de la non-linéarité du réseau on ne peut pas trouver un minimum global par une méthode analytique. C est pour cette raison qu on cherche un minimum local par une méthode itérative par une descente de gradient recursive. L algorithme d optimisation le plus utilisé est celui de rétropropagation du gradient basé sur l idée suivante : en tout point w, le vecteur gradient de E (w) pointe dans la direction de l erreur croissante. Pour faire décroître E (w) il suffit donc de se déplacer en sens contraire. Il s agit d un algorithme itératif modifiant les poids de chaque neurone selon : 10

w ij (t) = w ij (t 1) + w ij (t) (11) Les ajustements des poids sont déterminés dans le chemin de propagation à chaque niveau et ce en évaluant les dérivées partielles de cette fonction E par rapport aux poids synaptiques. L ajustement du poids de chaque peut être calculé comme suit : w ij (t) = E w ij ε (12) Ou ε est le taux d apprentissage. Après l interaction de large nombre de cycles, l erreur est réduite au niveau acceptable, et le processus s arrête. Le réseau de l étude a été entraîné sur tout l ensemble d apprentissage correspondant aux 8 ratios calculés. Pour chaque configuration à tester, le réseau de neurones essaie de déterminer l ensemble des pondérations optimales des inputs. 5 La validation des fonctions de score de la détresse Après avoir déterminé des fonctions de score de la détresse, il faut en évaluer leurs efficacités. Nous pouvons le faire par les tests du pouvoir discriminant et les tests du pouvoir prédictif. Ainsi, nous allons calculer le taux d erreur de classement et tracer la courbe de ROC "Receiver Operating Curve" en calculant les indices associés tels que l aire sous la courbe de ROC. Étant donné que les modèles de réseaux de neurones se construisent par apprentissage à partir d un certain nombre d observations. Tout au long de cette application, nous avons utilisé uniquement 80% des observations pour la Formation (Apprentissage) et le 20% restant pour le Test afin de tester la capacité prédictive réelle du réseau. Pour évaluer la capacité à bien classer le modèle, nous pourrons construire une colonne prédiction Ŷ. Étant choisi 0,5 le seuil de coupure (césure de 11

classement), chaque firme est classée saine si sa probabilité de défaut est inférieur à 0,5 et vulnérable sinon. Il est plus judicieux de construire ce que l on appelle une matrice de confusion (la table 2). Elle confronte toujours les valeurs observées de la variable dépendante avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises prédictions. L intérêt de la matrice de confusion est qu elle permet à la fois d appréhender le taux d erreur et de se rendre compte de la structure de l erreur (la manière de se tromper du modèle). Ŷ = 1 Ŷ = 0 Total Y = 1 n 11 n 10 n 1 Y = 0 n 01 n 00 n 0 Tab. 2 Matrice de confusion Nous rappelons que le taux d erreur de classement est égal au nombre de mauvais classement rapporté à l effectif total. La table 3 présente les taux d erreur de classement. Le taux d erreur de classement égale à 14% pour le modèle de la régression logistique semi paramétrique et 12.8% pour les réseaux des neurones c.à.d une amélioration de prédiction de 1.2%. Ce qui prouve que la technique des réseaux des neurones est une méthode plus efficace pour calculer de risque de la détresse. De même dans le but de comparer le modèle de la régression logistique semi paramétrique et les réseaux des neurones, nous présentons la courbe ROC de chaque modèle. Ce courbe est un outil graphique qui permet d évaluer et de comparer globalement le comportement des fonctions de scores (Pepe(2000). La courbe ROC met en relation le taux de vrais positifs (T V P = n 11 /n 1 ) (la sensibilité) qui indique la capacité du modèle à retrouver les positifs et le taux de faux positifs (T F P = n 10 /n 0 ) qui correspond à la proportion de négatifs qui ont été classés positifs, dans un graphique de nuage de points. Habituellement, nous comparons ˆp à un seuil s = 0.5 pour effectuer une prédiction Ŷ. Nous pouvons ainsi construire la matrice de Le réseaux de neurones La régre. logistique semi Ŷ = 1 Ŷ = 0 Total Ŷ = 1 Ŷ = 0 Total Y = 1 24 14 38 6 3 9 Y = 0 65 510 575 83 521 604 Le taux d erreur 0.128 0.140 Tab. 3 Matrice de confusion des modèles estimés pour l échantillon test 12

confusion et en extraire les 2 indicateurs précités. La courbe ROC généralise cette idée en faisant varier s pour toutes les valeurs possibles entre 0 et 1. Pour chaque configuration, nous construisons la matrice de confusion et nous calculons le TVP et le TFP. Dans la pratique, il n est pas nécessaire de construire explicitement la matrice de confusion, nous procédons de la manière suivante : 1. Calculer le score ˆp de chaque individu à l aide du modèle de prédiction. 2. Trier le fichier selon un score décroissant. 3. Considérons qu il n y a pas d ex-aequo. Chaque valeur du score peut être potentiellement un seuil s. Pour toutes les observations dont le score est supérieur ou égal à s, les individus dans la partie haute du tableau, nous pouvons comptabiliser le nombre de positifs n 11 (s) et le nombre de négatifs n 10 (s). Nous en déduisons (T V P = n 11 (s)/n 1 ) et (T F P = n 10 (s)/n 0 ). 4. La courbe ROC correspond au graphique nuage de points qui relie les couples (TVP, TFP). Le premier point est forcément (0,0), le dernier est (1,1). La procédure de calcul du nuages des points de la courbe ROC a été effectué en utilisant le logiciel R. D après la courbe ROC,(la figure (4)), il est évident que la règle de classification basée sur les réseaux de neurones est plus performante que celle basée sur la régression logistique semi paramétrique. Ceci nous amène à conclure que la validité de la fonction de score issue du modèle de réseaux de neurones est meilleure que celle obtenue à partir du modèle de régression logistique semi paramétrique. Il est possible de caractériser numériquement la courbe ROC en calculant la surface située sous la courbe. C est le critère d aire sous la courbe (AUC, pour Area Under Curve). Elle exprime la probabilité de placer un individu positif devant un négatif. Ainsi, dans le cas d une discrimination parfaite AUC = 1, les positifs sont sûrs d être placés devant les négatifs. Au contraire, si AUC = 0.5 le classificateur attribue des scores au hasard, il y a autant de chances de placer un positif devant un négatif que l inverse. La courbe ROC se confond avec la première bissectrice. C est la situation de référence, notre classificateur doit faire mieux. L aire sous la courbe ROC mesure la qualité de discrimination du modèle et traduit la probabilité qu une entreprise saine ait un score supérieur au 13

score d une entreprise en détresse, ceux-ci étant tirés au hasard. L aire sous la courbe ROC du modèle de régression logistique semi paramétrique est égale à 0.61 par contre l aire sous la courbe ROC de réseaux de neurones est égale à 0.709 ; ces deux valeurs sont très proches de un. 6 Conclusions La gestion de risque de crédit présente un intérêt primordial pour tous les organismes et institutions financières. Ainsi, la nécessité de prédiction de risque devient un enjeu important. Dans ce contexte plusieurs chercheurs ont développé des outils statistiques dans le but de prévoir la détresse financière des entreprises. Dans ce papier, nous avons réalisé une recherche exploratoire des nouvelles relations fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations fonctionnelles ont été estimées à travers le modèle de régression logistique semi paramétrique. D un autre coté, nous avons appliqué la technique des réseaux de neurones artificiels à la prévision de la détresse financière des firmes tunisiennes. Une fois le modèle de score est élaboré, nous avons montré que la méthode de prévision basée sur le réseau des neurones admet un pouvoir discriminant et prédictif plus que la méthode basée sur le modèle de régression logistique semiparamétrique en utilisant un processus de validation. En conclusion, dans ce papier nous avons de montrer que les réseaux de neurones artificiels est un outil de prévision puissant en matière de détresse financière des firmes. D autre part nous avons attirer l attention sur l aspect non linéaire des relations entre les ratios et la probabilité de la détresse. 14

Bibliographie [1] Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, 23(4) :589-609. [2] Altman E.I, Marco G. and Varetto F. (1994), Corporate distress diagnosis : comparisons using linear discriminant analysis and neural networks : the Italian experience, Journal of banking and finance, vol. 18 n 3, pp. 505-529. [3] Bardos, M. and Zhu, W. H. (1997). Comparaison de l analyse discriminante linéaire et des réseaux de neurones. application à la détection de défaillance d entreprises. Revue Statistique Appliquée. [4] Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of Accounting Research, 4 :71-111. [5] Breslow, N. and Clayton, D. G. (1993). Approximate Inference in Generalized Linear Mixed Models. Journal of the American Statistical Association 88 :9-25. [6] Chava, S. and Jarrow, R. A. (2004). Bankruptcy Prediction with Industry Effects. Review of Finance, 8(4) :537-569. [7] Tam K.Y.et Kiang M.Y. (1992), Managerial application of neural networks : the case of bank failure predictions, Management science, vol.38 n 7, pp.926-947. [8] Ngo, L. and Wand, M. (2003). Smoothing with mixed model software. Journal of Statistical Software, 4(1) :1-54. [9] Pepe, M. S. (2000). Receiver operating characteristic methodology. Journal of the American Statistical Association, 95(449) :308-311. [10] Press, S. J. and Wilson, S. (1978). Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association, 73(364) :699-705. [11] S. Hillegeist, E. Keating, D. C. and Lundstedt, K. (2004). Assessing the probability of bankruptcy. Review of Accounting Studies, 9 :5-34. [12] Zhang, D. and Lin, X. (2003). Hypothesis testing in semi parametric additive mixed models.biostat, 4(1) :57-74. 15

1.pdf logit 6 2 0 2 4 logit 6 2 0 2 4 0 500 1000 1500 2000 datapq$r15 0e+00 1e+06 2e+06 3e+06 datapq$r20 logit 6 2 0 2 4 logit 6 2 0 2 4 60 40 20 0 20 datapq$r21 0 1000 2000 3000 4000 datapq$r23 16 Fig. 1 Les nuages des points des variables explicatives et de leurs logits

2.pdf s(x2,2) 5 0 5 10 15 1.0 0.5 0.0 0.5 1.0 1.5 2.0 X2 17 Fig. 2 La courbe de la fonction estiméef(r 21 )

3.pdf R7 1 1 0.91872 0.58361 R9 22.60393 1.90433 56.70602 R10 31.43555 0.43627 R14 R15 R20 R21 R23 sect 62.07954 0.09071 0.00108 0.12845 8.49821 0.10275 1.39616 0.41784 1.98263 0.24546 0.02057 0.06347 0.85833 2.1198 0.34755 0.10021 y Error: 145.755384 Steps: 5479 18 Fig. 3 Les estimations des réseaux de neurones

4.pdf La courbe ROC de semi param. (AUC=0.684) La courbe ROC des réseaux (AUC=0.70 sensibilité 0.0 0.2 0.4 0.6 0.8 1.0 sensibilité 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 spécificité 0.0 0.2 0.4 0.6 0.8 1.0 1 spécificité 19