Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 1
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 2
Sommaire INTRODUCTION 9 1. ANALYSE DESCRIPTIVE DES DONNEES DE LA BANQUE 11 1.1 DESCRIPTION DE LA BASE DE DONNEES 11 1.2 ANALYSE UNIVARIEE DES DONNEES 11 1.3 ANALYSE BIVARIEE DES DONNEES 12 2. CONSTRUCTION DU MODELE PAR UNE METHODE CLASSIQUE : LA REGRESSION LOGISTIQUE 14 2.1 CONSTRUCTION DE LA BASE DONNEE 14 2.2 SELECTION DES VARIABLES EXPLICATIVES 14 2.3 PRESENTATION DU MODELE RETENU 18 2.3.1 RESULTATS 18 2.3.2 PERFORMANCE 20 3. PERFECTIONNEMENT DU MODELE PAR DES METHODES AVANCEES 24 3.1 METHODE DES FUSIONS DE CLASSIFIEURS 24 3.2 BOOSTING SUR LA REGRESSION LOGISTIQUE 27 ANNEXES 33 1. DESCRIPTIF DES VARIABLES DISPONIBLES 33 2. TABLEAUX DE FREQUENCES DES VARIABLES : STATISTIQUES UNIVARIEES 35 3. STATISTIQUES BIVARIEES 36 3.1 CARACTERISATION DES VARIABLES QUALITATIVES 36 3.2 ANALYSE BIVARIEE APPROFONDIE 38 4 RESULTATS DU PREMIER MODELE AVEC LES CHOMEURS 42 5 TEST D EGALITE DE MODALITES 43 6 PRESENTATION DES SEPT CLASSIFIEURS UTILISES 44 7 PERFORMANCE DE LA METHODE AVANCEE «BOOSTING» 46 8 PERFORMANCE DE LA METHODE AVANCEE «FUSIONS DE CLASSIFIEURS» 48 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 3
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 4
Table des illustrations TABLEAU 1: DETECTION DE VALEURS MANQUANTES OU ABERRANTES... 11 TABLEAU 2: ANALYSE BIVARIEE DES VARIABLES QUANTITATIVES... 12 TABLEAU 3: RESUME DE LA SELECTION FORWARD... 14 TABLEAU 4 : RESUME DE LA SELECTION BACKWARD... 15 TABLEAU 5: ESTIMATION DU MODELE PRENANT EN COMPTE LES CHOMEURS... 16 TABLEAU 6: ODDS RATIO DU MODELE PRENANT EN COMPTE LES CHOMEURS... 16 TABLEAU 7: ESTIMATION DU MODELE PRENANT SANS LES CHOMEURS(1/2)... 17 TABLEAU 8: ESTIMATION DU MODELE PRENANT SANS LES CHOMEURS (2/2)... 17 TABLEAU 9: SIGNIFICATIVITE DES VARIABLES EXPLICATIVES DU MODELE CLASSIQUE RETENU... 18 TABLEAU 10 : ESTIMATIONS DES COEFFICIENTS DES PARAMETRES DES VARIABLES EXPLICATIVES DU MODELE CLASSIQUE RETENU... 19 TABLEAU 11 : ODDS RATIO DU MODELE CLASSIQUE RETENU... 19 TABLEAU 12 : MATRICE DE CONFUSION 1 - MODELE CLASSIQUE RETENU... 23 TABLEAU 13 : MATRICE DE CONFUSION 2 - MODELE CLASSIQUE RETENU... 23 TABLEAU 14 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MAX... 25 TABLEAU 15 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MIN... 26 TABLEAU 16 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MEAN... 26 TABLEAU 17 : MATRICE DE CONFUSION - MODELE AVANCE : BOOSTING, 5 BOUCLES.. 28 TABLEAU 18 : MATRICE DE CONFUSION - MODELE AVANCE : BOOSTING, 10 BOUCLES 29 TABLEAU 19 : DESCRIPTIF DES VARIABLES... 33 TABLEAU 20 : CARACTERISATION PAR VARIABLES QUALITATIVES (KREDIT = 0)... 36 TABLEAU 21 : CARACTERISATION PAR VARIABLES QUALITATIVES (KREDIT = 1)... 37 TABLEAU 22 : STATISTIQUES BIVARIEES : ETAT DU COMPTE DU CLIENT... 38 TABLEAU 23 : STATISTIQUES BIVARIEES : DUREE DU CREDIT... 38 TABLEAU 24 : STATISTIQUES BIVARIEES : OBJET DU CREDIT... 39 TABLEAU 25 : STATISTIQUES BIVARIEES : VALEUR DES RESSOURCES FINANCIERES... 39 TABLEAU 26 : STATISTIQUES BIVARIEES : STATUT PROFESSIONNEL... 40 TABLEAU 27 : STATISTIQUES BIVARIEES : STATUT MARITAL PAR SEXE... 40 TABLEAU 28 : STATISTIQUES BIVARIEES : NOMBRE DE PRECEDENTS CREDITS A LA BANQUE... 41 TABLEAU 29 : STATISTIQUES BIVARIEES : ACTIVITE PROFESIONNELLE... 41 TABLEAU 30 : STATISTIQUES BIVARIEES : COMPORTEMENT PASSE POUR REMBOURSER D AUTRES CREDITS... 42 TABLEAU 31 : RESULTATS DU PREMIER MODELE AVEC LES CHOMEURS... 42 TABLEAU 32 : TEST D EGALITE DE MODALITES POUR LA VARIABLE BESZEIT (STATUT PROFESSIONNEL)-1/2... 43 TABLEAU 33 : TEST D EGALITE DE MODALITES POUR LA VARIABLE BESZEIT (STATUT PROFESSIONNEL)-2/2... 44 TABLEAU 34 : CLASSIFIEUR 1... 44 TABLEAU 35 : CLASSIFIEUR 2... 44 TABLEAU 36 : CLASSIFIEUR 3... 45 TABLEAU 37 : CLASSIFIEUR 4... 45 TABLEAU 38 : CLASSIFIEUR 5... 45 TABLEAU 39 : CLASSIFIEUR 6... 45 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 5
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 6
FIGURE 1: ETAT DU COMPTE DU CLIENT... 12 FIGURE 2: CARACTERISATION DE LA VARIABLE CIBLE PAR LES VARIABLES QUALITATIVES... 13 FIGURE 3: EVOLUTION DE LA PERFORMANCE DES MODELES SELON LES ETAPES DE LA SELECTION FORWARD... 15 FIGURE 4 : COURBE ROC DU MODELE CLASSIQUE RETENU... 20 FIGURE 5 : COURBE LIFT DU MODELE CLASSIQUE RETENU... 21 FIGURE 6 : DETECTION DU SEUIL POUR LE MODELE CLASSIQUE RETENU... 22 FIGURE 7 : PRINCIPE DU BOOSTING... 27 FIGURE 8 : COURBE ROC DU MODELE AVANCE : BOOSTING... 46 FIGURE 9 : COURBE LIFT DU MODELE AVANCE : BOOSTING... 47 FIGURE 10 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MAX... 48 FIGURE 11 : COURBE LIFT DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MAX... 48 FIGURE 12 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MIN... 49 FIGURE 13 : COURBE LIFT DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MIN... 49 FIGURE 14 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MEAN... 50 FIGURE 15 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MEAN... 50 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 7
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 8
Introduction L objectif de notre projet est de trouver le meilleur modèle qui prédit si un client est digne de confiance pour lui accorder un crédit. Ce qui intéresse tout particulièrement un banquier est de connaitre le risque de son client à ne pas rembourser son crédit. Ainsi, tout au long de cette étude, nous prêterons une attention particulière aux taux de bien classés dans la classe des individus risqués et pas seulement au taux de bien classé global puisque ce sont particulièrement les clients non solvables qu il est primordial de cibler dans cette problématique. Pour cela nous comparerons trois méthodes de modélisation : une méthode traditionnelle et deux méthodes avancées. La méthode classique que nous avons utilisée est la régression logistique. Les deux méthodes avancées que nous avons mises en œuvre pour une potentielle amélioration de la précédante sont la fusion de classifieurs et le boosting. Nous allons ainsi voir dans quelle mesure il est possible de perfectionner une technique de modélisation classique telle que la régression logistique afin d obtenir une règle de décision plus performante. Après une brève description des données, nous élaborerons une régression logistique pour en étudier les performances. Nous nous attacherons par la suite à l étude des deux méthodes avancées mises en œuvre : la fusion de classifieurs et le boosting, pour en analyser l apport quant à l amélioration potentielle du modèle classique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 9
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 10
1. Analyse descriptive des données de la banque 1.1 Description de la base de données La base de données utilisée pour les modélisations comporte 719 lignes correspondant à des individus tous clients d une banque allemande. La variable cible à expliquer, «kredit», est binaire et codée 1 ou 0 selon respectivement que l individu est digne de confiance ou non pour l octroi d un crédit. On distingue 23% de clients qui sont risqués (kredit=0) et 77% des individus qui sont solvables (kredit=1). Pour la construction des modèles nous disposons d un ensemble de variables potentiellement explicatives dont la description est fournie en annexe 1. La plupart de ces variables sont qualitatives nominales comme le type de logement du client, ou ordinales comme le nombre d anciens crédits à la banque. Seules trois d entre elles sont quantitatives tel que l âge par exemple. 1.2 Analyse univariée des données La procédure means du logiciel SAS a l avantage de donner deux informations très importantes sur les données, à savoir si les variables explicatives contiennent des valeurs aberrantes ou manquantes. D après le tableau ci-dessous nous pouvons constater qu il n y a ni valeur aberrante ni valeur manquante dans nos données. Tableau 1: Détection de valeurs manquantes ou aberrantes Les clients constituant la base de données ont une moyenne d âge (alter) de 36 ans. Il s agit d adultes de 19 à 74 ans dont la moitié a plus de 33 ans. De plus, les montants de crédits demandés (hoehe) sont, en moyenne, de 3 326 DM (Deutschemark) et s échelonnent de 250 DM à 18 424 DM. La durée de crédit (laufzeit), quant à elle, est exprimée en mois et varie dans une fourchette allant de 4 mois à 6 ans. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 11
Par ailleurs, la grande majorité des individus a un compte courant depuis plus d un an ou a un solde créditeur de plus de 200 DM, comme présenté ci-dessous. Figure 1: Etat du compte du client De plus, comme indiqué en annexe 2, plus de trois-quarts des clients de la base de données n ont pas d autre crédit en cours et près d un-tiers ont comme objets de crédits l achat de voitures neuves ou d occasions. 1.3 Analyse bivariée des données Tableau 2: Analyse bivariée des variables quantitatives En comparant les deux tableaux ci-dessus nous pouvons déjà avoir une idée sur le pouvoir discriminant en termes de risques des variables quantitatives à disposition. L âge (alter) semble, en effet, ne pas différer entre la population d individus considérés comme digne de confiance pour l octroi d un crédit (kredit = 1) et ceux qui ne le sont pas (kredit = 0) : cette variable ne semble donc pas discriminer correctement les deux populations. En revanche, les variables mesurant la durée et le montant du crédit différent d un groupe à l autre. La population risquée a, en moyenne, un montant (hoehe) et une durée (laufzeit) de crédit plus élevés que les autres. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 12
Nous allons maintenant tenter d avoir une première idée sur le profil des clients risqués et, par la même, celui des clients solvables. Pour ce faire, nous avons fait une caractérisation de la variable cible kredit par les variables qualitatives. Figure 2: Caractérisation de la variable cible par les variables qualitatives Grâce à ce graphique, nous pouvons avoir une idée générale sur les caractéristiques sous et sur représentées pour le groupe des clients solvables et celui des non solvables. (Une analyse plus approfondie est faite en annexe 3) Par exemple, on note une dissymétrie flagrante entre les deux groupes sur le variable laufkont (l état du compte du client). Nous constatons, en effet, qu il y a une sur représentation des individus sans mouvement sur leur compte (laufkont = 2) parmi les clients non solvables alors que ces individus sont sous représentés au sein des clients sans risque. A l inverse, les clients avec plus de 200 DM sur leur compte ou ayant un compte courant depuis plus d un an (laufkont = 4) sont sur représentés parmi les individus solvables alors qu ils sont sous représentés parmi les individus risqués. Par ailleurs, cette dissymétrie continue avec les variables dhoehe (montant du crédit en deutschmarks mis en classe), beszeit (statut professionnel du client) et bmoral (comportement passé pour rembourser d autres crédits). En effet, il y a, sans surprise, une sur représentation des individus ayant eu des problèmes dans le passé pour rembourser leurs crédits (bmoral = 0) et une sous représentation de ceux n ayant pas eu de problème particulier parmi les clients non solvables. La situation est totalement opposée pour les clients considérés comme non risqués. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 13
2. Construction du modèle par une méthode classique : la régression logistique 2.1 Construction de la base donnée Les probabilités a priori des deux modalités de la variable kredit sont structurellement très déséquilibrées. Ainsi, pour avoir une estimation efficace du modèle logit, l échantillon est obtenu (contenant les clients et les non clients de la banque) selon un plan de sondage stratifié (300 réponses kredit = 0 et 700 réponses kredit =1). Une fois cet échantillonnage réalisé, nous ne sélectionnons que les individus clients de la banque, soit 719 personnes avec la même répartition de la variable kredit que dans la base initiale. Enfin, un second, également stratifié selon la variable kredit, est fait de manière à avoir un échantillon d apprentissage (70%) et un échantillon test (30%). 2.2 Sélection des variables explicatives La première étape fut de mettre toutes les variables, quantitatives comme qualitatives, dans une procédure de sélection forward à un seuil de 100% avec un maximum de 10 étapes pour avoir une première idée sur les variables explicatives en mettant en fin de listes les variables corrélées à ces dernières. Le tableau ci-dessous résume les étapes de cette procédure. Summary of Forward Selection Step Effect Entered DF Score Chi-Square Pr > ChiSq 1 laufkont 2 68.5381 <.0001 2 hoehe 1 18.7261 <.0001 3 bmoral 1 10.3469 0.0013 4 verw 8 23.8859 0.0024 5 beszeit 4 16.4467 0.0025 6 sparkont_bis 3 11.1117 0.0111 7 laufzeit 1 5.2341 0.0221 8 buerge 2 6.3723 0.0413 9 wohnzeit_bis 2 6.1592 0.0460 10 dalter_bis 3 6.3670 0.0951 Tableau 3: Résumé de la sélection forward Afin d avoir savoir le nombre optimal de variables à conserver à l issue de la sélection forward, nous avons représenté, grâce au graphique ci-après, l évolution des indicateurs de performance des différents modèles créés en fonction des étapes de la sélection forward, c'est-à-dire en d autres termes, en fonction des variables présentent dans le modèle. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 14
Figure 3: Evolution de la performance des modèles selon les étapes de la sélection forward Nous pouvons alors constater que plusieurs modèles sont possibles en regardant les sauts dans l évolution des performances : - Le premier avec 3 variables : laufkont, hoehe et bmoral. - Le deuxième avec 4 variables : laufkont, hoehe,bmoral et verw. - Le troisième avec 6 variables : laufkont, hoehe,bmoral, verw, beszeit et sparkont_bis. Afin de s assurer de la pertinence de ces variables en terme de discrimination par rapport au risque, nous soumettons toutes celles significatives à 5% lors de la sélection forward à une sélection backward. L idée de cette démarche est de voir quelles sont les variables les plus discriminantes en termes de risque et d éviter les redondances. En effet, les variables corrélées aux variables les plus discriminantes ne seront pas retenues (là est l avantage sur la méthode de sélection stepwise). Le tableau ci-dessous liste les variables éliminées lors de la sélection backward à un seuil de 5%. Summary of Backward Elimination Step Effect Removed DF Wald Chi-Square Pr > ChiSq 1 wohnzeit_bis 2 0.9321 0.6275 2 laufzeit 1 3.3198 0.0685 3 buerge 2 5.3396 0.0693 Tableau 4 : Résumé de la sélection backward Ainsi, nous pouvons constater que 3 variables ont été exclues. La variable laufzeit, par exemple, a été supprimée car elle est corrélée à la variable hoehe à 64,72% et est moins discriminante que cette dernière en termes de risque. Il est à noter que les 3 variables éliminées ne font pas partie des 3 modèles préalablement retenus. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 15
Nous avons testé différents modèles à partir des variables précédemment retenues. Le plus performant est celui présenté en annexe 4 et analysé ci-après. Cependant ce modèle n a pas été retenu car quelques modifications ont été faites en prenant en compte l aspect «métier» du problème, non encore étudié jusqu ici. Le modèle retenu fournit, entre autres, les résultat suivants : Chômeurs Salariés depuis plus de 4 ou 7 ans Tableau 5: Estimation du modèle prenant en compte les chômeurs Note : la modalité des clients salariés depuis plus de 7 ans (beszeit = 5) est prise en référence. Les chômeurs (beszeit = 1) ont un coefficient estimé plus faible que les individus salariés depuis plusieurs années. Puisque c est l événement d être risqué (kredit = 0) qui est modélisé ici, cela signifierait que les chômeurs sont plus solvables que les salariés Tableau 6: Odds Ratio du modèle prenant en compte les chômeurs Note : ici aussi, à la vue de l Odds Ratio des chômeurs contre les salariés de longue date, nous concluons à une meilleure solvabilité des chômeurs. Ainsi, le problème ici est que, aux vues des coefficients estimé et des Odd Ratios, les chômeurs (beszeit = 1) semblent moins risqués que les clients travaillant depuis plus de 7 ans (beszeit = 5). Notre première idée fut de regrouper ces deux modalités, d'autant plus qu'un test d'égalité de ces dernières s'est avéré accepté (cf. annexe 5). Cependant, nous avons préféré supprimer les chômeurs de la base de données qui n étaient seulement que 40. Le regroupement n aurait pas eu de sens économique dans la mesure où les Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 16
raisons pour lesquelles ces deux groupes d individus sont a priori peu risqués sont différentes. En effet, les clients salariés depuis quelques années sont solvables puisqu ils justifient d une sécurité économique réelle du fait de leur emploi. En revanche, l explication est toute autre pour les chômeurs à qui, en général, on n accorde pas de prêt, ils n ont alors pas de problème de remboursement de crédit. Une fois les chômeurs supprimés de la base de données, nous avons obtenu les résultats de modélisation suivants : Tableau 7: Estimation du modèle prenant sans les chômeurs(1/2) Le coefficient de la variable beszeit (statut professionnel du client) n est pas significatif au seuil de 5%. Par ailleurs, nous avons détecté un autre problème quant au coefficient estimé de la modalité 4 de la variable beszeit (salariés ayant une ancienneté comprise entre 4 et 7 ans). En effet, ce coefficient est plus faible que celui du groupe d individus travaillant depuis plus de 7 ans comme indiqué cidessous. Tableau 8: Estimation du modèle prenant sans les chômeurs (2/2) Cela voudrait dire que les salariés d une ancienneté comprise entre 4 et 7 ans seraient moins risqués que ceux travaillant depuis plus de 7 ans. D un point de vue «métier», considérer de jeunes salariés comme moins risqués que des salariés de longue date n a pas de sens économique. Un banquier n accorderait pas plus de confiance à un individu au début de sa carrière professionnelle qu à un salarié confirmé, bien au contraire. Nous avons donc testé si ces deux modalités étaient semblables en termes de risque (cf. annexe 5), ce qui fut le cas. Ainsi, nous les avons regroupées en considérant qu à partir de 4 ans d ancienneté, les salariés ont tous les mêmes chances d être solvables. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 17
2.3 Présentation du modèle retenu 2.3.1 Résultats Le modèle sélectionné comporte quatre variables (listées ci-dessous) dont une seule est quantitative, les trois autres étant qualitatives. - hoehe : le montant du crédit en deutschmarks - laufkont : l état du compte du client o modalité 2 : absence de mouvement sur le compte o modalité 3 : compte créditeur de moins de 200 DM o modalité 4 : compte créditeur de plus de 200 DM ou compte courant de plus d un an - bmoral : comportement passé pour rembourser d autres crédits o modalité 0 : paiement difficile des crédits antérieurs ou comptabilité problématique ou autres crédits extérieurs à la banque o modalité 1 : pas de crédit antérieur ou crédits antérieurs remboursés ou aucun problème de crédits courants ou crédits passés à cette banque remboursés - beszeit_bis : le statut professionnel du client comme décrit ci-dessus, i.e. : o modalité 2 : clients salariés depuis moins d un an o modalité 3 : ancienneté comprise entre 1 et 4 ans o modalité 145 : ancienneté supérieure à 4 ans Il est à noter que les variables retenues ici ont déjà été mises en évidence lors de la caractérisation de la variable cible dans la partie 1.3 Analyse bivariée des données. Tous les coefficients estimés sont significativement différents de zéro, même ceux des modalités des variables qualitatives. Cela qui signifie qu aucun autre regroupement de modalités n est nécessaire. Les estimations sont décrites dans les tableaux ci-après. Tableau 9: Significativité des variables explicatives du modèle classique retenu Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 18
Tableau 10 : Estimations des coefficients des paramètres des variables explicatives du modèle classique retenu Pour l estimation des paramètres, pour chaque variable explicative, une modalité a été prise en référence. Ainsi, il est facile de comparer l effet d une modalité sur la prédiction du risque par rapport à une autre (pour la même variable). Par exemple, pour la variable reflétant l état du compte du client (laufkont), il est clair que plus ce compte est faiblement créditeur, plus le client est risqué, ce qui est logique d un point de vue métier. Ainsi, nous pouvons noter que tous les coefficients estimés ont un sens économique s avérant vrai dans la réalité. Ceci est confirmé par les Odds Ratio présentés ci-après : Tableau 11 : Odds Ratio du modèle classique retenu Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 19
2.3.2 Performance - La courbe roc Pour juger de la performance d un modèle, plusieurs indicateurs existent, telle que la courbe roc présentée ci-dessous. Tous les indicateurs de performance présentés dans cette étude ont été calculés sur l échantillon test, correspondant à 30% de notre base de départ comme expliqué au point 2.1 Construction de la base de données. Figure 4 : Courbe Roc du modèle classique retenu Plus l aire sous la courbe est élevée (proche de 1), plus le modèle est performant. Dans le cas du modèle étudié ici, l air sous la courbe roc pour l échantillon test est de 0,76, ce qui est tout à fait convenable. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 20
- La courbe lift Un autre indicateur de performance est la courbe lift qui nous donne une indication sur la qualité globale du modèle. Plus la courbe correspondant à notre modèle (courbe noire sur le graphique cidessous) est proche de celle du modèle parfait (courbe rouge), mieux c est. La courbe verte correspond au modèle aléatoire qui affecterait avec une probabilité de 50 % un individu dans une des deux classes. Figure 5 : Courbe Lift du modèle classique retenu La courbe lift de notre modèle est assez bien : 20 % des scores les plus élevés (i.e 20 % des clients les plus risqués) captent plus de 40 % des individus effectivement non solvables. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 21
- Le taux de bien classés La dernière étape de la construction d un modèle de score est la détermination du seuil d affectation à la classe prédite. Il s agit de choisir un seuil qui soit un compromis entre tous les objectifs : - Sensibilité : taux de bien classés dans la classe d intérêt (ici kredit = 0) - Spécificité : taux de bien classés dans l autre classe (ici kredit = 1) - Taux de bien classés global Pour avoir une idée précise du seuil à utiliser, nous avons tracé les densités des deux modalités de la variable prédite de «kredit». Figure 6 : Détection du seuil pour le modèle classique retenu Après différents essais de seuil, nous avons hésité entre deux. Le premier retenu est celui à 0,22 (soit 22%). C'est-à-dire qu à partir d une probabilité d appartenir aux individus risqués («kredit» = 0) supérieure à 22 %, le client est classés dans la classe des clients non solvables. Avec ce seuil, nous obtenons les résultats suivants : Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 22
Tableau 12 : Matrice de confusion 1 - modèle classique retenu Ici le taux de bien classé global est de 72,42%. En revanche, il serait judicieux de trouver un seuil qui permette d avoir un taux de bien classés dans la classe des individus risqués (ce que l on cherche à prédire) au moins équivalent à celui des individus solvables. Nous avons donc plutôt retenu un seuil à 0,21 nous donnant les résultats cidessous. Tableau 13 : Matrice de confusion 2 - modèle classique retenu Ici nous admettons une légère baisse du taux de bien classés global en contrepartie d une augmentation de ce dernier dans la classe qui intéresse tout particulièrement un banquier lorsqu il s apprête à prêter de l argent à un client, à savoir si cet individu est risqué. Ainsi, nous obtenons un taux de bien classés global de 71,43%. De plus, plus de 71% des individus sont correctement prédits comme risqués, contre seulement 66% avec le seuil précédant. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 23
3. Perfectionnement du modèle par des méthodes avancées 3.1 Méthode des fusions de classifieurs Principe Le principe de la méthode proposée est d utiliser les réponses des différents classifieurs. De ce fait, la méthode se veut générale et applicable à tout type de classifieurs. La démarche de cette méthode se déroule de la façon suivante : - d abord on décompose notre espace des individus en sous espace de compétence d un des L classifieurs (étape dite de sélection) - puis on choisit une règle de «choix social» afin de trouver un compromis entre toutes les décisions des classifieurs (étape dite de la fusion). Les classifieurs retenus dans notre étude sont au nombre de sept et sont des modèles de régression logistique. Cette méthode est la référence et nous assure une précision locale. De cette combinaison de décision émerge un classifieur consensus pour chaque classe j : Ce dernier est basé selon le critère de «choix social» qui peut-être le minimum, le maximum ou le produit, d une classe sur l ensemble des classifieurs. L échantillon d apprentissage est alors partitionné en fonction des classes d appartenance : Enfin, une mesure de similarité pour chaque classe j, affecte l observation i à la classe la plus proche. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 24
Résultats L ensemble des sept classifieurs utilisés sont des modèles de régression logistique dont toutes les variables ont des coefficients significativement différents de zéro, comme indiqué en annexe 6. Nous avons testé plusieurs méthodes en considérant le maximum des maximums, des minimums et des moyennes des probabilités prédites par les différents classifieurs utilisés. Les différents résultats en termes de taux de biens classés 1 sont présentés ci-après, les autres indicateurs de performance étant détaillés en annexe 7. Méthode 1 : par le maximum Tableau 14 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du max Les résultats obtenus avec cette méthode sont globalement meilleurs qu avec une régression logistique simple. Le taux de bien classés global est de 71,92 %. En revanche, si l on devait choisir entre deux modèles, nous opterions pour celui construit avec la méthode simple qui présente l avantage de fournir un meilleur taux de bien classés dans la modalité qui intéresse un banquier : les individus risqués. En effet, le taux de bien classés dans cette classe est de 66,67 % alors qu il était de 71,11 % avec la méthode simple. Cette perte ne compense pas le gain de taux de bien classés global. 1 Les seuils considérés sont les seuils optimaux en terme de taux de biens classés. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 25
Méthode 2 : par le minimum Tableau 15 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du min La situation est ici identique à celle présentée précédemment. Le taux de bien classés global est meilleur que celui obtenu par la méthode simple. Néanmoins, la baisse de 9 points du taux de biens classés dans la classe des individus risqués ne compense pas cette légère amélioration du taux de biens classés global. Méthode 3 : par la moyenne Tableau 16 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du mean Ici le modèle a été nettement amélioré aux vues du taux de bien classés global qui passe de 71,43 % avec la méthode simple à 72,90 %. Le taux de bien classés dans la classe d intérêt, quant à lui reste identique à celui obtenu avec la méthode simple (71,11 %). Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 26
Conclusion pour la fusion de classifieurs Nous pouvons dire que la méthode des fusions de classifieurs est, dans notre cas meilleur qu une régression logistique lorsque l on considère la moyenne des scores obtenus par l ensemble des classifieurs considérés. 3.2 Boosting sur la régression logistique Principe Le boosting est un processus itératif, déterministe et adaptatif se déroulant de la manière suivante : Figure 7 : Principe du boosting Chaque modèle est construit à partir de l échantillon initial à la nuance près que le nouveau modèle de l étape i est une version adaptée du précédent en affectant un poids plus important aux individus mal classés à l itération précédente. A la fin des n itérations, l agrégation finale du classificateur global consiste à faire une moyenne de tous les modèles pondérés par leur qualité d ajustement. Mise en garde : La sensibilité de la méthode au bruit et aux outliers, peut entrainer une augmentation de l erreur avec le nombre de boucles. Le boosting peut diminuer la variance et le biais du classifieur de base. Cependant, si le classifieur de base est stable, la variance peut augmenter (c est le cas pour la régression logistique). Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 27
Résultats Les résultats présentés ici sont les taux de biens classés obtenus (pour une présentation plus détaillée, se référer à l annexe 7). Ces taux sont calculés à partir de l échantillon test de 202 observations. Boosting avec 5 boucles : On obtient, avec un seuil de 0,45 (le meilleur trouvé), un taux de bien classés de 66%, une senibilité de 61% et une spécificité de 68%. Ce modèle est assez équilibré et peut être intéressant mais il est moins performant que celui obtenu avec la régression logistique simple. Tableau 17 : Matrice de confusion - modèle avancé : boosting, 5 boucles Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 28
Boosting avec 10 boucles : On obtient 65% de biens classés au global, une sensibilité de 59% et une spécificité de 67%. Tableau 18 : Matrice de confusion - modèle avancé : boosting, 10 boucles Ce modèle est encore moins bon que celui boosté avec 5 boucles : un nombre de boucles augmenté n aboutit pas forcement à de résultats plus probant comme l illustre nos résultats. Conclusion pour le boosting Nous obtenons des résultats moins bons pour le boosting que pour une simple régression logistque. Ce phénomène a été souligné par Stéphane Tuffery dans son livre Datamining et statistique décisionnelle (2007). Selon lui, l apport de la technique de type boosting est limité pour la régression logistique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 29
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 30
Conclusion Notre étude sur les données de la Deutsche Bank nous amène à conclure que les méthodes d apprentissage avancées n améliorent pas toujours la performance d une méthode classique telle que la régression logistique. L échec du Boosting était prévisible au regard de la littérature existante sur le sujet. En effet, l idée selon laquelle davantage de complexité dans la construction d un modèle augmenterait la performance de ce dernier n est pas vérifiée ici. L efficacité de prédiction d une simple régression logistique est supérieure à celle d une régression logistique boostée. Cependant, il faut souligner que c est la méthode de fusion de classifieurs qui donne les meilleurs résultats entre les trois testées en considérant le maximum des moyennes de chaque classifieur utilisé. Dans notre cadre d étude, notre évaluation des performances est basée sur deux éléments : le plus haut taux de bien classé global et une détection fiable des clients défaillants. Le premier élément était une condition préalable pour commencer à s intéresser aux clients défaillants. Une extension de notre étude serait de mieux classer les clients risqués dans l absolu, mais aussi relativement aux clients solvables. En effet, aux vues des matrices de confusion des différentes méthodes de classement, nous remarquons que, d une manière générale, les clients solvables sont proportionnellement mieux classés que les individus risqués. Inverser cette tendance en ayant une sensibilité supérieure à la spécificité serait donc une piste d amélioration de notre étude de manière à de favoriser encore plus la détection des clients non solvables. Ainsi, alors que dans notre étude la matrice de coût de mauvais classement est uniforme quelque soit la classe du client, il serait judicieux de la rendre différente selon la classe afin de favoriser la détection des mauvais clients. Concernant la recherche demandée sur la dispersion, voici où nos recherches aboutissent: les solutions des problèmes de sur-dispersion et de sous-dispersion consistent à changer de loi (binomiale négative, binomiale), par conséquent elles sont incompatibles avec une régression de loi logistique. En outre, si l on s intéresse à la correction de la dispersion nous ne pourrons plus faire des raisonnements toutes choses égales par ailleurs avec le cœur de notre sujet qui est la régression logistique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 31
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 32
Annexes 1. Descriptif des variables disponibles Tableau 19 : Descriptif des variables Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 33
Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 34
2. Tableaux de fréquences des variables : statistiques univariées Objet du crédit : Voitures neuves et d occasion verw Frequency Percent Cumulative Frequency Cumulative Percent 0 156 21.70 156 21.70 1 77 10.71 233 32.41 2 109 15.16 342 47.57 3 226 31.43 568 79.00 4 7 0.97 575 79.97 5 17 2.36 592 82.34 6 37 5.15 629 87.48 9 82 11.40 711 98.89 10 8 1.11 719 100.00 Près d un-tiers des clients de la base de données ont comme objets de crédits l achat de voitures neuves ou d occasions. Autres crédit en cours : Aucun weitkred Frequency Percent Cumulative Frequency Cumulative Percent 1 97 13.49 97 13.49 2 35 4.87 132 18.36 3 587 81.64 719 100.00 Plus de trois-quarts des clients de la base de données n ont pas d autre crédit en cours. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 35
3. Statistiques bivariées 3.1 Caractérisation des variables qualitatives Caractérisation des individus non solvables (kredit = 0). Tableau 20 : Caractérisation par variables qualitatives (kredit = 0) Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 36
Caractérisation des individus solvables (kredit = 1). Tableau 21 : Caractérisation par variables qualitatives (kredit = 1) Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 37
3.2 Analyse bivariée approfondie Note : Les tableaux ci-dessous comportent l effectif et le pourcentage colonne. Etat du compte du client : laufkont Tableau 22 : Statistiques bivariées : Etat du compte du client On remarque que les clients avec un compte courant bien approvisionné concernent majoritairement (88,21 %) les clients solvables La durée du crédit : dlaufzeit Tableau 23 : Statistiques bivariées : Durée du crédit La majorité des clients ont des crédits inférieurs à 24 mois. Les plus risqués empruntent pour une durée supérieure à 42 mois. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 38
L objet du crédit : verw Tableau 24 : Statistiques bivariées : Objet du crédit Parmi les personnes ayant achetées des voitures neuves ou d occasion, la majorité est solvable. Valeur des ressources financières du client : sparkont Tableau 25 : Statistiques bivariées : Valeur des ressources financières La majorité des demandeurs de crédits n ont pas d économies. C est donc par nécessité qu ils empruntent. La défaillance de mensualité concerne presque 30 % des individus qui ont moins de 100 DM d économies ou pas du tout contre environ 15 % pour ceux qui ont plus d économie. Ceux qui ont de petites économies, en l occurrence inférieures à 100 DM, sont les plus défaillants peut être parce que ces derniers prennent un risque important en n ayant pas assez d argent de coté pour les couvrir. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 39
Statut professionnel du client (stabilité dans l emploi) : beszeit Tableau 26 : Statistiques bivariées : Statut Professionnel Un peu plus du tiers (34%) des clients de la base ont un emploi plutôt récent c'est-à-dire entre 1 et 4 ans. Un quart ont un emploi depuis longtemps (supérieur à 7 ans). Les plus fragiles dans les paiements sont les chômeurs et les salariés depuis moins d un an. La stabilité de l emploi semble aller de concert avec le payement des mensualités. Statut marital par sexe : Famges Tableau 27 : Statistiques bivariées : Statut Marital par Sexe On note une majorité d hommes dans la base de données. Les plus risqués sont les hommes divorcés vivant dans un appartement puisqu un tiers d entre eux ne sont pas solvables. A contrario, le statut de célibataire signifie moins de contraintes de dépenses et donc un respect des engagements plus faciles pour les deux sexes. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 40
Nombre de précédents crédits à la banque : bishkred Tableau 28 : Statistiques bivariées : Nombre de précédents crédits à la banque Une assez forte majorité des clients n ont jamais eu de crédit à cette banque. Les défaillants en remboursement ont eu moins de 2 crédits précédemment. Le nombre qui a eu au moins 5 crédit est difficile à interpréter vu l effectif restreint. Activité professionnelle : beruf Tableau 29 : Statistiques bivariées : Activité Profesionnelle Une forte majorité des clients (63%) sont des salariés ou des fonctionnaires ce qui est plutôt représentatif de la population allemande. Les plus gros défaillants sont les cadre et patrons surement parce qu ils achètent des produits plus chers et sont surpris par leurs difficultés à rembourser. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 41
Comportement passé pour rembourser d autres crédits : bmoral Tableau 30 : Statistiques bivariées : Comportement passé pour rembourser d autres crédits Les clients de la banque ne sont pratiquement composés que de clients n ayant jamais eu de difficultés antérieurs dans les remboursements. Ces derniers englobent à la fois ce qui ont remboursés les crédits et ceux qui n en avaient pas encore. Comme l on pouvait le pressentir les difficultés passés annoncent un non-paiement des mensualités dans la moitié des cas. 4 Résultats du premier modèle avec les chômeurs Tableau 31 : Résultats du premier modèle avec les chômeurs Note : les coefficients des variables explicatives sont significativement différents de zéro. Cependant, les chômeurs sont moins risqués que les salariés de longue date. Nous décidons donc de supprimer les 40 chômeurs de la base de données. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 42
5 Test d égalité de modalités - Variable beszeit (statut professionnel du client), modalités 1 (chômeurs) et 5 (salarié depuis plus de 7 ans) Tableau 32 : Test d égalité de modalités pour la variable beszeit (statut professionnel)-1/2 Note : les modalités 1 (chômeurs) et 5 (salariés depuis plus de 7 ans) de la variable beszeit (statut professionnel du client) ne sont pas significativement différentes visà-vis du risque (p-value très élevée : on accepte H0 d égalité des modalités). Ce test permet de tester l'égalité des modalités deux à deux. Il s agit d un test d égalité de moyenne. Il est réalisé grâce à une option de la procédure GENMOD de SAS : PROC GENMOD DATA=oad.traintest DESC ; CLASS laufkont bmoral beszeit / PARAM=GLM ; MODEL y = laufkont hoehe bmoral beszeit / LINK=LOGIT DIST=BINOMIAL ; LSMEANS beszeit / DIFF ; RUN ; Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 43
- Variable beszeit (statut professionnel du client), modalités 4 (salarié avec une ancienneté de 4 à 7 ans) et 5 (salarié depuis plus de 7 ans) Tableau 33 : Test d égalité de modalités pour la variable beszeit (statut professionnel)-2/2 Note : les modalités 4 (salariés ayant une ancienneté comprise entre 4 et 7 ans) et 5 (salariés depuis plus de 7 ans) de la variable beszeit (statut professionnel du client) ne sont pas significativement différentes vis-à-vis du risque (p-value très élevée : on accepte H0 d égalité des modalités). 6 Présentation des sept classifieurs utilisés - Classifieur 1 Tableau 34 : Classifieur 1 - Classifieur 2 Tableau 35 : Classifieur 2 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 44
- Classifieur 3 Tableau 36 : Classifieur 3 - Classifieur 4 Tableau 37 : Classifieur 4 - Classifieur 5 Tableau 38 : Classifieur 5 - Classifieur 6 Tableau 39 : Classifieur 6 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 45
7 Performance de la méthode avancée «boosting» Courbe ROC : Figure 8 : Courbe ROC du modèle avancé : boosting D une manière générale, la régression sans boosting est meilleure que celles soumises à un boosting. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 46
Courbe Lift : Figure 9 : Courbe Lift du modèle avancé : boosting Nous pouvons remarquer la proximité des courbes lift des régressions boostées avec la doite «baseline» qui n est autre que la droite représentant un classement aléatoire de nos clients vis-à-vis de leur solvabilité. Ceci dénote des résultats peu performants. Si l on sélectionne les 50% des clients les plus risqués nous obtenons, dans le meilleur des cas avec la régression logistique simple, environ 57% des clients non-aptes au crédit. Cette performance est peu satisfaisante pour un score de risque de crédit car elle est trop proche du résultat aléatoire qui donnerait 50%. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 47
8 Performance de la méthode avancée «fusions de classifieurs» - Méthode 1 : par le maximum Courbe Roc : (aire sous la courbe : 0,74) Figure 10 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du max Courbe Lift : Figure 11 : Courbe Lift du modèle avancé : fusion de classifieurs, méthode du max Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 48
- Méthode 2 : par le minimum Courbe Roc : (aire sous la courbe : 0,75) Figure 12 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du min Courbe Lift : Figure 13 : Courbe Lift du modèle avancé : fusion de classifieurs, méthode du min Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 49
- Méthode 3 : par la moyenne Courbe Roc : (aire sous la courbe : 0,75) Figure 14 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du mean Courbe Lift : Figure 15 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du mean Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 50