Le Data Mining au service du Scoring ou notation statistique des emprunteurs!



Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Coup de Projecteur sur les Réseaux de Neurones

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

1 Modélisation d être mauvais payeur

LES MODELES DE SCORE

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Spécificités, Applications et Outils

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

marketing, scoring comportemental & analyse prédictive

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

La classification automatique de données quantitatives

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Le scoring est-il la nouvelle révolution du microcrédit?

Cours de méthodes de scoring

INF6304 Interfaces Intelligentes

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Principe d un test statistique

Correction du baccalauréat STMG Polynésie 17 juin 2014

CONSULTATION PUBLIQUE SUR LA CREATION D UN REGISTRE NATIONAL DES CREDITS AUX PARTICULIERS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Communication sur l'obligation faite aux banques d'établir une convention de compte au bénéfice de leur clientèle

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Méthodes d apprentissage statistique «Machine Learning»

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

données en connaissance et en actions?

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

IBM SPSS Direct Marketing 21

Table des matières. I Mise à niveau 11. Préface

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

IBM SPSS Direct Marketing

Travailler avec les télécommunications

Arbres binaires de décision

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Accélérer l agilité de votre site de e-commerce. Cas client

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

L essentiel sur. Le crédit à la consommation

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Introduction à l approche bootstrap

CNAM léments de cours Bonus-malus et Crédibilité

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

TESTS D'HYPOTHESES Etude d'un exemple

L endettement privé des ménages début 2010

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Que fait SAS Enterprise Miner?

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES

Chapitre 1 : contexte et environnement des crédits bancaires aux particuliers

Quelles sont les entreprises qui ont recours au commerce électronique?

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Optimisation du ciblage des opérations de fidélisation

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Introduction au Data-Mining

Application du data mining pour l évaluation de risque en assurance automobile

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

TABLE DES MATIERES. C Exercices complémentaires 42

Why Software Projects Escalate: The Importance of Project Management Constructs

Apprentissage par renforcement (1a/3)

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

MASTER EUROPEEN EN MANAGEMENT ET STRATEGIE D ENTREPRISE MSE. Diplôme Européen reconnu par la Fédération Européenne des Ecoles ;

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Annexe commune aux séries ES, L et S : boîtes et quantiles

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Qu est-ce-qu un Warrant?

Apprentissage Automatique

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

«Credit scoring» : une approche objective dans l'octroi de crédit?

Comment évaluer une banque?

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Les algorithmes de fouille de données

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Surabondance d information

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Gestion obligataire passive

Algorithmes d'apprentissage

Optimisation, traitement d image et éclipse de Soleil

Octroi de crédit : la minimisation des risques de défaillance n'a pas le dernier mot

Rapport sur la situation financière des institutions de prévoyance et des assureurs vie

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Optimisation des ressources des produits automobile première

Réduire l effet de levier des banques, un impact néfaste sur notre économie? (2/2)

Optimisation du ciblage des opérations anti-churn

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Transcription:

France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative à la gestion des crédits ou des prêts consentis à des personnes physiques par les établissements de crédit : "Conformément à l article 2 de la loi du 6 janvier 1978, aucune décision accordant ou refusant un crédit ne peut avoir pour seul fondement un traitement automatisé d informations donnant une définition du profil ou de la personnalité de l intéressé." Même si le risque bancaire n est qu une partie du processus de décision, la modélisation existe et de nombreuses méthodes statistiques progressent toujours pour mieux évaluer les risques. La première différence entre le Data Mining et la statistique classique est la taille des données à notre disposition. En général, nous disposons de plusieurs milliers de dossiers se partageant entre des individus à risque de défaut de paiement et les bons payeurs. La technique de Data Mining applique généralement une première recherche de redondance des données basée sur différentes méthodes comme la valeur seuil d un coefficient de corrélation établi ici à 0,8 entre les variables à modéliser Une autre étape tout aussi importante est de constituer un échantillon aléatoire en équilibrant les deux groupes des bons et mauvais payeurs (50% de chaque) pour permettre une bien meilleure, sinon optimale modélisation puisque le groupe minoritaire des mauvais payeurs est souvent sous représenté! Il suffira de garder les proportions estimées pour les calculs des probabilités a posteriori.

La modélisation employée dans l outil pas à pas de STATISTICA Data Miner Plus permet d opérer automatiquement une étude comparative des modèles sélectionnés. Et de faire apparaitre les taux d erreurs de chaque modèle sur l échantillon d apprentissage. Après le taux d erreur de classification, nous allons calculer l espérance du coût de mauvaise classification sur l échantillon de validation cette fois. En effet, il arrive que certains types d erreur soient plus coûteux que d autres. Dans ce cas, il faut calculer une estimation du coût (ou des bénéfices) occasionné par les erreurs de notre modèle. Dans la réalité, l organisme de prêt estime, qu en moyenne, accepter une personne qui ne rembourse pas correctement son prêt du montant emprunté occasionnera une perte approximative de (0.4 * Montant Emprunté) et donc (gain = 0.4 * Montant Emprunté ), ce qui se révèle catastrophique. L organisme financier a en effet sous-estimé très largement la proportion de personnes qui ne remboursent pas leur emprunt. En revanche, une personne qui rembourse correctement son prêt fournit un bénéfice de (0.14 * Montant Emprunté), et donc (gain = +0.14 * Montant Emprunté ). Personnalisons donc les coûts engendrés par les mauvais payeurs et les bons payeurs afin de comparer les modèles entre eux sur les coûts engendrés par les mal classés.

Les Réseaux de Neurones constituent le meilleur modèle de ce point de vue. En vérifiant les pourcentages de bien classés entre ce modèle et les Boosting d arbres, nous observons sur l échantillon de Validation que 50 bons payeurs observés auraient été rejetés pour les Réseaux de Neurones contre 35 pour les Boosting et 19 mauvais payeurs auraient pu être considérés comme des bons payeurs dans les Réseaux de neurones contre 36 pour les Boosting : Soit 50*0.14+19*0.4 = 14.6 pour les Réseaux de Neurones contre 35*0.14+36*0.4=19.3 Enfin, nous allons utiliser un autre élément comparateur de modèles par l intermédiaire des courbes de Lift et ROC pour exprimer différemment les classements de modèles. La similitude avec la courbe LIFT est tentante, mais la lecture et l interprétation de la courbe ROC est totalement différente. Le lien entre la matrice de confusion et la courbe ROC est illustré ci-dessus où, au seuil de 0,5 (115/217=53%), la sensibilité du modèle des Boosting d Arbres vaut 79/114=69,30% et sa spécificité vaut 67/103=65,05%. La courbe ROC correspond donc à la matrice de confusion définie par une certaine valeur de seuil. L indice de Gini est un nombre variant de 0 à 1, où 0 signifie l'égalité parfaite (il y a autant de bons que de mauvais payeurs) et 1 signifie l'inégalité totale (une personne est solvable, les autres ne le sont pas). Entre 0 et 1, l'inégalité est d'autant plus forte que l'indice de Gini est élevé. Ici l égalité est plus marquée pour les Boosting d arbres (47/53) que pour les réseaux de Neurones (62/38)!

La courbe ROC représente la probabilité d'avoir raison en affirmant que la personne est non solvable en fonction de la probabilité d'affirmer à tort que la personne est non solvable. La sensibilité est la proportion des déclarés solvables parmi les solvables (VP/(VP+FN)), et la spécificité (VN/(VN+FP)) la proportion des déclarés non solvables parmi les non solvables. Le point de la courbe le plus proche du coin supérieur gauche du carré contenant la courbe est celui qui permet d'obtenir un bon compromis entre sensibilité et spécificité. L aire sous la courbe indique la probabilité pour que la fonction SCORE place un positif devant un négatif (dans le meilleur des cas l aire sous la courbe = 1). Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert à rien), l aire sous la courbe = 0.5, symbolisée par la diagonale principale dans le graphique. Donc, on peut dire ici qu il y a 69% de chances qu un Bon payeur observé dans la réalité soit déclaré Bon payeur par le modèle des Réseaux de Neurones et seulement 67% pour les Boosting d arbres! On peut dire ici que ces modèles sont un tout petit plus performant qu un modèle aléatoire à 50% La courbe de Lift est une variante de la courbe ROC, elle représente la proportion des événements détectés, c'est-à-dire la sensibilité, en fonction de la proportion des individus sélectionnés, c est-à-dire ayant un score Bon ou Mauvais. Nous allons nous concentrer sur les Bons payeurs. Dans cet exemple, la variable Dossier de Prêt est la variable binaire cible (Bon ou Mauvais), et la courbe de lift montre les bonnes réponses (axe Y) relative à la population entière (axe X). Nous voyons que dans 30 % de la population globale pour les Réseaux de Neurones et Boosting d Arbres, on a plus 50% de chances (lift de 1,5 en moyenne entre les trois premiers déciles) d appartenir au groupe des bons payeur que par pur hasard.

Typiquement, le lift peut être compris comme le ratio de deux pourcentages: le pourcentage des classifications positives correctes réalisées par le modèle sur le pourcentage des classifications positives actuelles dans les données de test. Par exemple, si 40% des clients d une enquête marketing ont répondu favorablement (la classification positive) à une campagne promotionnelle dans le passé et le modèle prévoit 75% de réponses positives correctes, le lift serait obtenu en divisant 0,75 par 0,40. Le lift résultant serait 1,875. Le Lift est habituellement utilisé pour mesurer la performance des modèles de réponse. Le but d un modèle de réponse est d identifier les segments de population avec les concentrations les plus élevées de réponses positives à une campagne marketing. Le lift donne la quantité de population à solliciter pour obtenir le pourcentage le plus élevé de réponses potentielles.