France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative à la gestion des crédits ou des prêts consentis à des personnes physiques par les établissements de crédit : "Conformément à l article 2 de la loi du 6 janvier 1978, aucune décision accordant ou refusant un crédit ne peut avoir pour seul fondement un traitement automatisé d informations donnant une définition du profil ou de la personnalité de l intéressé." Même si le risque bancaire n est qu une partie du processus de décision, la modélisation existe et de nombreuses méthodes statistiques progressent toujours pour mieux évaluer les risques. La première différence entre le Data Mining et la statistique classique est la taille des données à notre disposition. En général, nous disposons de plusieurs milliers de dossiers se partageant entre des individus à risque de défaut de paiement et les bons payeurs. La technique de Data Mining applique généralement une première recherche de redondance des données basée sur différentes méthodes comme la valeur seuil d un coefficient de corrélation établi ici à 0,8 entre les variables à modéliser Une autre étape tout aussi importante est de constituer un échantillon aléatoire en équilibrant les deux groupes des bons et mauvais payeurs (50% de chaque) pour permettre une bien meilleure, sinon optimale modélisation puisque le groupe minoritaire des mauvais payeurs est souvent sous représenté! Il suffira de garder les proportions estimées pour les calculs des probabilités a posteriori.
La modélisation employée dans l outil pas à pas de STATISTICA Data Miner Plus permet d opérer automatiquement une étude comparative des modèles sélectionnés. Et de faire apparaitre les taux d erreurs de chaque modèle sur l échantillon d apprentissage. Après le taux d erreur de classification, nous allons calculer l espérance du coût de mauvaise classification sur l échantillon de validation cette fois. En effet, il arrive que certains types d erreur soient plus coûteux que d autres. Dans ce cas, il faut calculer une estimation du coût (ou des bénéfices) occasionné par les erreurs de notre modèle. Dans la réalité, l organisme de prêt estime, qu en moyenne, accepter une personne qui ne rembourse pas correctement son prêt du montant emprunté occasionnera une perte approximative de (0.4 * Montant Emprunté) et donc (gain = 0.4 * Montant Emprunté ), ce qui se révèle catastrophique. L organisme financier a en effet sous-estimé très largement la proportion de personnes qui ne remboursent pas leur emprunt. En revanche, une personne qui rembourse correctement son prêt fournit un bénéfice de (0.14 * Montant Emprunté), et donc (gain = +0.14 * Montant Emprunté ). Personnalisons donc les coûts engendrés par les mauvais payeurs et les bons payeurs afin de comparer les modèles entre eux sur les coûts engendrés par les mal classés.
Les Réseaux de Neurones constituent le meilleur modèle de ce point de vue. En vérifiant les pourcentages de bien classés entre ce modèle et les Boosting d arbres, nous observons sur l échantillon de Validation que 50 bons payeurs observés auraient été rejetés pour les Réseaux de Neurones contre 35 pour les Boosting et 19 mauvais payeurs auraient pu être considérés comme des bons payeurs dans les Réseaux de neurones contre 36 pour les Boosting : Soit 50*0.14+19*0.4 = 14.6 pour les Réseaux de Neurones contre 35*0.14+36*0.4=19.3 Enfin, nous allons utiliser un autre élément comparateur de modèles par l intermédiaire des courbes de Lift et ROC pour exprimer différemment les classements de modèles. La similitude avec la courbe LIFT est tentante, mais la lecture et l interprétation de la courbe ROC est totalement différente. Le lien entre la matrice de confusion et la courbe ROC est illustré ci-dessus où, au seuil de 0,5 (115/217=53%), la sensibilité du modèle des Boosting d Arbres vaut 79/114=69,30% et sa spécificité vaut 67/103=65,05%. La courbe ROC correspond donc à la matrice de confusion définie par une certaine valeur de seuil. L indice de Gini est un nombre variant de 0 à 1, où 0 signifie l'égalité parfaite (il y a autant de bons que de mauvais payeurs) et 1 signifie l'inégalité totale (une personne est solvable, les autres ne le sont pas). Entre 0 et 1, l'inégalité est d'autant plus forte que l'indice de Gini est élevé. Ici l égalité est plus marquée pour les Boosting d arbres (47/53) que pour les réseaux de Neurones (62/38)!
La courbe ROC représente la probabilité d'avoir raison en affirmant que la personne est non solvable en fonction de la probabilité d'affirmer à tort que la personne est non solvable. La sensibilité est la proportion des déclarés solvables parmi les solvables (VP/(VP+FN)), et la spécificité (VN/(VN+FP)) la proportion des déclarés non solvables parmi les non solvables. Le point de la courbe le plus proche du coin supérieur gauche du carré contenant la courbe est celui qui permet d'obtenir un bon compromis entre sensibilité et spécificité. L aire sous la courbe indique la probabilité pour que la fonction SCORE place un positif devant un négatif (dans le meilleur des cas l aire sous la courbe = 1). Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert à rien), l aire sous la courbe = 0.5, symbolisée par la diagonale principale dans le graphique. Donc, on peut dire ici qu il y a 69% de chances qu un Bon payeur observé dans la réalité soit déclaré Bon payeur par le modèle des Réseaux de Neurones et seulement 67% pour les Boosting d arbres! On peut dire ici que ces modèles sont un tout petit plus performant qu un modèle aléatoire à 50% La courbe de Lift est une variante de la courbe ROC, elle représente la proportion des événements détectés, c'est-à-dire la sensibilité, en fonction de la proportion des individus sélectionnés, c est-à-dire ayant un score Bon ou Mauvais. Nous allons nous concentrer sur les Bons payeurs. Dans cet exemple, la variable Dossier de Prêt est la variable binaire cible (Bon ou Mauvais), et la courbe de lift montre les bonnes réponses (axe Y) relative à la population entière (axe X). Nous voyons que dans 30 % de la population globale pour les Réseaux de Neurones et Boosting d Arbres, on a plus 50% de chances (lift de 1,5 en moyenne entre les trois premiers déciles) d appartenir au groupe des bons payeur que par pur hasard.
Typiquement, le lift peut être compris comme le ratio de deux pourcentages: le pourcentage des classifications positives correctes réalisées par le modèle sur le pourcentage des classifications positives actuelles dans les données de test. Par exemple, si 40% des clients d une enquête marketing ont répondu favorablement (la classification positive) à une campagne promotionnelle dans le passé et le modèle prévoit 75% de réponses positives correctes, le lift serait obtenu en divisant 0,75 par 0,40. Le lift résultant serait 1,875. Le Lift est habituellement utilisé pour mesurer la performance des modèles de réponse. Le but d un modèle de réponse est d identifier les segments de population avec les concentrations les plus élevées de réponses positives à une campagne marketing. Le lift donne la quantité de population à solliciter pour obtenir le pourcentage le plus élevé de réponses potentielles.