Construction à partir d une régression logistique



Documents pareils
Logiciel XLSTAT version rue Damrémont PARIS

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Spécificités, Applications et Outils

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

LES MODELES DE SCORE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

La classification automatique de données quantitatives

Arbres binaires de décision

«Cours Statistique et logiciel R»

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Statistique : Résumé de cours et méthodes

Publications, ressources, liens, logiciels,

Cours de méthodes de scoring

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

ANALYSE DU RISQUE DE CRÉDIT

TRANSPORT ET LOGISTIQUE :

Données longitudinales et modèles de survie

Arbres de Décision. 1 Introduction

Coup de Projecteur sur les Réseaux de Neurones

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Améliorer les performances du site par l'utilisation de techniques de Web Mining

L évaluation de la performance de la communication media

U102 Devoir sur les suites (TST2S)

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au Data-Mining

Chapitre 3. Les distributions à deux variables

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Classification supervisée et credit scoring

Introduction aux Statistiques et à l utilisation du logiciel R

Excel 2010 Module 13. Comment créer un tableau d amortissement dégressif d une immobilisation. Enseignant : Christophe Malpart

Table des matières. I Mise à niveau 11. Préface

Les cartes de fidélités... 2 Natures de pièces... 5 Impression des chèques cadeaux... 6 Statistiques fidélités... 8 Fiche client...

Complément d information concernant la fiche de concordance

Data Mining. Master 1 Informatique - Mathématiques UAG

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Laboratoire 4 Développement d un système intelligent

APPLICATION QMS AMIKACINE Système intégré Ortho Clinical Diagnostics VITROS 5600, systèmes de chimie VITROS 5,1 FS et 4600

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Introduction au Data Mining et à l apprentissage statistique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Université de La Rochelle. Réseaux TD n 6

Les indices à surplus constant

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Relation entre deux variables : estimation de la corrélation linéaire

Annexe 6. Notions d ordonnancement.

Ricco.Rakotomalala

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Cycle de formation certifiante Sphinx

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

Pratique de la Régression Logistique

Apprentissage Automatique

SPHINX Logiciel de dépouillement d enquêtes

Algorithmes d'apprentissage

Identification de nouveaux membres dans des familles d'interleukines

Machines virtuelles Cours 1 : Introduction

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Chapitre 4 : Régression linéaire

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Probabilités sur un univers fini

Introduction au Data-Mining

Groupe Eyrolles, 2004 ISBN :

données en connaissance et en actions?

Programmes des classes préparatoires aux Grandes Ecoles

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

23. Interprétation clinique des mesures de l effet traitement

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Rappels sur les suites - Algorithme

1 Modélisation d être mauvais payeur

Probabilités sur un univers fini

Les effets d une contrainte de crédit sur la convergence économique : Le cas des pays de l UEMOA

Théorie et codage de l information

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Agenda de la présentation

CHAPITRE 5 L AMORTISSEMENT DEGRESSIF

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Comment évaluer une banque?

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Recherche en table par balayage

Le scoring est-il la nouvelle révolution du microcrédit?

Ricco Rakotomalala R.R. Université Lyon 2

Méthodologie d Ouverture, de Dépouillement et d Evaluation des Offres Relatives à la Consultation 09 S V.E.De.R

Transcription:

Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1

PLAN 1. Position du problème Grille de score? 2. Construction à partir des coefficients de la régression logistique 3. Processus d affectation via le score 4. Traitement des variables explicatives quantitatives 5. Grille de score à partir du couplage AFCM et ADL (DISQUAL) 6. Bibliographie Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

Construire une grille de notation des individus indiquant leur «degré de positivité» (propension à être positif) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

Contexte du «scoring» Contexte : apprentissage supervisé, une variable cible Y binaire {+, - } des descripteurs tous qualitatifs (codés 0/1, codage disjonctif complet) Exemple : apprécier les chances d acceptation d une demande de financement (un crédit) d un achat effectuée par un client [oui = +, non = -] Motif_AppMenager Motif_Mobilier Motif_HiFi Assurance_oui Assurance_non Acceptation 0 0 1 1 0 oui 0 1 0 0 1 non 0 1 0 0 1 non 0 1 0 1 0 oui 0 0 1 1 0 non 0 1 0 1 0 non 0 0 1 0 1 non 0 0 1 1 0 oui 0 0 1 1 0 oui 0 0 1 1 0 oui Motif : {App. Ménager, Mobilier, Hi Fi} Assurance : {oui, non} Variable cible : Y = Acceptation {+, -} On dispose de n = 944 observations Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

Grille de score = grille de notation Permettant d apprécier les chances du client de se voir octroyer un crédit La grille de notation doit être calibrée, par ex. de 0 à 100. Note Motif_AppMenager 20 Motif_Mobilier 0 Motif_HiFi 7 Assurance_oui 80 Assurance_non 0 Ex. 1 : client effectuant une demande pour «motif = mobilier» et ne prenant pas d assurance «assurance = non» se voit attribuer la note 0 + 0 = 0 il a un minimum de chances de voir acceptée sa demande de crédit (pire cas). Ex. 2 : client effectuant une demande pour «motif = appareil ménager» et prenant une assurance «assurance = oui» se voit attribuer la note 20 + 80 = 100 il maximise ses chances de voir acceptée sa demande crédit (meilleur cas). Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

Point de départ : résultats de la régression logistique [Equation LOGIT] «Acceptation = oui» est la modalité «positive» Attribute Coef. constant 1.12037 M otif_m obilier -0.50059 M otif_hifi -0.32038 Assurance_non -1.98367 «Motif = App.Ménager» est la modalité de référence «Assurance = oui» est la modalité de référence (1) EXP(Coef) = Odds-ratio surcroit de chances d être positif Par rapport à ceux qui prennent une assurance, ceux qui n en prennent pas ont 7.26 [ 1/exp(-1.98)] fois plus de chances d essuyer un refus que de voir leur demande acceptée. (2) Calcul de la probabilité d être positif (1 ère version du «score») X : (Motif = mobilier, Assurance = non) LOGIT = 1.12037 + (-0.50059) + (-1.98367) = -1.36389 P(Acceptation = oui / X) = 1/(1+ exp(-logit)) = 0.204 NB. Le «pire cas» n équivaut pas à une probabilité nulle! On dispose déjà d un système d évaluation et de notation, mais il est peu intuitif, totalement abscons pour un non spécialiste Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

Comment faire la transition? Coefficients de la régression logistique Attribute Coef. constant 1.12037 M otif_m obilier -0.50059 M otif_hifi -0.32038 Assurance_non -1.98367 Grille de score (Notation calibrée 0 à 100, ou 0 à 1000, etc.) Note Motif_AppMenager 20 Motif_Mobilier 0 Motif_HiFi 7 Assurance_oui 80 Assurance_non 0 Accessible aux non-spécialistes Directement exploitable en déploiement La grille est invariante par rapport au choix de la modalité de référence Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

A partir des coefficients de la régression logistique Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

Réécriture du LOGIT : caler la note minimale à 0 Attribute Coef. constant 1.12037 Motif_AppMenager 0.00000 Motif_Mobilier -0.50059 Motif_HiFi -0.32038 Assurance_oui 0.00000 Assurance_non -1.98367 Etape 1 : faire apparaître les modalités de référence Etape 2 : Détection des valeurs min des coefficients par variable (la constante est mise de côté) Etape 3 : Correction par variable pour rendre positifs tous les coefficients Attribute Coef. Motif_AppMenager 0.00000 Motif_Mobilier -0.50059 Motif_HiFi -0.32038 Assurance_oui 0.00000 Assurance_non -1.98367 Min motif = -0.50059 Min assurance = -1.98367 Coef + Min variable Attribute Coef. Motif_AppMenager 0.50059 Motif_Mobilier 0.00000 Motif_HiFi 0.18021 Assurance_oui 1.98367 Assurance_non 0.00000 Les points attribués seront toujours positifs Le minimum des points est égal à 0 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9

Mise à l échelle : caler la note maximale à 100 (ou 1000, ou 10000, etc.) Attribute Coef. Motif_AppMenager 0.50059 Motif_Mobilier 0.00000 Motif_HiFi 0.18021 Assurance_oui 1.98367 Assurance_non 0.00000 Etape 4 : identifier le maximum des points (attention si des coefs. sont > 0, max variable est différent de min variable ) Max motif = 0.50059 Max assurance = 1.98367 MAX points = 0.50059 + 1.98367 = 2.48426 Etape 5 : Calculer le facteur de correction 100 MAX points 100 2.48426 40.25342 Etape 6 : Multiplier les points modalités par le facteur de correction 0.50059 x 40.25342 20 Score Motif_AppMenager 20 Motif_Mobilier 0 Motif_HiFi 7 Assurance_oui 80 Assurance_non 0 Les notes par modalité sont arrondies pour faciliter la lecture Le score est calibré, il est compris entre 0 et 100 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10

Reproduire le processus d affectation basé sur le LOGIT Calculer la valeur seuil du SCORE Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11

Règle d affectation basée sur le LOGIT Pour un individu à classer, on s appuie sur le LOGIT a x ( ) a 1 1 2 x 2 a ( ) a 0 0 Yˆ( ) Yˆ( ) Comment déterminer la valeur seuil si on s appuie sur le score? SCORE( ) seuil seuil Yˆ( ) Yˆ( ) Il faut transformer la constante a 0 du LOGIT en respectant le schéma de constitution du score. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12

Calcul du seuil d affectation 1. Chaque variable a été corrigée de Min variable 2. Somme des corrections : S = Min variable 3. Seuil d affectation avant calibrage : C = S - a 0 4. Seuil d affectation après mise à l échelle du score : SEUIL = x C Attribute Coef. constant 1.12037 Motif_AppMenager 0.00000 Motif_Mobilier -0.50059 Motif_HiFi -0.32038 Assurance_oui 0.00000 Assurance_non -1.98367 (Min motif = -0.50059 ; Min assurance = -1.98367) S = 0.50059 + 1.98367 = 2.48426 C = 2.48426 1.12037 = 1.36389 On reproduit à l identique le comportement de la régression logistique avec la règle de décision : 54.9 Yˆ( ) SCORE( ) 54.9 Yˆ( ) SEUIL = 40.25342 x 1.36389 = 54.9 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13

Discrétisation (découpage en classes) des variables quantitatives Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14

Transformation des variables quantitatives en indicatrices (1) Un arbre de décision permet de répondre à ces spécifications Etape 1 : découpage en classes Comment choisir le nombre de classes? Comment choisir les bornes de découpage? Découpage en fonction de la variable cible Y! 3 intervalles avec les bornes (2030 et 3137.5) NB. La méthode MDLPC (Fayyad & Irani, 1993) disponible dans de nombreux logiciels (Tanagra, Weka, R [package discretization ], etc.) est un arbre de décision avec une règle d arrêt spécifique à la discrétisation. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15

Transformation des variables quantitatives en indicatrices (2) [2030 ; 3137.5[ [3137.5 ; + [ Etape 2 : codage disjonctif complet à partir des intervalles. Attention (1), codage non imbriqué parce qu on ne sait pas si l effet est monotone ; (2) le premier intervalle sert de modalité de référence. Régression logistique Attribute Coef. constant 1.59696 REV.A : [0 ; 2030[ 0.00000 REV.B : [2030 ; 3137.5[ -1.72488 REV.C : [3137.5 ; +00[ 0.02628 Motif_AppMenager 0.00000 Motif_Mobilier -0.27986 Motif_HiFi -0.10055 Assurance_oui 0.00000 Assurance_non -2.07249 Revenu.Menage REV.B REV.C 2264 1 0 2181 1 0 4265 0 1 4431 0 1 3008 1 0 3042 1 0 4237 0 1 8454 0 1 3797 0 1 5193 0 1 Grille de score Attribute Score REV.A : [0 ; 2030[ 42 REV.B : [2030 ; 3137.5[ 0 REV.C : [3137.5 ; +00[ 43 Moti f_appmena ger 7 Motif_Mobilier 0 Moti f_hi Fi 4 Assurance_oui 51 Assurance_non 0 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16

Couplage AFCM (analyse factorielle des correspondances multiples) et ADL (analyse discriminante linéaire) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17

La méthode DISQUAL (Saporta, 1975) Calcul en 3 étapes : (1) AFCM sur les descripteurs (catégoriels ou discrétisés) (2) ADL sur une sélection (*) des facteurs de l AFCM (3) Reconstitution de la fonction de classement sur les indicatrices originelles (*) Il est possible de les prendre tous (*) En ne sélectionnant que «q» premiers les plus pertinents, on peut obtenir des résultats plus stables (on a une meilleure régularisation, c est une forme de «nettoyage» des données) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18

DISQUAL sur acceptation de crédit AFCM : Coefficients des fonctions permettant d obtenir les coordonnées factorielles des individus Coefficients Appliqués aux indicatrices des variables actives Attribute = Value Axis_1 Axis_2 Axis_3 Motif = AppMenager 0.9750-1.3746-0.9750 Motif = Mobilier -0.4900-0.3314 0.4900 Motif = HiFi 0.2617 0.7349-0.2617 Assurance = oui -0.1633 0.0000-0.1633 Assurance = non 1.5308 0.0000 1.5308 ADL : Fonction SCORE (obtenue par différenciation des fonctions de classement [oui non]) définie sur les facteurs Fonction SCORE définie sur les indicatrices des variables originelles Attribute Coef. M CA_1_Axis_1-0.4750 M CA_1_Axis_2-0.0402 M CA_1_Axis_3-0.7749 constant 0.6071 Attribute = Value Coef. Constant 0.6071 Motif = AppMenager 0.3478 Motif = Mobilier -0.1336 Motif = HiFi 0.0489 Assurance = oui 0.2041 Assurance = non -1.9133 Ex. a Motif=AppMenager = -0.4750 x (0.9750) + (-0.0402) x (-1.3746) + (-0.7749) x (-0.9750) = 0.3478 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19

Grille de score via DISQUAL Grille de score Attribute = Value Note (/100) Motif = AppMenager 19 Motif = Mobilier 0 Motif = HiFi 7 Assurance = oui 81 Assurance = non 0 Au final, la grille de score est très proche de celle de la régression logistique ce n est pas étonnant ce sont là deux classifieurs linéaires. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20

Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21

G. Saporta, «Probabilités, Analyse de données et Statistique», Technip, 2006 ; pp. 462 à 467, section 18.4.3 «Un exemple de credit scoring». J.P. Nakache, J. Confais, «Statistique explicative appliquée», Technip, 2003 ; pp. 58 à 60, section 2.2.2 «SCORE : construction d un score». Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22