1 Modélisation d être mauvais payeur



Documents pareils
Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

BIRT (Business Intelligence and Reporting Tools)

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

données en connaissance et en actions?

INTRODUCTION AU DATA MINING

Manuel de formation Spaceman 1 ère journée

Travaux pratiques avec RapidMiner

KWISATZ_TUTO_module_magento novembre 2012 KWISATZ MODULE MAGENTO

Installation et compilation de gnurbs sous Windows

Guide d utilisation pour

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

KWISATZ MODULE PRESTASHOP

Formations 2015 Bureautique

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

TP Blender n 2 : Importation d un modèle SketchUp et animation

Groupe Eyrolles, 2003, ISBN : X

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Fiche n 14 : Import / Export avec PlanningPME

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

SUGARCRM MODULE RAPPORTS

Gestion des Factures

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Générer du code à partir d une description de haut niveau

PARTAGER UN ANNUAIRE COLLECTIF DE SIGNETS AVEC DEL.ICIO.US

GUIDE D UTILISATION DU BROWSER DE BEYOND 20/20

Traitement des données avec Microsoft EXCEL 2010

Modifications aux logiciels DCision ERP 11. Table des matières

Comment paramétrer et sauvegarder les configurations d Altium Designer?

ERETES-SERIES. Support de formation. Formation ERETES ERETES-SERIE 1/58

Objectif. Cette formation doit permettre au client d être autonome dans la création de ses rapports avancés en utilisant la fonctionnalité Excel +.

Exporter des écritures. Importer des écritures. Depuis EBP Comptabilité.

CONNECT Comptabilité - Liste des fonctionnalités TABLE DES MATIERES

La place de SAS dans l'informatique décisionnelle

Outils pour les réseaux de neurones et contenu du CD-Rom

FEN FICHE EMPLOIS NUISANCES

MANUEL D UTILISATION PRO-FACE

Inspiration 7.5. Brève description d Inspiration. Avantages d Inspiration. Inconvénients d Inspiration

Cette fonctionnalité est paramétrable et accessible dans le module administration via le menu "Dossier / Administration".

PROSPECTION CLIENTS. À Présentation : PROSPECT. 2 Téléchargement. 3 Installation. 6 Ecran d accueil. 7 Paramétrage. 13 Utilitaires

Contenu de la version 3.4 C I V I L N E T A D M I N I S T R A T I O N

Introduction à Eclipse

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

À la une Présentation

Module «Pilotage de Projet» - Module GPRO-0

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Parcours FOAD Formation EXCEL 2010

IUT BREST UN LOGICIEL SCADA : PC VUE 2010 DEP.GMP

ECLIPSE ET PDT (Php development tools)

Tél. : (241) / Fax : (241) eqc@bgfi.com.

Manuel d utilisation du module Liste de cadeaux PRO par Alize Web

SERVICE CERTIFICATION DES ÉTABLISSEMENTS DE SANTÉ. Guide utilisateur Compte Qualité dans SARA

EXTRAITS DE COMPTE. Manuel utilisation B-Web. Sommaire

COMMENT TROUVER VOS FUTURS CLIENTS À L INTERNATIONAL? 05/03/2015 Creditsafe France

Infolettre #18 : Les graphiques avec Excel 2010

La Clé informatique. Formation Internet Explorer Aide-mémoire

Spécificités, Applications et Outils

Logiciel XLSTAT version rue Damrémont PARIS

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

WHATSUP GOLD GESTION DE LA BASE DE

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Electricité : caractéristiques et point de fonctionnement d un circuit

KWISATZ LA GESTION DES REMISE EN BANQUE

PromoPost Manuel d utilisation

Utilisation de l outil lié à MBKSTR 9

ESPACE COLLABORATIF SHAREPOINT

Tutoriel code::blocks

Tutoriel QSOS. Version /02/2013

AOLbox. Partage de disque dur Guide d utilisation. Partage de disque dur Guide d utilisation 1

Win CFA Administratif

Sauvegarder sa messagerie Outlook 2010

GUIDE DE L UTILISATEUR. Interface Projets Diagrammes Imports / Exports Data Management Industrialisation

Antidote et vos logiciels

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Antidote et vos logiciels

10 mn pour se connecter à un fichier Excel. Pas à Pas.

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Thème : Gestion commerciale

EXCEL Les tableaux croisés dynamiques

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

HERAKLES Page 1 sur 11 PARAMETRAGE DE GSI FICHE PARAMETRAGE DE GSI

B-web V4 MANUEL D UTILISATION. Espace de travail. Clear2Pay Belgium SA B-web V4 Manuel d Utilisation: Espace de travail

Un outil open source de gestion de bibliographies

WiFi Security Camera Quick Start Guide. Guide de départ rapide Caméra de surveillance Wi-Fi (P5)

COMPTABILITE SAGE LIGNE 30

Polypoint/PEP. Gestion des prestations et planification d horaire. Les nouveautés de la version g2.8.3

Bulletin d information N 9

Créer son questionnaire en ligne avec Google Documents

Note de cours. Introduction à Excel 2007

Édu-groupe - Version 4.3

La gestion des dossiers sous Windows Vista, W7, W8.

Cartographie Informatique Eclairage Public

COURS DE MS EXCEL 2010

Transcription:

1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage avec SAS Entreprise Miner 4.3 et de la documentation trouvée sur le site de SAS Data Mining Using SAS Entreprise Miner : A case study Approach Second Edition. Une banque, dans le cadre de son service de prêts, désire pouvoir prédire la non solvabilité d un client ayant contracté un prêt en fonction des covariables explicatives : Loan,..., Debtinc. Pour ceci elle constitue une base de données constituées de l historique de 5960 clients ayant contracté un prêt qui au jour de l étude aurait du être complètement remboursé. Cette table nommée hmeq se trouve dans la librairie Sampsio.hmeq. Bad qualitatif la personne a remboursé son crédit sans incident(bad=0) avec incidents (Bad=1) Loan quantitatif montant du prêt Mortdue quantitatif montant du sur l hypothèque Value quantitatif valeur de la propriété Reason qualitatif motif du prêt : Consolidation financière Debtcon,prêt immobilier Homelmp. Job qualitatif profession Mgr,Office, Other, ProfXexe, Sales, Self, manque Yoj quantitatif nombre d années dans le travail actuel Derog quantitatif nombre de demande de report d échéances de prêt Deling quantitatif nombre de litiges Clage quantitatif Age du plus ancien crédit en mois Ninq quantitatif nombre de demandes récentes de crédit Clno quantitatif nombre de crédits dans la banque Debtinc quantitatif Ratio dette sur revenu 1.2 Enoncé Feuille diagramme On construit un programme SAS comme un arbre, la racine de cet arbre est la source de données, les noeuds sont les modules, et une relation d un module père vers un module fils dit que certaines données produites par le module père sont nécessaires au module fils pour l évaluation du module fils. Tools C est l ensemble des noeuds de calculs SAS ou procédures. les paramètres d un module s obtienne en double cliquant ou par le bouton de droite 1. On définit la source des données à l aide du module Input Data Source. Déposer le module Input Data Source sur le diagramme, et accéder à ces propriétés. Dans l onglet Data, choisir comme Source Data la table SAMPSIO.HMEQ L onglet Variable définit les attributs des variables. Chaque variables à cinq attributs : Model Role, Measurement, Type, Format, Informat, Label. Définir l attribut Model Role de la variable BAD comme Target, c est la variable que l on cherche à expliquer. Que doit être l attribut Measurment de la variable DEROG, le corriger éventuellement. 2. Dans cette question on veut construire une base d apprentissage constituée de 60% des emprunteurs et d une base de validation des 40% de clients restants en utilisant le module Data Partition, copier ce module et relier le module source Input Data Source au module destination Data Partition. Définir alors les bonnes propriétés de ce module. 3. Dans cette question on veut étudier graphiquement le lien qu il y a entre les variables explicatives et la variable que l on cherche à expliquer. Plusieurs modules d exploration multidimensionelle graphique sont disponibles Distribution Explorer, Insight. Déposer ces deux modules et les relier à la table HMEQ. Distribution Explorer Etudier l histogramme des fréquences en croisant les deux variables DEBINC, BAD. Qu en concluez vous? Insight Faire une ACP des variables quantitatives. Qu en conclure. 4. On modélise la variable BAD grâce à un arbre de décision, calculé grâce au module Tree. Poser ce module et le relier au module Data Partition calculant les bases d apprentissage et de test. Sélectionner le module Tree, et avec le bouton de droite sélectionner l action Run et faire exécuter les calculs nécessaires : branche du module Input Data Source au module Tree sélectionné. Pour étudier les résultats, vous pouvez alors répondre Yes à la suite de l exécution, ou en sélectionnant le module, choisir l action results. Les menus principaux sont alors dépendant des fenêtres sélectionnées. Dans le menu View sélectionner l option Tree pour afficher l arbre. Les feuilles de cet arbre sont composées d un tableau de cinq lignes et trois colonnes. Les colonnes sont : 1ere Cette colonne indique les libellés des lignes (valeurs de la variable à expliquer BAD et Total). 2eme Cette colonne colonne indique les résultats pour la base de test. http://www.math.unicaen.fr/~kauffman/cours 1 francois.kauffmann@unicaen.fr

3eme Cette colonne indique les résultats pour la base de test. On peut donner une couleur à chaque feuille proportionnelle à la proportion de bons payeurs grâce à des palettes pré déterminées. De puis un clic droit sélectionner l action Define Colors et choisir les bonnes options. 5. On va définir deux autres modélisation par arbre de décision avec différents paramètres. Arbre 4 En ouvrant les propriétés d un de ces arbres et en sélectionnant Basic choisir comme nombre maximum de branche pour un noeud 4. Et enregistrer le modèle Model Name avec le nom arbre 4 Gini Sélectionner une méthode de segmentation de type Gini. Et nommer ce modèle Gini. Faire exécuter les deux modèles, étudier les résultats. 6. Pour comparer ces trois modèles on va construire la courbe ROC associé à ces trois modèles grâce au module Assessment. La courbe Roc représente en fonction d une population dépendant d un paramètre scalaire s ( par exemple score > s), la proportion de clients mauvais payeurs (sensitivité) en fonction de la proportion de bons clients dans cette même population ( 1 -spécificité). Connecter les modules Tree au module Assessment Faire exécuter et analyser les résultats. Sélectionner les 3 modèles Dans le menu Tool visualiser les courbes ROC Reciever Operating Characteristic et Lift Chart pour la base d apprentissage et la base de test. Comparer les trois modèles. Dans l onglet result choisir alors le modèle qui servira de modèle pour les traitements suivants. 7. Dans cette question, on va utiliser le module Replacement permettant de remplacer par différents algorithmes les valeurs manquantes. Relier le module Data Partition au module Replacement. Ouvrir les propriétés de ce module et sélectionner l onglet des variables quantitatives Interval variables. Quel est l algorithme par défaut proposé? Sélectionner toutes les variables sauf DEBTINC et sélectionner l algorithme d estimation des valeurs manquantes Tree Imputaion des propriétés Select Method. Définir la valeur de emplacement 50 pour la variable Debintc. Quel est l algorithme de remplacement des valeurs manquantes des variables quantitatives Class Variables? 8. Dans cette question on va modéliser la probabilité d être mauvais payeur en fonction des variables explicatives grâce à un modèle de régression logistique. le module correspondant est regression. Ajouter le module Regression Relier le module Replacement au module Regression puis au module Assessment. Ouvrir les propriétés du module Regression, quel est le type de régression utilisée par défaut. Comparer alors les quatre méthodes grâce à la courbe ROC. 9. On veut estimer la probabilité d être mauvais payeur d une nouvelle base de données constituée de clients ayant actuellement des prêts. Le résultat du module Score et par défaut le code SAS permettant d estimer cette probabilité d être mauvais payeur. Définir une nouvelle source de données grâce au module Input Data Source associé à la même table HMEQ. Définir le rôle de cette table (onglet Data, Role=Score). Relier le module Assessment au nouveau module Score, relier le module Input Data Source au module Score, ouvrir les propriétés du module Score, et spécifiez depuis l onglet Settings que l on veut calculer les scores à partir du modèle estimé à partir de base d apprentissage Apply training data code to score. Ajouter un nouveau module Insight. Relier le module Score au module Insight Le module score va transmettre plusieurs table au module fils Insight : les tables provenant de la conception du modèle : les tables Taining, Validation, Test; ainsi que la table de prédiction calculée à partir de la table de scoring. Dans le module Insight, il faut sélectioner la table que l on beut étudier grâce au menu select. On choisira la table dont la description est Score Data. Faire exécuter le module Insight 10. Cette dernière étape consiste à sauvegarder les résultats Sauvegarde du scoring On veut exporter au format excel les résultats du scoring. Sélectionner le module Insight relié au module Score et ouvrir les résultats. Sélectionner la colonne P_BAD0 probabilité pour que le client soit un bon payeur. Trier les données depuis le menu accessible en sélectionnant toute la base. Exporter les données au format Excel. Programme SAS de Scoring Sélectionner le module Score et ouvrir les résultats. Copier le code Sélectionner une fenêtre autre que celle d Entreprise Miner Depuis le menu principal de SAS ouvrir l éditeur Affichage -> Editeur. Le programme à exécuter est le suivant : http://www.math.unicaen.fr/~kauffman/cours 2 francois.kauffmann@unicaen.fr

Data work.toto; /* nom de la table de sortie */ Set sampsio.hmeq /* table à scorer */ /* copier le code ici */ run; Programme C/Java de Scoring Ce module permet de créer des applications autonomes (sans SAS), ce qui peut être intéressant pour le client final. Relier le module Assessment au nouveau module Score Converter Le faire exécuter. Je ne sais pas compiler le java ni le C, je compte sur vous. Report Le module Report permet de générer un rapport automatique. Relier ce module au module Assessment, le faire exécuter et analyser les résultats. On peut préciser le repertoire de sauvegarde, il est par defaut dans le répertoire du projet. http://www.math.unicaen.fr/~kauffman/cours 3 francois.kauffmann@unicaen.fr

1.3 Graphiques 1.4 Solutions 1.4.1 Solution SAS arbre 2 feuilles Data work.hmeqsc; set sampsio.hmeq; Fig. 1 Graphe http://www.math.unicaen.fr/~kauffman/cours 4 francois.kauffmann@unicaen.fr

* START_CHUNK 1547027255.7:T03F46M1 *; * TOOL : Input Data Source ; * TYPE : SAMPLING ; * NODE : SAMPSIO.HMEQ [T03F46M1] ; * END_CHUNK 1547027255.7:T03F46M1 *; * START_CHUNK 1551056604.8:T3BXMJZC *; * END_CHUNK 1551056604.8:T3BXMJZC *; * START_CHUNK 1551065918.1:T3USDNSE *; * TOOL : Tree ; * TYPE : MODEL ; * NODE : Tree [T3USDNSE] ; * MODEL NAME : Untitled ; * DESCRIPTION : ; * TARGET : BAD ; ****** DECISION TREE SCORING CODE ******; ****** LENGTHS OF NEW CHARACTER VARIABLES ******; LENGTH I_BAD $ 12; LENGTH F_BAD $ 12; LENGTH _WARN_ $ 4; ****** LABELS FOR NEW VARIABLES ******; LABEL _NODE_ = 'Node'; LABEL _LEAF_ = 'Leaf'; LABEL P_BAD1 = 'Predicted: BAD=1'; LABEL P_BAD0 = 'Predicted: BAD=0'; LABEL I_BAD = 'Into: BAD'; LABEL U_BAD = 'Unnormalized Into: BAD'; LABEL F_BAD = 'From: BAD'; LABEL R_BAD1 = 'Residual: BAD=1'; LABEL R_BAD0 = 'Residual: BAD=0'; LABEL _WARN_ = 'Warnings'; ****** TEMPORARY VARIABLES FOR FORMATTED VALUES ******; LENGTH _ARBFMT_12 $ 12; DROP _ARBFMT_12; _ARBFMT_12 = ' '; /* Initialize to avoid warning. */ _ARBFMT_12 = PUT( BAD, BEST12.); %DMNORMCP( _ARBFMT_12, F_BAD ); ****** ASSIGN OBSERVATION TO NODE ******; IF NOT MISSING(DEBTINC ) AND DEBTINC < 45.1848045236243 THEN DO; IF NOT MISSING(VALUE ) AND VALUE < 299746 THEN DO; IF NOT MISSING(DELINQ ) AND 5.5 <= DELINQ THEN DO; _NODE_ = 9; _LEAF_ = 2; P_BAD1 = 1; P_BAD0 = 0; _NODE_ = 8; _LEAF_ = 1; P_BAD1 = 0.06177325581395; P_BAD0 = 0.93822674418604; I_BAD = '0'; U_BAD = 0; _NODE_ = 5; _LEAF_ = 3; P_BAD1 = 0.76; P_BAD0 = 0.24; IF NOT MISSING(DELINQ ) AND http://www.math.unicaen.fr/~kauffman/cours 5 francois.kauffmann@unicaen.fr

0.5 <= DELINQ THEN DO; _NODE_ = 7; _LEAF_ = 7; P_BAD1 = 0.82926829268292; P_BAD0 = 0.17073170731707; IF NOT MISSING(CLAGE ) AND 178.2 <= CLAGE THEN DO; IF NOT MISSING(DEROG ) AND 0.5 <= DEROG THEN DO; _NODE_ = 17; _LEAF_ = 6; P_BAD1 = 0.60869565217391; P_BAD0 = 0.39130434782608; _NODE_ = 16; _LEAF_ = 5; P_BAD1 = 0.3046357615894; P_BAD0 = 0.69536423841059; I_BAD = '0'; U_BAD = 0; _NODE_ = 10; _LEAF_ = 4; P_BAD1 = 0.66060606060606; P_BAD0 = 0.33939393939393; ***** RESIDUALS R_ *************; IF F_BAD NE '1' AND F_BAD NE '0' THEN DO; R_BAD1 =.; R_BAD0 =.; R_BAD1 = -P_BAD1; R_BAD0 = -P_BAD0; SELECT( F_BAD ); WHEN( '1' ) R_BAD1 = R_BAD1 +1; WHEN( '0' ) R_BAD0 = R_BAD0 +1; ****** END OF DECISION TREE SCORING CODE ******; * END_CHUNK 1551065918.1:T3USDNSE *; run; http://www.math.unicaen.fr/~kauffman/cours 6 francois.kauffmann@unicaen.fr