Les Réseaux de Neurones avec



Documents pareils
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

TRANSPORT ET LOGISTIQUE :

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

données en connaissance et en actions?

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

1 Modélisation d être mauvais payeur

Travailler avec les télécommunications

Coup de Projecteur sur les Réseaux de Neurones

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Pourquoi l apprentissage?

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

«Credit scoring» : une approche objective dans l'octroi de crédit?

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Construire un tableau de bord par Marc Maisonneuve

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Accélérer l agilité de votre site de e-commerce. Cas client

L apprentissage automatique

Leçon N 4 : Statistiques à deux variables

Spécificités, Applications et Outils

BigData : la connaissance clients au service de votre conversion E-Commerce. Marc Schillaci #ECP14 TOUTES LES FORMULES DU COMMERCE CONNECTÉ

Security Center Plate-forme de sécurité unifiée

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L a gamme financière en Belgique

MARKETING MIX. Politique Produit. Les composantes d un produit POLITIQUE PRODUIT

Introduction au Data-Mining

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Les algorithmes de fouille de données

INF6304 Interfaces Intelligentes

S.P.S.N. Lac du Der 2008

Analyse et programmation 1

Exemple d utilisation des outils MicroSave-Africa au Brésil

Travaux pratiques avec RapidMiner

Analyse de L e-réputation

SERIE 1 Statistique descriptive - Graphiques

INTRODUCTION AU DATA MINING

Arbres binaires de décision

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

LES REPRESENTATIONS DES NOMBRES

CRÉER UN COURS EN LIGNE

Création WEB avec DreamweaverMX

L endettement chez les jeunes Rapport final

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

ASR1 TD7 : Un microprocesseur RISC 16 bits

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Les clients puissance cube

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

ANALYSE DU RISQUE DE CRÉDIT

L accompagnement des étudiants dans la gestion de leur budget. Colloque des services aux étudiants. Université du Québec 28 mai 2014

ANALYSE CATIA V5. 14/02/2011 Daniel Geffroy IUT GMP Le Mans

La plateforme Cloud Supply Chain. Présentation de GT Nexus

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Projet de Semestre. Page Web Didactique de Visualisation d Algorithme. Université de Genève - semestre de printemps 2012

Le spam introduction. Sommaire

Portail Famille. Cliquer sur le lien suivant,

- Attention : les renseignements et les pièces justifi catives citées sont obligatoires sauf quand il est indiqué qu ils sont facultatifs.

Personnalisation: Pour bien démarrer Créer une expérience digitale unique pour chaque visiteur. Par John Carione, Acquia

FrontRange SaaS Service Management Self-Service & Catalogue de Service

Concevoir et déployer un data warehouse

UML (Diagramme de classes) Unified Modeling Language

Poker. A rendre pour le 25 avril

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

De la formation continue à la formation tout au long de la vie

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Manuel SIMBA Courtage Prêt Immobilier (Nouveautés)

Mesure agnostique de la qualité des images.

Rapport de Post- Campagne 1

Évaluation et implémentation des langages

Scénario: Données bancaires et segmentation de clientèle

Statistique : Résumé de cours et méthodes

Saisie de données dans plusieurs tables

Guide de réalisation d une campagne marketing

#BigData Dossier de presse Mai 2014

Quelques algorithmes simples dont l analyse n est pas si simple

Guide d exploration de base de données de IBM SPSS Modeler 15

KWISATZ MODULE PRESTASHOP

Sorofi est fournisseur de produits de

Logiciel XLSTAT version rue Damrémont PARIS

Social Day Bayonne 28 Janvier 2014

Gestion de la relation client : l expérience du Crédit du Nord

Agenda de la présentation

Créer et modifier un fichier d'importation SAU avec Excel

Marketing. en 12 étapes clés. Une introduction au Marketing Automation Comment délivrer le bon contenu au bon moment à son interlocuteur

BD/MSPS. Guide de création de la base de données

LES DIFFERENTS TYPES DE MESURE

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Optimisation, traitement d image et éclipse de Soleil

La visualisation de données relationnelles au service de la recherche d informations

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Guide d Intégration PPM et ERP:

LIVRE BLANC. Smart data, scoring et CRM automatisé : Comment acquérir, qualifier et convertir ses prospects en clients

Cours de méthodes de scoring

Analyse de grandes bases de données en santé

Transcription:

Les Réseaux de Neurones avec Au cours des deux dernières décennies, l intérêt pour les réseaux de neurones s est accentué. Cela a commencé par les succès rencontrés par cette puissante technique dans beaucoup de domaines, aussi variés que la finance, médecine, ingénierie, géologie et même physique. Le succès radical des réseaux de neurones sur presque toutes les autres techniques statistiques peut être attribué à la puissance, polyvalence et facilité d utilisation. Les réseaux de neurones sont des techniques de modélisation et de prévision très sophistiqués capable de modéliser des fonctions de modélisation et relations extrêmement complexes. La capacité d apprentissage par des exemples est une des nombreuses fonctionnalités des réseaux de neurones qui permet à l utilisateur de modéliser des données et d établir des règles précises de gouvernance sur la relation sous jacente entre divers données d attribut. L utilisateur des réseaux de neurones réunit des données représentatives, et ensuite exécute des algorithmes d apprentissage qui peuvent apprendre automatiquement la structure des données. Bien que l utilisateur ait besoin d avoir quelques connaissances heuristiques sur la façon de sélectionner et préparer les données, le réseau de neurones approprié et interpréter les résultats, le niveau de connaissance de l utilisateur exigé pour appliquer avec succès les réseaux de neurones est bien inférieur à celui exigé dans la plupart des outils et techniques statistiques traditionnelles, particulièrement quand les algorithmes des réseaux de neurones sont cachés derrière des programmes informatiques comme bien conçus qui emmène l utilisateur du début à la fin en quelques clics. Voyons un exemple d utilisation des réseaux de neurones sur une thématique où l on utilise principalement la régression logistique : le Crédit Scoring. Classification des Scores de Crédit avec les Réseaux de Neurones Un fichier de données contient les observations d individus sollicitant un crédit. L information comprend les détails depuis la demande de crédit avec le solde, durée, paiements, etc. La variable cible est Dossier de Prêt, qui est catégorielle par nature. Les clients sont classés soit en Bon ou Mauvais risque de crédit. Le but est de prévoir précisément les risques de crédit des clients (Bon ou Mauvais).

Prélude à l Analyse : Équilibrage de la Variable Cible Dans le cadre de la classification, il est optimale d avoir une répartition homogène des modalités de la variable cible. En effet, si une modalité, par exemple Bon de notre variable cible Dossier de Prêt, est sur représentée, la modalité Mauvais risque d être mal modélisée. Un autre problème subsiste dans ce type de jeu de données : l évaluation des modèles sur ces données. A titre d exemple, prenons un jeu de données constitué à 90% de Bon dossier et de 10% de Mauvais dossier. Un modèle ayant tendance à toujours classifier en Bon dossier aura une performance de 90% sur l ensemble de nos données! Regardons la répartition des modalités de la variable cible Dossier de Prêt. L histogramme nous montre qu environ 70% des clients dans nos données sont classifiés comme Bon. Nous sommes dans le cas d un jeu de données déséquilibré. Pour remédier à ce problème, nous allons effectuer un échantillonnage aléatoire stratifié sur la variable Dossier de Prêt. Ce procédé va sélectionner aléatoirement un nombre d observations spécifié par l utilisateur pour chaque modalité d une variable donnée (dans notre cas, Dossier de Prêt). Partitionnement des Données

Construction des Modèles La variable cible étant donc Dossier de Prêt, une variable de type catégorielle. Les variables dites explicatives seront : De type continu : la Durée du crédit, le Montant du prêt, et l Age De type catégorielles : le Solde du compte courant, l état des Remboursement des prêts antérieurs, l Objectif du prêt, la Valeur d épargne, l Ancienneté chez l employeur actuel, l Endettement en % du revenu disponible, le Statut marital, le Sexe, l Ancienneté dans le ménage actuel, les Actifs les plus importants, les Autres prêts en cours, le Type de logement, le Nombre de prêts antérieurs dans cette banque, et l Occupation La principale difficulté de la construction d un réseau de neurones est de déterminer la configuration qui optimise la modélisation. En effet, on ignore quelle configuration fonction d activation des neurones de la couche cachée - fonction d activation des neurones de la couche de sortie - nombre de neurones dans la couche cachée fonction d erreur type de réseau est optimale à notre problématique. Quel type de réseau? X0 X0 d activation pour les neurones de la couche de sortie? X1 X2 Combien de neurones dans la couche cachée? d activation pour les neurones de la couche cachée? d erreur? Les Résultats! Il a été construit une centaine de réseaux dont nous avons conservé le meilleur : celui présentant un bon compromis entre les performances en apprentissage et en test. L histogramme de précision ci-après nous montre que le modèle a classifié correctement la majeure partie des dossiers (plus de 80%) sur les données d apprentissage

De même, l histogramme de précision ci-dessous nous montre que le modèle a classifié correctement 78% des dossiers sur les données de test. Les réseaux de neurones sont souvent comparés à une boite noire à juste titre car, en effet, il est très difficile de comprendre les calculs effectués durant le processus d apprentissage. Néanmoins, il est possible en résultat à ces calculs d estimer la sensibilité des variables d entrées et ainsi de savoir quelles sont les variables les plus explicatives du phénomène à modéliser. Dans notre cas, les variables Solde du compte courant, Valeurs de l épargne et Remboursement des prêts antérieur ont été estimées comme les plus explicatives.

Validation du Modèle Afin de valider ce modèle, il a été estime l erreur de classification sur un jeu de données de validation constitué de 50 Bon dossiers et 50 Mauvais dossiers. La matrice de confusion, un outil de mesure de qualité d un modèle de classification présentant le nombre de dossier classer correctement et incorrectement par un modèle, nous montre que notre réseau de neurones présente des résultant intéressant (taux d erreur de 29%) : Dossie r de Prêt Prévision du modèle de Réseau de neurones en tant que Mauvais dossier Prévision du modèle de Réseau de neurones en tant que Bon dossier ée Mauvais 39 11 ée Bon 18 32 Réseaux de Neurones VS Régression Logistique Il a été construit un modèle de régression logistique sur les mêmes données et les mêmes variables en entrées ayant servi à construire notre réseau de neurones. La matrice de confusion obtenue en appliquant ce modèle de régression logistique nous montre que le modèle de régression logistique modélise de manière satisfaisante notre problématique mais avec un taux d erreur légèrement supérieur à notre réseau de neurones (31% d erreur pour la régression logistique contre 29% pour notre réseau de neurones) : Dossie r de Prêt Prévision du modèle de Régression logistique en tant que Mauvais dossier Prévision du modèle de Régression logistique en tant que Bon dossier ée Mauvais 34 16 ée Bon 15 35