Ricco Rakotomalala. Université Lumière Lyon 2

Documents pareils
Publications, ressources, liens, logiciels,

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Activités numériques [13 Points]

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC


UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

INF6304 Interfaces Intelligentes

Algorithmes d'apprentissage

Méthodes d apprentissage statistique «Machine Learning»

Introduction au Data-Mining

Pourquoi l apprentissage?

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Statistiques Descriptives à une dimension

La nouvelle planification de l échantillonnage

Evalua&on tests diagnos&ques. Arnaud Fontanet

LES DIFFERENTS TYPES DE MESURE

Arbres binaires de décision

«Cours Statistique et logiciel R»

Dans la série Les tutoriels libres présentés par le site FRAMASOFT. <Handbrake> <Utilisation d'handbrake pour les débutants> Par <OLIVIER LECLERCQ>

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Etude d Algorithmes Parallèles de Data Mining

CAHIER DES CHARGES GESTION DES STOCKS

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Statistique : Résumé de cours et méthodes

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

1. Vocabulaire : Introduction au tableau élémentaire

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

2.4 Représentation graphique, tableau de Karnaugh

!-.!#- $'( 1&) &) (,' &*- %,!

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

1.1 Codage de source et test d hypothèse

Le Cloud au LIG? Pierre Neyron PimLIG

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

TABLE DES MATIERES. C Exercices complémentaires 42

Quantification Scalaire et Prédictive

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Suivi statistique des scores - Document descriptif des solutions retenues

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Cours de méthodes de scoring

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LES MODELES DE SCORE

Application de K-means à la définition du nombre de VM optimal dans un cloud

Systèmes de transmission

Modélisation aléatoire en fiabilité des logiciels

plate-forme PaaS (Audit)

données en connaissance et en actions?

Institut Informatique de gestion. Communication en situation de crise

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Algèbre binaire et Circuits logiques ( )

Représentation des Nombres

La classification automatique de données quantitatives

PROBABILITES ET STATISTIQUE I&II

Machines virtuelles Cours 1 : Introduction

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

I. Cas de l équiprobabilité

Coup de Projecteur sur les Réseaux de Neurones

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Partie II Cours 3 (suite) : Sécurité de bases de données

Problème 1 : applications du plan affine

Fonctions homographiques

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Le théorème de Thalès et sa réciproque

Modélisation du risque opérationnel Approche Bâle avancée

Spécificités, Applications et Outils

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Introduction au Data Mining et à l apprentissage statistique

Programmation linéaire

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Chapitre 2/ La fonction de consommation et la fonction d épargne

I- Définitions des signaux.

Item 169 : Évaluation thérapeutique et niveau de preuve

TP - Alarme de voiture / Approche fonctionnelle

FONCTION DE DEMANDE : REVENU ET PRIX

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Apprentissage symbolique et statistique à l ère du mariage pour tous

Vecteurs. I Translation. 1. Définition :

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

I. Ensemble de définition d'une fonction

TSTI 2D CH X : Exemples de lois à densité 1

Comment mieux évaluer les risques industriels par la mesure du capital immatériel???

Projet de Traitement du Signal Segmentation d images SAR

Deux disques dans un carré

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Création dynamique des répertoires WORK et SASUSER des utilisateurs

Quatrième partie IV. Test. Test 15 février / 71

CHAPITRE VIII : Les circuits avec résistances ohmiques

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Enregistrement et transformation du son. S. Natkin Novembre 2001

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Transcription:

Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1

Tableau de données Variables, caractères, attributs, Descripteurs, champs, etc. Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Individus, observations, objets, enregistrements, etc. Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

Statut des variables Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Variable à prédire Attribut classe Variable endogène Nécessairement discrète nominale (qualitative) Variables prédictives Descripteurs Variables exogènes De type quelconque (nominale, ordinale, continue) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3

Principes de l apprentissage supervisé Population Y X variableà prédire(endogène), qualitative variablesexogènes(quelconqu es) Objet de l étude Une série de variables X=(x1 xp) On veut construire une fonction de classement telle que Y f ( X, ) Objectif de l apprentissage Utiliser un échantillon a (extraite de la population) pour choisir la fonction f et ses paramètres telle que l on minimise l erreur théorique 1 ET [ Y, fˆ( X, ˆ)] Problèmes : card( ) 1siY fˆ( X, ˆ) où [.] 0 siy fˆ( X, ˆ) il faut choisir une famille de fonction il faut estimer les paramètres on utilise un échantillon pour optimiser sur la population Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4

Apprentissage bayésien (cas particulier du problème à 2 classes Positifs vs. Négatifs) Apprentissage en 2 étapes à partir des données : estimer la probabilité d affectation P(Y / X) prédire [Y = +] si P(Y = + / X) > P(Y = - / X) Remarques : P(Y = + / X) est selon le cas appelé «score» ou «appétence» : c est la «propension à être un positif» Cette méthode d affectation minimise l erreur de prédiction -- c est un cas particulier du coût de mauvaise affectation Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5

Apprentissage bayésien (généralisation à K classes) Apprentissage en 2 étapes à partir des données : estimer la probabilité d affectation prédire y arg max P( Y k* k X k y P( Y y / X ) / ) k Remarque : Lorsque les X sont discrets, nous pouvons en déduire un modèle logique d affectation. Si X1 =? et X2 =? et X3 =? Alors Y =? prémisse conclusion Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6

Apprentissage bayésien -- Exemple Y X Maladie Poids Taille Marié Etud.Sup Présent 45 Trapu Non Oui Présent 57 Elancé Non Oui Absent 59 Elancé Non Non Absent 61 Trapu Oui Oui Présent 65 Elancé Non Oui Absent 68 Elancé Non Non Absent 70 Trapu Oui Non Présent 72 Trapu Non Oui Absent 78 Trapu Oui Non Présent 80 Elancé Oui Non SI taille =? ALORS Maladie =? SI taille =? ET etud.sup =? ALORS Maladie =? Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7

Avantages et inconvénient du modèle bayésien complet Optimale, elle minimise l erreur théorique Pas de solution directe pour les descripteurs continus (discrétisation ou hypothèse de distribution) Pas de sélection et d évaluation des descripteurs (individuellement ou des groupes de variables donc pas de sélection) Dès que le nombre de descripteurs augmente Problème de calculabilité Nombre d opérations énorme, ex. 10 descr. Binaires => 2^10 règles Problème de fragmentation des données Plein de cases avec des 0, estimations peu fiables Cette approche n est pas utilisable dans la pratique! Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8

Évaluation de l apprentissage Compréhensibilité Le modèle exprime une «connaissance» Explication : comprendre la causalité pour mieux l exploiter Validation : l expert peut évaluer la pertinence de l expertise Amélioration : l expert peut intervenir pour ajuster les paramètres calculés (ex. les bornes de discrétisation) En apprentissage pouvoir tester plusieurs pistes (ajout de variables, Rapidité test de combinaison de variables, modifications de paramètres, etc.) En classement, affecter une étiquette à un nouvel individu Facilité de mise à jour du modèle (cf. la notion d incrémentalité) Précision Évaluer la précision (qualité) du modèle lors de son utilisation future Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9

Évaluation de l apprentissage Matrice de confusion Principe : confronter la valeur observée avec la prédiction Prédite + - Total Observée + a b a+b - c d c+d Total a+c b+d n Quelques indicateurs : Vrais positifs VP = a Faux positifs FP = c Taux d erreur = (c+b)/n Sensibilité = Rappel = Taux de VP = a/(a+b) Précision = a/(a+c) Taux de FP = c/(c+d) Spécificité = d/(c+d) = 1 Taux de FP Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10

Évaluation Les coûts de mauvaise affectation Observée Observée Comparaison de deux méthodes d apprentissage Prédite + - Total Prédite + - Total Observée + 40 10 50-20 30 50 Total 60 40 100 + 20 30 50-0 50 50 Total 20 80 100 Calculer les indicateurs synthétiques et comparer Une information complémentaire La matrice de coûts de mauvais classement Prédite + - + 0 5-1 0 Coût moyen de mauvaise affectation (dont le taux d erreur est un cas particulier) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11

Évaluation Le principe apprentissage & test Problème : un fichier ne peut pas être juge et partie Dans ce cas, les indicateurs calculés sont dit «de resubstitution» On sait qu ils sont biaisés -- trop optimistes Success Wages Job Refunding Y 0 Unemployed Slow N 2000 Skilled Worker Slow N 1400 Worker Slow N 1573 Retired Slow Y 2776 Skilled Worker Slow N 2439 Retired Fast N 862 Office employee Slow Y 1400 Salesman Slow N 1700 Skilled Worker Slow Y 785 Employee Fast Y 1274 Worker Slow N 960 Employee Fast N 1656 Worker Fast N 0 Unemployed Slow Subdivision aléatoire Échantillon d apprentissage Utilisé pour la construction du modèle 70% Échantillon test Utilisé pour l évaluation du modèle 30% Rappel, précision, taux d erreur (exercice : fichier LOAN Success vs. Housing & Refunding) Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12

Bibliographique : compréhension des méthodes supervisées «Analyse discriminante Application au risque et au scoring financier», M. Bardos, ed. Dunod, 2001. Technique pratique, avec de bons repères théoriques, tourné vers les applications «The elements of statistical learning - Data Mining, Inference and Prediction», T. Hastie, R. Tibshirani, J. Friedman, Springer 2001. Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13