Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple

Documents pareils

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Raisonnement probabiliste

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Introduction au datamining

Résolution d équations non linéaires

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction au Data-Mining

La classification automatique de données quantitatives

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Méthodes de Simulation

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Arbres binaires de décision

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

P1 : Corrigés des exercices

Équations non linéaires

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Chapitre 5 : Flot maximal dans un graphe

Probabilités conditionnelles

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Algorithmes d'apprentissage

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités sur un univers fini

Travaux dirigés d introduction aux Probabilités

Cours de méthodes de scoring

Classification non supervisée

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Pourquoi l apprentissage?

Probabilités. C. Charignon. I Cours 3

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Apprentissage Automatique

choisir H 1 quand H 0 est vraie - fausse alarme

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Exercices sur le chapitre «Probabilités»

Simulation de variables aléatoires

Texte Agrégation limitée par diffusion interne

Calculs de probabilités conditionelles

Correction du baccalauréat ES/L Métropole 20 juin 2014

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Qu est-ce qu une probabilité?

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

données en connaissance et en actions?

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

BACCALAUREAT GENERAL MATHÉMATIQUES

Introduction au Data-Mining

FORMULAIRE DE STATISTIQUES

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Coup de Projecteur sur les Réseaux de Neurones

Agenda de la présentation

Utilisation des tableaux sémantiques dans les logiques de description

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

CALCUL DES PROBABILITES

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Les probabilités. Chapitre 18. Tester ses connaissances

Plus courts chemins, programmation dynamique

Chaînes de Markov au lycée

CHAPITRE 5. Stratégies Mixtes

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Agrégation des portefeuilles de contrats d assurance vie

Journées d études IARD

Chapitre 2 Le problème de l unicité des solutions

FIMA, 7 juillet 2005

«Cours Statistique et logiciel R»

Probabilités sur un univers fini

Loi d une variable discrète

Intégration et probabilités TD1 Espaces mesurés Corrigé

Les algorithmes de fouille de données

Resolution limit in community detection

Rappels sur les suites - Algorithme

Probabilités conditionnelles Loi binomiale

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

PROBABILITES ET STATISTIQUE I&II

Les Réseaux Bayesiens

ACP Voitures 1- Méthode

Saisie des chauffe-eau thermodynamiques à compression électrique

De la mesure à l analyse des risques

Réseaux bayésiens : Apprentissage et diagnostic de systemes complexes

TSTI 2D CH X : Exemples de lois à densité 1

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

Annexe 6. Notions d ordonnancement.

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Moments des variables aléatoires réelles

Economie de l Incertain et des Incitations

Transcription:

La classification

Plan Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple

Définition et Objectifs Prévoir l appartenance à une «classe» non observée à partir de variables observées Rappel sur la terminologie (Stat/Marketing) Applications typiques Scoring de risque Connaissant les caractéristiques individuelles d un emprunteur, quel est le risque qu il ne rembourse pas son crédit? Scoring marketing A qui envoyer le mailing de lancement d un nouveau produit?

Caractérisation Un problème supervisé (par opposition à la segmentation ou à l association) Deux utilisations : Descriptive : Déterminer les règles de séparation Décisionnelle : Attribuer un nouvelle individu à une classe. Utilisation descriptive Problème de type géométrique Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : P(Incident Caractéristiques) P(RéponseMailing )

Caractérisation (suite) Les variables observées peuvent être Qualitatives ou quantitatives La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. Variable à prévoir : Incident de remboursement

Techniques disponibles Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux

Analyse factorielle discriminante

Analyse discriminante Méthode géométrique (descriptive) Basée uniquement sur une notion de distance Maximisation du rapport Inertie Interclasse / Inertie totale

Principe de l analyse discriminante Axe 2 Axe 1 Chercher le meilleur axe de séparation Axe Optimal

Régression logistique

Cadre théorique On suppose que la classe détermine la distribution conditionnelle des variables observées f j (x) est la densité de probabilité de x pour les individus du groupe j. Classe x 1 x 2 x n Observant un point de coordonnées (x 1, x 2,, x p ) la probabilité d appartenir à un groupe j est p j.f j (x)/σp j.f j (x) On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel p j.f j (x) est maximal

Méthodes de résolution Méthodes paramétriques On choisit une famille paramétrée de lois de probabilité pour f j (x) Les observations permettent d estimer les paramètres Méthodes non paramétriques Variantes de la méthode du noyau

Cas simple Hypothèses On considère deux classes, et f 1 (x) et f 2 (x) suivent une loi normale Les matrices de variance/covariance sont identiques pour les deux classes Résultat On peut calculer un score s(x) fonction linéaire des variables x. La probabilité d appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))

La régression logistique On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) Qui se transforme en : s(x)=ln(p/1-p) s(x) est une combinaison linéaire des x i s(x)=β 0 + β 1.x 1 + β 1.x 2 + + β 1.x n Ses coefficients β i sont estimés par le MV L= i C1 f1(x i ) i C2 f2(x i )

Arbres de décision

Arbres de décision Une méthode de régression Basée sur la théorie de l information Fonctionnant pour des variables continues ou discrètes Recherche itérative de variables discriminantes Produisant des modèles faciles à interpréter (sous forme de règles SI ALORS SINON)

Principe Un arbre de décision est construit récursivement En recherchant à chaque fois le critère qui fait gagner le plus d «ordre»

Utilisation d un arbre de décision R < a? SI R<A ALORS La boule est bleue SINON SI M <b ALORS La boule est rouge SINON La boule est bleue Rayon < a? Oui Ranger la boule dans la classe «bleue» Oui Ranger la boule dans la classe «rouge» Feuille Non Masse < b? Noeud Non Ranger la boule dans la classe «bleue»

Construction d un arbre de décision Théorie de l information (Shannon, 1948) AAAAAAAA p(a)=1 p(b)=0 A AABABABBA p(a)=0.5 p(b)=0.5??

Entropie Entropie = mesure du désordre Cas de deux événements S = p.log p i i ( ) i (.log( ).log( )) S = p p + p p 1 1 2 2 0.7 0.6 S 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 70 80 90 100 P1

Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2

Exemple d arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible

Réseaux bayésiens

Les réseaux bayésiens Introduction L inférence ou le calcul de P(X e) L apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion

Une représentation graphique de la causalité A B A A V B V B F F V F S il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j ai de A. L information ne circule pas seulement dans le sens des flèches

Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s aperçoit que la pelouse de son jardin est humide. Il se demande alors s il a plu pendant la nuit, ou s il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d œil à la pelouse de son voisin, M. Watson, et s aperçoit qu elle est également humide. Il en déduit alors qu il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique

Modèle de causalité A J P V A P J V J ai oublié de débrancher mon arroseur automatique Il a plu pendant cette nuit L herbe de mon jardin est humide L herbe du jardin de mon voisin est humide A A P P S il Si S il a plu j ai plu pendant oublié pendant de la débrancher nuit, la nuit, l herbe l herbe mon de mon du arroseur jardin automatique, de est mon humide. voisin est l herbe également de mon humide jardin est humide J J V V

Utilisation du modèle A P La connaissance de J renforce la croyance en l une des deux causes A ou P J V A J P V La connaissance de V augmente la croyance en la cause P. Par rapport à l état précédent, la cause A devient moins plausible

Le cas général X Z Y Connexion convergente X et Y causent Z X X Z Z Y Y Connexion en série X cause Z, Z cause Y X Z Y Connexion divergente Z cause X et Y.

Circulation de l information (1) X Z Y X Z 0 Y X = tremblement de terre Y = cambriolage Z = alarme X? Y L information ne peut circuler de X à Y que si Z est connu.

Circulation de l information (2) X Z Y X? Y X = ensoleillement Y = prix du blé Z = récolte X Z 0 Y L information ne peut circuler de X à Y que si Z n est pas connu.

Circulation de l information (3) X Z Y X X? Z 0 Y Y X = la pelouse de mon jardin est humide Y = la pelouse de mon voisin est humide Z = il a plu cette nuit. L information ne peut circuler de X à Y que si Z n est pas connu.

d-séparation (blocage) On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l une au moins des deux conditions suivantes est vérifiée : Le chemin converge en un nœud W, tel que W Z, et W n est pas une cause directe de Z. Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera X Z Y

d-séparation : exemple A B D : B E G Le chemin A-B-D est en série en B ( B ). Le chemin A-C-D est convergent en C ( C ). A D A D E : C F Tous les chemins de A à E passent par D. Le chemin A-B-D-E est en série en D (B D E). Le chemin A-C-D-E est divergent en D (C D E).

Une représentation probabiliste associée Un nœud = une variable aléatoire Si A n a aucune cause directe, nous devrons définir p(a), c està-dire les deux nombres p(a=vrai) et p(a=faux). Si B a une seule cause directe A, nous devrons définir p(b A), c est-à-dire les quatre nombres p(b=v A=V),, etc. Si C a deux causes directes A et B nous devrons définir p(c A,B), c est-à-dire les huit nombres p(c=v A=V, B=V), etc.

Retour à l exemple (1) A P J V Probabilités inconditionnelles Evénement Probabilité Commentaire A A P P = V 0.4 M. Holmes oublie assez souvent de débrancher son arroseur automatique = F 0.6 = V 0.4 La région est relativement pluvieuse = F 0.6

Retour à l exemple (2) A P Probabilités conditionnelles J J J V P A = V A= F = V P = F P = V P = F = V 1 1 1 0 = F 0 0 0 1 V V P = V P = F = V 1 0 = F 0 1

Retour à l exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s aperçoit que la pelouse de son jardin est humide. Il se demande alors s il a plu pendant la nuit, ou s il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d œil à la pelouse de son voisin, M. Watson, et s aperçoit qu elle est également humide. Il en déduit alors qu il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(a=v J=V) et p(p=v J=V) Comparer p(a=v J=V, V=V) et p(p=v J=V, V=V) 0.625 0.625 0.4 1

Retour à l exemple (4) A et P sont d-séparés Si J est connu, l information peut circuler de A à P (A J P est une connexion convergente) A et P sont indépendants P(A=F et P=F J=V) = 0 P(A=F J=V) = 0.375 P(P=F J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J A P J V

Résumé La transposition d un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l on peut mener directement sur ce graphe Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d indépendance de l espace probabilisé associé.

Réseaux bayésiens : définition Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E), où V est l ensemble des nœuds de G, et E l ensemble des arcs de G un espace probabilisé fini (Ω, Z,P) un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que pv (, V,..., V ) = pv ( CV ( )) 1 2 n Π i= 1, n i i

Théorème fondamental Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors X et Y sont indépendants conditionnellement à Z

Inférence dans les réseaux bayésiens Inférence = Révision des probabilités Calculer P(X e) La complexité dépend de la complexité du réseau

Inférence : approche intuitive A B C Cas d une chaîne Calculer P(C A=Vrai)? déf RB déf Cond Th. Bayes pabc (,, ) = pc ( B). pb ( A). pa ( ) pabc (,, ) = pc ( AB, ). pb ( A). pa ( ) pc ( AB, ) = pc ( B) pc ( A) = pc ( AB, ). pb ( A) B pc ( A) = pc ( B). pb ( A) B

Inférence : approche intuitive (suite) C A B E D A B B C B D E = XOR( C, D) Calculer P(E A=Faux)?

Inférence : conditionnement C A=F B E pe ( = VA= F)? D B=V C B=F C A=F E A=F E B=V D B=F D pe ( = VA= FB, = V)* pb ( = VA= F) + pe ( = VA= FB, = F)* pb ( = FA= F)

Inférence : aspects théoriques Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes «graphiques» (réseaux avec boucles) Méthodes approchées (réseaux de grande taille)

Inférence dans les réseaux sans boucle Chaîne Arbre Polyarbre

Principe X X P( X e) Amont( X ). Aval( X )

Inférence dans les réseaux avec boucle Transformation du réseau bayésien P(X e) Propagation dans l arbre de regroupement Inférence dans le réseau bayésien

A quoi sert un réseau bayésien? Inférence = raisonnement à partir de données partielles Exemple d application = diagnostic Médical Autre : évaluation de risque, scoring, etc.

Questions 1. D où viennent les probabilités? 2. D où vient le graphe

Réponses 1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer les tables de probabilités 2. Apprentissage de structure Utiliser une base de cas pour déterminer les arcs du réseau

Approches Trois possibilités Demander aux experts du domaine: Surtout valable pour le graphe Approche statistique Calcul du maximum de vraisemblance Approche bayésienne Distribution des paramètres ou de la structure postérieurement à l observation des données

Exemple Pile Face Comment estimer la probabilité θ? Fréquence θ = p p + f Bayes p( θ X( p, f )) = k. p( X( p, f ) θ). p( θ) p( θ X( p, f )) = k. θ ( 1 θ). p( θ) p f

Apprentissage de paramètres La structure est donnée Le jeu de paramètres à estimer s en déduit X Z Y θ θ θ θ θ θ θ θ θ θ θ θ 111,, 121,, 211,, 221,, 311,, 312,, 313,, 314,, 321,, 322,, 323,, 324,, ( V) ( F) ( V) ( F) ( ) I( ) = px= = px= = py= = py= ( ) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) = pz= V X= V Y= V = pz= V X= V Y= F = pz= V X= F Y= V = pz= V X= F Y= F = pz= F X= V Y= V = pz= F X= V Y= F = pz= F X= F Y= V = pz= F X= F Y= F

Apprentissage statistique de paramètres Approche Maximum de vraisemblance Φ Θ n qi ri D i, j, k i, j, k i= j= 1 k = 1 ( ) ( ) Θ = N.log θ MV i, j arg max 1 ( i, j ΦD ) Résultat : fréquences = MV θ i, j, k Θ i, j = N i, j, k N i, j

Apprentissage bayésien de paramètres Formule générale ( Θ D) ( D Θ). ( Θ) P P P A Posteriori = Vraisemblance. A Priori Résultat dépend de la probabilité a priori cas de Dirichlet θ N + α MAP i, j, k i, j, k i, j, k = Ni, j+ αi, j

Apprentissage statistique de structure Contraindre la structure Cas général :? Cas de l arbre Théorème de Chow et Liu Arbre couvrant de poids maximal ( ) k k i j W Xi, X j = N xi, x j.log k, k i j N x ( k ) i N x i k i i, x k j j. N x k j j

Apprentissage bayésien de structure Même principe général Problème M MAP Distribution des structures Calcul de P(M D) = argmaxp M ( M D) Recherche (4.10 18 structures possibles pour dix variables)

Algorithme K2

L apprentissage vu comme inférence cas 1 modèle cas 2 cas n

Conclusions Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d inférence multiples Limites Complexité : inférence et apprentissage sont NPcomplets! Lisibilité Probabilités?

Exemple Questionnaire adaptatif (Crédit en ligne) Vendre sur Internet Risque de déconnexion Accélérer le processus de vente Vente de crédit Risque d impayé Obtenir des informations sur le client Compromis à trouver Variable-clé = longueur du questionnaire

Démarche revenu âge sitfam sithab nbenf Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire Poser les questions les plus utiles En fonction des réponses obtenues score ancban

Questionnaire adaptatif Principe Un score d'acceptation (proba MP) définitif est fixé (S1), par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20 Le questionnaire adaptatif fonctionne comme suit : TantQue la proba MP est comprise entre S1 et S2, Faire Parmi les questions non encore posées, déterminer celle apportant le plus d'information Poser la question Calculer la nouvelle proba MP Fin TantQue

Résultats Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions (incomplets) = 7 Erreurs = 4% Erreur BP = 4% Erreur MP = 4%