La classification
Plan Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple
Définition et Objectifs Prévoir l appartenance à une «classe» non observée à partir de variables observées Rappel sur la terminologie (Stat/Marketing) Applications typiques Scoring de risque Connaissant les caractéristiques individuelles d un emprunteur, quel est le risque qu il ne rembourse pas son crédit? Scoring marketing A qui envoyer le mailing de lancement d un nouveau produit?
Caractérisation Un problème supervisé (par opposition à la segmentation ou à l association) Deux utilisations : Descriptive : Déterminer les règles de séparation Décisionnelle : Attribuer un nouvelle individu à une classe. Utilisation descriptive Problème de type géométrique Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du problème est un calcul de probabilité conditionnelle : P(Incident Caractéristiques) P(RéponseMailing )
Caractérisation (suite) Les variables observées peuvent être Qualitatives ou quantitatives La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de données où toutes les variables sont observées (y compris la classe) Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation Familiale, etc. Variable à prévoir : Incident de remboursement
Techniques disponibles Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux
Analyse factorielle discriminante
Analyse discriminante Méthode géométrique (descriptive) Basée uniquement sur une notion de distance Maximisation du rapport Inertie Interclasse / Inertie totale
Principe de l analyse discriminante Axe 2 Axe 1 Chercher le meilleur axe de séparation Axe Optimal
Régression logistique
Cadre théorique On suppose que la classe détermine la distribution conditionnelle des variables observées f j (x) est la densité de probabilité de x pour les individus du groupe j. Classe x 1 x 2 x n Observant un point de coordonnées (x 1, x 2,, x p ) la probabilité d appartenir à un groupe j est p j.f j (x)/σp j.f j (x) On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel p j.f j (x) est maximal
Méthodes de résolution Méthodes paramétriques On choisit une famille paramétrée de lois de probabilité pour f j (x) Les observations permettent d estimer les paramètres Méthodes non paramétriques Variantes de la méthode du noyau
Cas simple Hypothèses On considère deux classes, et f 1 (x) et f 2 (x) suivent une loi normale Les matrices de variance/covariance sont identiques pour les deux classes Résultat On peut calculer un score s(x) fonction linéaire des variables x. La probabilité d appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))
La régression logistique On part de la forme obtenue précédemment p=1/(1+exp(-s(x))) Qui se transforme en : s(x)=ln(p/1-p) s(x) est une combinaison linéaire des x i s(x)=β 0 + β 1.x 1 + β 1.x 2 + + β 1.x n Ses coefficients β i sont estimés par le MV L= i C1 f1(x i ) i C2 f2(x i )
Arbres de décision
Arbres de décision Une méthode de régression Basée sur la théorie de l information Fonctionnant pour des variables continues ou discrètes Recherche itérative de variables discriminantes Produisant des modèles faciles à interpréter (sous forme de règles SI ALORS SINON)
Principe Un arbre de décision est construit récursivement En recherchant à chaque fois le critère qui fait gagner le plus d «ordre»
Utilisation d un arbre de décision R < a? SI R<A ALORS La boule est bleue SINON SI M <b ALORS La boule est rouge SINON La boule est bleue Rayon < a? Oui Ranger la boule dans la classe «bleue» Oui Ranger la boule dans la classe «rouge» Feuille Non Masse < b? Noeud Non Ranger la boule dans la classe «bleue»
Construction d un arbre de décision Théorie de l information (Shannon, 1948) AAAAAAAA p(a)=1 p(b)=0 A AABABABBA p(a)=0.5 p(b)=0.5??
Entropie Entropie = mesure du désordre Cas de deux événements S = p.log p i i ( ) i (.log( ).log( )) S = p p + p p 1 1 2 2 0.7 0.6 S 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 70 80 90 100 P1
Algorithme C4.5 C4.5 Si E ne contient que des éléments de la même classe Terminer Sinon Trouver le test T qui fasse gagner le plus d entropie T sépare E en E1 et E2 : Appliquer C4.5 à E1 et E2
Exemple d arbre obtenu Si Ancienneté Bancaire = 0 Risque Elevé Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible
Réseaux bayésiens
Les réseaux bayésiens Introduction L inférence ou le calcul de P(X e) L apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion
Une représentation graphique de la causalité A B A A V B V B F F V F S il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j ai de A. L information ne circule pas seulement dans le sens des flèches
Sherlock Holmes & Thomas Bayes Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s aperçoit que la pelouse de son jardin est humide. Il se demande alors s il a plu pendant la nuit, ou s il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d œil à la pelouse de son voisin, M. Watson, et s aperçoit qu elle est également humide. Il en déduit alors qu il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique
Modèle de causalité A J P V A P J V J ai oublié de débrancher mon arroseur automatique Il a plu pendant cette nuit L herbe de mon jardin est humide L herbe du jardin de mon voisin est humide A A P P S il Si S il a plu j ai plu pendant oublié pendant de la débrancher nuit, la nuit, l herbe l herbe mon de mon du arroseur jardin automatique, de est mon humide. voisin est l herbe également de mon humide jardin est humide J J V V
Utilisation du modèle A P La connaissance de J renforce la croyance en l une des deux causes A ou P J V A J P V La connaissance de V augmente la croyance en la cause P. Par rapport à l état précédent, la cause A devient moins plausible
Le cas général X Z Y Connexion convergente X et Y causent Z X X Z Z Y Y Connexion en série X cause Z, Z cause Y X Z Y Connexion divergente Z cause X et Y.
Circulation de l information (1) X Z Y X Z 0 Y X = tremblement de terre Y = cambriolage Z = alarme X? Y L information ne peut circuler de X à Y que si Z est connu.
Circulation de l information (2) X Z Y X? Y X = ensoleillement Y = prix du blé Z = récolte X Z 0 Y L information ne peut circuler de X à Y que si Z n est pas connu.
Circulation de l information (3) X Z Y X X? Z 0 Y Y X = la pelouse de mon jardin est humide Y = la pelouse de mon voisin est humide Z = il a plu cette nuit. L information ne peut circuler de X à Y que si Z n est pas connu.
d-séparation (blocage) On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l une au moins des deux conditions suivantes est vérifiée : Le chemin converge en un nœud W, tel que W Z, et W n est pas une cause directe de Z. Le chemin passe par Z, et est soit divergent, soit en série au nœud Z. On notera X Z Y
d-séparation : exemple A B D : B E G Le chemin A-B-D est en série en B ( B ). Le chemin A-C-D est convergent en C ( C ). A D A D E : C F Tous les chemins de A à E passent par D. Le chemin A-B-D-E est en série en D (B D E). Le chemin A-C-D-E est divergent en D (C D E).
Une représentation probabiliste associée Un nœud = une variable aléatoire Si A n a aucune cause directe, nous devrons définir p(a), c està-dire les deux nombres p(a=vrai) et p(a=faux). Si B a une seule cause directe A, nous devrons définir p(b A), c est-à-dire les quatre nombres p(b=v A=V),, etc. Si C a deux causes directes A et B nous devrons définir p(c A,B), c est-à-dire les huit nombres p(c=v A=V, B=V), etc.
Retour à l exemple (1) A P J V Probabilités inconditionnelles Evénement Probabilité Commentaire A A P P = V 0.4 M. Holmes oublie assez souvent de débrancher son arroseur automatique = F 0.6 = V 0.4 La région est relativement pluvieuse = F 0.6
Retour à l exemple (2) A P Probabilités conditionnelles J J J V P A = V A= F = V P = F P = V P = F = V 1 1 1 0 = F 0 0 0 1 V V P = V P = F = V 1 0 = F 0 1
Retour à l exemple (3) Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s aperçoit que la pelouse de son jardin est humide. Il se demande alors s il a plu pendant la nuit, ou s il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d œil à la pelouse de son voisin, M. Watson, et s aperçoit qu elle est également humide. Il en déduit alors qu il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique. Comparer p(a=v J=V) et p(p=v J=V) Comparer p(a=v J=V, V=V) et p(p=v J=V, V=V) 0.625 0.625 0.4 1
Retour à l exemple (4) A et P sont d-séparés Si J est connu, l information peut circuler de A à P (A J P est une connexion convergente) A et P sont indépendants P(A=F et P=F J=V) = 0 P(A=F J=V) = 0.375 P(P=F J=V) = 0.375 A et P ne sont pas indépendants conditionnellement à J A P J V
Résumé La transposition d un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l on peut mener directement sur ce graphe Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être mises en correspondance avec les propriétés d indépendance de l espace probabilisé associé.
Réseaux bayésiens : définition Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E), où V est l ensemble des nœuds de G, et E l ensemble des arcs de G un espace probabilisé fini (Ω, Z,P) un ensemble de variables aléatoires correspondant aux nœuds du graphe, telles que pv (, V,..., V ) = pv ( CV ( )) 1 2 n Π i= 1, n i i
Théorème fondamental Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de nœuds tels que X et Y sont d-séparés dans G par Z, alors X et Y sont indépendants conditionnellement à Z
Inférence dans les réseaux bayésiens Inférence = Révision des probabilités Calculer P(X e) La complexité dépend de la complexité du réseau
Inférence : approche intuitive A B C Cas d une chaîne Calculer P(C A=Vrai)? déf RB déf Cond Th. Bayes pabc (,, ) = pc ( B). pb ( A). pa ( ) pabc (,, ) = pc ( AB, ). pb ( A). pa ( ) pc ( AB, ) = pc ( B) pc ( A) = pc ( AB, ). pb ( A) B pc ( A) = pc ( B). pb ( A) B
Inférence : approche intuitive (suite) C A B E D A B B C B D E = XOR( C, D) Calculer P(E A=Faux)?
Inférence : conditionnement C A=F B E pe ( = VA= F)? D B=V C B=F C A=F E A=F E B=V D B=F D pe ( = VA= FB, = V)* pb ( = VA= F) + pe ( = VA= FB, = F)* pb ( = FA= F)
Inférence : aspects théoriques Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes «graphiques» (réseaux avec boucles) Méthodes approchées (réseaux de grande taille)
Inférence dans les réseaux sans boucle Chaîne Arbre Polyarbre
Principe X X P( X e) Amont( X ). Aval( X )
Inférence dans les réseaux avec boucle Transformation du réseau bayésien P(X e) Propagation dans l arbre de regroupement Inférence dans le réseau bayésien
A quoi sert un réseau bayésien? Inférence = raisonnement à partir de données partielles Exemple d application = diagnostic Médical Autre : évaluation de risque, scoring, etc.
Questions 1. D où viennent les probabilités? 2. D où vient le graphe
Réponses 1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer les tables de probabilités 2. Apprentissage de structure Utiliser une base de cas pour déterminer les arcs du réseau
Approches Trois possibilités Demander aux experts du domaine: Surtout valable pour le graphe Approche statistique Calcul du maximum de vraisemblance Approche bayésienne Distribution des paramètres ou de la structure postérieurement à l observation des données
Exemple Pile Face Comment estimer la probabilité θ? Fréquence θ = p p + f Bayes p( θ X( p, f )) = k. p( X( p, f ) θ). p( θ) p( θ X( p, f )) = k. θ ( 1 θ). p( θ) p f
Apprentissage de paramètres La structure est donnée Le jeu de paramètres à estimer s en déduit X Z Y θ θ θ θ θ θ θ θ θ θ θ θ 111,, 121,, 211,, 221,, 311,, 312,, 313,, 314,, 321,, 322,, 323,, 324,, ( V) ( F) ( V) ( F) ( ) I( ) = px= = px= = py= = py= ( ) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) ( ( ) I( )) = pz= V X= V Y= V = pz= V X= V Y= F = pz= V X= F Y= V = pz= V X= F Y= F = pz= F X= V Y= V = pz= F X= V Y= F = pz= F X= F Y= V = pz= F X= F Y= F
Apprentissage statistique de paramètres Approche Maximum de vraisemblance Φ Θ n qi ri D i, j, k i, j, k i= j= 1 k = 1 ( ) ( ) Θ = N.log θ MV i, j arg max 1 ( i, j ΦD ) Résultat : fréquences = MV θ i, j, k Θ i, j = N i, j, k N i, j
Apprentissage bayésien de paramètres Formule générale ( Θ D) ( D Θ). ( Θ) P P P A Posteriori = Vraisemblance. A Priori Résultat dépend de la probabilité a priori cas de Dirichlet θ N + α MAP i, j, k i, j, k i, j, k = Ni, j+ αi, j
Apprentissage statistique de structure Contraindre la structure Cas général :? Cas de l arbre Théorème de Chow et Liu Arbre couvrant de poids maximal ( ) k k i j W Xi, X j = N xi, x j.log k, k i j N x ( k ) i N x i k i i, x k j j. N x k j j
Apprentissage bayésien de structure Même principe général Problème M MAP Distribution des structures Calcul de P(M D) = argmaxp M ( M D) Recherche (4.10 18 structures possibles pour dix variables)
Algorithme K2
L apprentissage vu comme inférence cas 1 modèle cas 2 cas n
Conclusions Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d inférence multiples Limites Complexité : inférence et apprentissage sont NPcomplets! Lisibilité Probabilités?
Exemple Questionnaire adaptatif (Crédit en ligne) Vendre sur Internet Risque de déconnexion Accélérer le processus de vente Vente de crédit Risque d impayé Obtenir des informations sur le client Compromis à trouver Variable-clé = longueur du questionnaire
Démarche revenu âge sitfam sithab nbenf Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire Poser les questions les plus utiles En fonction des réponses obtenues score ancban
Questionnaire adaptatif Principe Un score d'acceptation (proba MP) définitif est fixé (S1), par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20 Le questionnaire adaptatif fonctionne comme suit : TantQue la proba MP est comprise entre S1 et S2, Faire Parmi les questions non encore posées, déterminer celle apportant le plus d'information Poser la question Calculer la nouvelle proba MP Fin TantQue
Résultats Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions (incomplets) = 7 Erreurs = 4% Erreur BP = 4% Erreur MP = 4%