Exploration des corrélations dans un classifieur Application au placement d offres commerciales



Documents pareils
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Laboratoire 4 Développement d un système intelligent

Travailler avec les télécommunications

Sélection de Caractéristiques pour le Filtrage de Spams

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction au datamining

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Introduction au Data-Mining

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

1 Modélisation d être mauvais payeur

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Pourquoi l apprentissage?

Plan. Quelles sont les conditions à remplir pour une approche ebusiness? Définition. Les domaines pouvant être touchés par l ebusiness

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Consumer. Fiche Synthètique. Journey. Enquête sur les parcours d achat Secteur Fournisseurs d accès à internet (FAI)

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Exemple PLS avec SAS

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Principe de symétrisation pour la construction d un test adaptatif

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

INF6304 Interfaces Intelligentes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Big Data et Graphes : Quelques pistes de recherche

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Hervé Couturier EVP, SAP Technology Development

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Introduction au Data-Mining

Bigdata et Web sémantique. les données + l intelligence= la solution

Big Data et Graphes : Quelques pistes de recherche

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

APPROCHE DE MODELISATION DE LA PROPAGATION DE L INCENDIE DANS UN EDIFICE ET SON INTEGRATION DANS UN SYSTEME DECISIONNEL

Gestion de la Relation Client (GRC)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Travaux pratiques avec RapidMiner

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Généralités sur les confirmations de produits dérivés OTC

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Apprentissage statistique dans les graphes et les réseaux sociaux

Probabilités conditionnelles

HP Formation Description de cours

Ebauche Rapport finale

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Classification Automatique de messages : une approche hybride

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Spécificités, Applications et Outils

Bienvenue! Le webinaire commencera d ici quelques minutes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

RI sociale : intégration de propriétés sociales dans un modèle de recherche

FONCTION DE DEMANDE : REVENU ET PRIX

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

EXCEL EXPERIENCE DAY 2015

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Big Data et Marketing : les competences attendues

Eléments de statistique

Urbanisation des systèmes d information

Forthcoming Database

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Notice Technique / Technical Manual

Afin de valider votre inscription merci de bien veiller à :

Encryptions, compression et partitionnement des données

BIG Data et R: opportunités et perspectives

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Mesure agnostique de la qualité des images.

Agenda de la présentation

Folio Case User s Guide

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Gestion de la relation Client (CRM)

Algorithmes d'apprentissage

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Formula Negator, Outil de négation de formule.

Portrait de la recherche en commerce électronique Revue des principales revues en Marketing et SI

Rappels sur les suites - Algorithme

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Institut français des sciences et technologies des transports, de l aménagement

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Qu est-ce qu une probabilité?

Recherche dans un tableau

La clé de la fidélité de la clientèle

CEPF FINAL PROJECT COMPLETION REPORT

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Libérer le pouvoir des médias sociaux Passer du Like au Love

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Transcription:

Application au placement d offres commerciales Vincent Lemaire, Carine Hue Orange Labs, 2 avenue Pierre Marzin, 22300 Lannion vincent.lemaire@orange-ftgroup.com, http://perso.rd.francetelecom.fr/lemaire GFI Informatique, 11 rue Louis de Broglie, 22300 Lannion chue@gfi.fr Résumé. Cet article présente une nouvelle méthode permettant d explorer les probabilités délivrées par un modèle prédictif de classification. L augmentation de la probabilité d occurrence de l une des classes du problème étudié est analysée en fonction des variables explicatives prises isolément. La méthode proposée est posée et illustrée dans un cadre général, puis explicitement dédiée au classifieur Bayesien naïf. Son illustration sur les données du challenge PAKDD 2007 montre que ce type d exploration permet de créer des indicateurs performants d aide à la vente. 1 Introduction Etant donné une base de données, une question classique est de chercher à relier un phénomène dit"à expliquer" à un ou plusieurs phénomènes explicatifs. L extraction de connaissances passe alors couramment par l élaboration d un modèle qui explicite cette relation. Pour chaque individu de la base, un modèle probabiliste permet, étant données les valeurs de l individu pour chaque variable explicative, d estimer les probabilités d occurrence de chaque classe cible ainsi que la classe cible prédite. Ces probabilités ou scores sont réinjectés dans le système d information pour par exemple personnaliser la relation clients: le choix des offres, de l interface des services, du canal de communication, du canal de distribution... Néanmoins la connaissance extraite sur un phénomène par le score n est pas toujours exploitable directement. Par exemple,siunmodèlepréditpourunclientsonpotentielàadhérerounonàuneoffre,autrementditsonappétenceàcetteoffre,ilneditriensurl actionoulesactionsàentreprendrepour rendre plus probable son adhésion. Il semble ainsi nécessaire de posséder une méthodologie qui, pour chaque client, (i) permettra d identifier l importance des variables explicatives (ii) permettra d identifier le placement des valeurs de ces variables explicatives et (iii) proposera d entreprendre une action pour augmenter son appétence à l offre. Nous proposons de traiter ce troisième point en explorant la relation existante, au sens du classifieur, entre les variables explicatives prises indépendamment et la variable cible. Cette exploration, à réaliser pour chacun des clients, produit une connaissance qui sera ensuite exploitée dans un processus de Customer Relationship Management (CRM) pour, par exemple, fournir une information personnalisée dans l argumentaire des téléopérateurs lors d une campagne de promotion.

2 Positionnement La mesure de l importance d une variable permet de sélectionner un sous-ensemble de variables pertinentes pour un problème donné. Cette sélection de variables (Guyon, 2005) permet d augmenter la robustesse des modèles et de faciliter l interprétation d un modèle. L importance de la valeur d une variable consiste à analyser l importance de la valeur prise par l instance pour cette variable (Lemaire et al., 2008) (Robnik-Sikonja et Kononenko, 2008). Cet article propose de compléter les deux aspects présentés ci-dessus. On se restreint dans cet article aux problèmes de classification, quel que soit le nombre de classes. On propose de s intéresser à l individualisation du lien de corrélation qui existe entre un exemple présenté à l entrée d un modèle et la probabilité d apparition d une classe en sortie du modèle. Pour un individu donné, la valeur d une variable d entrée prise isolément peut"tirer vers le haut" (valeur élevée) ou"tirer vers le bas"(valeur faible) la sortie du modèle. L idée retenue est d analyser la relation entre les valeurs d une variable explicative et la probabilité d apparition d une des classes de la variable cible. En explorant les différentes valeurs prises par la variable d entrée étudiée on cherchera par exemple à rendre plus appétant un client(augmenter la valeur delasortiedumodèle). 3 Exploration des valeurs prédictives 3.1 Le cas général Soit C z laclassecibled intérêtparmiles T classescible,parexemplel appétenced un client xàunproduitousonattrition(autrementditsondépart).soit f z lafonctionquimodélise laprobabilitéd occurrencedecetteclassecible f z (X = x) = P(C z X = x)étantdonné l égalitéduvecteur X des J variablesexplicativesàunvecteurdonné xde J valeurs.la méthodeproposéeicirechercheàaugmenterlavaleurde P(C z X = x k )pourchacundes K exemples de l échantillon. Exploration : Pourl exemple x k, P(C z x k ),estlavaleur naturelle delasortiedumodèle. Nous proposons de calculer l effet de la modification des valeurs de l exemple x k sur la sortie du modèle pour cet exemple. En pratique, on propose d explorer les valeurs indépendamment pour chaque variable explicative. On note P j (C z x k, b) la sortie du modèle f z étant donné l exemple x k mais pour lequel on a remplacé la valeur de sa j ieme composante et elle seule par une valeur b. Par exemple, si l on modifie la valeur de la 3ème variable explicative parmi J = 5 : P 3 (C z x k, b) = f z (x 1 k, x2 k, b, x4 k, x5 k )). En parcourant l ensemble des variables et pour chacune d elles l ensemble de ses valeurs on explore ce qu aurait pu être la valeur de la sortie du modèle pour l instance x k en modifiant la valeur d une des variables explicatives. Quelles valeurs (b) essayer? : L intérêt de prendre en compte la distribution empirique des données a été montré expérimentalement (Lemaire et al., 2008). L ensemble des valeurs utilisées pour les J variables explicatives seront donc les valeurs des K exemples disponibles dans la base de données qui sert à apprendre le classifieur : l ensemble d apprentissage. On pourra réduire ce nombre de manipulations aux ensembles de valeurs distinctes. On notera N j le nombre de valeurs de la variable X j. Ordonnancement des explorations : On explore les variables explicatives une à une en parcourant l ensemble des valeurs prises sur l ensemble d apprentissage. Les explorations étant

V. Lemaire et al. Pour l exemple (le client) x k faire w=0 ; Pour toutes les variables explicatives X j de j = 1 à j = J faire Pour toutes les n valeurs différentes (v jn ) de la variable X j de n = 1 à n = N j faire Si P j (C z x k, b = v jn ) > P(C z x k ) Alors Ca[w] = v jn ; PCa[w] = P j (C z x k, v jn ) XCa[w] = j Sinon Ca[w] = 0.0 ; PCa[w] = 0.0; XCa[w] = j Fin Si w=w+1 ; Fin Pour Fin Pour Tri décroissant, selon les valeurs de P Ca[w], de P Ca[w], Ca[w], XCa[w]. Fin Pour Algorithme 1: Exploration et ordonnancement des améliorations du score indépendantes les unes des autres, l ordre des explorations est quelconque. Lorsque la modification de la valeur d une variable conduit à l amélioration de la probabilité prédite on conserve (i) la valeur qui conduit à cette amélioration (Ca) (ii) la probabilité améliorée associée (P Ca) et (iii) la variable associée à l amélioration (XCa). On ordonne ensuite ces triplets selon l amélioration obtenue sur la probabilité prédite. Notons qu il est possible de ne pas parvenir à améliorer P(C z x k ) et que dans ce cas les tables CA et PCa ne contiennent que des valeurs nulles. Cas des changements de classe : Lors de l utilisation de l algorithme 1 on peut être amené à observer des changements de classes prédites. En effet il est d usage d utiliser la formulation suivante pour désigner la classe prédite pour l exemple x k : argmax z [P(C z x k )]. L utilisation de l algorithme 1 sur un exemple x k appartenant à la classe t(t z) peut permettre d obtenir P(C z x k, b) > P(C t x k ) et dans ce cas la cause correspondante (Ca) représente une cause riche d information et exploitable. Par exemple dans le cas d un problème d attrition on cherchera à augmenter la probabilité qu un individu reste client : les clients classés comme churneur par le classifieur et qui deviennent non-churneur via l algorithme 1 seraient à contacter en priorité par le service commercial. On sait que ces clients risquent de partir mais on connaît une cause, valeur d action, à réaliser pour qu ils restent fidèles. 3.2 Déclinaison dans le cas d un classifieur Bayesien Un classifieur Bayesien naïf suppose que toutes les variables explicatives sont indépendantes sachant la classe cible. Cette hypothèse réduit drastiquement les calculs nécessaires. En utilisant le théorème de Bayes, l expression de l estimateur obtenu pour la probabilité conditionnelle d une classe C z est : P(C z x k ) = P(C Q J z) j=1 P(X j = v jk C z) P T t=1 hp(c Q i (1) J t) j=1 P(X j = v jk C t)

La classe d appartenance est celle qui maximise les probabilité conditionnelles. En dépit de cette hypothèse d indépendance, un tel classifieur présente des résultats satisfaisants (Hand et Yu, 2001). De plus, son expression permet bien d explorer les valeurs des variables une à une indépendamment. Les probabilités P(X j = v jk C z ) ( j, k, z) sont estimées (i) pour les variables continues par comptage après discrétisation et (ii) pour les variables modales par comptage après groupement de modalités (Boullé, 2008). Le dénominateur de l équation 1 permet d avoir z P(C z x k ) = 1. Pour mesurer la fiabilité des informations produites par notre approche, nous l avons testé sur des campagnes marketing de France Télécom 1 avec ou sans notre technologie. Nous avons été alimentés par la plateforme PAC (Féraud et al., 2008) avec différents jeux de données provenant des applications décisionnelles du groupe France Télécom. Nous avons consolidé des informations de plus de 1 000 000 de clients du groupe représentés chacun par plusieurs centaines variables explicatives. Ces tests nous ont amenés aux détails d implémentation énumérés dans le document présent en ligne ici : http://perso.rd.francetelecom.fr/ lemaire/understanding/addon-khiops.pdf,notamment quand au calcul de P(C z x k ), et P j (C z x k, b) nécessaire à l utilisation de l algorithme 1. Cette implémentation est alors temps réel sur l écran d un téléopérateur qui interrogerait l application afin de connaître les actions à proposer à un client de manière à ce qu il soit plus appétant par la suite à une offre commerciale. 4 Expérimentation - Application à la vente 4.1 Les données et conditions expérimentales On utilise ici les données du challenge 2 qui a eu lieu lors de la conférence PAKDD en 2007. La société qui a fourni les données a actuellement une clientèle qui possède une carte de crédit aussi bien qu une clientèle qui possède un prêt immobilier. Chacun de ces produits est sur le marché depuis de nombreuse d années, mais, pour des raisons inconnues, le chevauchement entre ces deux clientèles est actuellement très petit. La société voudrait accroître ce chevauchement mais la petite taille du chevauchement présente un challenge lorsqu on essaye d élaborer un modèle de prédiction efficace pour prédire l appétence d un client (possesseur d un produit) à l autre produit. Un ensemble de données de modélisation de 40700 clients avec 40 variables de modélisation (à partir du point d application pour la carte de crédit de la société), plus une variable cible, a été fourni aux participants. Il s agit d un échantillon de clients qui ont ouvert une nouvelle carte de crédit avec la société dans une période spécifique de 2 ans et qui n avaient pas de prêt immobilier existant avec la société. La variable catégorielle cible vaut 1 si le client a alors ouvert un prêt immobilier avec la société dans les 12 mois qui suivent l ouverture de la carte de crédit (700 échantillons) et vaut 0 sinon (40000 échantillons). Les résultats des participants étaient comparés sur un ensemble de données de prédiction (sans la variable cible) de 8000 échantillons. 1 Résultats non autorisés à la publication à ce jour. 2 http://lamda.nju.edu.cn/conf/pakdd07/dmc07/ : Les données ne sont plus en ligne mais les résultats et leur analyse y restent présentés. Nous remercions Mingjun Wei (participant référencé P049) pour nous avoir transmis les données (version 3).

V. Lemaire et al. Le challenge étant terminé il ne nous a pas été possible d évaluation notre classifieur sur cet échantillon de prédiction. Nous avons alors élaboré un classifieur en utilisant les 40700 échantillons dans une procédure de validation croisée à 5 blocs. Nos résultats en classification ont été les suivants comparable à ceux obtenus par le tiercé gagnant ce challenge. Par exemple le meilleur résultat que nous avons obtenu sur l un des 5 blocs est : AUC (Fawcett, 2003) Train = 68.82, AUC Test = 70.11. 4.2 Exploration On choisit d utiliser le meilleur classifieur obtenu en test au cours de la section précédente. Le modèle utilisé, le classifieur Bayesien naïf (Boullé, 2008), n a sélectionné que 8 variables sur 40 : RENT_BUY_CODE, PRE_RES_MTHS, CURR_RES_MTHS, ENQ_L6M_GR3, B_ENQ_L3M, B_ENQ_L12M_GR3, B_ENQ_L12M_GR2, AGE_AT_APPLICATION. Parmi ces variables, on exclut de l exploration celles pour lesquelles il n est pas envisageable de modifier leurs valeurs (telles que l age, le sexe par exemple). On conserve les varaibles dites levier, c est à dire celles sur lesquelles on pense pouvoir agir ou celles qui peuvent évoluer dans la vie du client (et sont donc observables ). A titre d exemple la variable Residential_status_code est non modifiable par une offre quelconque mais observable : si le client passe par exemple du groupe de valeur [O,P] ( O Owner, P Parents) à [M,R,B,X] ( M Mortgage, R Rent, B Board, X Other). Parmi les 8 variables sélectionnées par le modèle les 2è et 8è variables sont alors retirées de la liste des variables levier. 0.4 0.35 0.3 0.25 Probabilites 0.2 0.15 0.1 0.05 0 CURR_RES_MTHS B_ENQ_L3M B_ENQ_L12M_GR2 RENT_BUY_CODE B_ENQ_L6M_GR3 B_ENQ_L12M_GR3 FIG. 1 Résultats sur les probabilités : à gauche de chaque axe pointillé vertical on trouve la distribution des P(C z x k ) ( ) et à droite du même axe la distribution des P j(c z x k, b) ( ). Les 6 axes pointillés posés verticalement représentent les 6 variables explicatives comme indiqué en abscisse. Les valeurs des probabilités sont indiquées selon l axe des ordonnées. Pour chaque client seule la meilleure P j(c z x k, b) (PCa[0] dans l algorithme 1) est tracée. La valeur yes de la variable cible est choisie comme classe d intérêt (C z ). Il est à noter que cette classe est très faiblement représenté (1.75%). Le taux de classification présenté cidessus ou sur le site internet du challenge masque le fait que peu (ou pas selon nos découpages

en blocs) de clients sont classés yes par le classifieur. La manipulation des variables retenues ne permet pas de faire changer de classe les individus de notre ensemble de test. Néanmoins la figure 1 présente l accroissement de la probabilité de vente croisée de l entreprise en question. 5 Conclusion On a présenté dans cet article une méthode permettant d influer sur les probabilités délivrées par un modèle prédictif de classification en explorant les valeurs des variables explicatives pour chaque exemple. Elle a été illustré sur le challenge PAKDD 2007. Il a été montré que sur ce problème difficile de vente croisée il est possible de créer des indicateurs performants qui devraient permettre un accroissement des ventes. Cette méthode, simple mais très performante, est à ce jour intégrée dans un complément du logiciel Khiops TM. Le manuel d utilisation présentant l interface peut être trouvé ici : http://perso.rd.francetelecom.fr/ lemaire/understanding/addon-khiops.pdf. Cet outil serait utile aux entreprises et/ou organisations et/ou chercheur en apprentissage qui désirent comprendre les résultats de leur classification soit par une interprétation soit à l aide de l exploration de valeurs prédictives. Références Boullé, M. (2008). Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données. In Extraction et gestion des connaissances (EGC 2008), pp. 229 230. Fawcett, T. (2003). Roc graphs: Notes and practical considerations for data mining researchers. Technical Report HPL-2003-4, HP Labs, 2003. Féraud, R., M. Boullé, F. Clérot, et F. Fessant (2008). Vers l exploitation de grandes masses de données. In Extraction et Gestion des Connaissances (EGC), pp. 241 252. Guyon, I. (2005). Feature extraction, foundations and applications, Chapter An Input Variable Importance Definition based on Empirical Data Probability, pp. 1 13. Elsevier. Hand, D. et K. Yu (2001). Idiot s Bayes - not so stupid after all? International Statistical Review 69(3), 385 399. Lemaire, V., R. Féraud, et N. Voisine (2008). Contact personalization using a score understanding method. International Joint Conference on Neural Network, 649 654. Explaining classifications for individual in- Robnik-Sikonja, M. et I. Kononenko (2008). stances. IEEE TKDE 20(5), 589 600. Summary This article presents a new method to explore how the probabilities produced by a classification model may be influenced by a change of the input values. This exploration is here applied to probabilist classifiers. The goal is to increase the predictive probability of a given class by exploring the possible values of the input variables taken independently. The proposed method is presented in a general framework, then detailed for naïve Bayesian classifiers. Its application to data proposed for PAKDD 2007 challenge shows that such approach enables to create useful indicators for sales talks.