DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

Transcription

1 ESTIMATION ET PRÉDICTION DE LA FIDÉLITÉ, DE LA DURÉE DE VIE ET DE LA VALEUR ÉCONOMIQUE DES CLIENTS PAR DES TECHNIQUES DE DATAMINING Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique La fidélisation des clients intéresse toutes les entreprises. L'une des questions majeures du sujet est : qui doit-on fidéliser? Car tous les clients ne sont pas nécessairement intéressants à être fidélisés et tous les clients ne sont pas fidélisables de la même manière. Dans cet article, on décrit un processus de datamining adapté à gérer, suivre, analyser les clients. Il permet de détecter les clients potentiellement infidèles, selon leur valeur économique, et, ainsi, de donner au manager de marketing une information sur-mesure, éventuellement client-par-client, destinée à mettre en place des actions marketing sur-mesure. Mots Clés : Fidélisation, Datamining, Evaluation, Système d information client, Marketing INTRODUCTION Le contexte général est celui de la société de l'information, de l'accroissement de la compétition et de la compétitivité associée à une plus grande satisfaction des besoins des consommateurs. Le management d'une entreprise est conduit par la demande des consommateurs. Qui dit demande, dit connaissance détaillée et suivi permanents de ces consommateurs. Ceci implique la maîtrise et l exploitation intelligente de différentes sources d'information provenant du système d'information interne de l'entreprise, des bases de données marketing, des enquêtes de satisfaction, des réclamations, des enquêtes sur la concurrence. Ces sources d'information sont parfois réunies dans des entrepôts de données (datawarehouse) ou dans des magasins de données spécialisées (datamart) et exploitées en fonction d'une action à entreprendre par des techniques ou des systèmes d'analyse des données (datamining). Dans cet article, on s'interroge sur la manière de détecter, à partir des sources d'information disponibles, les clients potentiellement fidèles et ceux qui ne le sont pas, afin de fournir au manager du marketing, des listes de clients, à partir desquelles il pourrait établir des plans de fidélisation et de mettre en place ces actions. Avant d'entrer dans le cœur du sujet, on fait un détour vers le datamining afin de permettre au lecteur d'en acquérir une image intuitive, mais plus juste que celle fournie par la presse informatique ou les éditeurs de logiciels. CE QU'EST, CE QUE N'EST PAS LE DATAMINING Le Gartner Group, société spécialisée dans l'information technologique et économique, reconnue 67

2 A D E T E M par la très grande majorité des acteurs du domaine, définit le datamining ainsi : «It is the process of discovering meaningful new correlations, patterns, trends by sifting through large amounts of data stored in repositories using pattern recognition as well statistical and mathematical techniques». Cette définition très générale mérite d'être précisée ainsi : «Le datamining est un processus d'analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d'activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l'intérêt de l'activité dont ils ont la charge et de l'entreprise pour laquelle ils travaillent». Cette proposition de définition, croisée avec celle du Gartner Group appelle quelques commentaires supplémentaires : 1. Processus : le datamining est un processus de transformation et de valorisation des données tourné vers un objectif d'entreprise. Si on prend l'image classique du pétrole, les données sont le pétrole brut, le carburant est le produit transformé par le processus de raffinage. 2. Analyse fine des données détaillées : on entend par là l'analyse des données élémentaires non agrégées, par des processus d'analyse permettant de reconnaître ou d'identifier des faits pertinents. 3. Analyse intelligente des données : on entend par là, l'analyse permettant de déduire des associations, des exceptions, des déviations, des relations, des causalités, des facteurs, des classes, des modèles au moyen de méthodes mathématiques appropriées (visualisation, analyses exploratoires, analyses factuelles, arbres de décision, réseaux de neurones, algorithmes génétiques, analyses discriminantes, analyses prédictives...). 4. Processus itératif : processus d'analyse progressif permettant d'accéder étape par étape au résultat escompté. 5. Processus interactif : processus d'analyse permettant de dialoguer avec les données en vue d'en déduire des relations ou du sens entre elles. 6. Manager d'activités : responsable dans l'entreprise qui fixe les objectifs, organise le processus de management de l'activité, évalue les résultats obtenus, s'appuie sur l'information valorisée par le datamining pour prendre ses décisions et élaborer les plans d'action. 7. Action sur mesure : action déduite directement de l'information disponible au niveau individuel (c'est-à-dire du client), information de type oneto-one pour permettre un marketing one-to-one. 8. Datamining et datawarehousing : bien que parfois associés par la presse informatique et les éditeurs ou intégrateurs de bases de données, datamining n'est ni datawarehousing, ni système d'information, ni bases de données. Ces trois objets ne sont concernés que par l'alimentation et la gestion des données. Administrer une base de données est un métier, exploiter intelligemment une base en est un autre. Corrélativement, le datamining ne nécessite pas nécessairement l implémentation d'un datawarehouse. 9. Utilisateurs de données : le rôle des utilisateurs de données est concentré sur l'objectif d'entreprise à atteindre. Ils n'ont pas à être des spécialistes, pas plus du datamining que du datawarehousing. Ce dont ils ont besoin, ce sont des méthodes simples à mettre en œuvre, qui permettent d'extraire du sens des données en «opérationnel au fil de l'eau». 10. Sciences et technologies de l'information : bien qu'associés, sciences et technologies doivent être différenciés. On peut faire remonter la première expression du datamining au pharaon, qui, voulant fixer le montant de l'impôt, avait fait construire au bord du Nil des «nilomètres», qui permettaient de mesurer la hauteur de crue du Nil et, corrélativement, d'en déduire le montant de la récolte. Les méthodes de classification datent de Linné (1758), les méthodes de régression de Galton et Pearson (1875), les méthodes factorielles de Hotteling (1930), l'analyse des correspondances de Benzécri (1962), l'analyse exploratoire des données de Tukey (1962), les arbres de décision de Sonquist 68

3 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu et Morgan (1965), les réseaux de neurones de Mc Culloch et Pitts (1943), les algorithmes génétiques de Holland (1975)... Les technologies de datamining suivent l'évolution des technologies de l'information et de la communication depuis l'apparition des ordinateurs et des réseaux. La plupart des technologies de datamining sont disponibles sur micro-ordinateur et ne nécessitent pas d investissements informatiques et mathématiques importants. A l'aube de l'an 2000, ces technologies sont plus proches, dans leur mode d'emploi, des outils informatiques de type traitement de texte et tableur du commerce, que des logiciels statistiques des années 70. Si leur usage est encore peu répandu, c'est que les spécialistes du marketing sont encore peu au fait de l'emploi de ces technologies et que les éditeurs de produits logiciels, comme les intégrateurs informatiques, n'ont pas la connaissance de ces sujets. En effet, elle est plus du ressort de la maîtrise de l information que de l informatique. C'est donc par des canaux de diffusion différents des canaux usuels que les managers du marketing devront s'informer sur ces technologies et leurs possibilités. Ce que nous tentons de faire ici. toutes les sources d'information dont on peut supposer, sans l'avoir vérifié, qu elles ont un «lien» avec le fait d'être fidèle ou pas. Parmi ces sources, on trouve les données du système d'information de l'entreprise (les données de facturation, de contrats, et des données socio-démographiques relevées au moment de l'achat...), puis les données des bases de données marketing, les données des enquêtes de satisfaction (satisfaction client - satisfaction des employés - satisfaction des actionnaires...), les données de qualité de service (produits et/ou services), les données sur la concurrence, les données des réclamations orales ou écrites et un ensemble de données informelles, dites qualitatives, qui peuvent éclairer certains aspects de la fidélisation. STRATEGIE DE MANAGEMENT DE LA FIDELISATION. La stratégie de management de la fidélisation met en jeu un processus périodique qu'on a divisé en quatre étapes : DETECTION DE CLIENTS INFIDELES ET ACTIONS ASSOCIEES. Cadre général des études de fidélisation On donne, ci-après (Figure 1), les éléments et les relations intervenant traditionnellement dans l'étude de la fidélisation. Ce schéma n'est pas original, il est inspiré des travaux de Devlin (1996), eux-mêmes inspirés des travaux de Parasuraman. Il correspond désormais à la réalité des études de fidélisation pour l'entreprise. Figure 1 Cadre général des études de fidélisation. Schéma adapté de Devlin et Parasuraman Sources de données des études de fidélisation. La première étape de toute étude de fidélisation sera de déterminer 69

4 A D E T E M Etape 1 - à l'instant (t) Sélectionner les données pertinentes et explicatives de la fidélisation. Analyser ces données en profondeur pour mesurer l'intensité des liens entre elles et la fidélisation. Segmenter les données, si nécessaire, pour obtenir des groupes homogènes de comportements de clients. Etape 2 - à l'instant (t) Modéliser les données de fidélisation selon deux axes : un axe fidélité ; un axe valeur économique. Cette modélisation est effectuée sur un ensemble de données dit d'apprentissage (sousensemble de données réelles utilisé pour élaborer le modèle) et est évaluée sur des données de contrôle indépendantes des données d apprentissage. Etape 3 - à l'instant (t) Prédire le comportement de fidélité des clients et estimer leur valeur économique ; déterminer les actions à entreprendre par classe de clients, voire individuellement par client. Etape 4 - à l'instant (t) Implémenter les actions programmées. Suivre et évaluer les résultats. Ré-explorer les sources de données disponibles en vue de les introduire dans une nouvelle période. Retour à l'etape 1 pour la mise en œuvre de l'étude de la situation à l'instant (t + 1). Dans les prochains paragraphes, on donne les détails de chacune des étapes. L'ETAPE 1. ANALYSE DE LA SITUATION DE FIDELISATION Sélection des données pertinentes. Ce travail préliminaire consiste à déterminer les variables les plus liées à l'infidélité, à partir des données sources disponibles. On schématise ces données de la façon suivante : en ligne, les clients ; en colonne, les variables dont on veut mesurer la relation avec l'infidélité. Ces variables peuvent être quantitatives, qualitatives, voire textuelles. L'une d'elles joue un rôle privilégié. C'est la variable binaire qui caractérise le fait d'être resté fidèle à l'entreprise (1) ou pas (0). On étudie la relation entre cette variable et toutes les autres variables susceptibles d'avoir une relation avec la fidélité ou l'infidélité. La variable de fidélité étant qualitative, on étudie la relation avec les variables quantitatives, ou utilisant le rapport de corrélation, et la relation avec les variables qualitatives, en utilisant l'indice du chi-2 normalisé ou l'indice de Tschuprov. On classe ensuite les variables selon l'ordre décroissant du rapport de corrélation ou du chi-2. On obtient ainsi, dans l'ordre, les variables les plus liées à l'infidélité/fidélité. Segmentation de clients. Les variables de fidélisation peuvent jouer différemment selon le type de clients. On est donc, ainsi, conduit à détecter des classes de clients qui ont, vis-à-vis des variables de fidélisation, des comportements homogènes. Ainsi, on peut utiliser, soit des algorithmes de segmentation afin d'obtenir des arbres de décisions, soit l'analyse des correspondances multiples afin d'obtenir ou détecter des typologies. Le but final de cette opération est de pouvoir créer un code de segmentation pour chaque client et, si nécessaire, permettre ainsi une exploitation des données par segment. Analyse exploratoire et visualisation des données. L'analyse exploratoire et la visualisation des données permet de situer les populations fidèles (0) et celles qui ne le sont pas (1) dans l'espace des variables de fidélisation. Pour ce faire, on utilise les outils traditionnels (diagramme de dispersion ; multidiagramme de dispersion ; diagramme factoriel) avec édition des individus-clients caractérisés par le fait d'être fidèles ou pas. Ceci permet de vérifier si les nuages de points individus fidèles et non fidèles s'interpénètrent ou pas. Conclusion de l'etape 1. Cette étape préliminaire est très importante pour la suite des opérations, car elle permet de détecter les variables influentes sur la fidélité et de 70

5 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu mesurer l'intensité de la liaison en même temps qu'elle permet de détecter des interactions entre variables. L'ETAPE 2. ELABORATION D'UN MODELE DE DETECTION. Données d'apprentissage et données à prédire. Les données dites d'apprentissage servent à construire un modèle, tandis que, dans une phase ultérieure, les données à prédire seront les données sur lesquelles on appliquera le modèle construit dans la phase d'apprentissage. Les données d'apprentissage sont constituées d'un sous-ensemble des données sources pertinentes, sélectionnées dans l'etape 1, sur lesquelles on construit deux indicateurs de synthèse utiles au manager de marketing, qui lui permettront de gérer directement la situation de fidélisation. Ces deux indicateurs sont l'indice de valeur économique du client (life time value) et l'indice de fidélité du client (Churn index). Calcul de l'indice de fidélité du client. Présentation. Le problème consiste à trouver un indicateur de fidélité qui synthétise toutes les variables ayant une relation avec la fidélisation, que ces variables soient qualitatives ou quantitatives. On rappelle ici deux des méthodes mathématiques les plus connues, et on propose une troisième, plus élégante mathématiquement, plus facile à mettre en œuvre et moins chère (certains des produits logiciels disponibles dans le commerce sont dispendieux). On les décrit par ordre d'ancienneté. La régression logistique La variable y est une variable qui prend deux modalités y = 1 et y = 0. Prenons un exemple fictif de la fidélisation en supposant que la fidélité dépend de la chute de pluie exprimée en millimètres. L'application directe de la régression linéaire aurait conduit à l'équation suivante : Fidélité (0/1) = 0,94-0,02 x pluie. La modélisation sous la forme (0/1) fournit l'équivalent d'une probabilité. La chute d'un millimètre de pluie fait baisser la fidélité de 2%. Mais il y a un problème à l'une des extrémités : en effet, une chute de pluie importante pourrait conduire à une fidélité négative. Pour éviter ces ennuis à la borne 0, on peut utiliser le modèle suivant : Log y = a + b x. Il n'y a, fort heureusement, pas de chute de pluie négative. Mais d'autres applications pourraient conduire à une estimation d'une probabilité supérieure à 1. De fait, on utilise alors la formulation suivante : y Log = a + bx. 1-y L'intégration de cette fonction fournit la fonction logistique : 1 y = 1 + exp(- (a + bx)) Si la variable est codée en deux modalités (0/1), le modèle logistique s'écrit : 1 P (y =1) = = P1 si x = exp(- (a + b)) 1 P (y = 0) = = P0 si x = exp(- a) Ce modèle se généralise à plusieurs variables X1, X2,... Xp : P (y = 1/X1,..., Xp) = 1/[1 + exp(-a-σ bi xi)]. i = 1,p Comme dans la régression multiple, le coefficient bi de la variable xi dépend de la présence des 71

6 A D E T E M autres variables. L'intérêt de pouvoir utiliser plusieurs variables est évident. L'analyse d'une situation est très rarement réductible à une variable dépendante. De plus, il est très utile de pouvoir prendre en compte des facteurs de confusion. Ainsi, si la fidélité des clients dépend de la structure de la population (sexe, âge), il est possible d'ajuster ces deux variables pour les rendre constantes et ainsi mesurer l'impact des autres variables. L'application pratique de la régression logistique n'est pas triviale. L'estimation des paramètres n'est pas simple. De plus, toute variable qualitative à k modalités doit être transformée en (k-1) variables à deux modalités. Les variables explicatives quantitatives peuvent être utilisées telles quelles, ou transformées en variables qualitatives à deux modalités. Des tests statistiques permettent de valider la régression logistique et les coefficients. - références : Hosmer et Lemeshow (1989), Burtschy (1993). L'analyse discriminante de l'inverse de la matrice des variances covariances empiriques. Dans le cas présent, puisque p = r, on ne restituera qu'un seul axe factoriel discriminant : l'index de fidélité. Tout individu aura donc une valeur calculée sur cet axe discriminant, normalisé de 0 à 1 pour faciliter la compréhension. On évalue la performance de la discrimination en calculant le pourcentage de bien classés et de mal classés par rapport à la situation initiale fidèle/non fidèle (Figure 2). Ce critère souvent utilisé n'est cependant pas la meilleure approche. FIGURE 2 Évaluation du modèle d analyse discrimunante. Plus (a-d) est proche de 100, plus le modèle reconnait la situation de fidélisation On se place dans la même situation mathématique que précédemment, en considérant une variable de fidélité y prenant deux modalités (0 ou 1) selon qu'on est fidèle ou pas, et p variables quantitatives susceptibles d'être liées à la fidélité. L'analyse discriminante tente de résoudre le problème de l'affectation à une classe (fidèle/non fidèle) d'un individu caractérisé par de nombreuses variables. Les fonctions linéaires discriminantes seront les combinaisons linéaires de ces variables, dont les valeurs séparent au mieux des classes connues a priori. Comme le problème étudié se ramène à l'étude de 2 groupes seulement (fidèles/non fidèles), l'analyse discriminante sera simplifiée. Mathématiquement, l'analyse factorielle discriminante constitue un cas particulier de l'analyse en composantes principales. C'est l'analyse en composantes principales du nuage des r centres de gravité associés à la variable qualitative classifiante (ici r = 2), centres munis de leurs poids dans l'espace géométrique Rp avec pour métrique, la métrique Il sera plus astucieux d'étudier les individus mal classés en relation avec les variables introduites dans l'analyse discriminante, une variable «mal choisie» pouvant faire varier le pourcentage de bien classés dans un sens ou dans l autre. Au début de la présentation de l'analyse discriminante, on a fait la supposition que les variables classifiantes étaient toutes quantitatives, ce qui n'est pas le cas dans la réalité. Pour appliquer l'analyse discriminante à des variables qualitatives, il faut utiliser un codage construit par une méthode (l'analyse des correspondances multiples) permettant de transformer un ensemble de données qualitatives en données quantitatives. L analyse discriminante sera alors appliquée aux facteurs de l analyse des correspondances multiples. 72

7 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu On donne le nom de AFDQ1 à l application de l analyse discriminante linéaire sur les facteurs issus d une analyse des correspondances multiples considérés comme variables. On donne le nom de AFDQ2 à l application de l analyse discriminante quadratique sur les facteurs issus d une analyse des correspondances multiples considérés comme variables. Dans le cas de mélange de variables qualitatives et quantitatives, se présentent deux choix : soit utiliser les facteurs d une analyse factorielle canonique (AFDC), soit découper les variables quantitatives en classes pour utiliser l analyse factorielle des correspondances multiples (AFDQ1 ou AFDQ2). Références : Benzecri (1973), Lebart (1975), Jambu (1998), Saporta (1990), Romeder (1973). L'analyse directe des tableaux de liaisons. Il s agit ici d une application directe de l analyse des correspondances binaires à un ensemble de tableaux de contingences juxtaposés, qu on appelle tableaux de liaison avec la variable privilégiée de fidélité. On donne ci-après la mise en œuvre de la méthode : Construction des tableaux de liaisons Considérons la variable fidèle/non fidèle et les autres variables de fidélisation détectées dans l'etape 1. On construit tous les tableaux de fréquences croisant la variable fidèle/non fidèle et les autres variables, que l'on range comme décrit dans la Figure 3 (l'ordre des variables en colonne n'a pas d'importance). Puis, on construit le tableau des données de base mis sous forme disjonctive complète, mettant en jeu les variables de fidélisation et les individus de l'ensemble d'apprentissage. Ce tableau est ajouté à la suite du tableau des liaisons précédent (on dit qu'il est mis en supplémentaire du tableau des liaisons) (Figure 3). Références : Benzecri (1973), Cazes (1982). Analyse des correspondances du tableau des liaisons. On effectue l'analyse des correspondances du tableau des liaisons ce qui, mathématiquement, permet d'obtenir une analyse dont le résultat est réduit à un seul axe factoriel puisque la variable fidèle/non fidèle ne contient que deux modalités de réponses. On projette alors, en éléments supplémentaires, les individus-clients du tableau des données mis sous forme disjonctive complète. Ceci permet de calculer, pour chaque individu-client, une valeur d'indice de fidélité. Avec cet indice de fidélité, on peut évaluer la performance de l'analyse, comme dans le cas de l'analyse discriminante. Cependant, on peut choisir la position de la cloison pour optimiser le nombre des bien classés. Pour cela, on fait varier pas-à-pas la cloison sur l'axe de fidélité. La position de la cloison servira, ultérieurement, pour l'étude de la prédiction. L'analyse est désormais totalement achevée et l on a utilisé seulement l'analyse des correspondances binaires sur le tableau des liaisons. Le tableau des liaisons n'est qu'un sous-tableau du tableau des correspondances multiples - dit tableau de Burt - qui croise toutes les variables entre elles. Si on veut introduire, comme variable de liaison, des variables quantitatives, il suffit de découper les variables quantitatives en classes, en optimisant le découpage. Seule la connaissance de l'analyse des correspondances binaires est nécessaire. Figure 3 Tableau de liaisons associé à la fidélisation (A) Tableau de contingences juxtaposées associées à la variable fidèle non fidèle (B) Tableau disjonctif complet des variables de liaisons. 73

8 A D E T E M De manière à identifier les différents types d'applications de l'analyse des correspondances, on donne le nom AFTL «à l'application de l'analyse des correspondances binaires aux tableaux de contingences juxtaposés associés à une variable qualitative à deux modalités représentant la fidélité et l'infidélité». D autres méthodes peuvent être mises en œuvre, telles que l application des réseaux de neurones ou les réseaux bayesiens. Ces méthodes en sont encore au stade expérimental et donc encore réservées aux spécialistes. Calcul de l'indice de valeur économique du client. Présentation. Tous les clients ne sont pas égaux pour une entreprise. Leurs dépenses et leurs potentiels diffèrent. Le problème consiste à trouver un indicateur économique modélisant le potentiel économique de chaque client, en tenant compte de son historique de dépenses et de ses données socio-démographiques. Calcul de l'indice de valeur économique par client. On donne ici une formule «admise» par tous les spécialistes de la valeur des clients. Indice valeur client = α (A + Σ (Fi - Ci) : i = 1,p Où α est un coefficient de pondération identique pour tous les clients; A est le coût d'acquisition d'un client; Fi est le montant de la facture par mois; Ci est le coût de service d'un client; p est le nombre de mois où le client a été fidèle à l'entreprise. Mais, pour pouvoir estimer la valeur économique d uns client, il faut, d une part, estimer la durée de vie du client, c est-à-dire la date de son départ, et, d autre part, estimer son potentiel économique durant la période où il reste client de l entreprise. Calcul de la durée de vie des clients a) Introduction générale L estimation de la durée de vie des clients va permettre de répondre à deux problèmes, celui de la précision de l infidélité et celui de l estimation du potentiel économique du client. a. 1) Calcul et estimation de l indélité précise des clients Dans le calcul de l index de fidélité, on fait l hypothèse de la propension du client a être infidèle selon certains paramètres à déterminer. Mais le modèle ne permet pas de dire quand le client cessera d être fidèle. Le modèle s applique pour la détection de l infidélité en général, mais pas pour la date de cette infidélité. Si on veut être plus précis à ce sujet, il faut modéliser la durée de vie d un client, c est-à-dire estimer le nombre de mois, de jours, durant lesqules le client restera client de l entreprise. C est à cette première situation que sera appliquée la modélisation de la durée de vie des clients. a.2) Calcul et estimation du potentiel économique des clients. A partir du moment où on est capable de connaître la durée de vie du client, on détermine la date de son départ. Le potentiel économique du client sera calculé sur la période : Δτ=τ départ -τ actuel. Pour ce faire, il suffit d effectuer la prévision statistique sur la période Δτ en tenant compte des dépenses du client antérieures à la période Dt. On réalisera donc une estimation des facturations de chaque client jusqu à la fin de la période Dt et on fera le calcul du potentiel économique des clients selon la formule : Indice de la valeur du client (i) = α(α+σ ττ Δτ (F τ (i) C τ (i)) ; Où α est le coefficient identique pour tous les clients ; C τ (i) est le coût à l instant τ du client i ; F τ (i) est le montant facturable à l instant t du client i ; Α est le coût d acquisition du client. 74

9 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu b) Calcul de la durée de vie des clients On va considérer une variable Y, quantitative, représentant le «nombre de jours client de l entreprise». On va considérer l ensemble des variables quantitatives ou qualitatives ayant un lien potentiel avec la durée de vie (ce peut être les mêmes que celles qui ont servi pour la modélisation de la fidélité, mais ce n est pas obligatoire). On effectue un découpage en classes de la variable Y et on construit le tableau des liaisons entre la variable découpée et les variables explicatives également découpées en classes si celles-ci sont quantitatives. On a donc le même type de tableau que celui étudié pour la fidélité, à la réserve près que la variable fidélité ne possède que deux modalités et que la variable durée de vie oùen possède un nombre supérieur à 2. On effectue l analyse factorielle des correspondances sur ce tableau (méthode AFTL) et on obtient les facteurs associés à l analyse. Il y a p facteurs, p étant égal au nombre de modalités de la variable Y-1. Pour expliquer Y, on peut faire une régression usuelle sur les facteurs, ou une régression par voisinage. On obtient ainsi une formule de régression du type : Y(i) = Σ{bα Fα(i) ; α Α}; Α est l espace factoriel de représentation retenu ; Fα(i) le facteur associé à l individu i sur l axe de rang α ; bα le coefficient de régression associé à l axe de rang α. Figure 4 Courbe de Lift (AFTL) Puisqu on ne peut comparer mathématiquement les méthodes, on doit pouvoir évaluer leur efficacité de modélisation à l aide d une méthode d évaluation indépendante des techniques utilisées. Cette évaluation de l efficacité peut se faire par la méthode dite de Lift. On donne ci-après à titre d exemple les valeurs de Lift et la courbe de Lift établies pour la méthode AFTL sur des données réelles (Figures 4 et 5) pour le calcul de l indice de fidélité. La méthode de Lift doit être mise en œuvre pour chaque type de données et pour chaque technique. C est un indicateur de qualité et d efficacité du modèle. Libre après, à l utilisateur, de choisir pour la prédiction le modèle qui lui semble le «meilleur». La valeur reconnue comme pertinente est la valeur du Lift à 2% (taux de reconnaissance par la méthode (ici 66,67%) divisé par proportion de l échantillon (ici 2%). Cette valeur est de 33 sur l exemple de AFTL appliqué aux données traitées. Evaluation des techniques par la méthode de Lift 75

10 A D E T E M Figure 5 Tableau des valeurs de lift (AFTL) réunies dans l'ensemble des variables de fidélisation, déterminées et utilisées dans la construction du modèle précédent. La prédiction de l indice de fidélité des clients Au début de l'etape 3, on connaît un modèle, établi par l'une des méthodes précédemment mentionnées, et les données descriptives de chacun des clients que l on veut prédire i.e. en estimer l indice de fidélité-. Prédiction par la régression logistique. Conclusion de l'etape 2. A la fin de l'etape 2, le manager du marketing possède sur chaque client l'ensemble des données d'apprentissage et les données suivantes : - les variables de fidélisation (liaison avec la fidélité) sélectionnées dans l'etape 1; - la variable de fidélité (fidèle/non fidèle); - l'indice de fidélité estimé par le modèle (régression logistique, AFTL, AFDQ ou réseaux de neurones); - l'indice de valeur économique du client estimé par le modèle. L'ETAPE 3. - PREDICTION. Présentation générale Prédire consiste à estimer la probabilité de fidélité d'un client en ne connaissant que ses caractéristiques économiques ou socio-démographiques, On applique la formule du modèle de régression en mettant les données des individus à prédire sous la forme nécessaire pour être utilisées dans le modèle. Prédiction par AFDQ On calcule d'abord la position d'un élément à prédire par l'affectation d'un élément supplémentaire à l'analyse des correspondances multiples, puis on affecte le point calculé de coordonnées les valeurs sur chacun des facteurs, sur l'axe factoriel discriminant. Puis, l'individu est affecté à une classe de fidélité (fidèle/non fidèle). Prédiction par AFTL On calcule directement la position d'un individu par la procédure de calcul d'élément supplémentaire de l'analyse des correspondances, à partir du vecteur de description logique de chaque individu. La valeur de l'individu prédit est comprise entre 0 et 1 et lui confère un indice de fidélité qui n est pas réellement une probabilité. Ensuite, si nécessaire, on peut affecter l'individu à une classe de fidélité, soit sur la base de 2 classes (fidèle/non fidèle) soit de plusieurs classes (très fidèle, fidèle, moyennement fidèle, faiblement infidèle, très infidèle). 76

11 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu La prédiction de la durée de vie et de la valeur économique des clients Supposons qu on veuille prédire pour un client s, sa durée de vie en ne tenant compte que de ses variables explicatives. Il suffit de rajouter ce client s en éléments supplémentaires à l analyse AFTL pour avoir les valeurs Fa (s) (coordonnées de s sur l axe de rang a) et d appliquer la formule de régression précédente. Notons qu on peut simplifier le calcul de la manière suivante : On sait que F α (i) = Σ (kij)ϕj α /n e ; j Je où Je désigne l ensemble des modalités des variables explicatives; ne désigne le nombre des variables explicatives; ϕj α désigne le facteur associé de variance 1 et de moyenne 0 à la modalité j; kij= 1 ou 0 selon que l individu i possède ou non la modalité j. Donc, la formule de régression s écrit : y(i) =Σ (d j.k ij )/n e ; jeje avec dj =Σ {b α ϕ j a }. α Α Comme k ij vaut 1 si i a adopté la modalité j et 0 sinon, la formule de régression prend la forme simple suivante : y(i) =Σ {d q(i) }/n e ; α ϕe} où q(i) désigne la modalité de Jq prise par i. Ainsi, la valeur approchée de y est donc la moyenne des valeurs dj associées aux modalités j des variables explicatives adoptées par i. L'ETAPE 4. - PLANS D'ACTION ET MANAGEMENT DE LA FIDELISATION. Présentation. Les données prédites ne servent qu'à établir des plans d'action, à les mettre en place pour retenir les clients. Il faut donc pouvoir exploiter au mieux les données. On propose ci-après un mode de gestion des données utilisable par tout manager de marketing. Données disponibles pour le manager de marketing. A la fin de l'etape 3, le manager de marketing possède pour chaque client les données suivantes : - les données socio-démographiques liées à la fidélisation; - les données de facturation liées à la fidélisation; - (optionellement, les données d'enquêtes de satisfaction); - (optionellement, les données de réclamations); - les données du client : n de contrat, nom, adresse, téléphone, etc.; - l'indice de fidélité estimé; - la durée de vie estimée du client; - l'indice de valeur économique du client; - (optionellement, les données de segmentation). Les plans d'actions. Tout client est soumis dans le temps à un plan 77

12 A D E T E M d'action, voire à plusieurs plans d'action. L'objet de cet article n'est pas d'examiner le contenu des plans d'action qui appartient au savoir-faire du manager de marketing, mais de coder ces plans d'actions en termes de données exploitables avec les autres données clients, afin de permettre au manager de «superviser les information et les actions» relatives à ses clients. On va donc considérer qu'à tout instant t, on affecte à un client un plan d'action, qui peut être différent selon certaines caractéristiques du client. On aura donc à l'instant t, P 1, P 2,... P k plans d'actions s'il existe k segments caractéristiques de clientèles. Sur le plan de l'information du manager, ceci se traduit de la manière suivante : le plan d'action est une variable qualitative dont les modalités sont les codes des plans d'actions P 1, P 2,... P k. On peut complexifier l'objet plan d'actions, mais celui-ci se ramènera à l'étude de une ou plusieurs variables qualitatives. Les plans d'actions peuvent également être enregistrés comme variables textuelles dans la base des données de la fidélisation. Exploitation interactive des données par le manager du marketing. Présentation. Il existe deux modes d'exploitation des données en datamining. Le premier peut être décrit ainsi. Les données sont confiées à un bureau d'études externe à l'entreprise, ou à un service d'études interne à l entreprise. Une «étude» est commandée par le service du marketing, qui récupère le produit de l'étude, sous la forme d'un rapport d'études selon un cahier des charges qu il a lui-même fourni. Ce mode d'étude est dit passif. Le deuxième mode d'exploitation peut être décrit ainsi : les données sont «en ligne» dans le service marketing et les responsables du marketing peuvent effectuer des études «on-line» en dialoguant avec les données selon un processus enchaîné de questions-réponses. C'est l'étude, en temps réel, à la demande. Ce mode d'étude est dit interactif. Il s agit d un mode privilégié en datamining, car il permet au manager d'être en prise directe avec ses données, de façon permanente. On voit également comment le datamining interactif va permettre de réduire les délais de restitution des études, les coûts, la qualité des études grâce aux interventions on-line des managers de marketing. Désormais, voyons comment un manager de marketing dialoguerait avec ses données de fidélisation. Fonctions d'interactivité avec les données. On donne ici quelques exemples de fonctions d'interactivité avec les données. La plupart d'entre elles sont désormais disponibles dans les logiciels d'analyse des données. Elles appartiennent aux nouvelles technologies de l'information et de la communication, rendues possibles depuis le début des années On suppose donc que les données décrites dans l'etape 3 sont disponibles en ligne. Exemple de fonctions de dialogue avec les données : 1. Vue multicritères : l'utilisateur peut sélectionner n'importe quel ensemble d'individus-clients, selon des critères de segmentation prédéfinis, ou construits par classification, selon une formule logique ou mathématique en format libre. 2. Identification : l'utilisateur peut avoir accès à des informations complémentaires sur chaque individu-client, en cliquant simplement sur le pointclient d'un graphique statistique ou d'un tableau de données. Ce clic ouvre une boîte de dialogue donnant accès à des informations de type adresse, téléphone, réclamations (par exemple). 3. Loupe : même fonction que la précédente, mais permettant d'effectuer cette fonction sur un ensemble de point-individus-clients à travers une zone désignée par un rectangle, un cercle, ou un polygone. 4. Stratification en segments : la fonction de stratification permet de catégoriser les nuages de points individus-clients. Cette fonction permet de faire apparaître pour toute variable qualitative, les classes d'appartenance à chacune des modalités. Cette fonction est particulièrement importante pour la visualisation des plans d'actions. 5. Drill-down : la fonction de drill-down consiste à naviguer de questions en réponses successives, à travers les graphiques ou les tableaux. 78

13 Estimation et prédilection de la fidélité, de la durée de vie et de la valeur économique des clients par des techniques de datamining Michel Jambu L'un des exemples intéressants consiste à cliquer dans une cellule d'un tri croisé et à effectuer des analyses successives, ou à accéder directement à des informations individuelles. On donne, Figure 6, un exemple d'accès intelligent aux données individuelles, à travers un diagramme de dispersion. Exploitation simultanée des indices de fidélité et de valeur économique des clients. Pour le manager de marketing, trois données essentielles doivent être accessibles en ligne : l'indice de fidélité, l'indice de valeur et les plans d'actions. Les données secondaires lui sont accessibles à travers trois données de base. Considérons un diagramme de dispersion mettant en relation les deux indices de fidélité et de valeur économique comme montré Figure 6. Les points de ce diagramme sont les individus-clients. A travers ce graphique, on peut actionner différentes fonctions telles que l identification : accès direct aux adresses et téléphones des clients ; la visualisation des plans d'actions : chaque point est remplacé par un symbole auquel est associé un plan d'action ; la sélection des individus-clients concernés par tel ou tel plan d'action, etc. La réussite d un projet de datamining n est pas liée à des problèmes techniques ou scientifiques, mais managerial. Les technologies de l information existent. Les méthodes AFTL et AFDQ sont constituées d assemblages de modules de traitements des données disponibles dans la plupart des logiciels d analyse des données. Le problème majeur est donc celui de la disponibilité des données, de l analyse préalable des données par rapport à la fidélité, et de l exploitation des données résultantes par des services de marketing ou des supports clients. C est donc plus un problème d études ou de conseil maîtrisant les technologies de l information que de sociétés de service en informatique ou d éditeurs de logiciels. La connaissance de la fidélité n est pas technico-informatique mais marketing client, même si l aide des sociétés de service informatique peut être appréciable pour leur mise en œuvre. CONCLUSIONS Ce que les managers de marketing et des services clients doivent retenir : - il existe bien des solutions mathématiques et informatiques à la pré-détection des clients infidèles. La mise en œuvre de ces outils peut être réalisée à l aide d outils bureautiques d analyse des données ou de datamining ; Conclusion. Les étapes 1,2,3,4 s'inscrivent dans un processus périodique. Le lancement des actions auprès des clients sera suivi de résultats qui seront enregistrés à l'instant (t+1), celui ci ouvrira la voie à une nouvelle période dans laquelle le processus sera réitéré. Figure 6 Exemple de dialogue du manager de marketing, avec les données en vue de mettre en place un plan d action directement en liaison avec les valeurs des indices de fidélité et de valeur économique grâce au churn plot (fidéogramme) MISE EN ŒUVRE D'UN PROJET DE DATAMINING PROPRE A LA FIDELISATION. 79

14 A D E T E M - il faut préalablement analyser les données avant d effectuer une modélisation. Un modèle rempli au hasard de données ne donnera aucune solution. Si les résultats fournis par la méthode AFTL sont bons, c est que l analyse préalable des données a été bien faite ; - il faut, après la modélisation, étudier finement les données de fidélité et de valeur économique en regard des autres données de base pour bien cibler les actions. NOTES - Les données utilisées dans cet article sont extraites de données réelles que, pour des raisons de confidentialité d entreprise, il n est pas possible de faire connaître. - Les techniques AFTL et AFDQ ont été mises au points et expérimentées à partir de logiciels disponibles sur le plan commercial (Langage de macrocommandes STATlab). Sur ces deux points, les lecteurs intéressés devront s adresser directement à l auteur de l article. REFERENCES Burtschy B. (1993) - Traitements d'enquêtes par modèles in Traitement Statistiques des Enquêtes (D. Grangé et L. Lebart éditeurs scientifiques) - Dunod. Bastin C., Benzécri J.P., Bourgarit Ch. et Cazes P. (1982) - Pratique de L'Analyse des données Tome II. Abregé théorique - Etudes de Cas Modèle - Dunod. Benzécri J.P. (1973) - La Taxinomie Tome I ; L'Analyse des Correspondances Tome II - Dunod. Cazes P. (1982) - Analyse des Correspondances Multiples. Application à l étude des questionnaires - Bulletin de l ADDAD n 12 Cazes P. (1976) - Régression par Boule et par l analyse des correspondances - Revue de Statistique appliquée. Vol. XXIV n 4. Devlin S. (1996) - Minimizing churn through measurement. Slides report - Bell Core Research. Hosmer D.U. et Lemeshow S. (1989) - Applied logistic regression - Wiley. Jambu M. (1998) - Introduction au datamining. Analyse intelligente des données - Eyrolles Jambu M. (1998) - Méthodes de base de l'analyse des données - Eyrolles. Lebart L., Morineau A. et Fenelon J.P. (1975) - Traitement des données statistiques - Dunod. Leclerc A. (1975) - Analyse des correspondances sur juxtaposition de tableau de contingences - R.S.A. Vol 23,N 3, p5-16 Parasumaran, Zeithaml et Berry (1985) - A conceptuel model of service quality and its implications for future research - Journal of Marketing 22,41-50 Romeder J.M. (1973) - Méthodes et programmes d'analyse discriminante - Dunod. Saporta G. (1975) - Liaison entre plusieurs ensembles de variables et codage de données qualitatives - Thèse de 3ème cycle. Université Paris VI. Saporta G. (1990) - Probabilités, Analyse des données et Statistique - Technip. Volle M. (1985) - Analyse des données - Economica. 80

Montrer encore