Uplift Guide de l'utilisateur. Version 7.0A

Transcription

1 Uplift Guide de l'utilisateur Version 7.0A

2 2013 Pitney Bowes Software Inc. Tous droits réservés. Ce document peut contenir des informations confidentielles et exclusives appartenant à Pitney Bowes Inc et/ou ses filiales et sociétés associées. Portrait Software, le logo Portrait Software, Portrait, et la marque Portrait de Portrait Software sont des marques déposées de Portrait Software International Limited et ne peuvent être utilisées ou exploitées de quelque manière que ce soit sans l'accord exprès, préalable et écrit de Portrait Software International Limited. Marques déposées Tous les autres noms de produits, noms de société, marques, logos et symboles mentionnés ci-après peuvent être des marques ou des marques déposées de leurs propriétaires respectifs. Assistance Portrait Software Si vous avez besoin d'aide concernant un sujet qui n'est pas couvert par cette documentation, essayez notre Base de Connaissance sur notre site Internet et suivez le lien vers votre produit. Vous pouvez également télécharger d'autres documents d'informations Portrait Software à partir de notre site. Si vous ne possédez pas de nom d'utilisateur ou de mot de passe, ou si vous les avez oubliés, nous vous prions de nous contacter par l'un des moyens énoncés ci-dessous. Si vous rencontrez un problème lors de l'utilisation, de l'installation ou avec la documentation de ce produit, veuillez nous contacter en utilisant l'une des méthodes suivantes : Courriel : [email protected] Téléphone USA/Canada (numéro gratuit) Reste du monde Lorsque vous nous signalez un problème, il nous est utile de connaître : Le nom du logiciel Les circonstances dans lesquelles le problème est survenu Les messages d'erreur que vous avez vus (s'il y en a eu) La version du logiciel que vous étiez en train d'utiliser Pitney Bowes Software Inc. July 01, 2013

3 Table des matières Chapitre 1 : Introduction...9 But...10 Public visé...10 Présentation...10 Méthodologie d'uplift...11 Fonctions clés...11 Chapitre 2 : Exécution de Portrait Uplift...13 Préparation des données pour Portrait Uplift...14 Exécution de Portrait Uplift à partir de Portrait Miner...14 Exécution de Portrait Uplift à partir de la ligne de commande...18 Résumé...18 Usage typique...20 Interruption de Portrait Uplift...22 Application de modèles uplift bootstrap à de nouvelles données...23 Structure de répertoire suggérée...23 Exécution du programme de désinstallation...24 Exécution de Portrait Uplift à partir de SAS...24 Sélection de variables à partir de SAS...24 Construction de modèles uplift à partir de SAS...26 Scoring de modèles uplift dans SAS...28 Chapitre 3 : Aperçu de la méthodologie...31 Introduction...32 Structure des modèles...32 Conception d'une campagne pour l'analyse uplift...33 Préparation des données...34 Biais de traitement et validité des modèles...34

4 Traitements multiples...37 Chapitre 4 : Sélection des variables et méthodologie de regroupement...39 Introduction...40 Impact sur la stabilité des modèles...40 Sélection de variables automatisée...41 Découpage automatisé...42 Optimisation des découpages...42 Réutilisation des low Qini...43 Résultats et rapports de la sélection de variables...43 Profils uplift...44 Validité de l'échantillon de contrôle (le rapport «mauve»)...44 Stabilité des modèles uplift (le rapport «Baguette»)...45 Chapitre 5 : Méthodologie de construction des modèles...47 Introduction...48 Échantillonnage et stratification...48 Agrégation (bagging)...49 Élagage...50 Exploration automatisée des paramètres...50 Recommandation automatisée des paramètres...51 Reconstruction définitive...52 Contamination du modèle...52 Chapitre 6 : Méthodologie d'évaluation des modèles...55 Introduction...56 Interprétation des valeurs Qini (Q et q0)...56 Interprétation des courbes de Qini...57 Une courbe des gains pour l'uplift...57 Axe vertical pour les résultats binaires (pc pt)...57 Axe vertical pour les résultats continus (photp)...57 Courbe de Qini comme outil diagnostic...58 Résultats et rapports...59 Profils de scoring...60 Validité de l'échantillon de contrôle (le rapport «mauve»)...60 Pondérations de la segmentation Portrait Uplift 7.0A

5 Chapitre 7 : Directives de paramétrage...63 Introduction...64 Seuil d'élagage...64 Nombre maximum de tentatives par arbre...65 Niveaux de division des arbres...65 Tailles de population minimales...65 Nombre minimum de nœuds par arbre...66 Variables candidates et découpages...66 Nombre d'échantillons bootstrap (bags)...66 Nombre de tirages...67 Champ de stratification...67 Chapitre 8 : Référence des paramètres...69 Introduction...70 Paramètres de description des focus...71 focusname (requis)...71 Champs Type de modèle et Résultats : Présentation...71 modeltype (requis)...72 objectivefield (requis)...72 outcomesizeactual (facultatif)...72 outcomesizeestimate (requis pour les modèles à deux étapes)...72 partitionfield (requis)...73 fixedtrainvalidatefield (facultatif)...73 stratificationfield (facultatif, mais recommandé)...73 championmodelfield (facultatif)...74 userweightingfield (facultatif)...74 yqiniaxis (facultatif ; valeur par défaut : Uplift hiérarchique (pc pt))...75 Paramètres de spécifications de l'arbre...75 minpopsize (facultatif ; valeur par défaut : 2000)...75 autominpopsize (facultatif ; valeur par défaut : 1)...75 searchminpopsize (facultatif ; valeur par défaut : 0)...76 nlevels (facultatif ; valeur par défaut : 4)...76 Paramètres généraux...76 Paramètres de sélection des variables...76 setacsfocusname (facultatif)...76 allowoverwrite (facultatif ; valeur par défaut : 0)...77 nbestacs (facultatif ; valeur par défaut : 5)...77 Uplift Guide de l'utilisateur 5

6 savebestacs (facultatif ; valeur par défaut : 1)...77 setacsnevals (facultatif ; valeur par défaut : 5)...77 setacssigmaweight (facultatif ; valeur par défaut : auto)...77 setacsrebin (facultatif ; valeur par défaut : 0)...78 setacsrebincriterion (facultatif ; valeur par défaut : T)...78 setacsrebinmean (facultatif ; valeur par défaut : Trim)...78 setacsuserebinlqe (facultatif ; valeur par défaut : 1)...78 Paramètres généraux des ensembles...79 nbagsvalues (requis)...79 prunethresholdvalues (requis)...79 nruns (facultatif ; valeur par défaut : 1)...80 Paramètres de contrôle d'élagage...80 prune (facultatif ; valeur par défaut : 1)...80 autoprune (facultatif ; valeur par défaut : 0)...80 prunemethod (facultatif ; valeur par défaut : sd)...80 minleafnodes (facultatif ; valeur par défaut : 4)...81 maxtreeattempts (facultatif ; valeur par défaut : 2)...81 propanalysiscandidates (facultatif ; valeur par défaut : 1.0)...81 Paramètres de génération de nombres aléatoires / répétition de tirages...81 prngsetstate (facultatif ; valeur par défaut : néant)...82 prngcurrentstate (facultatif)...82 prnginitialstate (facultatif)...82 tvtrainprop (facultatif ; valeur par défaut : 50%)...82 Paramètres de rapports et de sorties...83 resultsdirstem (facultatif ; valeur par défaut : results)...83 addtimestamp (facultatif ; valeur par défaut : 1)...83 savefocusstem (facultatif ; valeur par défaut : (néant))...83 savemodelstem (facultatif ; valeur par défaut : model)...83 savetreestem (facultatif ; valeur par défaut : (néant))...84 xmlresultsstem (facultatif ; valeur par défaut : out)...84 tvnewfieldname (facultatif ; valeur par défaut : TrainValidate)...84 overallupliftfield (facultatif ; valeur par défaut : UpliftScore)...84 Paramètres RoI...84 roicurrencysymbol (facultatif ; valeur par défaut : $)...84 roicostoftreatment (facultatif ; valeur par défaut : 0.00)...85 roivalueofbenefit (facultatif ; valeur par défaut : 1.00)...85 roicostoffulfillment (facultatif ; valeur par défaut : 0.00)...85 Paramètres d'informations Portrait Uplift 7.0A

7 currentnbags (défini pendant la construction de modèle)...85 currentprunethreshold (défini pendant la construction de modèle)...85 applyfocusname...85 Exemple de fichier de paramètre intégral...85 Uplift Guide de l'utilisateur 7

8

9 Chapitre 1 Introduction Dans cette section : But Public visé Présentation Méthodologie d'uplift Fonctions clés

10 But But Ce document décrit comment créer et gérer des modèles prédictifs Portrait Uplift. Public visé Le Guide de l'utilisateur Uplift est destiné aux statisticiens et analystes en marketing possédant des connaissances élémentaires : De modélisation prédictive De Portrait Miner (banc d essai analytique) Des outils analytiques de marketing Présentation Portrait Uplift est une solution de modélisation automatisée qui va bien au-delà de la modélisation prédictive classique des comportements clients en termes de réponses, risques et rétention en modélisant la manière dont cette probabilité varie en fonction d'une action marketing. Portrait Uplift utilise une approche marketing qui consiste à écarter des groupes de clients sélectionnés au hasard qui ne sont pas ciblés par des campagnes. En comparant des clients non ciblés avec des clients ciblés, Portrait Uplift parvient à prédire la façon dont la probabilité de comportement de chaque client augmentera (ou diminuera) après l'opération. Dans chaque cas, Portrait Uplift génère quatre segments de réponse différents : Par exemple, dans une campagne de vente additionnelle, ces segments peuvent être décrits ainsi : Segment de marché Les influençables : Les causes acquises : Les causes perdues : Les réfractaires : Description Clients qui achètent des offres de vente additionnelle et qui ne l'auraient pas fait s'ils n'avaient pas été ciblés. Clients qui achètent, qu'ils aient été ciblés ou non. Clients qui n'achèteront pas, qu'ils soient ciblés ou non Clients chez qui la campagne déclenche une réponse négative. En général, les outils de modélisation prédictive ciblent selon une vision simple d'une base de clients, c'est-à-dire les clients qui achèteront, et ceux qui n'achèteront pas. Portrait Uplift va plus loin en classant les clients dans des segments (définis plus haut) qui vous permettent de : Affiner le public visé, et donc de réduire vos coûts de campagnes globaux 10 Portrait Uplift 7.0A

11 Chapitre 1 : Introduction Identifier le segment de marché le plus important, «les influençables» Identifier les clients qui répondront de manière négative et risquent d'être perdus sur le long terme Méthodologie d'uplift Portrait Uplift est construit autour de l'algorithme de l'arbre Uplift de Portrait Miner. Uplift vous permet ainsi de construire des modèles Uplift solides mettant en œuvre les meilleures pratiques de l'industrie. Sa méthodologie est l'aboutissement d'années d'expérience pratique auprès d'institutions de télécommunications et financières leaders sur leur marché et inclut de puissantes techniques de réduction du bruit. Fort de ces techniques, il peut en outre identifier et isoler du comportement initial sous-jacent les effets uplift réels quoique faiblement perceptibles. Fonctions clés Ce qu'offre Portrait Uplift : Une interface utilisateur visuelle guidée pour créer et utiliser des modèles Uplift (reportez-vous à la section Exécution de Portrait Uplift à partir de Portrait Miner à la page 14), ainsi qu'une interface en ligne de commande automatisée pouvant contenir des scripts (reportez-vous à la section Exécution de Portrait Uplift à partir de la ligne de commande à la page 18) Une interface en ligne de commande automatisée pouvant contenir des scripts pour construire des modèles Uplift sans interaction d'utilisateur (reportez-vous à la section Exécution de Portrait Uplift à partir de la ligne de commande à la page 18) Une extension de l'environnement de programmation SAS qui permet aux utilisateurs SAS de construire et d'utiliser des modèles Uplift directement à partir des programmes SAS sans avoir à apprendre d'autres applications (reportez-vous à la section Exécution de Portrait Uplift à partir de SAS à la page 24) Des modèles sous forme de code SAS ou SQL permettant aux modèles Uplift d'être évalués directement dans ces environnements. Une application conçue avec le souci de la transparence des résultats. Ce qui comprend une visibilité claire au niveau des facteurs déterminants, de la validation des modèles et de la méthodologie des modèles Uplift (reportez-vous aux sections Aperçu de la méthodologie à la page 31, Sélection des variables et méthodologie de regroupement à la page 39, Méthodologie de construction des modèles à la page 47) Une élaboration de rapports optimisée par Microsoft Office permettant d'accélérer le processus décisionnel et l'analyse ad hoc des utilisateurs commerciaux. Ces rapports comprennent l'identification automatique des principaux «points de décision» de la campagne, tels que le profit maximal, les coûts de traitement minimaux et la réponse progressive maximale (reportez-vous à la section Méthodologie d'évaluation des modèles à la page 55). Uplift Guide de l'utilisateur 11

12

13 Chapitre 2 Exécution de Portrait Uplift Dans cette section : Préparation des données pour Portrait Uplift Exécution de Portrait Uplift à partir de Portrait Miner...14 Exécution de Portrait Uplift à partir de la ligne de commande Exécution du programme de désinstallation Exécution de Portrait Uplift à partir de SAS

14 Préparation des données pour Portrait Uplift Préparation des données pour Portrait Uplift La suite des étapes à suivre pour utiliser Portrait Uplift est décrite ci-dessous, de manière interactive par Portrait Miner (reportez-vous à la section Exécution de Portrait Uplift à partir de Portrait Miner à la page 14), et par la ligne de commande (reportez-vous à la section Exécution de Portrait Uplift à partir de la ligne de commande à la page 18). Les deux approches incluent des étapes similaires Portrait Miner guide l'utilisateur à travers le processus en fournissant une suite d'assistants afin de franchir chaque étape, alors que la ligne de commande fournit un contrôle plus granulaire sur la méthodologie et l'opportunité d'un traitement par lots automatisé. Dans les deux cas, on part du principe que notre focus de base s'appelle example.ftr. La première tâche consiste à préparer le focus à l'analyse (en utilisant Decision Studio de manière interactive ou en important des métadonnées), en prenant bien soin de : Définir un champ objectif et de partition approprié, et marquer les variables candidates ; Marquer les champs qualitatifs, le cas échéant ; Créer éventuellement un champ de stratification ou une division d'apprentissage et de validation fixe, un champ de pondération et/ou un scoring champion (reportez-vous à la section Aperçu de la méthodologie à la page 31 pour en savoir plus). Ajouter éventuellement des découpages appropriés aux variables candidates, si vous n'envisagez pas d'optimiser les découpages (reportez-vous à la section Sélection des variables et méthodologie de regroupement à la page 39); Exécution de Portrait Uplift à partir de Portrait Miner Pour utiliser Portrait Uplift à partir de Portrait Miner, cliquez à droite sur l'ensemble des données de modélisation (ou fichier de paramètre) pour lancer l'un des différents assistants, comme indiqué ci-dessous. Remarque : Le fichier params.xml figurant dans le répertoire d'installation de Portrait Uplift fournit des valeurs par défaut sur l'ensemble du site qui permettent la sélection de variables et le paramétrage de la modélisation (reportez-vous à la section Référence des paramètres à la page 69). Suite au premier démarrage de l'un de ces assistants, ces valeurs par défaut sont implémentées. Suite à votre utilisation de l'un de ces assistants, les paramètres que vous avez sélectionnés sont sauvegardés, puis rechargés dans l'assistant lors de votre prochaine utilisation, vous permettant ainsi de sélectionner des paramètres par défaut spécifiques et de les appliquer à un ensemble de données. Vous pouvez également modifier le fichier de paramètre directement afin de définir les paramètres avancés qui ne sont pas pris en charge par l'assistant. Tous les changements apportés seront associés aux paramètres que vous modifierez ultérieurement dans l'assistant. Préparez votre focus (example.ftr), comme indiqué ci-dessus. 14 Portrait Uplift 7.0A

15 Chapitre 2 : Exécution de Portrait Uplift Pour évaluer l'ensemble des données applicables à la modélisation uplift, vous pouvez aussi cliquer à droite sur le focus (example.ftr) et sélectionner Portrait Uplift > Évaluation des données. Vous pouvez également définir les valeurs appropriées applicables aux paramètres ROI dans la boîte de dialogue Portrait Uplift - Évaluation des données. Après avoir cliqué sur Lancer, un rapport relatif aux données et à leur pertinence pour une modélisation uplift s'affichera sous l'onglet Données de sortie. Pour sélectionner les meilleures variables candidates, vous pouvez aussi cliquer à droite sur le focus de votre choix (example.ftr), puis sélectionner Portrait Uplift > Sélection des variables (Figure 1). La méthodologie de sélection des variables est expliquée en détails dans la section Sélection des variables et méthodologie de regroupement à la page 39. Dans la boîte de dialogue Portrait Uplift - Sélection des variables (Figure 2), sélectionnez le nombre de variables candidates définitives, définissez si vous désirez ou non optimiser les regroupements (et, dans ce cas, le nombre maximum de classes à prendre en compte) ou utiliser un champ de pondération pour les biais de traitement (reportez-vous à la section userweightingfield (facultatif) à la page 74), et choisissez un emplacement pour le focus de sortie (il doit être différent de celui du focus d'entrée). Le fichier de paramètre est automatiquement sauvegardé sous un nom de fichier se basant sur le nom des focus d'entrée et de sortie. Cliquez sur Lancer. Le résultat obtenu sera généré dans un dossier sous un nom semblable à resultsyyyymmdd-hhmmss, où YYYYMMDD est une date à huit chiffres et HHMMSS est un timestamp, par exemple results Si vous avez décidé d'optimiser les regroupements, un ensemble de graphiques de regroupements optimisés figurera dans uplift-optimizer-setacs-report_yyyymmdd-hhmmss.xsl. Pour permettre à Portrait Uplift d'identifier les «meilleurs» paramètres de modélisation, cliquez avec le bouton droit sur le focus que vous voulez utiliser (il s'agira généralement du focus de sortie issu de la phase de sélection des variables, example_bestacs.ftr), puis sélectionnez Portrait Uplift > Construction et analyse des modèles. La méthodologie utilisée pour la construction des modèles est expliquée en détails dans la section Méthodologie de construction des modèles à la page 47. Dans la boîte de dialogue Portrait Uplift - Construction et analyse des modèles, sélectionnez les paramètres applicables au processus de construction (conformément aux directives figurant dans la section Directives de paramétrage à la page 63) : Le nombre d'arbres à utiliser par modèle (nbagsvalues, section nbagsvalues (requis) à la page 79) ; Le nombre de modèles uplift à construire par ensemble de paramètres (nruns, section nruns (facultatif ; valeur par défaut : 1) à la page 80) ; Facultativement, l'analyse de plusieurs tailles minimales de segments (searchminpopsize, section searchminpopsize (facultatif ; valeur par défaut : 0) à la page 76) ; Facultativement, la configuration automatique de la taille de population minimale (autominpopsize, section autominpopsize (facultatif ; valeur par défaut : 1) à la page 75) ; Spécifiez la taille de population minimale du segment d'un arbre de décision (minpopsize, section minpopsize (facultatif ; valeur par défaut : 2000) à la page 75) ; Le nombre minimum de segments terminaux après élagage (minleafnodes, section minleafnodes (facultatif ; valeur par défaut : 4) à la page 81) ; Uplift Guide de l'utilisateur 15

16 Exécution de Portrait Uplift à partir de Portrait Miner Le nombre maximum de niveaux nécessaires à la construction d'arbres de décision (nlevels, section nlevels (facultatif ; valeur par défaut : 4) à la page 76) ; Définissez le nom du fichier de paramètre de sortie (nlevels, section nlevels (facultatif ; valeur par défaut : 4) à la page 76). Cliquez sur Suivant pour visualiser l'onglet Finances et définissez éventuellement les paramètres financiers. Cliquez sur Suivant pour visualiser l'onglet Avancés, puis définissez (le cas échéant) : Le type de modèle à construire (modeltype, section modeltype (requis) à la page 72) ; Si vous préférez que le logiciel détermine automatiquement le seuil d'élagage ; Une liste des seuils d'élagage à utiliser (prunethresholdvalues, section prunethresholdvalues (requis) à la page 79) ; Un nombre aléatoire spécifique à utiliser, au lieu d'en laisser le soin à Portrait Uplift (prngcurrentstate, section prngcurrentstate (facultatif) à la page 82) ; Le champ à utiliser pour l'apprentissage/validation, le cas échéant (fixedtrainvalidatefield, section fixedtrainvalidatefield (facultatif) à la page 73) ; La proportion de données à utiliser pour le groupe d'apprentissage si le champ d'apprentissage/validation est généré automatiquement (tvtrainprop, section tvtrainprop (facultatif ; valeur par défaut : 50%) à la page 82) ; Le champ à utiliser pour la pondération si les enregistrements représentent différents nombres de clients réels (userweightingfield, section userweightingfield (facultatif) à la page 74) ; La proportion de variables candidates choisies au hasard à utiliser (propanalysiscandidates, section propanalysiscandidates (facultatif ; valeur par défaut : 1.0) à la page 81) ; Le nombre maximum de tentatives pour construire chaque arbre (maxtreeattempts, section maxtreeattempts (facultatif ; valeur par défaut : 2) à la page 81) ; Cliquez sur Suivant pour visualiser l'onglet Paramètres de résultat et définissez (le cas échéant) : Le nom du champ uplift de prédilection à créer (overallupliftfield, section overallupliftfield (facultatif ; valeur par défaut : UpliftScore) à la page 84) ; Si vous souhaitez sauvegarder les focus intermédiaires après chaque construction de modèles (savefocusstem, section savefocusstem (facultatif ; valeur par défaut : (néant)) à la page 83) ; Le champ à utiliser pour un modèle champion, le cas échéant (championmodelfield, section championmodelfield (facultatif) à la page 74) ; Si vous souhaitez créer un modèle SAS. Cliquez sur Lancer. Le résultat obtenu sera généré dans un dossier sous un nom semblable à resultsyyyymmdd-hhmmss, où YYYYMMDD est une date à huit chiffres et HHMMSS est un timestamp, par exemple results (Figure 9 de la section Méthodologie de construction des modèles à la page 47). Pendant l'exécution, des informations apparaîtront au fur et à mesure sous l'onglet Données de sortie. Toute erreur ou tout avertissement éventuel s'affichera généralement sous un onglet séparé. Lorsque l'exécution est terminée, cliquez sur Suivant pour générer les résultats : une feuille de calcul Excel est créée dans le dossier indiqué ci-dessus, puis elle s'ouvre automatiquement. 16 Portrait Uplift 7.0A

17 Chapitre 2 : Exécution de Portrait Uplift Vous pouvez aussi accéder postérieurement à la feuille de calcul Excel en naviguant jusqu'au dossier, en cliquant à droite sur le fichier et en sélectionnant Envoyer vers Excel. Le fichier correspondant à la feuille de calcul portera un nom semblable à uplift-optimizer-report_yyyymmdd-hhmmss.xls. Des rapports BestACs_recommended_parameters.xml Legacy HTML sont aussi créés. Les rapports sont expliqués en détails dans la section Méthodologie d'évaluation des modèles à la page 55. Si une définition de paramètre a été recommandée, un nouveau fichier de paramètre portant un nom semblable à <nomdufocus>_recommended_parameters.xml (example_bestacs_recommended_params Deploy Recommended Model.xml) sera généré avec le fichier focus et la recommandation sera surlignée dans la feuille de calcul. Le nouveau fichier de paramètre contient des paramètres nécessaires pour la prochaine phase, laquelle consiste à la construction du modèle définitif. L'analyse et le choix des paramètres applicables à la construction définitive peuvent aussi se réaliser manuellement. Sélectionnez les meilleurs paramètres de modélisation en suivant de près la performance de la validation (en observant l'écart entre les lignes d'apprentissage et de validation du graphique), mais aussi la valeur q 0 (Qini) globale, la forme de la courbe, l'uplift maximal (ou minimal) atteint, la proportion de la population à cibler, etc. Après avoir identifié un ensemble de paramètres de modélisation satisfaisant, créez une dernière construction de modèle bootstrap sur l'ensemble global des données (sans division apprentissage/validation). Reportez-vous à la section Reconstruction définitive à la page 52 pour en savoir plus. Pour permettre à Portrait Uplift de construire à nouveau le modèle recommandé, cliquez à droite sur le focus (example_bestacs.ftr) ou directement sur le fichier de paramètre recommandé, puis sélectionnez Portrait Uplift > Construction du modèle recommandé. Cela permettra de construire un modèle unique en utilisant les paramètres ayant été recommandés lors de la phase précédente, mais avec davantage d'échantillons bootstrap et sans aucunes données de validation. Dans la boîte de dialogue Portrait Uplift - Construction du modèle recommandé, sélectionnez les paramètres applicables au processus de construction, puis cliquez sur Lancer. Pendant l'exécution, des informations apparaîtront au fur et à mesure sous l'onglet Données de sortie. Une fois l'exécution terminée, de nouvelles données de sortie sont générées et le modèle est créé dans un fichier accompagné du focus. Il portera un nom semblable à <focusname>_recommended_model.xml (example_bestacs_recommended_model.xml). Bien que le fichier de ce modèle soit semblable à celui généré dans le dossier des résultats, il a été traité de façon à ce qu'un seul champ soit généré lors du déploiement du modèle. Pour déployer le modèle définitif dans un nouvel ensemble de données, cliquez avec le bouton droit sur le fichier du modèle créé lors de la phase précédente (example_bestacs_recommended_model.xml) ou sur le fichier focus vers lequel vous souhaitez le déployer, puis sélectionnez Portrait Uplift > Déploiement du modèle. Dans la boîte de dialogue Portrait Uplift - Déploiement du modèle, sélectionnez les paramètres et cliquez sur Lancer. (Cette action est essentiellement la même que l'action «Champs calculés» de Portrait Miner.) Pour interrompre, dans Portrait Miner, une exécution en cours, cliquez à droite sur le dossier des résultats ou sur un fichier XML figurant dans le dossier des résultats, puis sélectionnez Portrait Uplift > Arrêter. À mesure qu'ils s'accumulent, certains dossiers peuvent être éliminés. Pour éliminer un seul dossier de Portrait Miner, cliquez à droite sur n'importe quel fichier.ftr ou.xml figurant dans celui-ci, puis sélectionnez Portrait Uplift > Supprimer les résultats. Pour éliminer un ou plusieurs dossiers de Uplift Guide de l'utilisateur 17

18 Exécution de Portrait Uplift à partir de la ligne de commande résultats de Portrait Miner, faites un clique droit sur n'importe quel fichier.ftr ou.xml figurant dans n'importe quel dossier contenant les résultats, puis sélectionnez Portrait Uplift > Supprimer les résultats. Dans la boîte de dialogue Portrait Uplift - Supprimer les résultats, sélectionnez les dossiers de résultats que vous souhaitez éliminer. Portrait Uplift crée automatiquement des descriptions de modèle aussi bien en format Portrait Miner qu'en code SAS (optionnel). Pour convertir manuellement un modèle au format SAS, cliquez à droite sur le fichier de modèle XML (dans le sous-dossier du répertoire des résultats nommé models), puis sélectionnez Convertir > en SAS. Cela permet de convertir le modèle en un fragment SAS DATA step. En général, le code est collé entre une déclaration DATA se rapportant à un ensemble de données d'entrée avec des variables sources appropriées (le code généré énumère les variables d'entrée nécessaires dans un commentaire d'ouverture) et une déclaration RUN postérieure. Par exemple : data scores; set inputs; <...paste converted model here...> run; Pour en savoir plus sur SAS DATA step, reportez-vous à la documentation SAS. Pour convertir manuellement un modèle au format SQL, cliquez à droite sur le fichier de modèle XML (dans le sous-dossier du répertoire des résultats nommé models), puis sélectionnez Convertir > en SQL. Exécution de Portrait Uplift à partir de la ligne de commande Résumé La plupart des fonctionnalités de Portrait Uplift est évoqué en utilisant la commande qsupliftplus. Cette commande comprend trois variantes de base : qsupliftplus -s [ params.xml ] : elle sert à sélectionner des variables prédictives (variables candidates) devant être utilisées avec Portrait Uplift. Pour ce faire, elle attribue des low Qini à chaque variable candidate dans le focus d'entrée et crée facultativement un champ de stratification. qsupliftplus [ params.xml ] : elle effectue plusieurs constructions de modèle qui produisent chacune un arbre uplift par bagging k-way et rapportent les résultats dans une division apprentissage/validation. qsupliftplus -a [ params.xml ] : elle applique les modèles construits avec Portrait Uplift à un nouveau focus et écrit des informations provenant de la construction de modèle originale et des informations Qini relatives aux modèles appliqués afin de produire des graphiques de Qini (reportez-vous à la section Application de modèles uplift bootstrap à de nouvelles données à la page 23). La commande qsupliftplus prend également en charge les arguments suivants : 18 Portrait Uplift 7.0A

19 Chapitre 2 : Exécution de Portrait Uplift Option -h -v -d -D -o <fichier de paramètre> -P < champ de partition> -O < champ de l'objectif> Effet Affiche un message d'aide Affiche la version Active la sortie de débogage Vide la trace de la pile intégrale sur erreur Vide un fichier de paramètre XML. Si un nom de focus facultatif est aussi fourni, les paramètres appropriés seront calculés Spécifie le champ de partition lors de la création d'un fichier de paramètre avec l'option -o Spécifie le champ objectif lors de la création d'un fichier de paramètre avec l'option -o Les options d'exécution détaillées de toutes les variantes qsupliftplus sont contrôlées par un fichier de paramètre XML. Celui-ci recherche par défaut un fichier appelé params.xml dans le répertoire en cours. Cependant, un autre fichier de paramètre peut être utilisé en spécifiant son nom dans la ligne de commande, par exemple qsupliftplus -s /some/path/myconfig.xml. Un fichier de paramètre modèle peut être généré en exécutant l'une des variantes de base indiquées ci-dessus, sans spécifier d'arguments supplémentaires, ou en spécifiant seulement le nom du chemin d'accès à un focus d'entrée (dans ce cas, certains paramètres seront calculés à partir de ce focus). Une référence exhaustive des paramètres est fournie dans la section Référence des paramètres à la page 69. Cependant, les paramètres les plus fréquemment utilisés sont résumés ci-dessous : Tableau 1: Description du Focus setacsfocusname : focus pour la sélection de variables Sélection de variables nbestacs : prise en charge de la sélection de variables focusname : écrit après la sélection de variables et lu par la construction de modèle setacsrebin : 1, 0 ou binfile.xml modeltype : auto, binary, real setacsrebincriterion : L, M, E ou T objectivefield : résultat partitionfield : traité=1, contrôle=0 stratificationfield : résumé des champs principaux championmodelfield : tracé sur les graphiques Uplift Guide de l'utilisateur 19

20 Usage typique Description du Focus Sélection de variables allowoverwrite : permet d'écraser après la sélection de variables Description de l'arbre searchminpopsize : 0 ou 1 autominpopsize: 0 ou 1 minpopsize : c. 500 à nlevels : de divisions Général nbagsvalues: c. 10 à 20 prunethresholdvalues: par ex. [3 %, 2 %, 1 %, 0,5 %] nruns : selon la valeur du paramètre ci-dessus minleafnodes : c. 3 à 8 (après élagage) maxtreeattempts : pour satisfaire minleafnodes tvtrainprop : c. 50 à 70 % ; puis 100 % fixedtrainvalidatefield : valeurs de chaîne «T» et «V» propanalysiscandidates : utilisé pour chaque arbre userweightingfield : poids pour chaque enregistrement Les résultats issus de l'exécution de Portrait Uplift sont écrits sur un fichier XML à partir duquel peuvent être produits graphiques et rapports. Utilisez la commande qsupliftresults pour traiter les résultats dans le répertoire en cours ou spécifiez un nom de répertoire alternatif pour y traiter les résultats. Usage typique La suite d'opérations basique lors d'un usage typique de Portrait Uplift est décrite ci-dessous. Ici, on suppose que le focus de base est appelé example.ftr et que celui-ci a été préparé comme indiqué ci-dessus. 1. Si vous n'avez pas encore un fichier de paramètre modèle approprié, créez-en un. Si vous envisagez d'optimiser les découpages et/ou de sélectionner des variables candidates, exécutez qsupliftplus -s focus.ftr Si vous envisagez d'exécuter Portrait Uplift sans la sélection de variables, utilisez plutôt qsupliftplus focus.ftr (La principale différence entre ces deux méthodes est que la première (-s) utilise la sélection de variables sur le focus donné, puis crée l'entrée de la construction du modèle ; alors que la deuxième crée la construction de modèle en utilisant directement le focus donné.) Cela permettra de remplir tous les paramètres applicables et même de configurer un minpopsize raisonnable si les champs objectif et de partition sont définis dans le focus spécifié. 20 Portrait Uplift 7.0A

21 Chapitre 2 : Exécution de Portrait Uplift Si vous préférez que le fichier de sortie ne soit pas nommé params.xml, vous pouvez spécifier cela en utilisant le flag -o, autrement dit qsupliftplus -s -o foo.xml focus.ftr produira un fichier de paramètre modèle appelé foo.xml. Vous pouvez omettre le nom du focus, dans ce cas un fichier de paramètre modèle générique sera créé. 2. Éditez le fichier de paramètre params.xml et sauvegardez-le, habituellement sous un nouveau nom. Dans ce cas, exampleparams.xml peut s'avérer approprié. Les informations contenues dans le fichier sont expliquées dans la section Référence des paramètres à la page 69. Il peut parfois s'avérer utile de stocker les paramètres dans un sous-répertoire appelé params pour réduire l'encombrement. 3. Vous pouvez aussi sélectionner les meilleures variables candidates et optimiser les découpages (reportez-vous à la section Sélection des variables et méthodologie de regroupement à la page 39) avec une commande, telle que qsupliftplus -s params/exampleparams.xml (Cela présuppose que le fichier de paramètre soit stocké dans un sous-répertoire params.) Une fois la sélection de variable terminée, construisez le rapport des résultats en accédant au sous-répertoire créé et en utilisant la commande qsupliftresults, par exemple cd results qsupliftresults 4. Vous pouvez aussi créer un champ de stratification utilisable par Portrait Uplift manuellement (par ex. strat), comme indiqué dans la section Échantillonnage et stratification. à la page 48, puis éditer convenablement le fichier de paramètre exampleparams.xml. (En général, cette étape est effectuée automatiquement pendant la sélection de variables). 5. Exécutez la construction de modèles sous Portrait Uplift (reportez-vous à la section Méthodologie de construction des modèles à la page 47) en inscrivant : qsupliftplus params/exampleparams.xml Cela créera généralement des données de sortie dans un répertoire dont le nom est semblable à resultsyyyymmdd-hhmmss, où YYYYMMDD est une date à huit chiffres et HHMMSS est un timestamp, par exemple results Créez à présent les graphiques de Qini et modélisez un rapport (reportez-vous à la section Méthodologie d'évaluation des modèles à la page 55) en accédant au répertoire des résultats et en inscrivant : qsupliftresults Cela produira un fichier PDF des graphiques dont le nom est semblable à results pdf et une page Web dont le nom ressemble à report html qui pointe vers les graphiques et qui renferme d'autres données de résumé des tirages. 7. Il se peut que vous itériez à présent quelques fois, identifiant au fur et à mesure de meilleurs paramètres de construction et ajustant éventuellement l'ensemble des champs ou leurs découpages. Quelques-uns des paramètres de construction de modèles les plus importants sont les suivants : Uplift Guide de l'utilisateur 21

22 Interruption de Portrait Uplift Le seuil d'élagage, contrôlé par prunethresholdvalues ; La taille de population minimale minpopsize ; Le nombre minimum de nœuds terminaux par arbre minleafnodes. Ces trois paramètres interagissant fortement, après en avoir édité un il vous faudra sûrement éditer les deux autres. Il va sans dire qu'il existe bien d'autres paramètres qu'il conviendra d'ajuster dans certaines situations. Reportez-vous à la section Directives de paramétrage à la page 63 pour en savoir plus. 8. Lors de l'évaluation de la performance des modèles, accordez une attention particulière à la performance de validation (en observant l'écart entre les lignes d'apprentissage et de validation du graphique), mais aussi à la valeur q 0 (Qini) globale, la forme de la courbe, l'uplift maximal (ou minimal) atteint, la proportion de la population à cibler, etc. Gardez à l'esprit que les courbes de Qini peuvent présenter des valeurs Qini identiques, mais des formes très différentes. La pertinence du modèle dépendra de votre stratégie ou de vos critères de ciblage. 9. Après avoir identifié un ensemble satisfaisant de paramètres de construction de modèles, considérez plusieurs modèles bootstrap définitifs en utilisant tout le jeu de données (sans division apprentissage/validation). Reportez-vous à la section Reconstruction définitive à la page 52 pour en savoir plus. 10. Si vous êtes satisfait(e) du modèle, vous souhaiterez sans doute l'utiliser pour évaluer la population appropriée. Vous y parviendrez généralement en utilisant qsderive, avec une commande telle que qsderive -derivations modelb03t2.00pcr0001.xml -input deploy.ftr -output deployscored.ftr où deploy.ftr est le focus à évaluer. 11. Vous souhaiterez peut-être incorporer ultérieurement des résultats réels au focus déployé et tracer un graphique de Qini correspondant à la performance réelle du modèle. La commande qsupliftplus -a vous aidera à y parvenir en utilisant généralement une suite telle que : cd results qsupliftplus -a out.xml../foci/deployscoredplusactual.ftr Reportez-vous à la section Application de modèles uplift bootstrap à de nouvelles données à la page 23 pour en savoir plus. Interruption de Portrait Uplift Il est généralement préférable d'éviter d'interrompre Portrait Uplift en tapant control-c ou une autre commande similaire, et ce pour différentes raisons. Une telle action pourrait, entre autres conséquences fâcheuses, provoquer le «verrouillage» de certains focus, les rendant difficiles à utiliser. Un mécanisme d'arrêt convenable peut être implémenté en créant un fichier appelé stop.now dans le répertoire des résultats. Cela entraînera l'arrêt du logiciel aussitôt qu'une telle action est sûre. Cela est généralement assez rapide. Sur les systèmes UNIX, la manière la plus simple d'y parvenir est d'utiliser la commande touch stop.now dans le répertoire des résultats. 22 Portrait Uplift 7.0A

23 Chapitre 2 : Exécution de Portrait Uplift Sur les systèmes Windows, la manière la plus simple est probablement de copier et coller params.xml, lequel devrait déjà exister, puis de remplacer le nom de Copy of params.xml par stop.now. Application de modèles uplift bootstrap à de nouvelles données La commande qsupliftplus -a est aussi fournie dans Portrait Uplift. Celle-ci peut être utilisée pour appliquer un ensemble de modèles uplift construits préalablement avec Portrait Uplift à de nouvelles données. Toutes les données importantes relatives à un tirage sont stockées par Portrait Uplift dans le fichier spécifié par le paramètre xmlresultsstem. Puisque sa valeur par défaut est out, ce fichier est généralement appelé out.xml. La commande qsupliftplus -a lit le fichier de résultats XML out.xml et, en fonction des données qu'il contient, écrit un nouveau fichier de résultats XML dans un sous-répertoire contenant non seulement les graphiques de Qini correspondant aux données d'apprentissage et de validation originales, mais aussi une ligne correspondant aux nouvelles données («appliquées»). À titre d'exemple, supposons que Portrait Uplift soit exécuté à partir d'un répertoire appelé Projects et qu'il produise au départ des données de sortie dans le répertoire des résultats results , puis utilise des focus du répertoire foci. Le jour suivant, à 13:13 et 13 secondes, la suite de commande suivante est émise, débutant à partir du répertoire Projects : cd results qsupliftplus -a out.xml../foci/newdata.ftr cd results Structure de répertoire suggérée La présence, entre autres, de jeu de données, de paramètres et de résultats dans un même répertoire peut prêter à confusion, surtout si plusieurs tirages sont réalisés. Certaines personnes préfèrent utiliser une structure de répertoire pour organiser tout cela. Lors du traitement d'un projet appelé ProjectX en utilisant un répertoire de base ProjectX, il peut s'avérer utile de créer les sous-répertoires ProjectX/foci, ProjectX/params et ProjectX/runs. Si vous procédez ainsi, mais continuez à exécuter des commandes à partir du répertoire ProjectX, vous devrez remplacer le paramètre resultsdir par runs/results. Bien que Portrait Uplift ne crée pas le répertoire ProjectX/runs pour vous, la configuration de ce paramètre lui permettra de créer correctement les sous-répertoires des résultats comme ProjectX/runs/results et ainsi de suite. De même, si vous créez votre fichier de paramètre avec une commande telle que qsupliftplus -s foci/campaignx.ftr les paramètres seront définis correctement dans le fichier de paramètre pour permettre une exécution à partir du répertoire ProjectX. Uplift Guide de l'utilisateur 23

24 Exécution du programme de désinstallation Exécution du programme de désinstallation Pour pouvoir installer Portrait Uplift, vous devez être connecté(e) en tant qu'administrateur (Windows) ou utilisateur root (Solaris). Si vous installez sur un système Windows : 1. Assurez-vous que vous avez un accès direct à un lecteur de CD-ROM, en mappant un lecteur réseau au besoin. 2. Insérez le CD-ROM d'installation. 3. Si le programme d'installation du serveur ne s'exécute pas automatiquement, ouvrez l'explorateur Windows et naviguez jusqu'à Setup sur le CD-ROM, puis double-cliquez sur upliftplus_server_setup.exe. Si vous installez sur un système Solaris : 1. Créez un répertoire temporaire /tmp/miner et copiez dans celui-ci tout le contenu du CD-ROM d'installation (en utilisant cp -r pour copier les fichiers de façon récursive). 2. Définissez votre répertoire de travail sur /tmp/miner/setup (utilisez cd). 3. Exécutez solaris_upliftplus_server_install. On vous demandera si vous souhaitez exécuter une version console, laquelle ne nécessite pas un serveur X et est plus adaptée à une connexion peu rapide. Pour Windows et Solaris, suivez les instructions fournies par le programme d'installation, en cliquant sur Suivant (ou, dans le programme d'installation console, en inscrivant 1) pour passer d'une étape à l'autre. 1. Parcourez et sélectionnez l'emplacement de l'installation de Portrait Miner sur votre serveur. Exécution de Portrait Uplift à partir de SAS Portrait Uplift propose un ensemble expérimental de macros SAS en vue de faciliter l'exécution directe des principales opérations à partir d'un programme SAS. Si SAS n'a pas été configuré pour charger automatiquement les macros de Portrait Uplift, inscrivez dans votre code SAS des lignes semblable à celles-ci (où c:/portraitminer est le dossier d'installation de Portrait Uplift) : libname uplift "c:\portraitminer\ext\upliftplus" ; options mstored sasmstore=uplift ; Sélection de variables à partir de SAS Une macro uplift_variable_selection fournit l'accès à la fonctionnalité de sélection de variables de Portrait Uplift. Elle utilise les arguments suivants : 24 Portrait Uplift 7.0A

25 Chapitre 2 : Exécution de Portrait Uplift data (Requis : chemin d'accès du fichier) Emplacement du jeu de données SAS (.sas7bdat) pour analyse. objectivefield (Requis : nom de la variable) Nom de la variable dépendante pour analyse : reportez-vous à la section objectivefield (requis) à la page 72. partitionfield (Requis : nom de la variable) Nom de la variable de la division d'échantillons traités et non traités : reportez-vous à la section partitionfield (requis) à la page 73. analysisfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables indépendantes à inclure dans la sélection de variables. Si elle n'est pas fournie, toutes les variables seront prises en compte. xanalysisfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables indépendantes à exclure de la sélection de variables. categoricalfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables à interpréter comme variables nominales. nbestacs (Requis : nombre entier) Nombre de variables à sélectionner : reportez-vous à la section nbestacs (facultatif ; valeur par défaut : 5) à la page 77. setacsrebin (Facultatif : 0 ou 1) Si sa valeur est de 1, optimisez le classement (découpage) des variables en fonction de la corrélation avec l'uplift : reportez-vous à la section setacsrebin (facultatif ; valeur par défaut : 0) à la page 78. setacsrebinmaxbins (Facultatif : nombre entier) Nombre maximum de classes (bins) à inclure lors de l'optimisation du classement des variables. stratificationfield (Facultatif : nom de la variable) Variable à utiliser pour stratifier les données : reportez-vous à la section stratificationfield (facultatif, mais recommandé) à la page 73. Une fois terminé, un dossier de résultats accompagné d'un timestamp sera généré à côté du jeu de données SAS. Les fichiers report.html et results.pdf créés seront automatiquement ouverts. La liste des variables sélectionnées est renvoyée à SAS dans la macro &upliftselvar pour être utilisée ultérieurement lors d'appels de macro SAS. Par exemple, le script suivant sélectionnera des variables à partir du jeu de données SAS dans c:\data\directbank.sas7bdat, en utilisant la variable TrialRespond comme variable dépendante, la variable TrialMailing comme variable de traitement et en sélectionnant parmi Age, Income, Gender, MaritalStatus et CardVisa les trois meilleures variables indépendantes : libname testlib 'c:\data' ; %uplift_variable_selection( data=testlib.directbank,objectivefield=trialrespond,partitionfield=trialmailing,analysisfields="age,income,gender,maritalstatus,cardvisa",nbestacs=3 ) Remarque : les listes doivent figurer entre guillemets doubles et leurs valeurs doivent être séparées par une virgule. Uplift Guide de l'utilisateur 25

26 Construction de modèles uplift à partir de SAS Construction de modèles uplift à partir de SAS Une macro uplift_build_model fournit l'accès à la fonctionnalité de construction de modèles de Portrait Uplift. Elle utilise les arguments suivants : data (Requis : chemin d'accès du fichier) Emplacement du jeu de données SAS (.sas7bdat) pour analyse. objectivefield (Requis : nom de la variable) Nom de la variable dépendante pour analyse : reportez-vous à la section objectivefield (requis) à la page 72. partitionfield (Requis : nom de la variable) Nom de la variable de la division d'échantillons traités et non traités : reportez-vous à la section partitionfield (requis) à la page 73. analysisfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables indépendantes à inclure dans la construction de modèles. Il peut s'agit de la macro &upliftselvar si exécutée après %uplift_variable_selection. Si elle n'est pas fournie, toutes les variables seront prises en compte. xanalysisfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables indépendantes à exclure de la construction de modèles. categoricalfields (Facultatif : liste des noms de variables, séparés par une virgule) Liste des variables à interpréter comme variables nominales. useexisting (Facultatif : 0 ou 1) Flag permettant d'utiliser les découpages et les interprétations de données provenant de l'exécution précédente de sélection de variables. metadata (Facultatif : nom du fichier) Fichier de métadonnées (.qsfm) de Portrait Miner permettant de définir les interprétations à appliquer aux données avant la construction du modèle. params (Facultatif : nom du fichier) Fichier de paramètre (.xml) de Portrait Uplift à utiliser préférablement aux paramètres de la macro. nbagsvalues (Facultatif : liste de nombres entiers figurant entre crochets) Liste des nombres d'échantillons bootstrap : reportez-vous à la section nbagsvalues (requis) à la page 79. prunethresholdvalues (Facultatif : liste de pourcentages figurant entre crochets) Liste des valeurs de seuil d'élagage à utiliser : reportez-vous à la section prunethresholdvalues (requis) à la page 79. autoprune (Facultatif : 0 ou 1) : reportez-vous à la section autoprune (facultatif ; valeur par défaut : 0) à la page 80. nruns (Facultatif : nombre entier) Nombre de tirages correspondant à chaque ensemble de paramètres : reportez-vous à la section nruns (facultatif ; valeur par défaut : 1) à la page 80. nlevels (Facultatif : nombre entier) Profondeur maximale des arbres à construire : reportez-vous à la section nlevels (facultatif ; valeur par défaut : 4) à la page 76. maxtreeattempts (Facultatif : nombre entier) Nombre maximum de tentatives par arbre : reportez-vous à la section maxtreeattempts (facultatif ; valeur par défaut : 2) à la page 81. minleafnodes (Facultatif : nombre entier) : reportez-vous à la section minleafnodes (facultatif ; valeur par défaut : 4) à la page Portrait Uplift 7.0A

27 Chapitre 2 : Exécution de Portrait Uplift autominpopsize (Facultatif : 0 ou 1) : reportez-vous à la section autominpopsize (facultatif ; valeur par défaut : 1) à la page 75. searchminpopsize (Facultatif : 0 ou 1) : reportez-vous à la section searchminpopsize (facultatif ; valeur par défaut : 0) à la page 76. minpopsize (Facultatif : nombre entier) : reportez-vous à la section minpopsize (facultatif ; valeur par défaut : 2000) à la page 75. propanalysiscandidates (Facultatif : pourcentage) Proportion de variables indépendantes à utiliser : reportez-vous à la section propanalysiscandidates (facultatif ; valeur par défaut : 1.0) à la page 81. savefocusstem (Facultatif : chaîne) Racine du nom de fichier des ensembles de données intermédiaires sauvegardés : reportez-vous à la section savefocusstem (facultatif ; valeur par défaut : (néant)) à la page 83. savetreestem (Facultatif : chaîne) Racine du nom de fichier des arbres intermédiaires sauvegardés : reportez-vous à la section savetreestem (facultatif ; valeur par défaut : (néant)) à la page 84. tvtrainprop (Facultatif : pourcentage) Proportion de données utilisée pour l'ensemble d'apprentissage : reportez-vous à la section tvtrainprop (facultatif ; valeur par défaut : 50%) à la page 82. modeltype (Facultatif : auto binaire réel deux étapes) : reportez-vous à la section modeltype (requis) à la page 72. yqiniaxis (Facultatif : chaîne) Texte à utiliser comme étiquette de l'axe vertical Qini : reportez-vous à la section yqiniaxis (facultatif ; valeur par défaut : Uplift hiérarchique (pc pt)) à la page 75. outcomesizeactual (Facultatif : nom de la variable) Variable des résultats réels : reportez-vous à la section outcomesizeactual (facultatif) à la page 72. outcomesizeestimate (Facultatif : nom de la variable) Variable des résultats estimés : reportez-vous à la section outcomesizeestimate (requis pour les modèles à deux étapes) à la page 72. championmodelfield (Facultatif : nom de la variable) Variable du modèle champion à comparer : reportez-vous à la section championmodelfield (facultatif) à la page 74. prnginitialstate (Facultatif : chaîne) Nombre (graine) aléatoire à utiliser : reportez-vous à la section prnginitialstate (facultatif) à la page 82. roicurrencysymbol (Facultatif : chaîne) : reportez-vous à la section roicurrencysymbol (facultatif ; valeur par défaut : $) à la page 84. roicostoftreatment (Facultatif : chaîne) : reportez-vous à la section roicostoftreatment (facultatif ; valeur par défaut : 0.00) à la page 85. roivalueofbenefit (Facultatif : chaîne) : reportez-vous à la section roivalueofbenefit (facultatif ; valeur par défaut : 1.00) à la page 85. roicostoffulfillment (Facultatif : chaîne) : reportez-vous à la section roicostoffulfillment (facultatif ; valeur par défaut : 0.00) à la page 85. Remarque : Remarque : Les chiffres de pourcentage doivent être accompagnés du symbole de pourcentage (50 %). nbagsvalues et prunethresholdvalues : ces listes doivent figurées entre guillemets doubles et crochets, par ex. "[1%,2%]". Uplift Guide de l'utilisateur 27

28 Scoring de modèles uplift dans SAS Une fois terminé, un nouveau dossier de résultats accompagné d'un timestamp sera généré à côté du jeu de données SAS. En outre, SAS créera trois rapports en formats PDF, Excel et HTML contenant des tableaux de résultats de la modélisation et des graphiques de Qini. Un aperçu du rapport HTML sera affiché dans la visionneuse de résultats SAS. Par exemple, le script suivant construira des modèles uplift sur un jeu de données SAS dans c:\data\directbank.sas7bdat, en utilisant la variable TrialRespond comme variable dépendante, la variable TrialMailing comme variable de traitement, et en utilisant les variables indépendantes Age, Income, Gender, MaritalStatus et CardVisa, construisant en tout quatre modèles : libname testlib 'c:\data' ; %uplift_build_model( data=testlib.directbank,objectivefield=trialrespond,partitionfield=trialmailing,analysisfields="age,income,gender,maritalstatus,cardvisa",nbagsvalues="[1,2]",prunethresholdvalues="[1%,2%]",nruns=1,nlevels=3 ) Scoring de modèles uplift dans SAS Une macro uplift_score_model fournit l'accès à la fonctionnalité de scoring de modèles dans Portrait Uplift. Elle utilise les arguments suivants : data (Requis : chemin d'accès au fichier) Emplacement du jeu de données SAS (.sas7bdat) à évaluer. model (Requis : chemin d'accès au fichier) Emplacement du code de modèle SAS (.sas) pour le scoring. outputdata (Facultatif : chemin d'accès au fichier) Emplacement du jeu de données SAS évalué (.sas7bdat). S'il est absent, le jeu de données évalué sera créé comme une version horodatée des données sources. outputfields (Facultatif : liste des noms de variables) Liste des variables à créer dans le jeu de données évalué en plus des champs de scoring. force (Facultatif : 0 ou 1) Il force l'écrasement d'un jeu de données de sortie existant. Une fois terminé, un nouveau jeu de données SAS sera créé. Par exemple, le script suivant évaluera un jeu de données SAS dans c:\data\directbank.sas7bdat, en utilisant le code de modèle uplift SAS dans c:\data\results \models\modelb02t1.00pcr0001.sas, en créant un nouveau jeu de données dans c:\data\results.sas7bdat (et en écrasant tous les jeux de données existants du même nom) contenant les variables HomePostcode, Age et Gender. libname testlib 'c:\data' ; %uplift_score_model( data=testlib.directbank, model="c:\data\results \models\modelb02t1.00pcr0001.sas", outputdata=testlib.results, outputfields="homepostcode, Age, Gender" 28 Portrait Uplift 7.0A

29 Chapitre 2 : Exécution de Portrait Uplift ), force=1 Uplift Guide de l'utilisateur 29

30

31 Chapitre 3 Aperçu de la méthodologie Dans cette section : Introduction Structure des modèles Conception d'une campagne pour l'analyse uplift Préparation des données Biais de traitement et validité des modèles Traitements multiples

32 Introduction Introduction Portrait Uplift implémente une construction de modèles uplift dont la méthodologie se base sur les meilleures pratiques de l'industrie. Cette méthodologie comprend à elle seule deux grandes phases : la sélection de variables, laquelle implémente des modalités par le biais d'un découpage optimisé et d'une réduction de variables (reportez-vous à la section Sélection des variables et méthodologie de regroupement à la page 39), et la construction de modèles (reportez-vous à la section Méthodologie de construction des modèles à la page 47). Des directives permettant d'assimiler les résultats des modèles et d'évaluer leur qualité sont fournies dans la section Méthodologie d'évaluation des modèles à la page 55. Ces instructions sont accompagnées d'un aperçu des principaux paramètres de modélisation (section Directives de paramétrage à la page 63) et d'une référence exhaustive des paramètres (section Référence des paramètres à la page 69). La modélisation uplift convient à divers scénarios de modélisation, notamment les modèles à résultat binaire, les modèles à résultat continu et les modèles à deux étapes, comme indiqué dans la section Structure des modèles à la page 32. Toutefois, avant de procéder à l'application de Portrait Uplift, des données de campagne historiques doivent être obtenues. En vue d'optimiser l'efficacité de la modélisation uplift ultérieure, l'idéal consiste à effectuer une planification préalable des campagnes. Des recommandations applicables à cette approche de «conception avant analyse» sont fournies dans la section Conception d'une campagne pour l'analyse uplift à la page 33. Après avoir obtenu un jeu de données de modélisation, celui-ci doit être préparé pour Portrait Uplift, comme indiqué dans la section Préparation des données à la page 34. En l'absence d'une stratégie explicite, comme cela est souvent le cas, il est essentiel de s'assurer que les données de modélisation satisfont les estimations réalisées par Portrait Uplift. On veillera particulièrement à ce qu'il n'y ait pas de biais dans la division d'échantillons traités et non traités qui invalidera les prédictions du modèle. Dans certains cas, les biais peuvent être corrigés en utilisant une pondération, comme indiqué dans la section Biais de traitement et validité des modèles à la page 34. Structure des modèles Portrait Uplift prend en charge trois structures de modèle : Modèle à résultat binaire (binary) ; Modèle à résultat discret continu ou ordonné (real) ; Modèle à deux étapes (twostage). Les modèles à résultat binaire sont utilisés dans le cadre de problèmes où il n'y a que deux résultats possibles, par ex. rester ou partir (rétention/attrition/perte), achat ou non-achat (cf. «réponse»), ou défaut ou non-défaut (risque de crédit). Ce résultat doit être représenté sous la forme d'une variable entière 1/0. Dans ces cas, le modèle uplift prédit l'évolution de la probabilité du résultat 1 correspondant à chaque client, par exemple la diminution d'une probabilité de perte de clientèle, une augmentation de la probabilité de réponse, une augmentation de la probabilité de défaut, etc. 32 Portrait Uplift 7.0A

33 Chapitre 3 : Aperçu de la méthodologie Les modèles continus (real) sont utilisés dans le cadre de problèmes où le but est de stimuler le niveau ou la taille de l'activité des clients, par exemple augmenter leur consommation. Ici, le modèle uplift adapte directement l'évolution de l'issue comme résultat du traitement. Les modèles à deux étapes ressemblent aux modèles continus, sauf qu'à présent le but de la campagne est d'augmenter la probabilité (ou la fréquence) de l'activité des clients (par ex. la fréquence d'achat) ou le niveau de l'activité en stimulant la fréquence d'achat ou d'utilisation. Ici, le modèle uplift est utilisé pour estimer l'augmentation de la probabilité de résultats. Cette estimation est ensuite combinée, le cas échéant, avec une estimation (fournie) du volume de résultats (outcomesizeactual) lors du compte-rendu des performances de chaque modèle. Il n'est pas toujours clair si l'effet principal d'un traitement stimulant consistera (par exemple) à augmenter le volume des achats d'un client ou la probabilité d'achat du client. Il peut parfois s'avérer utile d'examiner le lift de la probabilité d'achat et le lift du niveau de consommation des acheteurs. Si le lift global de la consommation est principalement dû à un lift de la fréquence d'achat (multiplié par un volume d'achat moyen), alors un modèle à deux étapes conviendra probablement le mieux. Si le lift de la probabilité d'achat est proche de zéro, un modèle continu sera le plus indiqué. Il conviendra parfois d'essayer un modèle uplift «réel», puis un modèle à deux étapes et, éventuellement, de combiner les deux. Conception d'une campagne pour l'analyse uplift La procédure recommandée pour concevoir une campagne qui sera analysée par la modélisation uplift est la suivante : 1. Sélectionnez une population candidate P pour essai. 2. Sous-divisez P au hasard en deux groupes : une population traitée et une population de contrôle. Il est possible de recourir à la stratification (échantillonnage aléatoire de taille exacte), laquelle permet souvent de réduire le bruit. 3. La modélisation s'avère plus simple si l'ensemble de la population traitée reçoit un traitement identique ou si les traitements sont attribués au hasard. Dans le cas contraire, bien que la modélisation reste en général possible, elle devient plus complexe et perd parfois en précision. Reportez-vous à la section Traitements multiples à la page 37. Dans le meilleur des cas, la population la plus petite des deux (habituellement la population de contrôle) sera dimensionnée conformément à la règle suivante : «Pour que les arbres uplift soient construits convenablement et pour être en mesure de détecter des écarts uplift de x%, il faut s'assurer qu'aussi bien la population traitée que la population de contrôle soient suffisamment importantes pour que x% d'elles représente individus. Par conséquent, si l'on souhaite modéliser des écarts de 1 % dans l'uplift, on doit s'attendre à nécessiter des populations traitées et de contrôle comptant au moins individus.» Toutefois, Portrait sait pertinemment que cette règle est rarement respectée. Portrait Uplift a été formulé pour extraire un maximum de valeurs des données disponibles, même lorsque cette règle est sérieusement bafouée. Uplift Guide de l'utilisateur 33

34 Préparation des données Préparation des données Avant l'analyse uplift, les jeux de données de modélisation doivent être préparés convenablement de la manière suivante : Marquez le champ objectif, soit un champ numérique 0/1 pour un modèle binaire (par ex. réponse, perte), soit un champ à valeur réelle pour un modèle continu (par ex. consommation). Marquez le champ de partition, un champ numérique 0/1, 1 indiquant les clients traités et 0 indiquant les clients non traités (groupe de contrôle). Pour les différentes méthodes permettant d'analyser les campagnes aux traitements multiples, reportez-vous à la section Traitements multiples à la page 37. Annotez tous les champs de modèle champion, tous les champs numériques destinés à classer les clients en fonction du lift (des valeurs élevées indiquant un lift important). Il peut s'agir d'un modèle de lift différent, d'un modèle classique ou d'une segmentation utilisée pour un ciblage préalable. Ajoutez, le cas échéant, des interprétations nominales aux variables candidates. Nous recommandons de stocker les valeurs nominales sous forme de données entières et non de chaînes, celles-ci demandant un volume de mémoire bien supérieur. Effectuez toutes les sélections d'enregistrement nécessaires afin d'identifier la population de modélisation. Les valeurs NULL dans le champ objectif, de partition et de traitement doivent généralement être exclues. (les valeurs NULL des variables candidates seront analysées correctement, voire partagées comme une autre catégorie pendant la croissance de l'arbre.) Si vous n'envisagez pas d'optimiser des découpages automatiquement, vous pouvez aussi ajouter des découpages appropriés aux variables candidates ; reportez-vous à la section Sélection des variables et méthodologie de regroupement à la page 39. Créez ou annotez éventuellement une division d'apprentissage et de validation fixe contenant les valeurs de chaîne «T» et «V» ; reportez-vous à la section fixedtrainvalidatefield (facultatif) à la page 73. Créez ou annotez éventuellement un champ de pondération contenant des valeurs numériques non négatives ; reportez-vous à la section Biais de traitement et validité des modèles à la page 34. Biais de traitement et validité des modèles La modélisation uplift part du principe que la seule différence systématique entre la population traitée et celle de contrôle est le traitement en cours de modélisation. Si la division de traitement n'est pas aléatoire (par exemple, s'il est possible de prédire l'indicateur de traitement en utilisant un modèle conventionnel), les résultats issus de la modélisation uplift ne seront pas fiables. Portrait Uplift fournit un rapport de validité de l'échantillon de contrôle automatisé (ou rapport «mauve», section Validité de l'échantillon de contrôle (le rapport «mauve») à la page 44) pour vérifier que l'indicateur de traitement correspondant à chaque variable candidate est aléatoire, afin de signaler à l'utilisateur tout problème éventuel. De nombreux types de biais connus dans l'indicateur de traitement peuvent être corrigés en spécifiant un champ de pondération qui définit une valeur de pondération correspondant à chaque enregistrement 34 Portrait Uplift 7.0A

35 Chapitre 3 : Aperçu de la méthodologie (reportez-vous à la section userweightingfield (facultatif) à la page 74). Parmi ces biais, on compte notamment : Les biais de traitement Différentes parties de la base client sont souvent traitées à des taux différents. Tant que le traitement dans chaque segment est randomisé, ce biais est facilement surmontable à l'aide d'un champ de pondération. Imaginez par exemple que les trois déciles supérieurs ont été ciblés à un taux de 90 %, alors que les sept déciles inférieurs ont été ciblés à un taux de 10 %. Cela occasionne une surreprésentation des enregistrements traités dans les déciles supérieurs et une faible représentation dans les déciles inférieurs. En général, supposez que nous avons un taux de traitement qui varie (uniquement) en fonction d'un champ de segmentation connu, avec un taux de traitement global T et un taux de traitement T s pour chaque segment s dans ce même champ. Nous pouvons dès lors pondérer chaque enregistrement traité dans s par T / T s et chaque enregistrement de contrôle (non traité) dans s par (1-T) / (1-T s ). Suite à la pondération, nous obtenons un taux de traitement constant sur l'ensemble des segments et parvenons à préserver le décompte total des enregistrements (pondérés) dans chaque segment. Vous pouvez implémenter ce type de pondération dans Decision Studio sous forme de champ dérivé, en supposant un champ de segmentation qualitative appelé segment et un indicateur de traitement treatment. Vous pouvez utiliser FDL comme suit : create weight := ( q := mean(treatment); // overall treatment rate p := mean(treatment) by segment; // rate for this segment if treatment then q/p else (1-q)/(1-p) ); Remarque : Dans les cas où le biais de traitement est inconnu et ne peut donc pas être facilement capturé dans un seul champ de segmentation, il est parfois toujours possible de corriger le biais de manière approximative en modélisant l'indicateur de traitement. Dans cette approche, un modèle de régression classique est construit (en utilisant par exemple un assistant scoring) avec, pour objectif, l'indicateur de traitement. (Cela permet souvent d'avoir une meilleure compréhension de l'origine des biais.) Le scoring des données de modélisation nous permet de générer une probabilité de «chance de traitement» pour chaque enregistrement. On peut ensuite utiliser directement cette probabilité au lieu du taux de traitement du segment, T s, dans la discussion ci-dessus. Cela donne lieu au FDL suivant : create weight := ( q := mean(treatment); // overall treatment rate p := treatment_probability; // as predicted by treatment model if treatment then q/p else (1-q)/(1-p) ); Il va sans dire qu'au moment de valider et d'interpréter les résultats de modélisation issus dans une telle situation, la prudence s'impose! Les biais de ciblage Il peut parfois arriver que la population disponible pour la modélisation ne soit pas une juste représentation de l'ensemble de la population qui sera évaluée postérieurement. Dans ces cas, il convient en général de repondérer le fichier modélisé afin d'augmenter sa fidélité lors du scoring. Imaginez par exemple un décile défini sur l'ensemble de la base client (avec un nombre de clients identique dans chaque décile), où l'on a ciblé 90 % des trois déciles supérieurs (avec 10 % identifiés comme contrôle) et 9 % des sept Uplift Guide de l'utilisateur 35

36 Biais de traitement et validité des modèles déciles inférieurs (avec 1 % fourni comme contrôle). On obtient donc un taux de traitement constant de 90 % sur l'ensemble du fichier, ce qui permet de construire un modèle uplift en toute sécurité. Cependant, les déciles inférieurs n'étant pas bien représentés, notre modèle pourrait là par contre être moins précis (dans le sens que la qualité de notre modèle sera davantage influencée par la performance des trois déciles supérieurs). Là encore, on suppose généralement que le biais de ciblage est capturé par un seul champ de segmentation, avec un taux de ciblage R s dans chaque segment s (dans notre exemple, R = 1 dans les trois déciles supérieurs et R = 0,1 dans les sept déciles inférieurs). On pondère tout simplement chaque enregistrement par 1/R s pour refléter la population totale représentée par le fichier (biaisé) de modélisation. Pour cet exemple, on pourrait dériver un champ de pondération dans Decision Studio en utilisant FDL comme suit : create weight := ( case value_decile <= 3: 1.0; // we have all high-value customers otherwise: 10.0; // but only 10% of the lower deciles ); Combinaison de poids Lorsque plusieurs poids (par exemple un poids de ciblage et un poids de traitement) doivent être appliqués au même jeu de données, la prudence est de mise. Ces poids doivent être déterminés de manière séquentielle et non indépendante. Si vous avez un champ de poids de ciblage weight_target, le champ dérivé correspondant au biais de traitement devient : create t := treatment * weight_target; // weighted value for a treated record create weight_treat := weight_target * ( q := sum(t) / sum(weight_target); // overall weighted treatment rate p := ( sum(t) by segment ) / sum(weight_target) by segment ; // treatment rate for this segment if treatment then q / p else (1-q) / (1-p) ); en supposant à nouveau un champ de segmentation qualitative appelé segment et un indicateur de traitement treatment. Échantillonnage stratifié des réponses Lorsque les taux de réponse sont faibles, il est souvent estimé inutile d'inclure tous les cas de non-répondants. Le fichier de modélisation pourrait par exemple contenir tous les répondants, mais seulement 10 % de non-répondants (sélection aléatoire). Bien que cela ne présente aucun biais de traitement ou de ciblage, le taux de réponse est artificiellement grossi. Un champ de pondération pourrait être utilisé pour traiter chaque enregistrement de répondant comme un seul client et un non-répondant comme 10 clients (1/10 %), à savoir : weight := if response then 1 else 10; Le fichier stratifié peut aussi être modélisé sans champ de pondération, en ajustant le score final pour qu'il reflète la stratification. Si ω représente la fraction des non-répondants réels qui figure dans le fichier de modélisation (1/10 dans l'exemple donné), alors la probabilité uplift réelle p actual peut être associée au score de probabilité uplift modélisé p par : 36 Portrait Uplift 7.0A

37 Chapitre 3 : Aperçu de la méthodologie Traitements multiples La version actuelle de Portrait Uplift est principalement formulée pour gérer le cas d'une seule action ou d'un seul traitement appliqué au sous-ensemble aléatoire d'une population cible potentielle, le reste de la population constituant le groupe de contrôle. Il va sans dire qu'en réalité, les sociétés essaient souvent plusieurs actions ou traitements parallèles, ou du moins sont désireuses de le faire. Nous abordons cette situation sous la section Traitements multiples. On peut distinguer plusieurs cas de figure. Le cas le plus simple est celui présentant plusieurs traitements différents ayant été attribués au hasard. Ici, le but est de déterminer la meilleure population cible et le meilleur traitement possible, mais pas forcément de comprendre le degré d'interaction entre les deux, autrement dit l'objectif n'est pas forcément d'associer les traitements aux individus. Dans ce cas de figure, l'approche la plus simple consiste à gérer les deux parties de ce problème séparément. Regroupez tous les traitements et créez un champ de partition de 1 pour les individus recevant un traitement et de 0 pour ceux n'en recevant aucun (le groupe de contrôle). Ensuite, créez un modèle uplift ordinaire. Celui-ci déterminera quels individus sont les plus susceptibles d'être affectés positivement par un traitement aléatoire. Comparez séparément l'uplift global aux individus non traités associés à chaque traitement. Il s'agit tout simplement de calculer le résultat moyen mean(objective) de chaque traitement et de soustraire le résultat moyen des individus non traités. Le cas de figure suivant présente également une attribution de traitements aléatoire, mais son but est de déterminer quel traitement convient le mieux à tel ou tel individu. Pourvu que le nombre de traitements soit peu élevé, la meilleure approche consiste à construire des jeux de données séparés contenant la population recevant un seul traitement et les individus non traités, puis à construire un modèle uplift séparé. Chaque client peut alors être évalué avec chaque modèle uplift et le traitement présentant l'uplift estimé le plus élevé pour ce client peut être sélectionné. Si le nombre de traitements est plus important, mais que certains traitements sont beaucoup plus communs que les autres, les traitements restants peuvent être regroupés. Cette approche ne fonctionnera pas dans le cadre d'un «plan factoriel», où il existe un nombre de facteurs à varier (taille du papier, couleur du papier, niveau de remise, etc.), car le nombre de combinaisons devient énorme. Soit n i pour chacune des décisions de traitement k, cela donne évidemment modèles. Si k est 6 et chaque choix est binaire, cela donne une exigence de 2 6 = 64 modèles, ce qui n'est pas réaliste. On peut néanmoins partir simplement du principe que les facteurs de traitement sont indépendants. Dans ce cas, on peut à la place construire un modèle pour Uplift Guide de l'utilisateur 37

38 Traitements multiples chaque choix de traitement indépendamment, ce qui donne à construire à la place. Avec 10 facteurs binaires, cela réduit le nombre de modèles de 64 à 2 6 = 12, et avec davantage de facteurs la réduction devient proportionnellement plus importante. Les différents modèles permettent de faire un choix indépendant pour chaque facteur pour chaque client, ignorant les effets d'interaction. Le cas de figure le plus difficile est celui présentant des traitements multiples n'ayant pas été attribués au hasard. Dans ce cas, il est impossible de distinguer entre l'effet du traitement et l'effet du ciblage. Cependant, un modèle uplift peut fournir des recommandations de ciblage si la stratégie utilisée pour attribuer les traitements est fournie. Les variables de traitement peuvent être utilisées comme variables candidates. Pour utiliser le modèle généré, il vous suffit de calculer comme d'habitude l'uplift estimé de chaque individu, puis d'attribuer leur traitement en vous basant sur les critères utilisés pour attribuer les traitements de la campagne ayant servi à construire le modèle uplift. 38 Portrait Uplift 7.0A

39 Chapitre 4 Sélection des variables et méthodologie de regroupement Dans cette section : Introduction Impact sur la stabilité des modèles Sélection de variables automatisée Découpage automatisé Résultats et rapports de la sélection de variables

40 Introduction Introduction Portrait Uplift crée des modèles uplift en utilisant les champs identifiés comme variables candidates dans le jeu de données de modélisation. Les découpages sur ces champs définissent les points de partition pris en compte pendant le processus de croissance de l'arbre. Par conséquent, aussi bien l'ensemble des variables candidates sélectionnées que les découpages choisis peuvent avoir un impact majeur sur la qualité des modèles produits, comme indiqué dans la section Impact sur la stabilité des modèles à la page 40. Portrait Uplift peut automatiser aussi bien le processus de sélection de variables candidates favorables (section Sélection de variables automatisée à la page 41) que la sélection de découpages de «bonne qualité» servant à estimer l'uplift (section Découpage automatisé à la page 42). Un certain nombre de rapports de diagnostic sont générés pendant la phase de prétraitement afin de jeter de la lumière sur la validité des données, la stabilité de l'uplift et les profils des champs (section Résultats et rapports de la sélection de variables à la page 43). Impact sur la stabilité des modèles La sélection de variables et le découpage permettent de contrôler et, en général, de limiter le nombre de degrés de liberté autorisés dans le processus de construction de modèle ultérieur, ce qui est souvent très utile, cela permettant entre autres de surmonter certains problèmes associés aux tests statistiques répétés. La sélection de variables prend en compte uniquement les divisions au niveau des frontières des classes pour les variables ordonnées, et traite les catégories des variables nominales comme indivisibles. Le choix de découpage est donc important. Bien qu'il pourrait sembler que l'utilisation d'un découpage très fin (avec de nombreuses classes) confère au logiciel un maximum de souplesse, comme c'est le cas avec d'autres facteurs dans des situations à haute variance, il est souvent préférable de choisir un découpage comptant un nombre relativement faible de classes afin de réduire les chances de surcharge. Les méthodes décrites plus bas pour l'évaluation de la stabilité d'une variable pour la modélisation uplift dépendent du découpage utilisé. La sélection de variables et la sélection de découpages vont donc main dans la main. En règle générale, dans des situations à haute variance, nous recommandons de commencer avec un découpage grossier d'environ 5 classes à population identique (20 pour cent). Si ces classes s'avèrent stables, il peut être utile d'augmenter le nombre de classes, peut-être à 10. Ce faisant, on veillera tout particulièrement à ne pas réduire les tailles de population au point que les estimations uplift deviennent peu fiables. Même lorsque le découpage optimisé et la sélection de variables sont implémentés, il est fortement recommandé que l'utilisateur s'attarde à étudier les rapports générés, considérant chaque variable à tour de rôle et vérifiant : Si le découpage sélectionné paraît stable (utilisez pour ce faire le rapport de stabilité des modèles uplift) ; Si l'écart de l'uplift paraît important, significatif et possible (utilisez pour ce faire le profil uplift) ; 40 Portrait Uplift 7.0A

41 Chapitre 4 : Sélection des variables et méthodologie de regroupement Si la partition est valide (utilisez pour ce faire le rapport de validité de l'échantillon de contrôle) ; Si les motifs figurant dans les champs sélectionnés et l'uplift généré suggèrent l'utilisation éventuelle d'autres variables ou combinaisons de variables applicables à la modélisation. Bien que l'expression «Garbage In, Garbage Out» fasse un peu cliché, elle reste néanmoins importante. Seul l'utilisateur peut réellement filtrer les données de sortie de la sélection de variables et de la construction de modèles. Le côté le plus positif de ce cliché est que l'amélioration de la qualité des données de sortie utilisées lors de la modélisation entraîne souvent une amélioration mesurable et significative de la qualité des données de sortie (du modèle). Bien que ce document s'intéresse principalement à réduire le nombre de degrés de liberté disponibles à la modélisation en limitant les variables candidates et en utilisant des découpages relativement grossiers, il va sans dire que la puissance d'expression potentielle des modèles s'en voit affectée. Puisque le contrôle du bruit constitue le problème numéro un dans la plupart des situations de modélisation uplift, il est généralement bien plus avantageux de limiter, et non d'augmenter, le nombre de degrés de liberté. Cependant, l'utilisateur doit prendre conscience que ce ne sera pas toujours le cas. Sélection de variables automatisée Portrait Miner appelle les variables indépendantes pouvant être utilisées dans la modélisation variables candidates. Dans certains cas, il peut être convenable de mettre à contribution dans la construction de l'arbre toutes les variables candidates possibles et de laisser aux arbres le soin de sélectionner et d'inclure dans le modèle les variables appropriées. Cependant, dans les situations à haute variance, cela s'avère souvent être une mauvaise idée, surtout s'il y a un grand nombre de variables candidates. Le problème réside dans le fait que dans pareilles circonstances, des divisions peu robustes seront fréquemment sélectionnées. L'élagage permettra généralement d'écarter toute division peu robuste, mais la nature gloutonne 1 des méthodes de construction d'arbres signifie que l'occasion de se diviser à ce nœud est perdue, ce qui se traduit généralement par un modèle de mauvaise qualité. C'est la raison pour laquelle Portrait Uplift contient une option auxiliaire qui sélectionne les meilleures variables candidates n parmi celles disponibles en se basant sur une estimation conservatrice de leur valeur prédictive, laquelle se base sur le système métrique de Qini (reportez-vous à la section Interprétation des valeurs Qini (Q et q0) à la page 56). La sélection de variables utilise la même structure de fichier de paramètre XML que la construction de modèle. Elle possède également quelques paramètres spécifiques (reportez-vous à la section Paramètres de sélection des variables à la page 76), notamment : nbestacs, le nombre de variables candidates à sélectionner ; savebestacs, dont la valeur est de 1 si, une fois les meilleures variables candidates définies, celles-ci doivent être sauvegardées. Autrement : 0 ou vide. 1 Les algorithmes «gloutons» sont ceux qui tentent de maximiser leur avantage à chaque point de décision et ne révisent, ne réévaluent ni ne modifient jamais les décisions qu'ils ont prises. La plupart des méthodes de construction d'arbres possèdent une phase de construction gloutonne pendant laquelle elles choisissent, à chaque stade, la meilleure division pour segmenter un nœud (en fonction de certains critères de division). Une phase d'élagage ultérieure élimine les divisions instables, mais ne les remplace pas par d'autres. Uplift Guide de l'utilisateur 41

42 Découpage automatisé Découpage automatisé Portrait Uplift peut également sélectionner des découpages pour les champs. Tout comme une quantité excessive de variables candidates peut affecter la qualité des modèles, permettre aux arbres d'explorer de grandes quantités de divisions de variables peut également être nuisible, surtout dans les situations très bruyantes qui caractérisent les problèmes uplift du monde réel. Le paramètre setacsrebin décide du redécoupage des champs et, le cas échéant, du type de redécoupage. Si la valeur de setacsrebin est nulle (0), aucun redécoupage n'est effectué et seules les variables candidates sont sélectionnées. Si la valeur de setacsrebin est de 1 (ou de tout autre nombre entier sauf zéro), le logiciel tentera d'optimiser le nombre de classes correspondant à toutes les variables candidates numériques et qualitatives (hormis les champs de date). Le logiciel écrira également un fichier XML appelé binnings.xml dans le répertoire des résultats (section Paramètres de rapports et de sorties à la page 83), qui peut être utilisé pour définir des découpages sur des champs ultérieurement. Enfin, si setacsrebin contient le nom d'un fichier de découpage XML, le logiciel définira les découpages des champs conformément aux spécifications de ce fichier. Optimisation des découpages Le logiciel tente d'optimiser les découpages de modélisation uplift en évaluant une forme spéciale de low Qini correspondant au découpage possible pour chaque champ. Il prend en compte les découpages de population égale avec (potentiellement) 1 à M (valeur autre que zéro) classes, où la valeur M est contrôlée par le paramètre setacsrebinmaxbins, dont la valeur par défaut est 10. En principe, un découpage est formé, les données (rééchantillonnées) sont divisées de manière aléatoire de huit manières, les classes sont triées par ordre décroissant d'uplift sur la première partition, puis le Qini (Q) est évalué sur la partition en question et sur chacune des sept partitions restantes. Quatre valeurs sont alors calculée pour chaque découpage : LQE ici, le low Qini est μ(q) - σ(q)/ n, où n est le nombre d'observations (8, dans le cas de base) μ (Q) la valeur Qini moyenne MinSE l'erreur standard la plus faible (σ / n). TPAQ le Qini ajusté, une variante du calcul Qini qui pénalise les points stationnaires dans la courbe de Qini. En principe, il est ensuite possible de sélectionner un découpage sur la base de ces valeurs, par exemple le LQE le plus élevé, la valeur Qini moyenne maximale, l'erreur standard la plus faible ou le Qini ajusté le plus élevé (TPAQ). Bien que le TPAQ le plus élevé soit utilisé par défaut, il est possible de le modifier à l'aide du paramètre setacsrebincriterion (section setacsrebincriterion (facultatif ; valeur par défaut : T) à la page 78). L'utilisation du «trimming» et du «winsoring» peut parfois contribuer à diminuer le bruit, lequel peut s'avérer problématique. Ces deux techniques permettent de réduire la variance. Tandis que le trimming permet d'écarter les valeurs extrêmes N de la distribution, le winsoring modifie les mêmes valeurs 42 Portrait Uplift 7.0A

43 Chapitre 4 : Sélection des variables et méthodologie de regroupement extrêmes en les «associant» à la valeur correspondant à la valeur seuil (ou juste avant celle-ci). Puisque l'on dispose toujours d'exactement huit observations, l'implémentation du trimming sert tout simplement à écarter la valeur la plus faible et la plus élevée, tandis que l'implémentation du winsoring permet d'associer la valeur la plus élevée à la deuxième valeur la plus élevée, et d'associer la valeur la plus faible à la deuxième valeur la plus faible. Un autre paramètre, setacsrebinmean, contrôle ce comportement. Il peut être configuré sur Normal, Trim ou Winsorize. Comme il apparaît clairement, le nombre de classes correspondant aux découpages constitués de 1 à 10 classes figure dans l'axe horizontal, et la hauteur des points indique une valeur Qini. Chaque rond gris représente une seule observation. (Comme le sous-titre l'indique, la technique du trimming a été utilisée. Le nombre d'observations est donc tombé de huit à six.) Le rond noir de chaque découpage représente la valeur Q moyenne, et les barres d'erreur indiquent une erreur standard (σ(q)/ 6, dans ce cas.) Trois caractéristiques sont observables en rouge. Le rond situé en bas de la barre d'erreur sur neuf classes est le low Qini le plus élevé. Le rond colorié en rouge correspond à la valeur Qini moyenne la plus élevée ; elle est indiquée ici pour 9 classes. La barre d'erreur rouge représente l'erreur la plus faible ; elle résulte évidemment de la variance la plus petite. Les triangles rouges situés dans la partie inférieure et supérieure du graphique indiquent que certains points de données s'étendent au-delà des limites de l'axe y. Bien qu'ici ces points soient visibles, ce ne sera pas souvent le cas. On constatera en observant ce graphique que, malgré le recours au trimming, la variance reste importante. Par conséquent, décider quel découpage correspond au mieux à ces données n'est pas une mince affaire, étant donné le comportement vraisemblablement irrégulier à 8 classes. On pourrait certainement opter pour 5, 7 ou 9 classes. Réutilisation des low Qini L'un des principaux effets secondaires de l'optimisation d'un découpage est la génération de low Qini pour chaque champ. Il est possible de forcer le logiciel à réutiliser ces estimations lors de la sélection des variables candidates, cela étant d'ailleurs une action par défaut. Le paramètre setacsuserebinlqe contrôle cette action (1 ou 0). Il convient de remarquer que la sélection de variables évalue habituellement les low Qini à plusieurs reprises. Par conséquent, les deux méthodes peuvent fournir des résultats assez différents. En configurant setacsuserebinlqe sur zéro (0), vous obtiendrez généralement des découpages plus stables. Cette configuration est donc conseillée pour les situations très bruyantes. Il convient de remarquer également que le découpage optimisé ne prend pas du tout compte de setacssigmaweight, et ses LQE se présentent toujours sous la forme suivante : μ - σ/ n. Résultats et rapports de la sélection de variables Après l'exécution de la sélection de variables, la commande qsupliftresults peut être utilisée dans le répertoire des résultats pour générer un ou plusieurs rapports. Le rapport principal contient plusieurs sections explicites et d'autres qui feront l'objet d'une explication. Les trois principaux tableaux figurant dans ce rapport sont les suivants : Uplift Guide de l'utilisateur 43

44 Profils uplift Le profil uplift, indiquant la manière dont l'uplift évolue en fonction du champ. La validité de l'échantillon de contrôle, indiquant le degré de stabilité et donc de validité de la division des échantillons traités et non traités. La stabilité des modèles uplift, laquelle permet d'évaluer la stabilité du découpage sur un champ dans un contexte uplift. Les trois rapports peuvent également être générés à partir d'un ensemble de données en utilisant l'option -p de qsupliftplus. La commande se présente sous la forme suivante : qsupliftplus -p params.xml avec, entre autres, les champs objectif, de focus et de partition spécifiés dans le fichier de paramètre params.xml, comme d'habitude (section Exécution de Portrait Uplift à partir de la ligne de commande à la page 18). Le résultat (une fois traité avec qsupliftresults) sera un fichier, reportyyyymmdd-hhmmss.html, où YYYYMMDD est une date à huit chiffres et HHMMSS est un timestamp, par exemple report html, contenant ces trois rapports pour le focus spécifié par le paramètre focusname. Lors de l'exécution d'une sélection de variables, le paramètre setacsprofile peut être utilisé pour contrôler si les rapports générés correspondent au focus d'entrée, au focus de sortie, ou aux deux (en d'autres termes, il vérifie s'ils couvrent toutes les variables candidates ou seulement celles choisies par la sélection de variables pour la modélisation du modèle). Les valeurs de ce paramètre sont both, input, output ou none. Le paramètre peut également rester vide, ce qui équivaudrait à choisir none. Profils uplift Les profils uplift indiquent l'uplift moyen réel comme une fonction de chaque champ. Un exemple est fourni à la Figure 4. Les champs sont énumérés en fonction de leur ordre d'apparition dans le jeu de données. Le profil uplift est utile pour comprendre la variation brute dans l'uplift de chaque champ. Malgré une certaine similitude visuelle (délibérée), remarquez que ce tableau diffère considérablement d'un profil de scoring (section Profils de scoring à la page 60) dans le sens où il indique l'uplift réel, et non l'uplift estimé. Validité de l'échantillon de contrôle (le rapport «mauve») Un exemple de rapport de validité de partition est fourni à la Figure 5. Ce rapport contraste en différentes teintes de mauve les classes dont la proportion d'échantillons traités et non traités est foncièrement différente à la proportion globale d'échantillon traité. (Les champs sont classés par ordre de variance décroissante de la proportion d'échantillons traités et non traités.) La présence de plus d'une ou deux cellules mauve foncé peut refléter un problème ou des biais dans la division d'échantillons traités et non traités, ce qui pourrait invalider les résultats de la modélisation. Ces biais peuvent parfois être corrigés par pondération des cas; reportez-vous à la section Biais de traitement et validité des modèles à la page Portrait Uplift 7.0A

45 Chapitre 4 : Sélection des variables et méthodologie de regroupement Stabilité des modèles uplift (le rapport «Baguette») Un Profil de stabilité des champs est fourni à la Figure 6. La stabilité des modèles uplift est un moyen rapide et efficace d'identifier les découpages problématiques qui devront probablement être ajustés manuellement. Chaque bande de couleur indique l'uplift correspondant à un segment de la population pris au hasard. Cela permet de comprendre le degré de stabilité du découpage par rapport à l'uplift. Pour qu'un découpage soit stable, toutes les bandes figurant dans une même classe doivent être de couleurs similaires (et avoir un uplift comparable). Dans cet exemple, c'est le cas pour la plupart des classes. Cependant, quelques unes d'entre elles présentent un manque de stabilité. Des différences importantes dans une même classe indiquent que le découpage n'est pas stable et qu'il convient peut-être de réduire le nombre de classes. Le paramètre nstabilitypartitions contrôle le nombre de bandes. Bien que sa valeur par défaut soit 3, il admet des valeurs comprises entre 2 et 10. Uplift Guide de l'utilisateur 45

46

47 Chapitre 5 Méthodologie de construction des modèles Dans cette section : Introduction Échantillonnage et stratification Agrégation (bagging) Élagage Exploration automatisée des paramètres Recommandation automatisée des paramètres Reconstruction définitive Contamination du modèle

48 Introduction Introduction Une fois que les variables ont été sélectionnées et découpées convenablement, la phase de construction de modèle peut débuter. Celle-ci commence par la création d'une partition d'apprentissage et de validation (à moins qu'elle n'ait été spécifiée par l'utilisateur), avec une stratification minutieuse visant à réduire le bruit (reportez-vous à la section Échantillonnage et stratification. à la page 48). Dans les données d'apprentissage, un rééchantillonnage permet de créer plusieurs autres jeux de données, avec un modèle d'arbre différent construit sur chaque version et combiné pour créer un modèle agrégé (reportez-vous à la section Agrégation (bagging) à la page 49). Chaque modèle d'arbre est élagué en examinant sa variance sur l'ensemble des jeux de données rééchantillonnés, toujours afin de réduire le bruit (reportez-vous à la section Élagage à la page 50). Les principaux paramètres utilisés pour construire les arbres peuvent être explorés manuellement ou automatiquement, permettant ainsi de peaufiner la performance de la construction du modèle (reportez-vous à la section Exploration automatisée des paramètres à la page 50). Les meilleurs paramètres sont recommandés automatiquement (reportez-vous à la section Recommandation automatisée des paramètres à la page 51). Le modèle définitif est souvent rapporté à l'ensemble du jeu de données de modélisation (sans données de validation) à l'aide des paramètres optimaux (reportez-vous à la section Reconstruction définitive à la page 52). Bien qu'un processus de validation et d'apprentissage rigoureux soit employé, il est toujours important de prendre en compte les sources de contamination potentielles du modèle (reportez-vous à la section Contamination du modèle à la page 52). Échantillonnage et stratification. Dans des situations à haute variance, lorsque les données disponibles pour l'apprentissage sont sur le point d'être divisées à des fins de validation, de test ou d'apprentissage, il est important de s'assurer que les données utilisées pour la construction du modèle soient représentatives de l'ensemble. C'est la raison pour laquelle Portrait Uplift offre un échantillonnage (stratifié). Celui-ci permet de s'assurer que les données sont aussi représentatives que possible. Nous employons la terminologie suivante : Données de validation. Un sous-ensemble aléatoire de toutes les données disponibles n'étant absolument pas utilisées pendant le processus de construction de modèles. Les données de validation sont uniquement utilisées pour présenter la performance sur ces données («hold out»). Données d'apprentissage. Toutes les données non utilisées pour la validation. Les données d'apprentissage sont ensuite redivisées en partitions de test et d'apprentissage rééchantillonnées. (Il y a un risque de confusion réel entre les données d'apprentissage à savoir toutes les données disponibles pour l'apprentissage et les données d'apprentissage rééchantillonnées à savoir ce sous-ensemble des données d'apprentissage utilisées dans la phase de croissance d'un arbre.) Données de test. Sous-ensembles rééchantillonnés des données d'apprentissage utilisées pour évaluer la performance d'un arbre avant élagage. Un exemple est fourni à la Figure Portrait Uplift 7.0A

49 Chapitre 5 : Méthodologie de construction des modèles L'échantillonnage stratifié se base sur un champ de stratification, lequel divise le jeu de données de modélisation en plusieurs segments. Chacun de ces segments doit être équilibré (par un échantillonnage aléatoire de taille exacte) lors de la division apprentissage/validation. Le champ de stratification peut être soit créé automatiquement dans le cadre du processus de sélection de variables, soit fourni par l'utilisateur (reportez-vous à la section stratificationfield (facultatif, mais recommandé) à la page 73). Dans ces deux cas, le champ est habituellement produit avec un calcul tel que segindex() by Objective, Partition, BestPredictor où Objective et Partition correspondent aux champs objectif et de partition respectivement, et où BestPredictor est un champ hautement prédictif du lift. Si l'indice le plus important ne contient pas beaucoup de classes, vous pouvez aussi opter pour stratifier par le prochain indice afin d'obtenir en tout entre 20 et 60 classes (remplies) dans le champ de stratification. Remarque : La stratification est définie par le découpage sur le champ de stratification, et non par les valeurs. Dans la pratique, cela signifie qu'elle devrait généralement être qualitative. Remarque : Si l'on a recours à la pondération (reportez-vous à la section userweightingfield (facultatif) à la page 74), l'échantillonnage aléatoire de taille exacte ne permet pas toujours d'obtenir un échantillon parfaitement équilibré, notamment si les valeurs de pondération présentent des écarts importants. Étant donné que l'échantillonnage procède du «haut vers le bas», il peut s'avérer utile de trier le jeu de données de modélisation par poids inversé, afin de s'assurer que les enregistrements pondérés les plus importants figurent en premier. Agrégation (bagging) Les modèles construits par Portrait Uplift sont «agrégés» dans le sens qu'ils regroupent différents modèles d'arbres individuels. La méthode du «bagging» permet d'«exprimer les données» à des fins de modélisation lorsque celles-ci sont peu nombreuses. À la base, elle consiste à rééchantillonner les données d'apprentissage k fois et à construire k modèles, puis à combiner leurs résultats d'une façon ou d'une autre en faisant généralement des moyennes. Cela permet souvent d'obtenir des modèles plus robustes. Étant donné un jeu de données d'apprentissage T de taille N, un jeu de données rééchantillonné T train de la même taille est construit en traçant à plusieurs reprises un membre aléatoire des données d'apprentissage T, en le plaçant dans la population rééchantillonnée T train et en le replaçant dans T (échantillonnage et remplacement). Cette procédure est répétée N fois. Il est évident que certains enregistrements seront répétés dans T train, et certains seront absents. Différentes versions rééchantillonnées du même jeu de données présenteront différentes fréquences d'enregistrements, encourageant ainsi les modèles construits sur les diverses versions rééchantillonnées à «se concentrer» sur l'association de différentes parties du jeu de données. Portrait Uplift implémente l'échantillonnage et le remplacement en générant des champs de pondération aléatoires. Portrait Uplift utilise une variable nbags pour spécifier le nombre de modèles sur lesquels effectuer des combinaisons. Cette variable est configurée à partir du paramètre utilisateur nbagsvalues (section nbagsvalues (requis) à la page 79). À l'heure actuelle, l'estimation définitive est élaborée en combinant les estimations des arbres individuels par simple moyenne arithmétique. Uplift Guide de l'utilisateur 49

50 Élagage Élagage La méthode d'élagage proposée par Portrait Miner est une variation de l'élagage standard complexe. Elle utilise le Qini comme unité de mesure (inversée) du coût. La méthode standard n'est pas efficace dans les situations à haute variance pour lesquelles Portrait Uplift a été développé. Portrait Uplift implémente une méthode d'élagage basée sur la variance, dans laquelle les divisions qui produisent des nœuds fils présentant une variance uplift prononcée sur un ensemble de copies rééchantillonnées des données d'apprentissage sont élaguées. L'élagage est contrôlé par un ensemble de paramètres, comme indiqué dans la section Paramètres de contrôle d'élagage à la page 80. De ceux-ci, le plus important est la variable prunethreshold, laquelle est définie par le paramètre utilisateur prunethresholdvalues (section prunethresholdvalues (requis) à la page 79). Si les valeurs des seuils d'élagage sont trop petites, des arbres de taille insuffisante seront peut-être générés. Si tel était le cas, le logiciel possède d'autres paramètres pour autoriser un certain nombre de reconstructions. Il gardera d'abord le même seuil d'élagage, puis l'augmentera. Un paramètre autoprune (section autoprune (facultatif ; valeur par défaut : 0) à la page 80) peut être utilisé pour attribuer automatiquement une seule valeur à prunethresholdvalues. Exploration automatisée des paramètres La boucle principale de la construction du modèle uplift se présente sous la forme suivante (en pseudo-code) : for nbags in nbagsvalues: for minpopsize in minpopsizevalues for prunethreshold in prunethresholdvalues: for i = 1, 2,..., nruns: Build Uplift Model où nbagsvalues est un ensemble de valeurs pour nbags, minpopsizevalues est un ensemble de valeurs générées intérieurement pour minpopsize, prunethresholdvalues est un ensemble de valeurs pour prunethreshold et nruns est le nombre de tirages à réaliser pour chaque valeur du nombre d'échantillons bootstrap et du seuil d'élagage. Cela facilite la configuration d'un ensemble de tirages en lot et la réalisation d'une recherche des paramètres correspondant aux tailles de population minimales, aux seuils d'élagage et aux nombres d'échantillons bootstrap. 50 Portrait Uplift 7.0A

51 Chapitre 5 : Méthodologie de construction des modèles Recommandation automatisée des paramètres Portrait Uplift comprend une recommandation des «meilleurs» paramètres de modèle, le cas échéant, dans le fichier out.xml. Les paramètres de modèle recommandés sont sélectionnés comme suit : En l'absence de données de validation, aucun paramètre de modèle n'est recommandé. Sinon, chaque groupe de modèles construit avec les mêmes paramètres est analysé afin de déterminer : La quantité de modèles qui, dans le sous-groupe, passent un test de validité. Par défaut, un modèle est «valide» si le Qini de validation est à moins de ±20 % de sa valeur Qini d'apprentissage. Si les modèles du sous-groupe réussissent un «test de cohérence». Par défaut, un groupe de modèles est cohérent si l'erreur standard des valeurs de validation Qini est inférieure à 20 % de la moyenne de ces valeurs. Si au moins n sur m modèles (où n est 3 et m est 4 par défaut) passent le test de validité et les modèles valides passent collectivement le test de cohérence, le groupe est considéré comme «meilleur» candidat. Si aucun des groupes ne réunit les conditions ci-dessus, aucun paramètre de modèle n'est recommandé. Si un ou plusieurs groupes remplissent les conditions ci-dessus, le groupe contenant les meilleures «valeurs de qualité» (pour les modèles ayant réussi le test de validité) est marqué comme recommandé. Lorsque l'utilisateur fournit des paramètres financiers, comme indiqué plus haut dans le présent document, la «valeur de qualité» utilisée pour évaluer le meilleur modèle correspond à la valeur de profit la plus élevée (dont la moyenne est tirée des modèles ayant réussi le test de validité) calculée en utilisant les paramètres financiers. Ce calcul exclut le point final figurant sur la courbe de profit (ciblage de tous les clients), car cette figure est inutile pour différencier un modèle d'un autre. Si l'utilisateur n'a pas fourni de figures financières, le Qini de validation moyen le plus élevé sert à indiquer le meilleur modèle. Lorsqu'une recommandation est faite, un fichier recommended_params.xml est écrit pour exécuter la construction de modèle définitive à l'aide des paramètres identifiés comme «meilleurs». Ce fichier est écrit dans le répertoire de sortie avec 'out.xml' et il est préparé à l'étape de «reconstruction définitive» (reportez-vous à la section Reconstruction définitive à la page 52) de la manière suivante : nruns = 1 nbagsvalues = [20] tvtrainprop = 1,0 autoprune = 0 prunethresholdvalues = la valeur de seuil issue du meilleur tirage autominpopsize = 0 searchminpopsize = 0 minpopsize = le minpopsize issu du meilleur tirage Uplift Guide de l'utilisateur 51

52 Reconstruction définitive Reconstruction définitive Lors de la modélisation, notre objectif est d'exploiter au maximum les données dont nous disposons en vue de construire le meilleur modèle possible. Nous décidons généralement de sacrifier des données que nous pourrions utiliser pour construire un modèle au profit de l'étape de «validation». Nous procédons de la sorte car nous sommes conscients du danger d'incorporer trop de données à la construction des modèles, ce que nous tâchons éviter. En tentant de construire des modèles dont la performance (notamment la performance Qini) est comparable à celle de nos jeux de données d'apprentissage et de validation, nous réduisons le risque de surcharge, au prix de refuser au processus de construction de modèles l'accès à certaines de nos données limitées. Toutes choses égales par ailleurs, l'utilisation de toutes les données devrait nous permettre non seulement de construire des modèles plus précis, mais aussi de réduire la probabilité d'une surcharge due à l'utilisation excessive de données. Nous suggérons par conséquent d'utiliser une division apprentissage/validation pour un ensemble de tirages dont les paramètres principaux de modélisation sont explorés, notamment le seuil d'élagage et les tailles de population minimales correspondant aux arbres. Suite à l'identification d'un ensemble de paramètres favorable semblant conduire systématiquement à une performance de validation satisfaisante, nous recommandons l'élaboration d'une ou plusieurs constructions définitives contenant généralement un nombre plus important d'échantillons bootstrap (arbres par modèle), avec une proportion d'apprentissage définie sur 100 %, pour éviter la présence de données de validation. Pour ce faire, tous les autres paramètres peuvent rester inchangés, à l'exception de la taille de population minimale, laquelle devrait être augmentée de manière proportionnelle aux données d'apprentissage. Par exemple, si vous avez utilisé la valeur par défaut de la proportion d'apprentissage (66 %), vous devrez multiplier la taille de population minimale par environ 1.5 (100/66). La construction de plusieurs modèles «définitifs» permet tout simplement de vérifier le degré de stabilité de la performance ; l'idéal étant que l'ensemble des modèles définitifs produisent des scores similaires pour la grande majorité des clients. Contamination du modèle Portrait Uplift emploie une méthodologie d'apprentissage et de validation rigoureuse, comme indiqué dans la section Échantillonnage et stratification. à la page 48. Cependant, il vaut quand même la peine de discuter de la contamination de modèle. Cela survient lorsque des données provenant de l'ensemble de validation sont ouvertes pendant la construction du modèle, produisant ainsi des modèles moins robustes (en termes de capacité à généraliser vers des données futures et inconnues). La contamination est souvent subtile et n'entraîne pas de conséquences sérieuses, cependant l'utilisateur doit être conscient de son éventualité et adopter les mesures nécessaires pour la contrecarrer le cas échéant. Voici certaines sources de contamination possibles : Si un modèle est sélectionné parmi des modèles candidats en fonction de sa performance sur les données de validation (méthodologie standard), il y a un certain degré de contamination car le choix du modèle a été influencé par les données de validation. Si seul un petit nombre de modèles est 52 Portrait Uplift 7.0A

53 Chapitre 5 : Méthodologie de construction des modèles comparé de la sorte, cet effet reste mineur. En théorie, une meilleure méthodologie consiste à utiliser des données de validation sur un ensemble de tirages comparables pour sélectionner les paramètres applicables à une construction de modèle, et ensuite à construire un nouveau modèle sur toute la population à l'aide des mêmes paramètres (redimensionnés le cas échéant). Il est recommandé de stratifier non seulement les variables de traitement et de résultats, mais également une variable pilote clé minimum (reportez-vous à la section Échantillonnage et stratification. à la page 48). Une manière naturelle de sélectionner cette variable pilote consiste à explorer les données. Toutefois, puisque le résultat de cette exploration sera de déterminer les variables de stratification à utiliser pour définir la division d'apprentissage et de validation, il existe un élément de contamination incontournable, bien que nous envisageons un effet mineur. En théorie, cependant, il vaut mieux éviter cette procédure si toute la contamination est rejetée. Dans ce cas, les variables pilotes de stratification seront sélectionnées en fonction d'autres critères, voire omises. Techniquement, les variables candidates doivent être sélectionnées uniquement en fonction de leur performance sur les données d'apprentissage. Si toutes les données (apprentissage et validation) sont utilisées pour la sélection de variables, il existe un certain degré de contamination, mais celui-ci est généralement faible. La stratification sur l'indice le plus élevé ne permet pas d'éviter facilement cette contamination mineure. Si l'utilisateur est particulièrement inquiet à ce sujet, il peut opter pour partager les données d'apprentissage et de validation dans des fichiers séparés et utiliser seulement le fichier d'apprentissage pour la sélection de variables. Un fichier combiné avec un champ d'apprentissage et de validation peut alors être utilisé conjointement avec le paramètre fixedtrainvalidatefield pour permettre au logiciel d'émettre des rapports sur la performance d'apprentissage et de validation. Uplift Guide de l'utilisateur 53

54

55 Chapitre 6 Méthodologie d'évaluation des modèles Dans cette section : Introduction Interprétation des valeurs Qini (Q et q0) Interprétation des courbes de Qini Résultats et rapports

56 Introduction Introduction Les principales données de sortie issues de la construction de modèle de Portrait Uplift sont les suivantes : Les statistiques Qini (pour les données d'apprentissage, les données de validation et les données combinées, ainsi que pour un modèle «champion», le cas échéant) ; La courbe de Qini (un graphique des gains uplift) ; Un rapport du modèle, notamment une représentation graphique de celui-ci ; Les clients évalués ; Le FDL représentant chaque modèle agrégé, stocké dans le plongement XML de FDL de Portrait, comme utilisé par l'outil de scoring qsderive. Les graphiques et les valeurs Qini sont expliqués en détails dans un document séparé. Le présent document s'intéresse spécifiquement à l'interprétation des valeurs Q et q 0. Interprétation des valeurs Qini (Q et q 0 ) Les coefficients de Qini Q et q 0 sont des mesures représentant le degré d'efficacité avec lequel le modèle classe les clients en fonction de l'uplift. Étant donné que l'on ne connaît pas l'évolution réelle du résultat correspondant à chaque client, cela ne peut être évalué que sur une base segmentée. La valeur Qini réelle Q oscille entre 100 % (pour un modèle parfait) et zéro pour un modèle aléatoire, et jusqu'à -100 % pour un modèle parfait inversé. En raison de la possibilité d'un uplift négatif dans certains segments, le modèle théoriquement optimal peut engendrer plus de réponses du ciblage d'une sous-population que du ciblage de toute la population. Les modèles réels sont évalués en divisant la zone couverte par leur courbe de Qini et leur diagonale par la zone comparable du modèle optimal. En conséquence, les valeurs Qini réelles applicables aux modèles uplift effectifs de haute qualité sont généralement très faibles car, bien que des effets négatifs puissent parfois se produire dans la réalité, ils surviennent généralement moins souvent que ce qui est théoriquement possible. Dans la plupart des cas, Portrait Uplift rapporte deux valeurs Qini Q et q 0. La valeur q 0 est calculée de la même façon que la valeur Q, sauf qu'au lieu de diviser par la zone couverte de l'optimum théorique, la valeur q 0 divise par la courbe uplift parfaite en partant du principe qu'il n'y a pas d'effets négatifs. (C'est la raison pour laquelle la valeur q 0 est parfois appelée le «Qini downlift zéro» et que l'on utilise l'indice 0.) Bien que les valeurs de q 0 soient comparables aux valeurs de Gini classiques (ROC), elles présentent une différence importante : s'il y a des effets négatifs sur une partie de la population, les valeurs q 0 peuvent excéder 100 % (et chuter sous -100 %). Lorsque l'effet global d'un traitement sur l'ensemble de la population est très faible (proche de zéro), la valeur q 0 devient très grande. Si l'uplift global est exactement zéro, q 0 devient habituellement infini. Dans ce cas, la valeur q 0 rapportée sera zéro, donc insignifiante. C'est l'une des raisons pour lesquelles Q, la mesure Qini intégrale, est aussi rapportée. 56 Portrait Uplift 7.0A

57 Chapitre 6 : Méthodologie d'évaluation des modèles Il est important de noter que, puisque la valeur q 0 intègre effectivement l'uplift global à son dénominateur, même des changements mineurs dans l'uplift global peuvent avoir un effet majeur sur les tailles des valeurs Qini, lesquelles sont difficiles à comparer entre problèmes. Interprétation des courbes de Qini La courbe de Qini est expliquée en détails dans un document d'accompagnement intitulé «Qini : la mesure de performance pour les modèles uplift». Cependant, certaines propriétés importantes sont passées en revue ci-dessous. Une courbe des gains pour l'uplift La courbe de Qini est essentiellement un tableau des gains pour l'uplift. Dans un tableau des gains standard, la population est d'abord classée (triée) de «meilleure» à «pire» en se basant sur certains modèles. L'axe horizontal indique ensuite la proportion de la population ciblée, en partant du principe que les «meilleurs» individus sont ciblés en premier (sur la gauche). L'axe vertical indique ensuite une estimation de l'uplift total cumulatif (normalisé) atteint en ciblant une population. Il est essentiel de comprendre que cet uplift est toujours quantifié par rapport à l'ensemble de la population. Axe vertical pour les résultats binaires (pc pt) Dans un modèle binaire, l'uplift cumulatif est exprimé en pourcentage de la population totale en «points de pourcentage» de l'uplift. À titre d'exemple, imaginez un problème comprenant une population de individus et dont la réponse est un achat. Le taux d'achat global dans le groupe de contrôle est de 5 %. Un point à (30 %, 10 %) sur la courbe de Qini veut donc dire que si les meilleurs 30 % de la population sont ciblés, il y aura un uplift de 10 points de pourcentage sur l'ensemble de la population, c'est-à-dire un taux d'achat global de 5 % + 10 % = 15 % de = , une croissance de achats. Cela ne veut pas dire un uplift de 10 % pour 30 % de la population, ou seulement achats supplémentaires. Axe vertical pour les résultats continus (photp) De même, dans le cas des résultats continus, comme le volume d'achat, l'axe vertical indique l'uplift moyen per capita de la population totale. Un point sur la courbe de Qini à (30 %, 35 $) veut dire que si les meilleurs 30 % de la population étaient ciblés, il y aurait un uplift de 35 $ per capita de la population totale. Si une population totale était de et le volume d'achat moyen dans le groupe de contrôle était de 100 $, le revenu total dans le cas où personne n'était ciblé serait donc de100 $ = $. Si 30 % étaient ciblés, la valeur d'achat moyenne augmenterait à 100 $ + 35 $ = 135 $ et le revenu total s'élèverait à 135 $ = $, une hausse de 3,5 millions de $. Uplift Guide de l'utilisateur 57

58 Courbe de Qini comme outil diagnostic Là encore, il ne s'agit pas d'une croissance de 35 $ per capita pour 30 % de la population, ou 1,05 million de $. Les étiquettes par défaut de l'axe vertical pour un résultat continu comprennent (photp), sigles désignant en anglais «per capita de la population totale». Courbe de Qini comme outil diagnostic Lors de l'évaluation et la comparaison de la performance des modèles, il est fortement recommandé d'examiner la courbe de Qini et la valeur q 0. Parmi les propriétés des modèles robustes, citons notamment : Monotone ou à pic unique. Dans l'idéal, la courbe de Qini devrait évoluer vers un seul sommet (ou descendre vers un seul creux). Si ce sommet (ou ce creux) n'est pas à 100 %, il devrait alors descendre (ou s'élever) à la valeur 100 % à 100 %. Bien que des variations mineures soient acceptables, d'importants écarts indiquent généralement un modèle instable. Proximité des courbes d'apprentissage et de validation. Le but est bien sûr que les courbes de Qini se rapprochent pour les ensembles d'apprentissage et de validation. Parmi un choix de deux modèles, il est généralement plus sûr de sélectionner celui présentant une meilleure correspondance entre la performance de validation et d'apprentissage que le modèle ayant une meilleure performance absolue. Malgré ce conseil d'ordre général, la performance de validation est généralement moins importante avec une modélisation Portrait Uplift qu'avec une modélisation classique, et ce pour les raisons suivantes : 1. L'uplift est un effet de second ordre, difficile à mesurer avec exactitude et encore plus difficile à modéliser ; 2. Portrait Uplift est généralement utilisé dans des cas spécifiques où les volumes de données sont limités, ce qui rend la validation encore moins fiable ; 3. Les jeux de données de validation sont souvent plus petits que les jeux de données d'apprentissage, ce qui multiplie naturellement les chances d'erreur. Seuil de sélection. En principe, si le but est simplement de maximiser le nombre total de «réponses» progressives, le seuil idéal se situe au maximum (ou minimum) du graphique. Cependant, couper au maximum (ou minimum) n'est pas toujours l'option la plus sûre. Il convient de rappeler qu'en règle générale, le classement effectué par les modèles de données autres que les données d'apprentissage aura tendance à être plus faible que le classement des données d'apprentissage. Par conséquent, il conviendra (s'il n'y a pas d'effets négatifs) de cibler plus de personnes que le chiffre estimé par le modèle en vue d'atteindre l'uplift cumulatif réel le plus élevé. Si le facteur coût entre aussi en ligne de compte, le seuil de sélection est évidemment plus complexe. Ces remarques ne sont que des directives, car la meilleure ligne de conduite dépend en grande mesure des spécificités de chaque problème et situation. 58 Portrait Uplift 7.0A

59 Chapitre 6 : Méthodologie d'évaluation des modèles Résultats et rapports Les résultats issus d'un ensemble de tirages de construction de modèles sont stockés dans un fichier XML généralement appelé out.xml. Un traitement ultérieur permet ensuite de convertir ce fichier XML en un ensemble de graphiques de Qini sous fichier PDF, ainsi qu'un ensemble de rapports de modèles sous fichier HTML. Il est aussi possible de créer un rapport Excel (uniquement pour la sélection de variables). Si l'exécution a lieu à partir de Portrait Miner, les deux rapports sont générés automatiquement, la version Excel étant affichée. Si l'exécution a lieu à partir de la ligne de commande, les rapports sont produits en exécutant la commande qsupliftresults (rapport HTML) ou la commande uogenreport (rapport Excel). Dans le cas de la création de rapports Excel, le nombre de modèles et de jeux de paramètres pris en charge par le framework de reporting est limité. Une limite de 64 ensembles de paramètres et de 320 modèles est imposée. La documentation ci-dessous décrit le processus de reporting HTML. Bien que les rapports Excel contiennent des informations similaires, ils présentent des tableaux financiers et des figures supplémentaires qui reposent sur les paramètres ROI fournis lors de l'exécution de la sélection de variables. Toutefois, les paramètres financiers (les cellules surlignées en jaune) figurant dans les feuilles de calculs Excel peuvent également être édités «après coup», après quoi les tableaux seront automatiquement actualisés. Le fichier PDF contient des graphiques de Qini qui ressemblent à celui-ci : Uplift Guide de l'utilisateur 59

60 Profils de scoring Le rapport de modèle contient un nombre de tableaux qu'il convient d'expliquer. Profils de scoring Les rapports de modèle contiennent un profil de scoring (Figure 8). Celui-ci consiste en un tableau présentant tous les champs utilisés dans l'arbre agrégé et triés par ordre d'importance. Le chiffre figurant dans chaque cellule indique l'uplift moyen estimé (le «score») attribué aux enregistrements (clients) dans une classe spécifique pour le champ en question, tandis que le code de couleur (échelle de «carte thermique») indique la même chose (la légende de cette échelle figure en haut du rapport). Dans cet exemple, la variable la plus importante est BehaviourSeg et les scores moyens les plus élevés sont donnés aux clients Low et SMS (environ +11.6% chacun), alors que le score moyen le plus faible est donné au segment High (-8.94 %). Dans l'échelle, le jaune correspond à l'uplift global moyen de la population ; le rouge est au-dessus de la moyenne, tandis que le bleu se situe en dessous. Les classes de petite taille et celles contenant des valeurs uplift indéterminées sont grisées. Il est important de remarquer que le profil de scoring décrit l'effet du scoring en utilisant le modèle, mais ne définit aucunement le modèle. La valeur figurant dans une cellule, par exemple % dans le segment High, ne veut pas dire qu'un client qui se trouve dans le segment High verra son score réduit de ce chiffre. Cela veut plutôt dire que l'uplift moyen estimé attribué à tous les clients de ce segment est de %. Validité de l'échantillon de contrôle (le rapport «mauve») La validité de l'échantillon de contrôle issue de la construction de modèle est identique à celle de la sélection de variables (reportez-vous à la section Validité de l'échantillon de contrôle (le rapport «mauve») à la page 44). 60 Portrait Uplift 7.0A

61 Chapitre 6 : Méthodologie d'évaluation des modèles Dans le cas des rapports Excel, le nombre de classes par champ affiché dans la page de validité de l'échantillon de contrôle et dans le profil de scoring (par modèle) est limité à 100. Si un champ contenant plus de 100 classes est utilisé dans le modèle, ce champ en particulier sera accompagné dans ces deux rapports d'un message d'avertissement. Pondérations de la segmentation À chaque fois que Portrait Uplift termine la construction d'un modèle agrégé, il rapporte quelques informations sur la performance Qini q 0 ainsi que sur le degré d'importance de chaque champ utilisé, par exemple : Nom du champ u1 n12 c11 u5 c10 Importance Ces valeurs sont calculées de la manière suivante. Pour un seul arbre, on attribue à un champ utilisé pour diviser des nœuds au ne niveau un poids de 1/2 n-1, autrement dit le poids de la division supérieure est de 1, le poids des divisions au prochain niveau est de 0,5 et ainsi de suite. Les champs peuvent atteindre un poids de plus d'un en figurant au premier niveau et à des niveaux inférieurs de l'arbre, les poids étant additionnés sur l'ensemble de l'arbre. Avec un modèle agrégé contenant N arbres, la moyenne des poids est simplement établie sur l'ensemble des modèles. Uplift Guide de l'utilisateur 61

62

63 Chapitre 7 Directives de paramétrage Dans cette section : Introduction Seuil d'élagage Nombre maximum de tentatives par arbre Niveaux de division des arbres Tailles de population minimales Nombre minimum de nœuds par arbre Variables candidates et découpages Nombre d'échantillons bootstrap (bags) Nombre de tirages Champ de stratification

64 Introduction Introduction Bien que Portrait Uplift automatise la plupart du processus consistant à sélectionner des paramètres de modélisation uplift de bonne qualité, il est parfois possible, dans le cadre de certaines applications, d'améliorer ces définitions par défaut. Il est difficile de fournir des instructions générales pour améliorer la configuration des paramètres, car ceux-ci dépendent en grande mesure du problème abordé et de la taille et la structure des données disponibles. Nous fournissons ci-dessous des règles et des conseils généraux qui devraient s'avérer utiles comme point de départ pour l'exploration. Les paramètres ayant probablement le plus d'impact sont les suivants : Le seuil d'élagage ; Le nombre maximum de tentatives par arbre ; Les niveaux de division des arbres ; Les tailles de population minimales ; Le nombre minimum de nœuds par arbre ; Les variables candidates et les découpages ; Le nombre d'échantillons bootstrap (arbres par modèle agrégé). Le nombre de tirages (à savoir le nombre de répétitions aléatoires avec chaque ensemble de paramètres) Le champ de stratification Ces paramètres interagissent de façon évidente, comme indiqué ci-dessous. Seuil d'élagage Le seuil d'élagage contrôle les concessions entre la taille de l'arbre (et donc l'exactitude potentielle) et la stabilité des estimations. Lorsque l'utilisateur détermine une taille d'arbre minimale, il convient généralement d'élaguer de manière agressive pour se rapprocher de cette taille. Ainsi, dans la pratique, nous estimons qu'une bonne approche consiste à utiliser le seuil d'élagage le plus bas qui n'entraînera pas le rejet d'une quantité d'arbres excessive du fait de ne pas avoir assez de nœuds après l'élagage. Il est bien souvent efficace que 50 à 75 % des arbres construits soient rejetés. Les informations relatives à l'écart type de l'uplift rapportées par le logiciel permettent de configurer convenablement ce paramètre. Dans la pratique, pour les problèmes binaires, des valeurs comprises entre 0,5 % et 3.0 % s'avèrent généralement plus efficaces, bien que des problèmes comprenant des valeurs minimum de 0,1 % et maximum de 5 % aient aussi eu de bons résultats. Pour les problèmes continus, il est difficile de spécifier une valeur numérique typique, car elle dépend de l'envergure et de la variance des données. Une façon d'avoir une idée de la plage de variation sous-jacente des données consiste à regarder les tabulations croisées décomposant les données par un champ aléatoire et plusieurs variables candidates arbitraires. Un seuil aux valeurs nettement inférieures à la plage naturelle de variation indiquée ici aura peu de chances de réussite. 64 Portrait Uplift 7.0A

65 Chapitre 7 : Directives de paramétrage Nombre maximum de tentatives par arbre Ce nombre est évidemment lié au seuil d'élagage. Des seuils d'élagage peu élevés nécessitent généralement un nombre de tentatives plus important. Bien que la valeur par défaut soit 2, il convient souvent, si l'élagage n'est pas excessif, d'élever cette valeur à 5. Niveaux de division des arbres Les valeurs de ce paramètre varient de 3 à 5, 4 étant la valeur la plus courante. Des arbres plus profonds peuvent permettre des divisions plus «instables», cependant cela entraînera souvent une surcharge, à moins que ce paramètre ne soit combiné avec une taille de population minimale afin de limiter le nombre total de feuilles. Tailles de population minimales La taille de population minimale oblige les nœuds terminaux des arbres à avoir au moins la quantité d'enregistrements de traitement et de contrôle spécifiée (pondérée). Par conséquent, c'est la population la plus petite (habituellement le groupe de contrôle) qui active la contrainte. Force est de constater que la taille de population minimale interagit avec la profondeur de l'arbre et le nombre minimum de nœuds par arbre. Pour un arbre comptant n niveaux de divisions (n+1 niveaux de nœuds), la population de feuille moyenne sera 1/2 n de la population totale, bien qu'il puisse bien sûr y avoir un écart considérable en raison de divisions inégales. Concrètement, supposez que nous ayons une population de contrôle de individus, avec une division apprentissage/validation égale (tvtrainprop = 50 %). Si nous envisageons 3 niveaux de divisions, nous aurons donc (potentiellement) 8 nœuds terminaux, et la population de contrôle moyenne se situera juste en dessous des individus. Inversement, pour explorer des divisions très asymétriques, où nous pourrions diviser une seule classe avec peut-être 20 % de la population jusqu'à trois fois, nous devrons permettre la possibilité de seulement 1/5 3 de la population (225) à un nœud terminal. Cela n'étant sans doute pas assez, nous déciderons peut-être de choisir une valeur intermédiaire. Là encore, il est difficile de formuler des directives concrètes. Cependant, il est rare de définir des tailles de population minimales inférieures à 500, celles-ci comprenant généralement entre et individus. Nous recommandons généralement de commencer par la recommandation de taille minimum générée automatiquement par Portrait Uplift avec le paramètre autominpopsize (reportez-vous à la section autominpopsize (facultatif ; valeur par défaut : 1) à la page 75), et d'évoluer à partir de là. Uplift Guide de l'utilisateur 65

66 Nombre minimum de nœuds par arbre Nombre minimum de nœuds par arbre Il va sans dire que ce nombre interagit fortement avec le seuil d'élagage, ainsi qu'avec le nombre de tentatives effectuées par le logiciel avec chaque seuil d'élagage avant de l'augmenter. Puisque nous traçons la moyenne sur un ensemble d'arbres, il est souvent possible d'utiliser des arbres moins profonds dans Portrait Uplift qu'avec une approche non agrégée. Dans la pratique, nous attribuons généralement à ce paramètre une valeur de 4, bien que des valeurs comprises entre 2 et 8 soient couramment utilisées. Variables candidates et découpages Les méthodes de construction d'arbres conventionnelles comprennent l'évaluation des divisions entre chaque paire de valeurs de données pour chaque champ et l'utilisation de tous les champs disponibles. Cependant, dans le cadre de Portrait Uplift, il existe de nombreux avantages à limiter le nombre de divisions à inclure. Le souci de limiter les variables à inclure et le nombre de divisions par variable vient du problème de divisions aberrantes, lesquelles sont comparables aux problèmes provenant d'autres types d'essais répétés. De même, si l'on teste un grand nombre de divisions pour des centaines de champs, les chances d'obtenir une corrélation aberrante deviennent assez importantes. Ces divisions aberrantes peuvent éclipser des divisions bien plus stables et utiles. Bien que l'élagage parvienne à éliminer certaines divisions instables, ces dommages sont irréversibles car l'algorithme de construction d'arbres ne reconstruit pas une division après son élimination. C'est la raison pour laquelle nous recommandons généralement de réduire le nombre de champs à un nombre raisonnable (par ex. 10 à 25). C'est aussi la raison pour laquelle ce logiciel offre une sélection de variables. De même, nous recommandons d'accorder une attention particulière aux découpages. En général, il est préférable de procéder au découpage de populations de taille égale, car elles présentent moins de petites classes. En outre, nous recommandons de sélectionner des découpages présentant un uplift raisonnablement stable sur l'ensemble du découpage. Nombre d'échantillons bootstrap (bags) Il s'agit d'un paramètre facile à recommander, car il ne dépend pas tellement du problème. Nous explorons habituellement des paramètres en utilisant 5 à 10 échantillons bootstrap, puis construisons des modèles définitifs avec 20 échantillons. 66 Portrait Uplift 7.0A

67 Chapitre 7 : Directives de paramétrage Le nombre d'échantillons (arbres par modèle) est sujet à la loi des rendements décroissants. Nous ne voyons une utilité marginale qu'au-delà de 10 échantillons, et une utilité marginale importante qu'au-delà de 20. Nombre de tirages Lors de l'exploration des paramètres, nous répétons cet ensemble généralement 5 fois, mais en principe n'importe quelle valeur entre 1 et environ 20 est ici raisonnable. Champ de stratification Comme souligné dans la section Échantillonnage et stratification. à la page 48, une bonne stratification s'avère très utile. Bien que le champ de stratification puisse posséder de nombreuses classes, nous ne recommandons pas habituellement un nombre très supérieur à 100. Dans Portrait Uplift, le champ de stratification doit être découpé avec une seule valeur par classe. Si ce n'est pas le cas, la stratification ne sera pas appliquée correctement. Dans la pratique, la meilleure façon d'y parvenir est de faire de ce champ un champ qualitatif. Si le champ spécifié n'est pas qualitatif, Portrait Uplift émettra un avertissement et ajoutera lui-même une interprétation qualitative. Cependant, ce changement ne sera pas resauvegardé dans le focus d'entrée. Uplift Guide de l'utilisateur 67

68

69 Chapitre 8 Référence des paramètres Dans cette section : Introduction Paramètres de description des focus Paramètres de spécifications de l'arbre Paramètres généraux Paramètres de sélection des variables Paramètres généraux des ensembles Paramètres de contrôle d'élagage Paramètres de génération de nombres aléatoires / répétition de tirages Paramètres de rapports et de sorties Paramètres RoI Paramètres d'informations Exemple de fichier de paramètre intégral

70 Introduction Introduction Les paramètres sont fournis à Portrait Uplift par le biais d'un fichier XML dont le nom figure dans la ligne de commande. Un fichier modèle au format approprié (params.xml) sera généré si Portrait Uplift est exécuté sans aucun argument. Le XML présente la structure générale suivante (reportez-vous à la section Exemple de fichier de paramètre intégral à la page 85 pour consulter un exemple de fichier de paramètre complet) : <?xml version="1.0" encoding="utf-8"?> <params class="globals"> <fd class="focusdescription">  <focusname>foci/retentiondata.ftr</focusname> <modeltype>binary</modeltype>... </fd> <treespec class="treespec">  <minpopsize>1000</minpopsize> <nlevels>4</nlevels>... </treespec>  <nbagsvalues>[5]</nbagsvalues> <nruns>1</nruns>... </params> L'ordre dans lequel les paramètres et les bloc-paramètres figurent dans le fichier n'est pas important. Certains sont requis, d'autres sont facultatifs, tout cela est indiqué plus bas dans la section de description des paramètres individuels. Il convient que les utilisateurs remarquent qu'omettre un paramètre facultatif (lorsque celui-ci n'apparaît pas du tout dans le fichier) n'est pas pareil que l'inclure en ne lui attribuant aucune valeur. En effet, le logiciel attribue au paramètre omis une valeur par défaut, tandis que la valeur d'un paramètre vide correspond à néant. Il est fortement recommandé que, si le fichier XML est modifié, un éditeur compatible avec XML soit utilisé. Portrait recommande GNU-Emacs 21.3 avec le mode nxml de James Clark. Si un éditeur compatible avec XML n'est pas utilisé, l'utilisation d'un navigateur Web (Internet Explorer ou Firefox) peut s'avérer utile pour valider la bonne formation du XML de sortie. En général, les paramètres binaires (oui/non ou vrai/faux) admettent les valeurs numériques 1 (pour oui/vrai) et 0 (pour non/faux) dans Portrait Uplift. Dans la plupart des cas, toute chaîne remplie sera aussi considérée comme vrai (1) et toute chaîne vide sera considérée comme faux (0). L'utilisation de 1 et de 0 est fortement recommandée. 70 Portrait Uplift 7.0A

71 Chapitre 8 : Référence des paramètres Paramètres de description des focus Sauf indication contraire, les paramètres suivants figurent entre les balises <fd>... </fd>. Les paramètres setacsfocusname et allowoverwrite, lesquels apparaissent également entre ces balises, sont expliqués dans les sections setacsfocusname (facultatif) à la page 76 et allowoverwrite (facultatif ; valeur par défaut : 0) à la page 77. focusname (requis) Le nom du focus que Portrait Uplift doit utiliser pour construire des modèles. Il peut s'agir d'un chemin d'accès absolu (commençant par / sur UNIX ou par un identificateur, tel que c: sur Windows) ou relatif au répertoire (dossier) dans lequel le programme est exécuté. Remarque : Remarque : Ce paramètre est également utilisé par sélection de variables comme nom du focus à écrire si la valeur de <savebestacs> correspond à 1. Les chemins d'accès Windows peuvent être spécifiés en utilisant le séparateur Windows \, cependant Portrait Uplift convertira toujours ces caractères en barres obliques (que Windows comprend également). Portrait Uplift utilise toujours le sous-fichier par défaut du focus. Il convient d'éviter l'utilisation d'espaces dans les noms des répertoires et des fichiers, car ils posent souvent problème. Champs Type de modèle et Résultats : Présentation Portrait Uplift prend en charge trois types de modèles : Modèle à résultat binaire (binary). Il s'agit du type de modèle utilisé pour certains problèmes, tels que l'attrition et la rétention, la probabilité d'achat, etc. Ici, le modèle uplift reflète l'évolution des résultats suite au traitement, par exemple la diminution de la probabilité d'une perte de clientèle, l'augmentation de la probabilité de réponses, etc. Modèle à résultat discret continu ou ordonné (real). Il s'agit du type de modèle utilisé pour les problèmes dont l'objet est de stimuler le niveau ou la taille de l'activité des clients, par exemple accroître le taux d'achat de la clientèle. Ici, le modèle uplift reflète directement l'évolution des valeurs des résultats suite au traitement. Modèle à deux étapes (twostage). Ce type de modèle est utilisé lorsque le but d'une campagne est d'augmenter le rythme de l'activité de la clientèle (fréquence d'achat, par exemple) ou le niveau d'activité en promouvant la fréquence d'achat ou d'utilisation. Ici, le modèle uplift sert à estimer l'augmentation de la fréquence ou de la probabilité des résultats. Ce calcul est combiné à une estimation (fournie) du volume des résultats (outcomesizeactual), le cas échéant. Selon le type de modèle construit, jusqu'à trois champs de résultats peuvent être fournis : objectivefield toujours requis : l'issue (cible, variable dépendante) de l'analyse ; Uplift Guide de l'utilisateur 71

72 modeltype (requis) outcomesizeactual utilisé uniquement avec des modèles à deux étapes en vue de comparer les prédictions des modèles aux résultats réels. Il s'agit de la taille réelle de l'effet sur chaque individu, par exemple les dépenses réelles après la campagne ; outcomesizeestimate utilisé uniquement avec les modèles à deux étapes. Cette estimation de la taille des résultats est combinée (par multiplication) à l'estimation de l'évolution de la probabilité des résultats découlant du modèle uplift. Cela permet de prédire l'évolution de l'espérance mathématique de la taille des résultats. À savoir : E(outcomeSize) = U(outcomeProbability) outcomesizeestimate où U est l'estimation produite par le modèle uplift. Si aucune estimation (séparée) de la taille des résultats n'est disponible, il est bien évidemment possible, si elle est connue, d'utiliser la taille réelle des résultats. Par exemple, dans une application de rétention, l'estimation des résultats et les valeurs réelles correspondent parfois au revenu annuel du client. Cela se traduirait par le traçage d'une courbe Qini représentant un uplift du revenu annuel retenu et non des quantités de clients retenus, en partant du principe que les revenus futurs seront semblables aux revenus historiques. (D'une autre perspective, un modèle trivial est utilisé pour prédire que le revenu de l'année prochaine d'un client sera identique à celui de cette année.) modeltype (requis) Valeurs possibles : auto binary real twostage Le paramètre peut avoir une valeur auto au lieu d'un type de modèle spécifique. Dans ce cas, le type de modèle (binary) ou (real) est déterminé au moment de l'exécution et en fonction des données et de l'objectif. Lors de l'exécution, le type de modèle calculé remplace la valeur auto dans le fichier de paramètre de sortie. objectivefield (requis) Le champ indiquant le résultat à modéliser. Il peut s'agir d'un champ binaire contenant les valeurs 0 et 1 ou d'un champ numérique comprenant n'importe quelles valeurs. S'il est utilisé dans un modèle à deux étapes, ce champ doit avoir une valeur de 0 ou de 1 lorsque outcomesizeactual n'est pas zéro. outcomesizeactual (facultatif) Le champ indiquant la taille des résultats correspondant à chaque client. Comme indiqué plus haut, il n'est utilisé qu'avec des modèles à deux étapes. outcomesizeestimate (requis pour les modèles à deux étapes) Le champ indiquant la taille estimée des résultats correspondant à chaque client. Comme indiqué plus haut, il n'est utilisé qu'avec des modèles à deux étapes. Il s'agit généralement du résultat d'un modèle de régression (ou similaire) sur le sous-ensemble de clients dont les tailles de résultats ne sont pas zéro. 72 Portrait Uplift 7.0A

73 Chapitre 8 : Référence des paramètres Autrement dit, il s'agit de l'estimation conditionnelle de la taille des résultats étant donné un résultat autre que zéro. partitionfield (requis) Il s'agit d'un champ binaire. Le chiffre 1 correspond aux personnes ayant reçu le traitement, tandis que 0 correspond à celles ne l'ayant pas reçu. Il est fortement recommandé de ne pas inverser ce champ, car cela produit souvent une grave confusion. Si les données contiennent un champ de partition inversé, un nouveau champ de partition peut être dérivé à l'aide de FDL. Si le champ existant est appelé Inversé, un FDL comparable aux suivants peut être utilisé 1 - Reversed if Reversed = 1 then 0 else 1 Reversed = 0 Si le champ contient des valeurs de chaîne, comme par exemple traité et contrôle, alors il convient d'utiliser l'une des expressions FDL suivantes : if StringPartition = "treated" then 1 else 0 StringPartition = "treated" fixedtrainvalidatefield (facultatif) Valeurs possibles : Nom d'un champ d'apprentissage/validation existant Néant (dans ce cas, le système génère automatiquement une division apprentissage/validation) La population est répartie entre un échantillon d'apprentissage (T) et un échantillon de validation (V). L'échantillon de validation n'est pas du tout utilisé durant la phase de construction du modèle, mais il est utilisé pour présenter les résultats du modèle sur les données de validation (ainsi que sur les données d'apprentissage). En général, le système calcule une division apprentissage/validation à l'aide d'un échantillonnage stratifié, puis sélectionne plusieurs divisions applicables aux différentes constructions de modèle. Toutefois, l'utilisateur peut éventuellement réaliser une partition préalable des données en échantillons d'apprentissage et de validation. Dans ce cas, ce paramètre précise le nom du champ utilisé. Deux valeurs exactement doivent figurer dans le champ T pour les données d'apprentissage et V pour les données de validation. Remarque : Si l'utilisateur décide de partager les données, il est important que les deux jeux de données soient répartis de manière homogène. stratificationfield (facultatif, mais recommandé) Le champ à utiliser pour la stratification de la division validation/apprentissage. Uplift Guide de l'utilisateur 73

74 championmodelfield (facultatif) La sélection de variables produira le champ de stratification automatiquement si le champ applicable à son nom n'est pas déjà présent dans le focus. Si fixedtrainvalidatefield est vide, le système produira sa propre division validation/apprentissage. Ce faisant, il peut stratifier la partition par rapport à un champ fourni. Cela signifie que la proportion d'enregistrements dans les partitions d'apprentissage et de validation seront identiques 2 sur l'ensemble des différentes valeurs du champ fourni. Cela permet de s'assurer que l'échantillon d'apprentissage est représentatif de l'ensemble global des données et de diminuer la probabilité d'incorporer des données non représentatives. Il est conseillé que le champ fourni synthétise au moins le champ partitionfield, le champ objectivefield et les classes du champ outcomesizeactual, le cas échéant. Dans l'idéal, il devrait aussi synthétiser au moins un champ de segmentation principal qu'il s'agisse d'un puissant pilote de l'uplift, si celui-ci est connu, ou d'un champ important pour distinguer différents types de clients. Dans Decision Studio, un calcul FLD convenable serait par exemple : segindex () by Partition, Objective, TopPredictor Ce champ devrait être regroupé en valeurs individuelles. Il faut généralement s'attendre à ce que ce champ de stratification comprenne 10 à 100 classes (quatre minimum). championmodelfield (facultatif) Le nom d'un ou de plusieurs champs contenant, à titre comparatif, le score ou les scores d'autres modèles («champion»). S'il y en a plus d'un, ils doivent être séparés par des espaces ou des virgules. Il n'est pas rare que l'utilisateur cherche à comparer la performance d'un modèle uplift à celle d'un autre modèle. Dans ce cas, un modèle champion peut être généré. Il sera accompagné d'une courbe Qini lui correspondant. Remarque : Les modèles champions n'étant pas habituellement construits sur la même partition d'apprentissage que celle du modèle uplift, l'utilisateur devra comparer les modèles attentivement. Dans certains cas, les données de validation ne représenteront pas les données «confirmées» du modèle champion, ce qui devra être pris en compte lors de la comparaison. userweightingfield (facultatif) Un champ à utiliser pour pondérer les enregistrements relatifs à la sélection des variables et à la construction du modèle uplift. Cela ne reproduit pas physiquement les enregistrements ; il s'agit d'une indication à Portrait Uplift pour traiter chaque enregistrement figurant dans le jeu de données comme s'il apparaissait (éventuellement sous forme fractionnelle) un nombre de fois égal à la valeur de ce champ. Ce type de pondération est généralement utilisé pour rectifier les divers types de biais pouvant apparaître dans l'ensemble des données de modélisation. Plusieurs scénarios figurent dans la section Biais de traitement et validité des modèles à la page À proprement parlé, les proportions seront le plus similaires possible étant donné les contraintes de nombres entiers, et auront des espérances mathématiques identiques. 74 Portrait Uplift 7.0A

75 Chapitre 8 : Référence des paramètres Remarque : Les niveaux d'importance augmentant avec la quantité, la méthodologie de modélisation n'est pas invariante à la mise à l'échelle constante du champ de pondération. Par exemple, un poids évolutif important pourrait faire que les occurrences d'enregistrement unique paraissent relativement plus importantes qu'avec un poids unitaire. yqiniaxis (facultatif ; valeur par défaut : Uplift hiérarchique (pc pt)) (Ce paramètre apparaît dans la section des paramètres généraux.) Ce paramètre définit le texte de l'axe vertical du graphique de Qini. Dans le cas de résultats continus, nous recommandons d'intégrer le qualificatif «(photp)», sigles désignant en anglais «per capita de la population totale». Cela est expliqué dans la section Axe vertical pour les résultats continus (photp) à la page 57. Paramètres de spécifications de l'arbre Sauf indication contraire, ces paramètres figurent entre les balises <treespec>... </treespec>. minpopsize (facultatif ; valeur par défaut : 2000) Ce paramètre spécifie la taille minimale de la population d'apprentissage à n'importe quel nœud de l'arbre. Les divisions qui produiraient des populations traitées ou non traitées insuffisantes sont écartées. Portrait Uplift peut suggérer automatiquement une taille de population minimale en se basant sur les niveaux de lift globaux et les volumes de données disponibles, ce qui constitue généralement un bon point de départ. Reportez-vous à la section autominpopsize (facultatif ; valeur par défaut : 1) à la page 75. autominpopsize (facultatif ; valeur par défaut : 1) Ce paramètre figure dans la section des paramètres généraux. Lorsque sa valeur est de 1 (vrai), le logiciel calcule au moment du tirage une valeur appropriée correspondant à la taille de population minimale. Il remplace la valeur du paramètre minpopsize dans la section de spécifications de l'arbre, puis attribue à minleafnodes la valeur 2, évitant ainsi qu'un calcul automatique de la taille de population minimale ne rende impossible la création d'un arbre. Pour un résultat binaire, la taille est sélectionnée en fonction de la population la plus petite présentant un niveau de lift global (écart du taux de réponse entre l'échantillon traité et non traité) facilement détectable. Si le niveau de lift global est faible ou si le résultat est continu, la taille de population recommandée est simplement la valeur raisonnable la plus importante permettant au nombre requis de nœuds terminaux d'être générés. Uplift Guide de l'utilisateur 75

76 searchminpopsize (facultatif ; valeur par défaut : 0) searchminpopsize (facultatif ; valeur par défaut : 0) Ce paramètre figure dans la section des paramètres généraux. Lorsque sa valeur est de 1 (vrai), le logiciel calcule des arbres pour plusieurs ensembles de paramètres de la même façon que lorsqu'un vecteur de nbags ou de prunethresholds est fourni. Les valeurs réelles de minpopsize sont 100 %, 75 %, 50 % et 25 % du minpopsize spécifié ou généré automatiquement. nlevels (facultatif ; valeur par défaut : 4) Ce paramètre spécifie le nombre maximal de niveaux de divisions dans l'arbre. Dans Decision Studio, la profondeur de l'arbre est généralement exprimée en nombre de niveaux de nœuds, alors qu'ici nous spécifions le nombre de niveaux de divisions. Il est évident qu'un arbre comptant n niveaux de divisions possède n+1 niveaux de nœuds. Par conséquent, la valeur par défaut (quatre) produit des «arbres à cinq niveaux» dans la terminologie normale de Decision Studio. Paramètres généraux Sauf indication contraire, tous les paramètres suivants figurent entre les balises <params>... </params>. Paramètres de sélection des variables La sélection des variables dans Portrait Uplift utilise le même fichier d'entrée XML que celui de la structure du modèle. Elle utilise uniquement un sous-ensemble des paramètres principaux (principalement focusname, partitionfield et objectivefield) conjointement avec des paramètres supplémentaires spécifiques. setacsfocusname (facultatif) Le nom du focus à utiliser comme entrée pour la sélection des variables. Si la valeur de savebestacs est 1, un focus est sauvegardé sous le nom de focus spécifié dans focusname avec le nombre requis de variables candidates définies. Si ce focus existe déjà, il sera écrasé à condition que la valeur de allowoverwrite soit 1 ; autrement le focus ne pourra pas être sauvegardé. Remarque : lors d'une sauvegarde sous le nom spécifié par le paramètre focusname, la sélection de variables attribue des interprétations exportées à tous les champs définis comme variables candidates dans ce focus. Elle effacera toute autre interprétation exportée. Cela vous permet de constater quels champs étaient accessibles à la sélection de variables comme variables candidates. 76 Portrait Uplift 7.0A

77 Chapitre 8 : Référence des paramètres allowoverwrite (facultatif ; valeur par défaut : 0) S'il est défini, ce paramètre autorise la sélection de variables à remplacer le focus existant (avec le nom spécifié par focusname) ; dans le cas contraire, elle ne pourra sauvegarder le focus. nbestacs (facultatif ; valeur par défaut : 5) Ce paramètre spécifie le nombre de variables candidates à sélectionner. (Des statistiques correspondant à chaque variable candidate sont générées dans le focus d'entrée.) savebestacs (facultatif ; valeur par défaut : 1) Si sa valeur correspond à 1, une nouvelle copie du focus sera sauvegardée avec ces ensembles après identification des meilleures variables candidates de la modélisation uplift. Le nouveau focus sera sauvegardé dans le même répertoire que celui du focus initial. Son nom sera le même, cependant «BestnACs» sera ajouté à la fin de celui-ci, où n représente le nombre de variables candidates sélectionnées. (Si vous exécutez Portrait Uplift à partir de Portrait Miner, ce focus aura le suffixe «BestACs».) Si ce focus existe déjà, un autre numéro sera ajouté à la fin du nom du focus. setacsnevals (facultatif ; valeur par défaut : 5) Lors de l'évaluation de low Qini, la sélection de variables s'égalise sur un nombre de tirages. Ce paramètre contrôle ce nombre de tirages, dont la valeur est de 5 par défaut. La sélection de variables fonctionnera parfaitement lorsque la valeur de ce paramètre est de 1. Toutefois, s'il est vrai qu'une valeur plus élevée prolonge proportionnellement le temps de tirage, elle génère habituellement des résultats plus précis. Dans des environnements très bruyants, nous estimons qu'il est parfois nécessaire d'octroyer à setacsnevals des valeurs comprises entre 25 et 100 (voir ci-dessous pour en savoir plus). setacssigmaweight (facultatif ; valeur par défaut : auto) Lors de l'évaluation de low Qini, la sélection de variables calcule le Qini moyen moins un multiple w de la déviation standard. Ainsi, le low Qini est le suivant : μ(q 0 ) - wσ(q 0 ). Le paramètre w est contrôlé par ce paramètre, setacssigmaweight. Sa valeur par défaut est auto, laquelle définit sa valeur à 1/ n où n est le nombre de tirages auquel le low Qini s'égalise (à savoir le paramètre setacsnevals). Cela permet de définir le low Qini comme suit : μ(q 0 ) - σ(q 0 )/ n. ce qui correspond à la limite inférieure approximative d'un intervalle de confiance pour q 0. Dans les cas où la variance est élevée, ce low Qini standard (avec setacsnevals = 5 et une valeur effective de 1/ 5 0,447 pour setacssigmaweight) peut ne pas fonctionner efficacement ni réussir à produire des champs avec des low Qini positifs. Si tel était le cas, le classement des champs pourrait s'avérer inutile. Dans ces cas de figure, il peut s'avérer utile d'augmenter le nombre d'évaluations (setacsnevals), ce qui resserrera l'intervalle de confiance et donc réduira setacssigmaweight efficacement si sa valeur est auto. Uplift Guide de l'utilisateur 77

78 setacsrebin (facultatif ; valeur par défaut : 0) Dans des environnements très bruyants, nous estimons qu'il est parfois nécessaire d'octroyer à setacsnevals des valeurs comprises entre 25 et 100. Remarque : Les low Qini utilisés pour le redécoupage des champs ignorent la valeur de ce paramètre. setacsrebin (facultatif ; valeur par défaut : 0) Pour une explication détaillée de ce paramètre, reportez-vous à la section Découpage automatisé à la page 42. Si la valeur de setacsrebin est nulle, aucun redécoupage n'est effectué et seules des variables candidates sont sélectionnées. Si la valeur de setacsrebin est de 1 (ou de tout autre nombre entier sauf zéro), le logiciel optimise le découpage de toutes les variables candidates (hormis celles de date) et écrit un fichier, binnings.xml, vers le répertoire des résultats. Enfin, si setacsrebin contient le nom d'un fichier de découpage XML, le logiciel définira les découpages des champs conformément aux spécifications de ce fichier. setacsrebincriterion (facultatif ; valeur par défaut : T) Ce paramètre contrôle la mesure utilisée pour sélectionner le découpage. Valeurs possibles : L, désignant le low Qini le plus élevé ; M, désignant le Qini moyen le plus élevé ; S, désignant l'erreur standard la plus faible ; T, désignant le Qini ajusté le plus élevé (TPAQ). TPAQ n'est défini que pour les champs numériques ; pour les champs qualitatifs, S est utilisé si ce paramètre est défini sur T. (Reportez-vous à la section Optimisation des découpages à la page 42 pour obtenir la définition de ces valeurs.) setacsrebinmean (facultatif ; valeur par défaut : Trim) Ce paramètre contrôle la manière dont les points utilisés lors de l'évaluation d'un low Qini pour le découpage optimisé sont traités. S'il est sur Normal, tous les points sont conservés. S'il est sur Trim, la valeur Qini la plus faible et la plus élevée sont supprimées. S'il est sur Winsorize, la valeur Qini la plus faible et la plus élevée sont remplacées par la seconde valeur la plus faible et la plus élevée. setacsuserebinlqe (facultatif ; valeur par défaut : 1) Si sa valeur est de 1, au lieu de calculer des (nouveaux) low Qini pour déterminer quelles variables sélectionner, réutilisez les valeurs calculées par un découpage optimisé, si applicable. Cette valeur est ignorée si le découpage optimisé n'est pas employé. Bien que la valeur par défaut (1) confère plus de rapidité, elle génère des résultats moins précis lors de problèmes très bruyants. Il est donc préférable de configurer ce paramètre sur zéro (0). 78 Portrait Uplift 7.0A

79 Chapitre 8 : Référence des paramètres Paramètres généraux des ensembles Trois paramètres principaux contrôlent le nombre de modèles à construire. Ces paramètres spécifient un ensemble de quantités d'échantillons bootstrap à utiliser, un ensemble de seuils à utiliser et un nombre de tirages à effectuer à chaque paramètre. En pseudo-code, la boucle principale affiche : for b in nbagsvalues: for t in prunethresholdvalues: for i = 1, 2,..., nruns: Build Uplift Model Par conséquent, si les nombres d'échantillons bootstrap à utiliser sont 10 et 20, les seuils d'élagage à utiliser sont 1.2, 1.1 et 1.0, et s'il y a 5 tirages par valeur, 30 modèles uplift seront construits comme suit : nbags prunethreshold nruns nbagsvalues (requis) Forme : <nbagsvalues>[10,20]<nbagsvalues/> Ensemble de valeurs pour nbags le nombre d'échantillons bootstrap à utiliser dans la construction d'un modèle uplift agrégé. Conseil : la plage normale est de 5 à 20. Même si seulement une valeur est attribuée à nbags, elle doit figurer entre crochets. Ainsi, si vous souhaitez appliquer exactement 10 échantillons bootstrap à tous les tirages, utilisez <nbagsvalues>[10]<nbagsvalues/>. Si plusieurs valeurs sont attribuées, elles doivent être séparées par des virgules. prunethresholdvalues (requis) Forme : <prunethresholdvalues>[1.2%, 1.1%, 1.0%]<pruneThresholdValues/> Uplift Guide de l'utilisateur 79

80 nruns (facultatif ; valeur par défaut : 1) Ensemble des valeurs limites d'élagage. En supposant que prunemethod a une valeur sd, cela contrôle le calcul standard maximum autorisé d'uplift au niveau de n'importe quel nœud (sauf dans la racine) de l'arbre sur huit divisions rééchantillonnées des données d'apprentissage. Même si une seule valeur est attribuée à prunethresholdvalues, elle doit figurer entre crochets. Par conséquent, pour appliquer le seuil 1 % à tous les tirages, utilisez <prunethresholdvalues>[1.0%]<prunethresholdvalues/> Si plusieurs valeurs sont attribuées, elles doivent être séparées par des virgules. Pour les modèles binaires et les modèles à deux étapes, cela est généralement exprimé en pourcentage avec un signe de pourcentage explicite (%). Les valeurs d'entrée [1.2%, 1.1%, 1.0%] et [0.012, 0.011, 0.01] sont équivalentes. Pour les modèles réels, la valeur est un calcul standard absolu dans l'uplift. Si la valeur de prune est 0, cette valeur est ignorée, bien que certaines valeurs doivent être attribuées. nruns (facultatif ; valeur par défaut : 1) Nombre de tirages à effectuer pour chaque valeur de nbagsvalues et prunethresholdvalues. Paramètres de contrôle d'élagage prune (facultatif ; valeur par défaut : 1) 1 si l'élagage est requis, 0 (ou néant) si ce n'est pas le cas. Si l'élagage est désactivé, tous les autres paramètres d'élagage sont ignorés. autoprune (facultatif ; valeur par défaut : 0) Lorsque sa valeur est de 1 (vrai), une seule valeur est automatiquement définie dans prunethresholdvalues au moment du tirage. La valeur automatiquement générée se base sur la variance de l'uplift perçue sur un ensemble d'échantillons aléatoires nm de taille N/m sur l'ensemble du jeu de données, où N est le nombre d'enregistrements dans le jeu de données et m et n ont une valeur de 10 et de 5 respectivement. prunemethod (facultatif ; valeur par défaut : sd) À l'heure actuelle, la seule méthode d'élagage prise en charge est l'élagage basé sur un écart type, sd. 80 Portrait Uplift 7.0A

81 Chapitre 8 : Référence des paramètres minleafnodes (facultatif ; valeur par défaut : 4) Après l'élagage, les arbres disposant d'un nombre de nœuds terminaux inférieur à celui spécifié seront rejetés, après quoi débutera une nouvelle construction d'arbres. maxtreeattempts (facultatif ; valeur par défaut : 2) Il s'agit du nombre maximum de tentatives pour générer un arbre avec au moins minleafnodes au seuil d'élagage spécifié. Si ces tentatives produisent toutes des arbres disposant d'un nombre de nœuds insuffisant, le seuil est multiplié (pour la construction en question) par un facteur de 1,2. Ensuite, à chaque fois que la construction d'un arbre échoue (en raison d'un nombre excessif de nœuds), le seuil est à nouveau augmenté par multiplication (une seule tentative à chaque seuil supérieur). Cela se répète jusqu'à un maximum de 12 constructions d'arbres totales. Si, après 12 constructions, l'arbre ne dispose toujours pas d'assez de nœuds, il est quand même accepté. Le logiciel émet un avertissement à chaque fois qu'un arbre est rejeté. propanalysiscandidates (facultatif ; valeur par défaut : 1.0) Si sa valeur est une fraction p < 1.0, une proportion aléatoire p des variables candidates est sélectionnée pour être appliquée à chaque construction de modèle. Par conséquent, différents arbres (dans un même modèle agrégé) utiliseront généralement différents champs de variables candidates. Remarque : Remarque : Aucune précaution particulière n'est prise pour s'assurer que le nombre de variables candidates est supérieur à zéro après cette opération. Si l'on attribue à propanalysiscandidates une valeur trop petite et qu'aucun champ n'est sélectionné comme variable candidate, Portrait Uplift échouera. Vous pouvez exprimer la valeur en pourcentage, par exemple 1,0 et 100 % sont équivalents pour ce paramètre. Paramètres de génération de nombres aléatoires / répétition de tirages Portrait Uplift gère les nombres aléatoires avec précaution pour assurer l'éventuelle reproduction d'un tirage entier ou d'un modèle individuel à partir d'un tirage. À chaque fois que Portrait Uplift est exécuté, un fichier XML contenant les paramètres relatifs à cette exécution (habituellement params.xml) est généré. Le paramètre prngsetstate est vide et la valeur de prnginitialstate correspond au chiffre (la graine) d'initialisation du générateur de nombres aléatoires applicable à la famille des tirages. En outre, le fichier XML renfermant les résultats du tirage (habituellement out.xml) contient une copie des paramètres correspondant à ce modèle uplift spécifique, notamment le prngcurrentstate. Uplift Guide de l'utilisateur 81

82 prngsetstate (facultatif ; valeur par défaut : néant) La valeur de prngsetstate détermine la manière dont le générateur de nombres aléatoires est initialisé et si l'un des deux autres paramètres prng est utilisé. prngsetstate (facultatif ; valeur par défaut : néant) Les valeurs valides sont les suivantes : Néant. Dans ce cas, les valeurs de prnginitialstate et de prngcurrentstate dans le fichier d'entrée sont ignorées et une nouvelle graine est générée au hasard. Cela signifie que le même fichier de paramètre peut être utilisé à plusieurs reprises et qu'il génèrera différents tirages. (Remarquez toutefois que le fichier de sortie params.xml reflète toujours les valeurs réelles utilisées.) initial (<prngsetstate>initial<prngsetstate/>). Dans ce cas, la valeur de prnginitialstate est utilisée pour initialiser le générateur de nombres aléatoires. current (<prngsetstate>current<prngsetstate/>). Dans ce cas, la valeur de prngcurrentstate est utilisée pour initialiser le générateur de nombres aléatoires. En vue de reproduire un tirage individuel, copiez le XML correspondant à ce tirage à partir du fichier de sortie (habituellement out.xml) vers un fichier de paramètre (habituellement params.xml), attribuez à prngsetstate la valeur current, à nbags la valeur de currentnbags (entre crochets) et à prunethresholdvalues la valeur de currentprunethreshold (entre crochets). Bien qu'il ne s'agisse pas de paramètres d'entrée, ces deux dernières valeurs sont rapportées dans le XML de sortie. prngcurrentstate (facultatif) Si vous attribuez à prngsetstate la valeur current, celle-ci est utilisée pour initialiser le générateur de nombres aléatoires. Remarque : Seule une valeur copiée directement d'un fichier de résultats XML ou d'un fichier de paramètre doit être attribuée à ce paramètre. Elle est généralement exprimée sous la forme suivante: (1, (26494, 3705, 301), None). prnginitialstate (facultatif) Si vous attribuez à prngsetstate la valeur initial, celle-ci est utilisée pour initialiser le générateur de nombres aléatoires. Remarque : Seule une valeur copiée directement d'un fichier de résultats XML ou d'un fichier de paramètre doit être attribuée à ce paramètre. Elle est généralement exprimée sous la forme suivante: (1, (26494, 3705, 301), None). tvtrainprop (facultatif ; valeur par défaut : 50%) Si le paramètre fixedtrainvalidatefield dans les paramètres de description de fichier est vide, une division apprentissage/validation sera créée. Ce paramètre spécifie la proportion d'enregistrements à attribuer à la partition d'apprentissage. Il doit s'agir d'une valeur comprise entre 0 et 1,0 ou 0 % et 100 %. 82 Portrait Uplift 7.0A

83 Chapitre 8 : Référence des paramètres Si la valeur attribuée à la proportion d'apprentissage est 100 % (ou une valeur très proche de celle-ci), Portrait Uplift ne produira pas de données de sortie pour un ensemble de validation ou pour un ensemble combiné de validation et d'apprentissage, autrement dit elles seront absentes de out.xml et de tout graphique généré. Paramètres de rapports et de sorties La sortie par défaut de la construction de modèles est arrangée dans la structure de répertoire illustrée à la Figure 9. resultsdirstem (facultatif ; valeur par défaut : results) Le nom de base du répertoire dans lequel les fichiers de sortie sont placés. Si addtimestamp est configuré ou si le répertoire spécifié existe déjà, un timestamp est ajouté à celui-ci. Il peut s'agir d'un chemin d'accès relatif ou absolu. addtimestamp (facultatif ; valeur par défaut : 1) Si sa valeur n'est pas nulle, un timestamp sous la forme de YYYYMMDD-HHMMSS est ajouté à la racine du répertoire des résultats. Ainsi, si la racine des résultats est rétablie à sa valeur par défaut (results) et un tirage est débuté à exactement 18:35 le 8 septembre 2012, le répertoire des résultats sera results Si le répertoire spécifié dans resultsdirstem existe déjà, un timestamp est ajouté, après un underscore, même si ce paramètre est défini sur zéro. savefocusstem (facultatif ; valeur par défaut : (néant)) Si ce paramètre est édité, après chaque construction de modèle, le focus est sauvegardé sous le nom de racine dans un sous-répertoire du répertoire des résultats appelé foci. La racine est suivie d'une signature précisant le nombre d'échantillons bootstrap, le seuil d'élagage et le nombre de tirages (à compter de 1). Si ce paramètre reste vide, les focus ne sont pas sauvegardés. Remarque : Le logiciel sauvegarde toujours les metadata correspondant aux focus intermédiaires sous forme de fichiers.qsfm, quel que soit l'état de ce paramètre. Autrement dit, les focus intermédiaires peuvent toujours être construits en utilisant qsimportmetadata. Toutefois, cela peut parfois s'avérer laborieux. Si vous envisagez de les utiliser, il est plus rapide de sauvegarder les focus intermédiaires. savemodelstem (facultatif ; valeur par défaut : model) Si ce paramètre est édité, après chaque construction de modèle, celui-ci est sauvegardé sous le nom de racine donné en utilisant une représentation XML de FDL dans un sous-répertoire du répertoire des Uplift Guide de l'utilisateur 83

84 savetreestem (facultatif ; valeur par défaut : (néant)) résultats appelé models. La racine est suivie d'une signature précisant le nombre d'échantillons bootstrap, le seuil d'élagage et le nombre de tirages (à compter de 1). Un modèle typique sauvegardé se situera dans un sous-répertoire du répertoire des résultats appelé models et portera un nom semblable à celui-ci : models/modelb03t3.00pcr0001.xml ce qui indique qu'il a utilisé 3 échantillons bootstrap (B03, à savoir une moyenne de 3 arbres), que son seuil d'élagage est de 3.00 % (T3.00pc) et qu'il est issu du tirage 1 d'un lot (R0001). Si ce paramètre reste vide, les modèles ne sont pas sauvegardés. savetreestem (facultatif ; valeur par défaut : (néant)) Si ce paramètre est édité, après chaque construction d'arbre celui-ci est sauvegardé sous le nom de racine dans un sous-répertoire du répertoire des résultats appelé trees. La racine est suivie d'une signature précisant le nombre d'échantillons bootstrap, le seuil d'élagage, le nombre de tirages (à compter de 1) et le numéro de modèle (à compter de 1, et accompagné d'un suffixe «d'essai» sous la forme A02 si le modèle est une reconstruction obtenue suite à un élagage ayant éliminé une trop grande partie de l'arbre). Si ce paramètre reste vide, les arbres ne sont pas sauvegardés. xmlresultsstem (facultatif ; valeur par défaut : out) Le nom de racine du fichier dans lequel les résultats de la courbe de Qini sont sauvegardés sous format XML. tvnewfieldname (facultatif ; valeur par défaut : TrainValidate) Le nom du champ à créer pour la division apprentissage/validation si le paramètre de description du fichier fixedtrainvalidatefield reste vide. overallupliftfield (facultatif ; valeur par défaut : UpliftScore) Le nom du champ qui contiendra la prédiction uplift définitive correspondant à chaque client. Paramètres RoI Les paramètres suivants sont utilisés lors de la génération de rapports Excel et de l'évaluation des paramètres de modèle recommandés. roicurrencysymbol (facultatif ; valeur par défaut : $) Symbole de la devise à utiliser. 84 Portrait Uplift 7.0A

85 Chapitre 8 : Référence des paramètres Les symboles monétaires correspondant à l'euro ( ) et la livre sterling ( ) doivent être définis en utilisant les codes à trois lettres EUR et GBP respectivement. roicostoftreatment (facultatif ; valeur par défaut : 0.00) Le coût par client du traitement de la campagne. roivalueofbenefit (facultatif ; valeur par défaut : 1.00) Le bénéfice accumulé par client répondant. roicostoffulfillment (facultatif ; valeur par défaut : 0.00) Le coût encouru par réponse traitée. Paramètres d'informations currentnbags (défini pendant la construction de modèle) Ignoré à l'entrée, il contient à la sortie (dans le fichier spécifié par xmlresultsstem), la valeur de nbags pour le modèle uplift en cours. Il peut être utilisé conjointement avec prngsetstate et currentprunethreshold pour reconstruire un modèle spécifique. currentprunethreshold (défini pendant la construction de modèle) Ignoré à l'entrée, il contient à la sortie (dans le fichier spécifié par xmlresultsstem), la valeur de prunethreshold pour le modèle uplift en cours. Il peut être utilisé conjointement avec prngsetstate et currentnbags pour reconstruire un modèle spécifique. applyfocusname Lorsque les modèles uplift sont appliqués à de nouvelles données (section Application de modèles uplift bootstrap à de nouvelles données à la page 23), ce paramètre est défini sur le nom du focus auquel un ensemble de modèles générés préalablement doit être appliqué. Exemple de fichier de paramètre intégral <?xml version="1.0" encoding="utf-8"?> Uplift Guide de l'utilisateur 85

86 Exemple de fichier de paramètre intégral <params class="globals"> <fd class="focusdescription"> <setacsfocusname>foci/retentiondata.ftr</focusname> <focusname>foci/retentiondataacs.ftr</focusname> <modeltype>binary</modeltype> <objectivefield>accountclosed</objectivefield> <outcomesizeactual></outcomesizeactual> <outcomesizeestimate></outcomesizeestimate> <partitionfield>retentioncampaign</partitionfield> <fixedtrainvalidatefield></fixedtrainvalidatefield> <stratificationfield>objectivebytreatmentbyspend</stratificationfield> <championmodelfield>retentionscore</championmodelfield> <allowoverwrite>0</allowoverwrite> </fd> <treespec class="treespec"> <minpopsize>1000</minpopsize> <nlevels>4</nlevels> </treespec>  <nbagsvalues>[5]</nbagsvalues> <prunethresholdvalues>[0.7%]</prunethresholdvalues> <nruns>1</nruns>  <autoprune>0</autoprune> <prune>1</prune> <prunemethod>sd</prunemethod> <minleafnodes>4</minleafnodes> <maxtreeattempts>2</maxtreeattempts>  <autominpopsize>1</autominpopsize> <searchminpopsize>0</searchminpopsize>  <yqiniaxis>increase in Churn (pc pt)</yqiniaxis>  <nbestacs>10</nbestacs>  <prngcurrentstate>(1, (26494, 3705, 301), None)</prngCurrentState> <prnginitialstate>(1, (26494, 3705, 301), None)</prngInitialState> <prngsetstate></prngsetstate> <tvtrainprop>50%</tvtrainprop>  86 Portrait Uplift 7.0A

87 Chapitre 8 : Référence des paramètres <resultsdirstem>results</resultsdirstem> <addtimestamp>1</addtimestamp> <savefocusstem>snapshot</savefocusstem> <savetreestem>tree</savetreestem> <xmlresultsstem>out</xmlresultsstem> <tvnewfieldname>trainvalidate</tvnewfieldname> <overallupliftfield>upliftscore</overallupliftfield>  <roicurrencysymbol>$</roicurrencysymbol> <roicostoftreatment>0.00</roicostoftreatment> <roivalueofbenefit>1.00</roivalueofbenefit> <roicostoffulfillment>0.00</roicostoffulfillment>  <propanalysiscandidates>1.0</propanalysiscandidates> <applyfocusname>1.0</applyfocusname> <currentnbags>5</currentnbags> <currentprunethreshold>0.7%</currentprunethreshold> </params> Figure 1 : Option Sélection des variables (clic droit). Uplift Guide de l'utilisateur 87

88 Exemple de fichier de paramètre intégral Figure 2 : Boîte de dialogue Sélection des variables. Figure 3 : Graphique montrant les valeurs de Qini (Q) comme fonction du nombre de classes. Figure 4 : Profil uplift. 88 Portrait Uplift 7.0A

89 Chapitre 8 : Référence des paramètres Figure 5 : Validité de l'échantillon de contrôle. Dans cet exemple, aucune classe ne présente une proportion qui dévie de manière significative de la proportion globale de %, mises à part certaines classes (grisées) contenant trop peu d'entrées pour s'avérer intéressantes. Figure 6 : Stabilité des modèles uplift. Figure 7 : La structure des données de validation et d'apprentissage et le rééchantillonnage des données d'apprentissage pour produire des groupes de test et d'apprentissage rééchantillonnés. Figure 8 : Profil de scoring. Uplift Guide de l'utilisateur 89

90 Exemple de fichier de paramètre intégral Figure 9 : Structure du répertoire de sortie par défaut. 90 Portrait Uplift 7.0A

Montrer encore