Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner



Documents pareils
TP3 : Etude de cas Talend

1 Modélisation d être mauvais payeur

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Tutoriel D utilisation. Du PGI Open line d EBP

Fiche Mémo : Options d accessibilité sous Windows et Internet Explorer 5

Introduction : L accès à Estra et à votre propre espace Connexion Votre espace personnel... 5

MO-Call pour les Ordinateurs. Guide de l utilisateur

Chaque ordinateur est constitué de différentes unités de stockage de données (Disque dur, Graveur ) que l on peut imaginer comme de grandes armoires.

Instructions relatives à l installation et à la suppression des pilotes d imprimante PostScript et PCL sous Windows, version 8

GUIDE D INSTALLATION INTERNET haute vitesse

PRISE EN MAIN RAPIDE

Cette fonctionnalité est paramétrable et accessible dans le module administration via le menu "Dossier / Administration".

Logiciel de gestion pour restaurants et Bars

GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e

Traitement des données avec Microsoft EXCEL 2010

Utilisation de l outil lié à MBKSTR 9

Utilisation avancée de SugarCRM Version Professional 6.5

CAPTURE DES PROFESSIONNELS

Leçon N 5 PICASA Généralités

Fiche de version 12.16a - Septembre Gestion des Plans d actions personnalisés (PAP)... 6

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

Création d une connexion VPN dans Windows XP pour accéder au réseau local de l UQO. Document préparé par le Service des technologies de l information

Ouvrir le compte UQÀM

TRANSFOLIO version Introduction

WinReporter Guide de démarrage rapide. Version 4

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

LOGICIEL MARCHES PUBLICS

Zotero est une extension du navigateur Firefox. Il est possible de télécharger Firefox gratuitement sur le site:

MANUEL DES NOUVEAUTES

Modes Opératoires WinTrans Mai 13 ~ 1 ~

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Guide de démarrage rapide. (pour la version 5.0.)

Comment utiliser FileMaker Pro avec Microsoft Office

3 : créer de nouveaux onglets dans Netvibes Cliquer sur le bouton «+» et renommer le nouvel onglet (par exemple Encyclopédies en ligne)

ANNEXE 8 : Le Mailing

Manuel BlueFolder ADMINISTRATION

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

AutoCAD Petit exercice sous

Comment insérer une image de fond?

Bases de données. Table des matières. Introduction. (ReferencePlus.ca)

Gérer les règles de prix catalogue sur Magento

Utilisez Toucan portable pour vos sauvegardes

Créer et partager des fichiers

Setting Up PC MACLAN File Server

EXERCICE N 9. Base Centrale de pilotage. Notions abordées : Création d objets personnels. Utilisation de fonctions numériques

WinTask x64 Le Planificateur de tâches sous Windows 7 64 bits, Windows 8/ bits, Windows 2008 R2 et Windows bits

FICHE PRATIQUE N 18 ENVOYER UN ING

FACTURATION. Menu. Fonctionnement. Allez dans le menu «Gestion» puis «Facturation» 1 Descriptif du dossier (onglet Facturation)

SUGARCRM MODULE RAPPORTS

CONNECT Comptabilité - Liste des fonctionnalités TABLE DES MATIERES

BIRT (Business Intelligence and Reporting Tools)

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

MODE OPERATOIRE CIEL GESTION COMMERCIALE VERSION EVOLUTION BTS PME PMI

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version

Créer un album photo

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

KWISATZ MODULE PRESTASHOP

Utilisation de KoXo Computers V2.1

Manuel d utilisation du Site Internet Professionnel

HERAKLES Page 1 sur 11 PARAMETRAGE DE GSI FICHE PARAMETRAGE DE GSI

données en connaissance et en actions?

Installation et utilisation du client FirstClass 11

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Transférer une licence AutoCAD monoposte

SOMMAIRE. Travailler avec les requêtes... 3

Ces Lettres d informations sont envoyées aux extranautes inscrits et abonnés sur le site assistance (voir point N 3).

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

Guide de configuration. Logiciel de courriel

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Exporter des écritures. Importer des écritures. Depuis EBP Comptabilité.

Configuration du nouveau Bureau Virtuel (BV) collaboratif de Lyon I

Présentation du logiciel Cobian Backup

Contrôle en Cours de Formation

Installation et utilisation de Cobian Backup 8

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Le réseau et les tables virtuelles Synapse

Créer un compte itunes Store

pas à pas prise en main du logiciel Le Cloud d Orange - Transfert de fichiers sur PC et MAC Le Cloud

Mode Opératoire Ciel Gestion commerciale V 12 et s (2006)

Connecteur Zimbra pour Outlook 2007 et 2010 (ZCO) w

Excel 2007 Niveau 3 Page 1

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : URGENTE NON URGENTE TEMPORAIRE DEFINITIVE

EXCEL TUTORIEL 2012/2013

Enregistrement de votre Géorando Maxi Liberté

Atelier «personnaliser l environnement de l ordinateur mai 2015

Installation d'un Active Directory et DNS sous Windows Server 2008

Le Registre sous Windows 8 architecture, administration, script, réparation...

Tutoriel. Votre site web en 30 minutes

Table des matières : 16 ASTUCES OUTLOOK

Tapez le titre de la page «BASTIA ville méditerranéenne», puis allez deux fois à la ligne à l aide de la touche Entrée.

Activité 11 : Nuage de points ou diagramme de dispersion

Guide utilisateur Performance

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

INSTALLATION DE L AGENT CT EASY BACKUP LAN REV 1.0/

Guide de l'utilisateur

Sommaire. Page d accueil. Comment effectuer une mise à jour? Comment insérer le logo de sa société? Comment effectuer une sauvegarde?

L accès à distance du serveur

GESTION DES PISTES ET OPPORTUNITES

Transcription:

Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner... 1 Introduction... 1 La question est... 1 L idée est... 1 Public :... 2 Présentation du processus :... 2 Projet :... 4 Création de la base d apprentissage... 5 Création de la première table intermédiaire... 16 Création de la table du chiffre d affaires par produit et par client... 24 Création de la table du chiffre d affaires par mois et par client... 29 Création de la table du chiffre d affaires par année et par client... 32 Création des colonnes de récence et d ancienneté... 36 Création de la colonne Target... 42 Création de la table d apprentissage... 49 Création de la table à scorer... 60 Création d un modèle de Data Mining... 67 Introduction L objectif général de cette partie est de présenter l apport de la modélisation pour prédire l avenir, grâce au Data Mining. La question est : «Comment augmenter les ventes dans la prochaine période creuse?» L idée est : Modéliser le profil du client qui achète pendant une période creuse, l appliquer sur la base de données de l ensemble des clients et lancer une campagne marketing sur les plus forts potentiels. Cette modélisation sera construite sur et pour, les clients ayant la carte de fidélité Orion Star Gold, client pouvant être relancé par courrier. 1

Public : 1) Pour faire une bonne modélisation, il faut des compétences en : - Informatiques : créer une bonne base de données de Data Mining est un projet beaucoup plus complexe qu il n y parait. La modélisation grâce au Data Mining nécessite de très grosses bases de données qu il faut alimenter par des processus souvent très complexes, stocker et faire vivre. Il est fréquent avec une table de plusieurs millions de transaction et quelques colonnes (3 ~10), de créer une table ayant une seule ligne par client et plusieurs centaines de variables (100 ~ 3000 colonnes). - Statistiques : la modélisation Data Mining utilise massivement des méthodes statistiques et même si la loi des grands nombres facilite largement le processus, elle nécessite des compétences solides en analyse de données. - Métier : Sans la connaissance métier, il est difficile de construire une bonne base de données permettant de faire des modèles performants. Il est primordial d avoir de l intuition pour faire de bonne modélisation. C'est-à-dire qu il est nécessaire d avoir une vraie culture fonctionnelle pour améliorer la construction des bases de données et pour l interprétation pratique des résultats. Dans notre cas, la société fictive Orion Star, nous nous concentrerons sur le marketing. Qui mieux qu une personne du marketing pour rappeler que pour modéliser le comportement d un client, les variables pertinentes sont souvent récence 1, fréquence, montant, âge etc. 2) Etant donné qu il est rare qu une seule personne cumule toutes ces compétences, il est fréquent de devoir créer des synergies entre des individus aux univers différents, afin qu ils travaillent bien ensemble. Ce chapitre s adresse donc aux trois publics de telle sorte que chacun puisse acquérir un vocabulaire lui permettant une meilleure communication avec les deux autres parties prenantes. Présentation du processus : Dans le cadre du cas de la société Orion Star, nous somme aujourd hui le 1 janvier 2003 et l on souhaiterait modéliser le comportement du client qui achète pendant la prochaine période creuse, c'est-à-dire entre février et mars 2003. Si l on regarde le chiffre d affaires total, par mois sur les cinq dernières années, on obtient la courbe suivante : Courbe du chiffre d affaires par mois 1 Récence : date depuis le dernier achat. 2

Globalement, l activité de la société Orion Star est particulièrement saisonnière avec des sommets l été et au mois de décembre. Les deux périodes creuses sont février mars et septembre octobre novembre. La courbe de prévisions des ventes par la méthode d'auto régression pas à pas ci-dessus, nous montre globalement une activité cyclique stable. Remarquons un pic pour l année 2001 et une petite chute en 2002 mais il n est pas, après vérification, nécessaire d introduire un coefficient de proportionnalité pour garder une cohérence chronologique sur l année à venir, c'est-à-dire que sur les 5 périodes d historique, rien ne laisse prévoir une hausse ou une baisse significative des ventes. Positionnons-nous un an auparavant, soit au premier janvier 2002, date à laquelle nous connaissons quatre ans d historique et les ventes sur les mois à venir de février et avril 2002. Nous pouvons alors modéliser le comportement d un client qui achète dans la prochaine période creuse, le connaissant avec un historique de quatre ans. 3

Projet : Ayant défini le projet, et connaissant l ensemble des données disponibles, le Data Mart Orion Gold, nous allons maintenant : 1. Créer la base de données d apprentissage rassemblant un maximum d information au 1 er janvier 2002, par client : Cible : est-ce que le client a acheté entre février en mars 2002 Variables décrivant le client : i. Sexe ii. Age au premier janvier 2002 iii. Pays iv. Type Variables décrivant le comportement d achat du client du 1 er janvier 1998 au 31 décembre 2001 : i. Quantité de produit achetée en moyenne, par commande, par période de temps, globalement, etc. ii. Montant des commandes, par période de temps, globalement, etc. iii. Propension à acheter les produits remisés, iv. Type de produit acheté, v. Période d achat vi. Fréquence des achats vii. Récence des achats viii. Etc. 2. Création de la base de données à scorer, par clients, au 1 er janvier 2003. Cette base de données est quasiment identique à la précédente à la différence qu il y a une colonne de moins, la variable cible L âge est calculé au 1 er janvier 2003 Et les variables décrivant le comportement d achat du client, prennent en compte les quatre ans, du 1 er janvier 1999 au 31 décembre 2002. 3. Création de modèle de Data Mining prédictif sur les variables les plus pertinentes 4. Validation, choix du modèle le plus pertinent et calcul du retour sur investissement à priori. 5. Application de ce modèle sur la base de données des clients Le département «marketing opérationnel» recevra donc une base de données des clients à relancer. 4

Création de la base d apprentissage Ouvrir SAS Enterprise Guide Depuis Démarrer Programmes SAS Enterprise Guide 4 Si cette fenêtre apparaît, sélectionner nouveau projet. Remarque : vous pouvez cocher «ne plus afficher cette fenêtre». Si cette fenêtre apparaît, cliquer sur non Dans le cadre de ce guide, nous allons utiliser le serveur SAS local. 5

Bienvenue dans l application SAS Enterprise Guide. Trois fenêtres principales sont ouvertes par défaut lors de l ouverture de SAS Enterprise Guide. C est la fenêtre du projet (sur la gauche) qui recense tous les objets du projet du flux de processus et celle des tâches (en bas) qui montre l état d avancement des tâches. La fenêtre du projet et celle des tâches peuvent se fermer en cliquant sur ou se rabattre automatiquement si l on clique sur la punaise qui les fixe. Inversement, si vous souhaitez refixer la fenêtre, cocher la punaise. Si vous avez «perdu» ces fenêtres, dans le menu Affichage, sélectionnez-les. La fenêtre du flux de processus peut être activée en cliquant sur le bouton «conception du processus», (sous le menu «graphique»). 6

Vous pouvez changer la langue de l application depuis le menu Outil, dans Options. Vous ne pouvez sélectionner que les langues dans lesquelles SAS Enterprise Guide a été installé. Ouvrir les tables : customer_dim.sas7bdat order_fact.sas7bdat product_dim.sas7bdat time_dim.sas7bdat Créer la table de synthèse, jointure de ces quatre tables ci-dessus, avec un filtre sur la date ( <= 31DEC2001 d) et sélectionner les bonnes colonnes. Ouvrir des données : 7

Depuis votre poste de travail répertoire C:\SAS\Orion\Orion_Gold_ssfmt : 8

Sélectionner les tables Customer_Dim, Order_Fact, Product_Dim et Time_Dim Créer une requête : Depuis la fenêtre Flux de processus Clique droit sur une table, par exemple sur la table Order_Fact Cliquer sur «Ajouter des Tables» Sélectionner depuis le «Projet» 9

Sélectionner les trois autres tables. Si vous avez créé la requête depuis la table Order_Fact, il faut donc sélectionner les tables Customer_Dim, Protuct_Dim et Time_Dim. 10

Sélectionner les colonnes comme ci-dessus : ORDER_FACT.Customer_ID CUSTOMER_DIM.Customer_Country CUSTOMER_DIM.Customer_Gender CUSTOMER_DIM.Customer_BirthDate PRODUCT_DIM.Product_Group TIME_DIM.Month_Name TIME_DIM.Year_ID ORDER_FACT.Order_Date ORDER_FACT.Total_Retail_Price ORDER_FACT.CostPrice_Per_Unit ORDER_FACT.Discount ORDER_FACT.Quantity 11

Dans l onglet «Filtrer les données» Glisser la colonne Order_date dans la zone de filtre. 12

Sélectionner l opérateur «inférieur ou égal à» Entrer la valeur '31Dec2001'd ou bien 15340, ce qui correspond au nombre de jours entre le premier janvier 1960 et le 31 décembre 2001. 13

Cette table servira de base à plusieurs requêtes, renommer la «Base» pour plus de lisibilité : Dans Options pour cette requête, Changer le nom de la table : cliquer le bouton «Changer». 14

Sélectionner la bibliothèque «Work» sur le serveur local. Entrer le nom du fichier «base» Enregistrer OK Exécuter la requête. Revenir dans la fenêtre Flux de processus. 15

Création de la première table intermédiaire Clique droit sur la table base créer une requête Sélectionner les colonnes : Custommer_ID Customer_Country Customer_Gender Total_retail_price SUM Total_retail_price AVG Discount MAX Discount AVG Sélectionner les groupes automatiquement Cliquer sur le bouton «colonnes calculées» 16

Créer une nouvelle expression «Non» Calcul de l âge du client au premier janvier 2002 L expression de l âge est une troncature de l argument (floor) d une différence de date (dans date et heure) sélectionnez YRDIF. Dans source de données, sélectionnez pour le premier argument la colonne Birth_Date, pour le deuxième argument, 15341, et tapez actual pour le dernier. L expression est donc : FLOOR (YRDIF (BASE.Customer_BirthDate, 15341,'actual')) Soit, en copie d écran : 17

18

19

20

OK Renommer Calculation1 en Age Fermer 21

Dans les options, changer le nom de la table en «Intermédiaire». Sélectionner les lignes distinctes seulement, Exécuter la requête. 22

23

Création de la table du chiffre d affaires par produit et par client Pour créer cette table, depuis la table de base, nous allons créer une table de la somme du chiffre d affaires par client et par groupe produit, trier par client et par groupe produit. Puis nous allons transposer les produits afin d avoir une table avec une ligne par client et le chiffre d affaires par groupe de produit. Depuis la table base, créer une requête. 24

Sélectionner les colonnes : Customer_ID Product_Group Total-Retail_Price Sélectionner la somme du chiffre d affaires Sélectionner les groupes automatiquement 25

Dans l onglet «Trier les données» Sélectionner Customer_ID puis Product_Group. Executer 26

Dans le menu Données utiliser la fonction «transposer» Affecter la somme du chiffre d affaires à la fonction «transposer les variables». Affecter le groupe de produit à la fonction «nouveaux noms de colonne» Et Affecter le numéro du client à «grouper l analyse par» 27

Désélectionner l option «utiliser le préfixe». Exécuter Nous avons une table avec le chiffre d affaires par numéro de client en ligne et par groupe de produit en colonne. 28

Création de la table du chiffre d affaires par mois et par client Pour créer cette table, nous allons reprendre le même processus que précédemment ; c'est-à-dire, créer une table de la somme du chiffre d affaires par numéro de client et par mois et la transposer. Depuis la table de «base» Créer une requête, de la somme du chiffre d affaires par mois et par numéro de clients 29

Trier par numéro de clients et par mois. Exécuter Transposer la table 30

31

Création de la table du chiffre d affaires par année et par client Pour créer cette table, nous allons reprendre le même processus que précédemment ; c'est-à-dire, créer une table de la somme du chiffre d affaires par numéro de client et par année et la transposer. Depuis la table de «base» Créer une requête, de la somme du chiffre d affaires par année et par numéro de clients 32

Trier par numéro de client et par année. Exécuter 33

Transposer la table 34

35

Création des colonnes de récence et d ancienneté Créer un nouveau code Taper le code ci-dessus 36

Revenir dans la fenêtre du flux de processus et sélectionner le serveur local, 37

Exécuter le code sur le serveur local 38

Créer une requête sur la table RECENCE, 39

Sélectionner les colonnes Customer_ID, récence et ancien, Sélectionner la somme de récence et de ancien Sélectionner les groupes automatiquement Exécuter 40

41

Création de la colonne Target Créer une requête sur la table order_fact 42

Sélectionner la colonne customer_id Créer une colonne calculée Nouvelle Créer une expression 43

Taper «1» OK Renommer la colonne «Target» Fermer 44

45

Dans «filtrer les données», sélectionner la colonne order_date 46

Créer un filtre de telle sorte que la date soit comprise entre le 01Feb2002 d et le 30Apr2002 d OK Exécuter la requête 47

48

Création de la table d apprentissage Depuis la fenêtre du flux de processus, créer une requête sur la table intermédiaire 49

Ajouter les tables Depuis le projet 50

Sélectionner les tables Query_for_recence Query1_for_order_fact Et les trois tables transposées 51

Dans l onglet jointure, 52

Modifier la jointure entre les tables INTERMEDIAIRE et QUERY1_FOR_ORDER_FACT Sélectionner toutes les lignes de la table de gauche 53

Fermer 54

Sélectionner les colonnes Toutes les colonnes de la table intermédiaire La somme de la récence et de l ancienneté Pour toutes les tables «transposées» sélectionner toutes les colonnes, sauf les deux premières, La colonne Target de la table Query1_fro_oder_fact 55

Renommer toutes les colonnes de tel sorte que leur nom soit un nom qui ne commence pas par un chiffre, soit sans espace et sans caractères spéciaux. Le libellé ne peut contenir de telles choses. Exemple : 56

Remarque : Il n y a alors plus de simple quotte sur le nom. Renommer 2001 en N_1 pour année n moins un 2000 en N_2 1999 en N_3 1998 en N_4 57

Exécuter 58

Exporter la table sur l ordinateur local 59

Création de la table à scorer Ouvrir la première requête sur order_fact et modifier le filtre Filtrer la table sur une date supérieure au 01Jan1999 d OK Exécuter la requête 60

Exécuter la branche à partir de la nouvelle base Il y a des erreurs! Ouvrir la requête sur la table de base 61

Modifier l âge de telle sorte qu il soit par rapport au premier janvier 2003. 62

Modifier le code de telle sorte que la récence et l ancienneté soit par rapport au 31 décembre 2002. Exécuter. Exécuter la requête qui le suit. 63

Modifier la requête sur la table intermédiaire 64

Supprimer les colonnes Target et 1998 (N_4) Renommer dans l ordre N_3 en N_4, N_2 en N_3, N_1 en N_2, 2002 en N_1 Exécuter la requête 65

Exporter la table sur l ordinateur local 66

Création d un modèle de Data Mining Ouvrir SAS 9.1 Dans la fenêtre de gauche, ouvrir les bibliothèques Créer une nouvelle bibliothèque Clique droit Nouveau 67

Donner un nom à la bibliothèque (8 caractères maximum, pas d espace, pas de caractères spéciaux, ne commençant pas par un chiffre) Sélectionner l option «Activer au démarrage» Cliquer sur le bouton parcourir Sélectionner le répertoire Windows où se trouvent les données créée précédemment OK 68

Ouvrir la bibliothèque créée en double cliquant dessus. On doit voir les deux tables orion_train et orion_a_scorer Démarrer SAS Enterprise Miner Solutions Analyse Enterprise Miner 69

Ajouter l outil «Input data source» L ouvrir en double cliquant dessus. 70

Sélectionner la table Orion_train dans la bibliothèque créée Dans l onglet «variable», affecter toutes les variables au rôle «Input» Fermer la fenêtre 71

Ajouter l outil Replacement. Créer le lien entre la table Orion_train et ce nouvel outil 72

Dans l onglet «Default» et dans celui des valeurs constantes, entrer «0» pour les valeurs numériques. 73

Dans l onglet «interval variables» sélectionner toutes les lignes, Sélectionner la méthode «default constant» 74

Dans l onglet «Class Variables» sélectionner les lignes Moyenne_des_remises, Max_des_remises et Target, Sélectionner la méthode «default constant» Fermer la fenêtre 75

Ajouter l outil «Data Set Attributes» comme ci-dessus 76

Dans l onglet variable, changer le rôle de la variable Customer_ID en ID et celui de la variable Target en Target. Changer le «measurement» de la variable Target en Binary Fermer la fenêtre 77

Créer le diagramme comme ci-dessus, en changeant les paramètres : Dans le deuxième arbre, sélectionner un arbre avec au maximum 4 branches Dans la régression, sélectionner la méthode de sélection «stepwise» Exécuter le processus 78

L arbre de décision par défaut étant le meilleur, Créer le diagramme ci-dessus. On obtient dans Insight la liste des clients avec leur probabilité d acheter dans la prochaine période creuse. On peut alors sélectionner ceux ayant la probabilité la plus forte. 79