Analyse du panier d épicerie. Présentation d une méthodologie d analyse



Documents pareils
Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

Entrepôt de données 1. Introduction

Leçon 10. Je quitte la maison - par où commencer? Matériel : Niveaux : Buts : Vocabulaire : Temps requis :

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Des portions adaptées à vos besoins. Nous changeons nos besoins aussi! Senior

1. Entrez le code client dans le champ << Code client >> si requis. Le code client est optionnel, on peut donc entrer simplement le nom du client.

Consommez moins de sodium pour réduire votre pression artérielle. Information sur le sodium alimentaire.

Les dessous des moteurs de recommandation

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Allégations relatives à la teneur nutritive

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Vendre son champagne sur internet

9 % 7 % 5 % 4 % 2 % 2 % 11 %

Manuel de l éducateur

Améliorer les performances du site par l'utilisation de techniques de Web Mining

données en connaissance et en actions?

Retour table des matières

Produits laitiers de ferme

Fidélité Type 3 Carte de points et cartes cadeaux avec

Fiche Pratique. MAJ le 10/04/2013

SONDAGE AUPRÈS DES ÉTUDIANTS CANADIENS

Guide d utilisation pour W.access - Client

RAPPORT SUR LE MARCHÉ IMMOBILIER

Introduction au Data-Mining

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Fiches Méthodes pour les Boutiques en Ligne

Document de référence. Guide d utilisation

Campus et hygiène de vie

NORME GÉNÉRALE POUR L ÉTIQUETAGE DES DENRÉES ALIMENTAIRES PRÉEMBALLÉES

Ce module permet d accepter dans votre magasin la livraison dans les points relais partenaires du réseau Mondial Relay :

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

acheter en ligne l Esko Store Comment sur

Evry - M2 MIAGE Entrepôts de Données

L autogestion de l insulinothérapie basale plus 1

Livret de l évaluateur : Calcul niveau 2

Nos Offres Séminaires

Lecture critique et pratique de la médecine

Ressources pour le lycée général et technologique

Exemple de Projet d Accueil Individualisé ELEVE CONCERNE

Devises. Dernière modification le 9 janvier 2009 Page 1 de 6

Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA. Guide d'utilisation

Les comportements d achats multicanaux des internautes 9 ème baromètre FEVAD-Médiamétrie//NetRatings. extraits

Utilisation du DSQ. 2. Principales fonctions associées au DSQ

Aide au rétablissement et à la reconstruction

2. Chaque participant a accès au jeu via l application Facebook disponible sur la page Facebook de Lidl Belgium.

analyse Analyse de données avec le logiciel ABACUS Business Intelligence incluse

1S9 Balances des blancs

Introduction à la B.I. Avec SQL Server 2008

Chapitre 3. Les distributions à deux variables

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

IBM SPSS Direct Marketing 21

Protéines. Pour des Canadiens actifs. De quelle quantité avez-vous besoin?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les stratégies commerciales et marketing de l entreprise bio BIOCONSEIL

SUPPORT DE COURS / PHP PARTIE 3

Quel sirop choisir pour le nourrissement d hiver.

Bien gérer votre argent

CENTRE HOSPITALIER DU GERS 10 Rue Michelet BP AUCH Cédex 8 MARCHE PUBLIC DE TRAVAUX REGLEMENT DE LA CONSULTATION

Rapport de résultats. Étude de marché - Services de proximité Projet Coop

MAÎTRISER LA LECTURE DES ÉTIQUETTES NUTRITIONNELLES

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

COUPONS & E-COUPONS LE COUPON DANS TOUS SES ÉTATS -1,20. marketing opérationnel et relation client

Indications pour une progression au CM1 et au CM2

Information destinée aux patients et aux proches. Comment s alimenter après une diverticulite? Conseils nutritionnels pour le retour à domicile

La solution Mobile Banking d ING Version 3.0

de permis de restauration et de vente

Chocolat au lait : 34% de cacao minimum. Chocolat au lait : 34% de cacao minimum

Rentrée 2014 Francine Eichenberger Diététicienne

DANS L AFFAIRE DE LA FAILLITE DE: QUÉBEC INC. (F.A.S.R.S. CAFÉ DÉPÔT)

FORMATION KAWET. Formation : Créer une appli mobile avec Kawet

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Base de données individuelles pharmacies. Rencontre IMS Health Infostat

INSCRIPTION EN LIGNE ET PAIEMENT PAR CARTE DE CRÉDIT:

Guide Ordures ménagères

BONNE NOUVELLE, À PARTIR DE DEMAIN 15 AOÛT 2014, l inscription en ligne sera disponible à partir du site de l ARO.

Edition Limitée CLASSIC 2. Spécial NOUVEL AN CHINOIS. recettes

Les cartes de fidélités... 2 Natures de pièces... 5 Impression des chèques cadeaux... 6 Statistiques fidélités... 8 Fiche client...

Flashcode. Ce développement des code-barre 2D est plus avancé au Japon où :

Transférer des fichiers à l aide de WinSCP et 2 contextes d utilisation dans des sites SPIP avec FCK editor

Baccalauréat technologique Série : sciences et technologies du management et de la gestion (STMG)

Plan comptable HOREGO selon les plans comptables officiels

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Analyse et interprétation des données

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Inscriptions en ligne

Située à 50km de Paris, la Bergerie est le lieu idéal pour vos Séminaires.

MÉTHODOLOGIE POUR LE CALCUL DE L AMORTISSEMENT ET DE LA VALEUR DU STOCK NET DOMICILIAIRE DIVISION DE L INVESTISSEMENT ET DU STOCK DE CAPITAL

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES

Fiche 23 D où viennent les produits de mon petit déjeuner?

MA BOUTIQUE EN LIGNE. T u t o r i e l s M a b o u t i q u e e n l i g n e. Cerpeg Fabienne Mauri - Académie de Bordeaux 1

Des choix de repas délicieux et pratiques qui conviennent à vos besoins et préférences diététiques

Thèmes et situations : Voyages et déplacements. Fiche pédagogique

Le départ pour vos vacances approche et votre check-list semble incomplète?

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

14.1. Paiements et achats en ligne

Transcription:

Analyse du panier d épicerie Présentation d une méthodologie d analyse

Mise en contexte En data mining, on utilise la technique des règles d association pour déterminer les éléments qui se retrouvent ensembles. L analyse du panier d épicerie («market basket analysis») est un terme plus spécifique au commerce au détail. Cette analyse utilise les règles d association. Dans une épicerie, les règles d association décrivent les produits qui se retrouvent dans le même panier. Beurre d arachides Pain en tranches www.solutionstat.ca méthodologie 2

Définitions Définitions Transactions : achats fait par un seul client. Items : produits achetés. Règle d association : énoncé de la forme (item X) (item Y). Item X = produit à analyser Item Y = produit associé Règle d association : On choisira d étudier des règles d association permettant d en apprendre davantage sur le comportement des clients. Les résultats de l analyse devront être utiles et pratiques. On choisira un niveau de granularité. On peut étudier l association entre des ensembles de produits : ceux qui achètent des céréales achètent aussi du lait. Ou l association entre des produits plus précis : ceux qui achètent du vin rouge bon marché achètent des cubes de bœuf pour ragoût. www.solutionstat.ca méthodologie 3

Mesures La force d association sera mesurée par : Support : probabilité d acheter le produit X et le produit Y. Nombre de transactions contenant les produits X et Y Nombre total de transactions Confiance : probabilité d acheter le produit Y étant donné que le produit X a été acheté. Nombre de transactions contenant les produits X et Y Nombre de transactions contenant le produit X Règle Support Confiance X Y 25% 59% X Z 5% 33% www.solutionstat.ca méthodologie 4

Lift Calcul du lift : Le lift est une bonne mesure de performance de la règle d association. Le lift est la confiance de la règle divisée par la valeur espérée de la confiance. Pour la règle d association X Y, le calcul de la valeur espérée de la confiance est le suivant : Nombre de transactions contenant le produit Y Nombre total de transactions Règle Support Confiance Confiance espérée Lift X Y 25% 59% 42.5% 1.31 X Z 5% 33% 45% 0.74 www.solutionstat.ca méthodologie 5

Lift (suite) Interprétation du lift Un lift supérieur à 1 : Indique une corrélation positive; Parmi les paniers contenant le produit X, on retrouve plus souvent le produit Y que dans l ensemble des paniers. Un lift de 1 indique une corrélation nulle; Un lift inférieur à 1 Indique une corrélation négative; Dans cette situation, la règle négative aura plus d intérêt : X non Y. Règle Support Confiance Confiance espérée Lift X Y 25% 0.59 42.5% 1.31 X Z 5% 0.33 45% 0.74 www.solutionstat.ca méthodologie 6

Exemple pratique Une pharmacie est intéressée à connaître les associations entre les achats de cosmétiques et les autres produits (journaux, crayons, bonbons, ). Une base de données contient 400,000 transactions effectuées dans les derniers 3 mois. Les produits suivants sont étudiés : Bar soap Markers Prescription medications Cosmetic Pain relievers Shampoo Candy bars Pencils Toothbrushes Deodorant Pens Toothpaste Greeting cards Perfume Wrapping paper magazines Photo processing www.solutionstat.ca méthodologie 7

Exemple pratique La base de données contient 4 variables Transaction ID : identificateur unique de la transaction Product : Catégorie de produits Quantity : quantité de produits de cette catégorie acheté Store : numéro du magasin Les variables transactionid et Product seront utilisées pour les calculs. Note : la base de données est construite de sorte que chaque item est sur une ligne différente. Le numéro d une transaction peut se répéter sur plusieurs lignes si plus d un item a été acheté. www.solutionstat.ca méthodologie 8

Exemple pratique Calcul des indicateurs et du lift pour chacune des règles d association : Utilisation d un programme SAS permettant de gérer les données, de faire les calculs et d obtenir une table de résultats. La table d entrée doit avoir au minimum deux variables. Une variable doit identifier les transactions et une variables doit identifier les items. La table de sortie contiendra les résultats pour toutes les associations de deux produits. www.solutionstat.ca méthodologie 9

Exemple pratique Table de sortie : ANALYSIS_UNIT : produit A (condition) ANALYSIS_UNIT_FREQ : nombre de transactions avec le produit A ASSOCIATION_ANALYSIS_UNIT : produit B (résultat) ASSOCIATION_ANALYSIS_UNIT _FREQ: nombre de transactions avec le produit B FREQ_CO_OCCUR : nombre de transactions avec les produits A et B. www.solutionstat.ca méthodologie 10

Exemple pratique Table de sortie : SUPPORT : support CONFIDENCE : confiance EXPECTED_CONFIDENCE : valeur espérée de la confiance LIFT: calcul du lift... www.solutionstat.ca méthodologie 11

Exemple pratique Table de sortie : La table est triée selon le produit A (ANALYSIS_UNIT). Pour un même produit A, les résultats sont classés selon le LIFT. La meilleure règle d association sera en premier.... www.solutionstat.ca méthodologie 12

Exemple pratique Table de sortie : Dans notre exemple la règle d association PrescriptionMed WrappingPaper obtient le lift le plus élevé. 0.6% des transactions contiennent les deux produits (support); 5% des transactions contiennent du WrappingPaper; 41.9% des transactions avec PrescriptionMed contiennent aussi du WrappingPaper. www.solutionstat.ca méthodologie 13

Mises en garde Pour un commerce au détail, le nombre de règles d association possibles est souvent énorme. Vouloir étudier toutes les associations entre des produits à un niveau très fin de granularité amènerait à des résultats non interprétables. Pour obtenir des résultats cohérents et utiles, il faut tout d abord faire une liste pertinente des règles d association d intérêt. Si le support est petit, il faut se questionner sur l intérêt de la règle d association. En pratique, on peut fixer un support minimum requis et exclure les règles d association n ayant pas le support requis. Un niveau de confiance très élevé ou très faible peut aussi gonfler (ou réduire) artificiellement le lift. www.solutionstat.ca méthodologie 14

Mises en garde L objectif d étudier les produits concomitants est de mieux comprendre une dynamique du comportement du client. En d autres mots, on veut découvrir des associations non connues et prendre des décisions d affaires basées sur ces nouvelles connaissances. Les règles qui obtiennent un bon support, une bonne confiance et un bon lift sont potentiellement utiles. Toutefois, ces règles peuvent être triviales, inexplicables ou difficiles à traduire en actions concrètes. Il faut au départ bien choisir les règles à étudier. www.solutionstat.ca méthodologie 15