WEBSELL. Projet DATAMINING



Documents pareils
Introduction au datamining

Agenda de la présentation

Introduction au Data-Mining

Spécificités, Applications et Outils

DATA MINING - Analyses de données symboliques sur les restaurants

données en connaissance et en actions?

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

QU EST-CE QUE LE DECISIONNEL?

Analyse de grandes bases de données en santé

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Introduction au Data-Mining

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Accélérer l agilité de votre site de e-commerce. Cas client

La classification automatique de données quantitatives

Cybermarché et analyse comportementale

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction à la B.I. Avec SQL Server 2008

Travailler avec les télécommunications

Université Paris IX DAUPHINE DATE : 24/04/06

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Les dessous des moteurs de recommandation

Didier MOUNIEN Samantha MOINEAUX

Critères pour avoir la meilleure équipe!

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Guide d exploration de base de données de IBM SPSS Modeler 15

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

L analyse de la gestion de la clientèle

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

INTRODUCTION AU DATA MINING

4.2 Unités d enseignement du M1

Les Entrepôts de Données

SCP BOISSEAU POMEZ COMMISSAIRES PRISEURS JUDICIAIRES 38 RUE FURIER ST PARRES LES VAUDES TEL FAX

Groupe Eyrolles, 2004 ISBN :

Chapitre 9 : Informatique décisionnelle

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

La Business Intelligence & le monde des assurances

We make your. Data Smart. Data Smart

Coheris est agréé organisme de formation, n d agrément

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Arbres binaires de décision

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Intégrer le CRM : quelle utilité, quels profits pour ma PME?

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

CAHIER DES CHARGES POUR APPLICATION MOBILE GRC

LES ENTREPOTS DE DONNEES

Entrepôt de données 1. Introduction

THOT - Extraction de données et de schémas d un SGBD

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

IBM SPSS Direct Marketing

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Panorama des solutions analytiques existantes

Circulaire du 7 juillet 2009

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Big Data et Marketing : les competences attendues

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Conseil et Ingénierie des Systèmes d Information d Entreprise

BUSINESS INTELLIGENCE

Méthodologie de conceptualisation BI

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Société : xxxxx. Rapport de référencement naturel

La problématique. La philosophie ' ) * )

AXIAD Conseil pour décider en toute intelligence

Apprentissage Automatique

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Intelligence Economique - Business Intelligence

La place de SAS dans l'informatique décisionnelle

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

Gestion de la relation client : l expérience du Crédit du Nord

L information et la technologie de l informationl

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Transcription:

WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ]

SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1. MODÈLES... 4 2.2. DE NOUVEAUX GISEMENTS... 4 2.2.1. Textmining... 4 2.2.2. Webmining... 4 2.2.3. Données symboliques... 4 2.3. SOLUTIONS INDUSTRIELLES... 5 2.3.1. SAS Enterprise Miner... 5 2.3.2. 1.2.2 SPSS Clementine... 5 2.3.3. Oracle Darwin... 6 2.3.4. IBM Intelligent Miner... 6 2.3.5. Synthèse des offres des principaux éditeurs... 7 2.4. CAS D UTILISATION... 7 2.4.1. Grande distribution... 7 2.4.2. Banques et Assurances... 7 2.4.3. Opérateurs de téléphonie mobile... 8 2.4.4. VPC... 8 3. ETUDE STATISTIQUE WEBSELL... 9 3.1. CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES... 9 3.1.1. Les sources... 9 3.1.2. L'es objectifs... 9 3.1.3. Les données... 9 3.2. L ANALYSE... 13 3.2.1. Individus et concepts... 13 3.2.2. Variables... 13 3.2.3. SOE : Symbolic Objects Editor... 14 3.2.3.1. Présentation de la méthode SOE...14 3.2.3.2. Mise en oeuvre de la méthode SOE...14 3.2.3.2.1. Analyse des «Marques»...14 3.2.3.2.2. Analyse des «Produits»...15 3.2.4. STAT... 16 3.2.4.1. Présentation de la méthode STAT...16 3.2.4.2. Mise en oeuvre de la méthode STAT...17 3.2.4.2.1. Les fréquences relatives pour les variables intervalles...17 3.2.4.2.2. Les capacités pour les variables multi nominale probabilistes...17 3.2.4.2.3. Biplot pour les variables intervalles...19 3.2.5. DIV : Divisive Clustering on Symbolic Objects... 21 3.2.5.1. Présentation de la méthode DIV...21 3.2.5.2. Mise en oeuvre de la méthode DIV...21 3.2.5.2.1. Les variables qualitatives : Description des marques...21 3.2.5.2.2. Les variables intervalle: Description des marques...22 3.2.5.2.3. Les variables qualitatives : Description des groupes de produits...23 3.2.5.2.4. Les variables intervalle : Description des groupes de produits...23 4. CONCLUSIONS...ERREUR! SIGNET NON DEFINI. [ Page 2 ]

1. INTRODUCTION L information est la ressource du XXI siècle et la statistique un des métiers essentiels de son traitement. Le Data Mining (synonymes: Fouille de données, extraction de connaissances ou KDD) en est un avatar: nouveau champ d application à l interface de la statistique et des technologies de l information (bases de données, intelligence artificielle, apprentissage etc.). La métaphore du Data Mining signifie qu il y a des trésors ou pépites cachés sous des montagnes de données que l on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d autres fins: c est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles 1. Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d expériences) 2. L idée de découvrir des faits à partir des données est aussi vieille que la statistique Statisticsis the science of learning from data. Statistics is essential for theproperrunning of government, central to decisionmakingin industry,anda corecomponent of modern educational curricula atalllevels 3. Dans les années 60 on a l Analyse Exploratoire : «L analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.»4 Le Data Mining est né de : L évolution des SGBD vers l informatique décisionnelle avec les entrepôts de données (Data Warehouse). La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés. Développement de la Gestion de la Relation Client (CRM) Marketing client au lieu de marketing produit Attrition, satisfaction, etc. Recherches en Intelligence artificielle, apprentissage, extraction de connaissances Mais aussi une entreprise commerciale... 1 Kardaun, T.Alanko,1998) 2 Hand, 2000 3 J.Kettenring, 1997, ancien président de l ASA. 4 J.P.Benzécri1973 [ Page 3 ]

2. METHODES ET OUTILS 2.1. MODÈLES Construire des modèles a toujours été une activité des statisticiens.unmodèle est un résumé global des relations entre variables, permettant de comprendre des phénomènes, et d émettre des prévisions. «Tous les modèles sont faux, certains sont utiles» 5 Le Data Mining ne traite pas d estimation et de tests de modèlespréspécifiés, mais de la découverte de modèles à l aide d un processus de recherche algorithmique d exploration de modèles: linéaires ou non, explicites ou implicites: réseaux de neurones, arbres de décision, SVM, régression logistique. Les modèles ne sont pas issus d une théorie mais de l exploration des données. 2.2. DE NOUVEAUX GISEMENTS 2.2.1. Textmining Extraire de l information de textes. Une part croissante de l information se présente sous forme digitalisée: documents électroniques, nouvelles, brevets, réclamations, e-mails etc. Des techniques spéciales de classification supervisée ou non sont développées. 2.2.2. Webmining Analyse de la fréquentation de sites webet du comportement des utilisateurs. Applications : fidélisation mesures d efficacité de campagnes de promotion click analysis : optimisation des sites 2.2.3. Données symboliques Sortir du cadre du tableau rectangulaire, avoir des données floues ou intervalles, avec ou sans probabilités. Eurostat a financé le projet SODAS (symbolicdata analysisfor official statistics), un consortium de 17 équipes européennes dont le laboratoire Ceremade de l université de Paris-Dauphine. 5 (G.Box) [ Page 4 ]

La spécificité du projet SODAS est d étendre le champ d application du Datamining au traitement de concepts, et non plus seulement aux individus statistiques classiques. Les concepts sont des objets statistiques de haut niveau définis à la fois par intension (description) et par extension (ensemble des éléments, individus ou sous-concepts représentés par le concept). La modélisation des concepts nécessite un mode de représentation particulier, dit symbolique, la représentation ne pouvant se réduire à une information numérique élémentaire. Le projet SODAS a donné lieu à la mise en oeuvre d un progiciel du même nom, adaptant dans le cas des données symboliques les algorithmes classiques des statistiques exploratoires et du Datamining. Le projet décrit dans la suite de ce mémoire a été réalisé avec SODAS 2.5. 2.3. SOLUTIONS INDUSTRIELLES 2.3.1. SAS Enterprise Miner La solution de Datamining de SAS est caractérisée par un référentiel partagé des modèles. Les modèles de scoring peuvent être déployés dans des environnements d exécution divers, avec un runtime SAS ou au sein même de la base de données relationnelle. SEM propose un processus global intégré de traitementde données : échantillonnage, exploration, modification, modélisation et validation (SEMMA). Les algorithmes de Datamining suivants sont disponible : Statistiques descriptives Segmentation Analyse de séquences Analyse factorielle Séries temporelles Régression linéaire et logistique Arbres de décision Réseaux neuronaux Induction de règles Classification 2.3.2. 1.2.2 SPSS Clementine Autre solution client-serveur basée sur un référentiel centralisé, Clementine, la solution de Data Mining de l éditeur britanique SPSS propose un panel d algorithmes de Datamining très riche. Le modèle de processus CRISP-DM (CRoss- Industry Standard Process for Data Mining), d initiative principalement européenne, et dont SPSS est un des principaux initiateurs, se veut un effort de standardisation de la démarche de mise en oeuvre du Datamining en entreprise. On a vu que SAS proposait son propre modèle de processus, SEMMA, qui se place donc en concurrence de CRISP- DM. Ce dernier est évidemment implémenté dans Clementine et mis en avant comme un des [ Page 5 ]

points forts de la solution. A noter la capacité de Clementine à exploiter les algorithmes disponibles au niveau des SGBDR DB2,Oracle ou SQL Server, selon ce que proposent ces éditeurs, et les possibilités de déploiement PMML des modèles. Clementine propose les algorithmes suivants : Arbres de décision Régression Segmentation Apprentissage bayésien Classification Réseaux neuronaux Induction de règles Régression linéaire et logistique Analyse factorielle 2.3.3. Oracle Darwin Moins riche sur le plan des algorithmes proposés que les deux précédents pure player, mais probablement plus abordable dès lors que l on dispose déjà du SGBDR de l éditeur, la solution d Oracle est présentée comme une alternative assez complète, dont l atout principal réside dans l intégration supposée au plus près du SGBDR et la disponibilité des données que cette intégration est censé apporter. Elle propose les algorithmes suivants : Réseaux neuronaux Régression linéaire Régression logistique Arbres de décision Règles d association Apprentissage bayésien Segmentation et analyse de données exploratoire 2.3.4. IBM Intelligent Miner Il s agit en réalité d une suite de produits sous la forme d extension des SGBDR [ Page 6 ]

associés à une interface de programmation (Intelligent Miner Scoring ou Intelligent Miner Modeling), de composants applicatifs (Intelligent Miner Vizualization) ou bien d application indépendante (Intelligent Miner for Data). L approche est similaire à celle d Oracle du point de vue de la proximité de la solution avec le SGBDR et la simplicité relative, avec l utilisation de la norme PMML comme format d échange. Algorithmes proposés : Associations Classification (neuronale ou hiérarchique) Segmentation Prédiction 2.3.5. Synthèse des offres des principaux éditeurs 2.4. CAS D UTILISATION Voici un rapide et non-exhaustif aperçu par secteur d activité des types de besoin et des approches mises en oeuvre pour les résoudre. 2.4.1. Grande distribution Les modèles de Datamining sont invoqués dans la grande distribution en marketing client, dans le cadre de la mise en service des cartes de fidélité. Les grandes enseignes comme Auchan ou la Fnac ont compris que la carte de fidélité et les systèmes de points leur permettaient de collecter les habitudes d achat de leur clientèle et d exploiter ces informations à des fins promotionnelles ciblées. 2.4.2. Banques et Assurances Aussi bien les banques que les assurances ont par nature une très bonne connaissance de leur clientèle et sont à même d exploiter cette information. La premier intérêt est, là encore, au niveau des directions en charge du marketing, la segmentation restant l outil de base. Les directions en [ Page 7 ]

charge du risque (de crédit bancaire par exemple) sont également intéressées par les modèles de notation faisant appel à l analyse discriminante. Le caractère central du système d information comme principal outil de production dans le secteur banque-assurances milite pour une mise en oeuvre s appuyant sur de riches infrastructures client-serveur, au plus près des données de production. Il n est donc pas rare de retrouver l offre des grands éditeurs spécialisés du Datamining dans ces entreprises. 2.4.3. Opérateurs de téléphonie mobile Ce secteur d activité doit gérer la problématique d un marché déjà pratiquement saturé. L enjeu est ici plus dans la capacité à conserver sa clientèle que dans la conquête de nouveaux clients. Une méthode particulière appelée churn, qui consiste à détecter les clients en partance à partir de l analyse de leurs habitudes de consommation (baisse d activité notamment) a été mise en oeuvre chez Bouygues-Télécom par exemple. Ce type de méthode s appuie sur des modèles de régression ou de réduction d axes. Mais leur mise en oeuvre, assez spécialisée fait l objet de solutions dédiées (ex. Churn-CPS). 2.4.4. VPC Deux types de processus d analyse sont mis en oeuvre pour répondre aux problématiques spécifiques de la VPC, comme c est par exemple le cas aux 3Suisses. 1) Un processus de segmentation de la clientèle, basé sur des méthodes de partitionnement, est utilisé notamment pour optimiser les envois coûteux de catalogue de produits complets, en ciblant les segments de clientèles pour lesquels cet envoi se traduira vraisemblablement en actes d achat. 2)Un processus de scoring, basé sur des méthodes d analyse discriminante, pour le marketing événementiel : par exemple l envoi ciblé et à moindre coût de petits catalogues associés à des opérations promotionnelles ponctuelles. Du point de vue de l implémentation, une forte culture statistique dans ce genre de structure autorise le développement en interne des algorithmes à partir de SAS par exemple, sans que l acquisition complémentaire de solutions dédiées soit nécessairement consentie. [ Page 8 ]

3. ETUDE STATISTIQUE WEBSELL 3.1. CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES 3.1.1. Les sources L étude a été établie sur la base de données e-commerce que j'ai créée à travers l extrapolation des données du site www.vertbaudet.com pendant la période des soldes. Spécialisée dans la vente de produits pour enfants de 0 à 14 ans via quatre catalogues par an et plusieurs boutiques, Vertbaudet, vend également en ligne depuis janvier 2001. "Aujourd'hui, Internet représente 15% de notre chiffre d'affaires et les commandes en ligne s'élèvent à 8 000 par semaine", indique Isabelle Le Corre, responsable Internet de Vertbaudet. Des chiffres en progression constante puisqu'au mois d'octobre 2002, le site annonçait qu'internet représentait 8 % du chiffre d'affaires de la marque et 5 000 commandes par semaine. Vertbaudet.fr propose l'intégralité des catalogues de la marque, soit actuellement 1 500 références organisées en neuf rubriques. 3.1.2. L'es objectifs L étude a la finalité de réaliser l action du benchmarking en effectuant l analyse des choix du marketing adoptes par la Direction du Vertbaudet dans le cadre de la distribution des via web site et d en déduire les goûts des clients par rapports des différentes marques et leurs comportements en fonctions des actions promotionnelles lancées et réductions appliquées pendant la periode des soldes. 3.1.3. Les données En effet je ne dispose pas des données d analyse des ventes classiques telles que les «quantités vendus» ou «les marges par produit». L analyse est basées sur les données telles que : les prix, les réductions appliquées pendant les soldes, les promotions réalisées dans le cours du semestre avant les soldes, la disponibilité des produits une semaine après le début des soldes. La base Access sur laquelle j ai travaillé, est composé d une table «globale» que contient toutes les informations que j ai réussit de récupérer sur le web site et de plusieurs tables et requêtes que j ai construite a fin d avoir une vision systématique des données. [ Page 9 ]

La table «Référentiel» contient les numéros des références des produits, une leurs désignation (description), un leurs appartenance au group spécifique de produit et à la collection données. GROUPES DE PRODUITS CARDIGANS CHEMISES ENSEMBLE JUPES MANTEAUX ET BLOUSONS PANTALONS PULL ET SWEATS TEE-SHIRTS Les groupes des produits font objet du mon étude dans une première partie. COLLECTIONS FILLE GARCON La table «Catalogue» contient les données relatives à l offre complète des produits (autre que la description, on a les tailles, les prix, les promotions, les réductions, la disponibilité et l appartenance à une marque). MARQUES A&Felicie Mia blue OKIDS TODAY VBS Les marques font objet du mon étude dans la deuxième partie. Tailles commercialisées par marque A&Felicie mia blue OKIDS TODAY VBS 2 ans 1 1 1 1 1 3 ans 1 1 1 1 1 4 ans 1 1 1 1 1 5 ans 1 1 1 1 1 6 ans 1 1 1 1 1 7 ans 1 1 1 1 1 8 ans 1 1 1 1 1 9 ans 1 1 1 1 1 10 ans 1 1 1 1 1 11 ans 1 1 1 1 1 12 ans 0 0 1 1 0 [ Page 10 ]

La table «Taxonomie» contient la classification des articles selon les groupes des produits DESIGNATION CACHE-COEUR CARDIGAN CARDIGAN POLAIRE CARDIGAN WESTERN GILET LOT 2 CARDIGANS BLOUSE CHEMISE CARREAUX CHEMISE RAYEE CHEMISIER SURCHEMISE SURCHEMISE RAYEE WESTERN SURCHEMISE WESTERN CARDIGAN+PANTALON ENSEMBLE CARDIGAN + JUPE ENSEMBLE CARDIGAN + PANTALON ENSEMBLE TOP + CALECON JUPE JUPE BACHETTE JUPE CULOTTE JUPE ETHNIC JUPE PLISSEE JUPE POLE NORD JUPE SO BRITTISH LOT 2 JUPES CULOTTES BLOUSON BLOUSON HOCKEY COUPE VENT DOUDOUNE DOUDOUNE IDOLE DUFFLE COAT LONGUE DOUDOUNE MANTEAU MANTEAU DOUDOUNE PARKA 3 EN 1 PARKA CAPUCHE PARKA POLE NORD PARKA RUSTIC VESTE ETHNIC VESTE FILLE CALECON LOT 2 CALECONS LOT 2 PANTALONS PANTACOURT PANTALON PANTALON ETHNIC PANTALON HOCKEY PANTALON IDOLE PANTALON POLE NORD PANTALON RUSTIC CARDIGANS CHEMISES ENSEMBLE JUPES GROUP MANTEAUX ET BLOUSONS PANTALONS [ Page 11 ]

DESIGNATION PANTALON SO BRITTISH PANTALON WORKER LOT 2 PULLS LOT 2 SWEATS POLO POLO RUGBY PULL PULL PULL CHAUSSETTE PULL COL ROULE PULL COUNTRY PULL HOCKEY PULL JERSEY PULL RUSTIC PULL SCOTTISH SWEAT SWEAT GRAND FROID SWEAT HOCKEY SWEAT POLAIRE SWEAT RAS DE COU SWEAT WESTERN SWEAT WORKER PULL SWEAT ROBE LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS RUSTIC LOT 2 TEE-SHIRTS SCOTTISH LOT 2 TEE-SHIRTS WORKER LOT 3 SOUS-PULLS LOT 3 TEE-SHIRTS TEE-SHIRT TEE-SHIRT TEE-SHIRT HOCKEY GROUP PANTALONS PULL ET SWEATS ROBES TEE-SHIRTS Les requêtes «Catégories» et «Marques» me permettons de sélectionner les données nécessaires pour l analyse des mes concepts. [ Page 12 ]

3.2. L ANALYSE 3.2.1. Individus et concepts Du point de vue de l analyse de données symboliques, mes concepts seront donc les groupes de produites et les marques. 3.2.2. Variables Les variables ordinales sont décrites par les désignations des produits (numéro de référence) qui constituent l extension de nos concepts crus. Il s agit : de la couleur de la disponibilité du type de promotion applique avant la période des soldes de la marque (dans le cas d analyse des concepts «groupes des produits») du groupe de produits (dans le cas d analyse des concepts «marques»). Trois variables d intervalles sont décrites par les désignations. Il s agit : de la taille du prix de la réduction appliquée pendant les soldes [ Page 13 ]

3.2.3. SOE : Symbolic Objects Editor 3.2.3.1. Présentation de la méthode SOE L éditeur d objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau. 3.2.3.2.Mise en oeuvre de la méthode SOE L étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme d histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais sur un axe (avec mention également des valeurs extrêmes rencontrées pour l ensemble des concepts). 3.2.3.2.1. Analyse des «Marques» Une étoile superposée a permit de confronter les différentes variables caractérisants les politiques marketing des 5 marques différentes vendu via web sur Vertbaudet. Cette méthode a permit déjà d avoir les premières idées sur les promotions exercices et les gammes d offre existante dans les différents groupes des produits, en particulier : [ Page 14 ]

La marque OKIDS a exercée le majeur nombre des promotions avant soldes (les prix malice et les promotions en achetant 2 articles on le 3 en cadeaux) par rapport aux autres marques. Ainsi que la disponibilité des produits OKIDS est mineure au début des soldes. Successivement ça sera intéressant de vérifier est ce que il y a une liaison entre l effet d avoir le produits épuises et l application des promotions avant les soldes. La marque A & Felicie se positionne plutôt dans la niche de prix assez cher, L offre des produits de la marque Mia Blue est concentrée plutôt dans la collection filles. Par rapport aux groupes des produits, la gamme d offre est plus riche pour les groupes pantalons, robes et pulls. 3.2.3.2.2. Analyse des «Produits» L information la plus intéressante qui ont peut tiré de l étoile superpose des concepts «produits» est que pour les groupes cardigans, pull, robes et ensemble malgré l absence de promotions avant les soldes la quantités des produits épuises est significative. Donc dans un premier lieu, on peut : exclure la dépendance entre les promotions et la disponibilité des produite et de nous nous concentrer sur les autres variables, commencer à mieux comprendre les goûts des acheteurs par rapport a des groupes des produits. [ Page 15 ]

Par exemple l approfondissement sur le groupe robes nous a permit d identifier que l offre de produits est repartie principalement entre les 3 marques : OKIDS, TODAY et A&Felicie. 3.2.4. STAT 3.2.4.1.Présentation de la méthode STAT La méthode Stats adapte les méthodes mono-dimensionnelles classiques de l analyse exploratoire à l analyse de données symboliques. Elle permet entre autres la représentation des données symboliques sous forme : d histogramme des variables modales ou intervalles, avec dans le dernier cas un découpage en classes de l échelle de valeur considérée ; de «boîte à moustache» pour les variables modales, indiquant les valeurs minimale, maximale et moyenne de chaque modalité ; graphique à deux dimensions (biplot), chaque concept étant représenté par le rectangle induit par ses deux intervalles pour les deux variables intervalles choisies comme axes. [ Page 16 ]

3.2.4.2. Mise en oeuvre de la méthode STAT 3.2.4.2.1. Les fréquences relatives pour les variables intervalles Grâce à cette méthode il est possible de visualiser le prix et les réductions. Il est évident que plus de réductions dont le % se situe entre 45 et 55%. Pour ce que concerne le prix, la majorité des produits ont le prix entre le 19 et 30. 3.2.4.2.2. Les capacités pour les variables multi nominale probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Les graphiques successives ont permit d identifier les points suivants : la collection fille est plus riche par rapport à la collection garçon, l offre pour les débardeurs, ensembles et robes est beaucoup mois différentié par rapport aux autres groupes des produits (d ici on peut expliquer «les produits épuises» dans cette groupes), les couleurs les plus utilisées sont : rouge, kaki, écru, ciel, beige, rose, marron ; ainsi que les moins utilisées sont pruneau, violette, jaune, fuchsia, mauve. [ Page 17 ]

Par rapports aux marques, on constante que les deux les plus représentativités sont OKIDS et TODAY. [ Page 18 ]

3.2.4.2.3. Biplot pour les variables intervalles Afin d obtenir des informations supplémentaires sur prix et réductions deux biplots ont été analysé. Le premier concerne le concept «marque». On constate un certain alignement dans l application des réductions pour toutes les marques concernées. En revanche ils sont des différences assez évidents entre les intervalles des prix pratiques pour les différentes marques. Le deuxième biplot concerne les concepts «groupes des produits». On constate : la fourchette des réductions pour les jupes et robes comporte les % superieures par rapports aux autres groupes des produits, les manteaux et blousons appartiennent à la catégorie la plus chère et le groupe tee-shirts à la catégorie la mois chère. [ Page 19 ]

Dans cette première étape du notre benchmarking les valeurs numériques a retenir sont : -------------------------------------------------------------------------------- NUMERIC CHARACTERISTICS mean std dev. best correlated prix 27.76 6.63 REDUCTION (0.400) REDUCTION 49.00 2.00 prix (0.400) SYMBOLIC CHARACTERISTICS mean std dev. prix 8.62 0.00 46.90 45.08 REDUCTION 32.00 0.00 66.00 35.81 [ Page 20 ]

3.2.5. DIV : Divisive Clustering on Symbolic Objects 3.2.5.1.Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur. 3.2.5.2.Mise en oeuvre de la méthode DIV La méthode DIV a permit de réaliser une classification des marques et des groupes de produits par division successive de chaque classe, en partant d une seule classe réunissant tous les marques et toutes les groupes de produits. 3.2.5.2.1. Les variables qualitatives : Description des marques Les variables à la base de la méthode : Group des produits Les promotions avant les soldes La disponibilité La collection On a: PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=1) : mia blue Cluster 2 (n=2) : A&Felicie TODAY Cluster 3 (n=2) : OKIDS VBS Explicated inertia : 68.862951 La marque Mia Blue se distingue des autres. Par contre, les autres classes montrent un regroupement des marques sur les critères choisis [ Page 21 ]

3.2.5.2.2. Les variables intervalle: Description des marques Une autre étude a été fait en choisissant d autres paramètres en entrée : taille prix réduction On a : VARIANCE OF THE CRITERTION-VARIABLES : ------------------------------------ taille : 0.960000 prix : 185.040000 REDUCTION : 28.000000 ------------------------------------------------------- PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=2) : mia blue VBS Cluster 2 (n=1) : OKIDS Cluster 3 (n=2) : A&Felicie TODAY Explicated inertia : 88.446262 La marque OKIDS se distingue des autres. Dans ce cas, l arbre de décision révèle, des différences entre les marques sont du aux prix. +---- Classe 1 (Ng=2)!!----1- [prix <= 24.100000]!! +---- Classe 2 (Ng=1)!!!----2- [prix <= 29.850000]! +---- Classe 3 (Nd=2) [ Page 22 ]

3.2.5.2.3. Les variables qualitatives : Description des groupes de produits Les variables à la base de la méthode : disponibilité promotion avant soldes On a : PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=3) : (Disponible immédiatement, aucune promotion avant soldes) CHEMISES PANTALONS PULL ET SWEATS Cluster 2 (n=1) : (promotion avant soldes) TEE-SHIRTS Cluster 3 (n=5) : (disponibilité diffère ou épuise et aucune promotion avant soldes) CARDIGANS ENSEMBLE JUPES ROBES MANTEAUX ET BLOUSONS Explicated inertia : 47.290548 Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du à la disponibilité et aux promotions avant les soldes : +---- Classe 1 (Ng=3)!!----2- [disponibilité = 001]!!! +---- Classe 3 (Nd=5)!!----1- [promotion_avant_soldes = 001]! +---- Classe 2 (Nd=1) NB. On retrouve toujours CARDIGANS ENSEMBLE JUPES ROBES (Cluster 3) dans les articles épuises. 3.2.5.2.4. Les variables intervalle : Description des groupes de produits On a les variables taille prix réduction [ Page 23 ]

VARIANCE OF THE CRITERTION-VARIABLES : ------------------------------------ taille : 0.395062 prix : 141.837530 REDUCTION : 35.802469 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=5) : CHEMISES JUPES PANTALONS PULL ET SWEATS TEE-SHIRTS Cluster 2 (n=1) : MANTEAUX ET BLOUSONS Cluster 3 (n=3) : CARDIGANS ENSEMBLE ROBES Explicated inertia : 79.496341 Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du aux prix : +---- Classe 1 (Ng=5)!!----2- [prix <= 20.825000]!!! +---- Classe 3 (Nd=3)!!----1- [prix <= 34.950000]! +---- Classe 2 (Nd=1) [ Page 24 ]

4. CONCLUSIONS L analyse à révélé certaines informations regardant les comportements des «marques» et des «groupes de produites». En particulier, que la politique des réductions des prix pendant les soldes est assez homogène par les groupes de produits. Les réductions sont corrèles aux prix initiales. Le marque ont une légère différentiation dans la politique des prix et de promotions appliques avant la période des soldes. La disponibilité des groupes des produits apparemment n est pas corrélée à des promotions avant les soldes ne aux prix. Vus que groupes des produits épuises sont toujours les mêmes on peut avoir pour l hypothèse que sont les groupes des produits préfères par les acheteurs ou que l offre n est pas suffisante. Le couleurs le plus utilisées ont été identifies. L Analyse des Composantes principales traditionnellement appliquée aux individus n a pas été effectué a cause de l indisponibilité des données (par définition, elle ne s applique qu aux variables quantitatives et nécessite de disposer de plus de deux variables puisqu elle a précisément pour objectif une réduction du nombre d axes, idéalement à deux pour permettre une représentation dans le plan des objets : individus ou concepts). La construction d une pyramide na pas donné des résultats satisfaisants, ça fait donc pensé que les variables choisis ne sont pas représentatifs. [ Page 25 ]