DATAMINING. Etude et analyse des ventes d une chaîne de magasins

Transcription

1 SILVI Stéphanie WAREMBOURG Pierre-Alexandre DESS 220 Informatique de Gestion Université Paris Dauphine DATAMINING Etude et analyse des ventes d une chaîne de magasins Tuteur : Monsieur Edwin DIDAY Promotion 2002 WAREMBOURG Pierre-Alexandre Informatique de Gestion

2 Sommaire Sommaire Introduction...1 PARTIE 1 : Méthode et Outils A. Le datamining Objectif Le logiciel SODAS (Symbolic Official Data Analysis System)... 4 B. Les outils : Le logiciel SODAS Présentation Méthode d utilisation... 6 a. Généralités...6 b. Sélection d une base d étude...7 c. Choix des méthodes à appliquer...8 PARTIE 2 : L'analyse : Etude Statistique A. Présentation de l étude Contexte de l étude et présentation des données Les objectifs B. L analyse DB2SO : extraction de données symboliques de la base de données relationnelles a. Généralités...13 b. Présentation de DB2SO SOE : Symbolic Objects Editor a. Présentation de la méthode SOE...20 b. Mise en œuvre de la méthode SOE STAT a. Présentation de la méthode STAT...25 b. Mise en oeuvre de la méthode STAT...26 WAREMBOURG Pierre-Alexandre Informatique de Gestion

3 Sommaire 3. DIV : Divisive Clustering on Symbolic Objects a. Présentation de la méthode DIV...34 b. Mise en oeuvre de la méthode DIV DSD : Discrimant Symbolic Descriptions a. Présentation de la méthode DSD TREE : Decision Tree a. Présentation de la méthode TREE...40 b. Mise en oeuvre de la méthode TREE PYR : Pyramical Clustering on Symbolic Objects a. Présentation de la méthode PYR...42 b. Mise en oeuvre de la méthode PYR PCM : Principal Component Analysis a. Présentation de la méthode PCM...44 b. Mise en œuvre de la méthode PCM FDA : Factorial Discriminant Analysis a. Présentation de la méthode FDA...47 b. Mise en œuvre de la méthode FDA...47 Conclusion...52 WAREMBOURG Pierre-Alexandre Informatique de Gestion

4 Introduction Introduction Désormais, le Datamining est au cœur de toutes les préoccupations du monde économique. Le Datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues mais qui peuvent être utiles et lucratives et d'utiliser ces informations pour soutenir des décisions commerciales tactiques et stratégiques. Les techniques statistiques du datamining sont bien connues. Il s'agit notamment de la régression linéaire et logistique, de l'analyse multivariée, de l'analyse des composantes principale, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l'inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de millions de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et mêmes les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L'objectif est de construire un modèle dont le pouvoir de prédiction soit satisfaisant. Il ne suffit pas de savoir quelles relations sont statistiquement importantes. Prenons le cas d'une campagne qui offre à la vente un produit ou un service et qui cible une base de clientèle donnée. En règle générale, environ 1% de la base de clientèle "réagiront", c'est-à-dire achèteront le produit ou le service s'il leur est proposé. Un publipostage envoyé à clients choisis au hasard générera ainsi environ ventes. Les techniques de datamining permettent un marketing fondé sur la relation avec la clientèle, en identifiant quels clients risquent le plus de réagir à la campagne. Si le taux de réponse peut être augmenté de 1% à 1,5%, par exemple, alors ventes pourront être réalisées avec envois seulement, ce qui réduit le coût du publipostage d'un tiers. L analyse de données symboliques prend actuellement de plus en plus d importance, en témoigne le développement du logiciel spécifique SODAS. Nous allons utiliser ce logiciel afin d extraire des informations concentrées dans une base de données relationnelle. Notre base d étude concerne les ventes réalisées par une chaîne de 13 magasins présents en Europe. Le présent rapport est constitué de deux parties principales. La première est une présentation générale du datamining et du logiciel SODAS que nous utilisons pour notre étude. Nous expliquerons, ensuite, le contexte de l étude et nous analyserons les données de notre base en appliquant diverses méthodes offertes par le logiciel SODAS. WAREMBOURG Pierre-Alexandre Informatique de Gestion

5 Partie 1 Méthodes et outils

6 Partie 1 : Méthodes et Outils A. Le datamining 1. Objectif Les progrès de la technologie informatique dans le recueil et le transport de données, font que dans tous les grands domaines de l'activité humaine, nous réunissons maintenant des données de toutes sortes (numériques, textuelles, graphiques...) et en quantité souvent gigantesque. Partout dans le monde, il se constitue ainsi de considérables gisements de connaissances. En particulier sur le réseau mondial Internet, des ensembles de données (sociales, économiques, commerciales, médicales, biologiques, industrielles ) qui étaient difficiles d'accès voire inaccessibles auparavant apparaissent désormais à la portée de tous. De plus, des systèmes d'interrogation des données, qui n'étaient autrefois réalisables qu'à l'aide de langages informatiques nécessitant l'intervention d'ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d'accès et d utilisation. Résumer ces données, à l'aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Elles sont dites "symboliques", car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l'extension des méthodes de "l'analyse des Données Exploratoires" et plus généralement, de la "Statistique Multidimensionnelle" à de telles données, pour en extraire des connaissances d'interprétation aisée, devient une tâche d'importance grandissante. Nous ne nous intéressons pas ici à la représentation des connaissances considérée comme un tout, dès le départ et organisé par un expert, ce qui a constitué l'un des domaines de prédilection de l'intelligence Artificielle, mais plutôt à des "atomes" ou "unités" de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu'il s'agit pour nous d'analyser et d'organiser de façon automatique. Par rapport aux approches classiques, l'analyse des Données Symboliques présente les caractéristiques et ouvertures suivantes : - Elle s'applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité ) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui vont être développés ci-dessous. WAREMBOURG Pierre-Alexandre 2 / 52 Informatique de Gestion

7 Partie 1 : Méthodes et Outils - Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et de spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravités. - Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l'utilisateur. - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus. - Ils peuvent être facilement transformés sous forme de requête sur une Base de Données. Ceci a au moins les deux conséquences suivantes : - Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d'enquête socio-démographiques). - Alors qu'habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l'utilisateur, les objets symboliques formés à partir de la base par les outils de l'analyse des Données Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l'utilisateur. WAREMBOURG Pierre-Alexandre 3 / 52 Informatique de Gestion

8 Partie 1 : Méthodes et Outils 2. Le logiciel SODAS (Symbolic Official Data Analysis System) Il s'agit d'un logiciel prototype public apte à analyser des données symboliques. Il est téléchargeable à l adresse : Il est issu d un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse de données symbolique. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Une analyse des données dans SODAS suit les étapes suivantes : - Partir d'une base de données relationnelle (ORACLE, ACCESS,...) - Définir ensuite un contexte par : o des unités statistiques de premier niveau (habitants, familles, entreprises, accidents,...), o les variables qui les décrivent o des concepts (villes, groupes socio-économiques, scénario d'accident,...) Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur notre base de données relationnelle.. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l'utilisateur. On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). WAREMBOURG Pierre-Alexandre 4 / 52 Informatique de Gestion

9 Partie 1 : Méthodes et Outils Le schéma ci dessous illustre les étapes successives d une étude avec le logiciel SODAS. WAREMBOURG Pierre-Alexandre 5 / 52 Informatique de Gestion

10 Partie 1 : Méthodes et Outils B. Les outils : Le logiciel SODAS 1. Présentation La fenêtre principale de SODAS se compose de 3 éléments principaux : La barre d outils de la fenêtre principale comporte 5 menus. 2. La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes méthodes disponibles. 3. La fenêtre Chaining de la fenêtre principale gère l enchaînement des méthodes appliquées à la base choisie. 2. Méthode d utilisation a. Généralités Il est tout d abord important de définir ce qu est une filière dans le logicielle SODAS. Il s agit d une représentation graphique des calculs que nous souhaitons effectuer qu il nous est possible de visionner dans la fenêtre Chaining. En tête d une filière, figure l icône BASE représentant notre fichier SODAS (.sds) sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l enregistrement de la filière, les résultats figureront sous forme d icônes, à droite de chacune des méthodes. WAREMBOURG Pierre-Alexandre 6 / 52 Informatique de Gestion

11 Partie 1 : Méthodes et Outils b. Sélection d une base d étude Icône BASE Tout fichier SODAS possède l extension.sds. C est un fichier de ce type qui va constituer la BASE de notre étude. Pour sélectionner un tel fichier, il faut : 1 double-cliquer sur l icône BASE 2 sélectionner notre fichier dans la liste de bases disponibles 3 cliquer sur OK. Notre filière a été modifiée et maintenant nous pouvons lire le nom de la base associée à notre filière ainsi que son chemin d accès sur le disque dur. Identification de la BASE WAREMBOURG Pierre-Alexandre 7 / 52 Informatique de Gestion

12 Partie 1 : Méthodes et Outils c. Choix des méthodes à appliquer Nous allons enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d analyser les données de notre base. Pour cela nous pouvons utiliser des filières prédéfinies (Model \ Predefined chaining) ou bien composer nous-mêmes une filière en enchaînant des méthodes issues de la fenêtre Methods. Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l icône BASE ; nous sélectionnons ensuite la méthode que nous souhaitons appliquer, dans la fenêtre Methods et nous la faions glisser jusqu à l emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l icône BASE, selon l ordre défini par l utilisateur, dans lequel elles vont s enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu une description sommaire. La couleur de l icône de la méthode nous renseigne sur son état : - gris : la méthode n est pas encore paramétrée - rouge : la méthode est paramétrée Par défaut, les méthodes qui viennent d être insérée sont grisées. Chaque Méthodes est numérotées dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthodes. La couleur de cette boîte indique le statut de la méthode : - gris : la méthode ne peut être exécutée car elle n est pas paramétrée - vert : la méthode est exécutable car elle est paramétrée - rouge : la méthode est désactivée. Elle est exécutable mais l utilisateur en interdit l exécution (menu Methods puis Desactivate method). Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s ouvre ; elle regroupe l ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage de toutes les méthodes de la filière étant terminé, nous pouvons l exécuter. Par contre, toute exécution d une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d un nom dont l extension est.fil). Une fois cette opération effectuée, nous exécutons la filière en cliquant sur le sous menu Run chaining du menu Chaining. WAREMBOURG Pierre-Alexandre 8 / 52 Informatique de Gestion

13 Partie 1 : Méthodes et Outils Avant exécution de la filière Après exécution de la filière Suite à l exécution de la filière PROJET.FIL (dont le nom apparaît en haut à gauche de la fenêtre), de nouvelles icônes sont apparues dans la fenêtre Chaining, à droite des icônes Méthodes. Ces nouvelles icônes permettent d accéder aux résultats numériques et, le cas échéant, aux résultats graphiques de chaque Méthode exécutée. 1 un double-clic sur cette icône permet de d accéder aux résultats numériques (dans l éditeur de texte, Wordpad) de la méthode SOE 2 cette icône permet d accéder à l éditeur graphique de la méthode SOE 3 un double-clic sur cette icône affiche une représentation graphique de la méthode STAT suivant les paramètres saisis précédemment 4 cette icône entraîne l affichage de la représentation graphique de la classification pyramidale Toutes ces méthodes, ainsi que d autres, seront expliquées plus en détails dans la partie suivante du présent rapport. WAREMBOURG Pierre-Alexandre 9 / 52 Informatique de Gestion

14 Partie 2 L analyse : Etude statistique

15 A. Présentation de l étude 1. Contexte de l étude et présentation des données La base de données relationnelle, sur laquelle nous avons choisi de baser notre étude, est une base exemple du logiciel Business Objects. Elle regroupe les ventes sur 3 années (1999, 2000 et 2001) d une chaîne de 13 magasins de vêtements et accessoires, répartis dans 6 pays différents. Elle est constituée de 6 groupes de tables : - article : Liste tous les caractères descriptifs des articles (étiquette, couleur, catégorie, prix...) - promotion_produit et promotion_forme : Présentent le type et la période de promotion subit par certains articles. - vente_article : Liste les articles vendus, le magasin de la vente ainsi que diverses indications sur le chiffre d affaires. - calendrier et mois : Permettent d associer à chaque numéro de semaine de la tabel vente_article, notamment, un mois et une année. - liste_magasin, code_postal, ville, region et pays : Listent les magasins dans lesquels sont vendus les articles vendus et apportent diverses informations identifiant le magasin (nom, adresse ). - bilan_ventes : Contient différents résultats des ventes réalisées (marge, quantité vendue ). WAREMBOURG Pierre-Alexandre 11 / 52 Informatique de Gestion

16 Nous présentons ci-dessous le schéma relationnel de notre base de données afin de mieux la définir: 2. Les objectifs L objectif de notre étude est d analyser les ventes d une chaîne de 13 magasins. La base Access sur laquelle nous avons travaillé, associait à chaque article vendu, un numéro de vente. Ainsi, le nombre d enregistrements devenait très important puisque l étude porte sur les ventes de 13 magasins sur une durée de 3 années. Nous avons donc décidé de regrouper sous un numéro de ventes, les ventes d un même article, pour un magasin donné et pour un mois donné d une année donnée. Nos individus, c est-à-dire nos unités statistiques de premier niveau, seront donc constitués par les numéros de chaque vente et ils seront décrits, notamment, par l intitulé de l article vendu, sa couleur, la quantité vendue (puisque que nous agrégeons les résultats sur un mois), le montant total de la vente, la marge réalisée... La majorité de ces variables de description se trouvent dans la table vente_article. Nos concepts apparaissent alors de façon presque naturelle ; il s agit des noms de magasins. Nous avons réalisé plusieurs requêtes sur cette base afin de créer notre contexte d étude. WAREMBOURG Pierre-Alexandre 12 / 52 Informatique de Gestion

17 B. L analyse Une fois notre cadre d étude parfaitement défini, il nous est alors possible de débuter l analyse de nos données à l aide du logiciel SODAS. 1. DB2SO : extraction de données symboliques de la base de données relationnelles a. Généralités DB2SO est le module du logiciel SODAS qui permet à l utilisateur de créer un ensemble de concepts à partir de données stockées dans une base de données relationnelles. On présuppose bien évidemment qu une série d individus est stockée dans la base de données et que ces individus sont répartis entre plusieurs groupes. Ainsi, DB2SO va pouvoir construire un concept pour chaque groupe d individus. Dans ce processus, les variables mères / filles ainsi que les taxonomies sur les variables pourront également être associées avec les concepts créés. b. Présentation de DB2SO Le système de liaisons ODBC de SODAS lui permet d accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS file. WAREMBOURG Pierre-Alexandre 13 / 52 Informatique de Gestion

18 Un premier écran d importation apparaît alors dans lequel il faut sélectionner le menu File puis New. L écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il s agit d une base Microsoft Access. Notre projet a, en effet, pour objet l étude d une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l accès de DB2SO à la base de données relationnelles. SODAS ne propose aucun menu de connexion à la base de données car l utilisateur est automatiquement invité à s y connecter quand cela est nécessaire, c est-à-dire lorsqu il souhaite exécuter une requête. A tout moment, l utilisateur peut décider de changer de base de données en choisissant le menu File\Disconnect de l écran ci-dessus. Il sera alors invité à spécifier une nouvelle base de données. Une fois, le bon driver choisi, il faut indiquer le fichier.mdb. Pour ce faire, nous cliquons sur OK. WAREMBOURG Pierre-Alexandre 14 / 52 Informatique de Gestion

19 L étape suivante consiste à rechercher la base de travail et à la sélectionner. Lorsque ces étapes préliminaires ont été exécutées, nous allons procéder à l extraction des individus. Pour ce faire, il faut taper une requête SQL dans l écran qui se présente alors à nous. Cette requête est de la forme : select * from requête1 avec requête1 une requête qui nous renvoie une table : individus concepts description des individus Résultat de la requête1 : 1 ère colonne = individus 2 nde colonne = concepts 3 ème colonne et suivante = description des individus Individus concepts //// //// //// //// Description des individus Dans notre projet, il s agit de la requête : db2so_annee_00_promo SELECT db2so_annee_00.id_vente, db2so_annee_00.nom_magasin, db2so_annee_00.etiquette_article, db2so_annee_00.categorie, db2so_annee_00.famille_produit, db2so_annee_00.etiquette_couleur, db2so_annee_00.gamme_couleur, db2so_annee_00.mois, db2so_annee_00.quantite_vendue, db2so_annee_00.total_vente, db2so_annee_00.niv_vente, db2so_annee_00.marge, promotion_00.numero, promotion_00.cout_promotion FROM db2so_annee_00 LEFT JOIN promotion_00 ON (db2so_annee_00.code_article = promotion_00.code_article) AND (db2so_annee_00.mois = promotion_00.mois_promo); WAREMBOURG Pierre-Alexandre 15 / 52 Informatique de Gestion

20 La requête doit retourner une ligne pour chaque individu ; chaque ligne ayant la structure précisée à la page précédente : identifiant de l individu, groupe auquel appartient l individu et ensuite les différents attributs décrivant les individus. Le nombre de ces attributs est variable mais un minimum d un attribut est requis. Requête SQL renvoyant les individus, les concepts et la description des individus. Ce bouton permet de changer de base de données de travail. Si la dernière colonne de la table résultant de la requête représente un poids associé à chaque individu, nous pourrons cocher la première checkbox «Last column is ponderation» de la fenêtre. La seconde checkbox est, elle, utilisée si notre requête est supposée renvoyée un grand nombre de tuples (qui pourrait surcharger la mémoire). Dans ce cas, l utilisateur cochera l option Sampling et il devra spécifier le nombre d individus maximum pour chaque groupe (par défaut, ce nombre est fixé à 1000). Nous avons dû l utiliser en raison du trop grand nombre d individus de notre étude. Une fois la requête SQL tapée, nous cliquons sur le bouton OK et la requête est envoyée à la base de données ; les individus sont alors extraits de la base de donnée, ils sont stockés en mémoire et un tableau des concepts est généré. A l issue de l extraction de nos individus, il est possible de visualiser les résultats de l extraction, à savoir les tableaux des individus et des concepts en sélectionnant le menu View et en choisissant Individuals ou bien Assertions suivant ce que nous souhaitons voir. WAREMBOURG Pierre-Alexandre 16 / 52 Informatique de Gestion

21 A ce stade, nous pouvons sauvegarder notre travail en choisissant File\Save as ; le fichier sera alors enregistré avec l extension.gaj. Cette opération permet à l utilisateur de retrouver son travail dans l état actuel s il souhaite s arrêter et continuer plus tard. Il lui suffira alors de cliquer sur File\Open et de sélectionner le fichier voulu. Les fichiers SODAS, utilisés en entrée des méthodes de SODAS, sont des fichiers avec l extension.sds. Pour créer de tels fichiers, il faut utiliser le menu File\Export. Il est alors demandé de saisir un titre et un sous-titre afin de commenter le contenu de notre fichier. Le menu suivant File\Export and view crée également le fichier.sds, comme précédemment, mais il permet aussi de visualiser le fichier généré dans un éditeur de texte. Le menu Modify, lui, permet à l utilisateur de modifier les concepts à l aide de plusieurs opérations. Nous pouvons, par exemple, ajouter ou supprimer des variables singled-valued et multi-valued aux concepts, ajouter des taxonomies, spécifier des variables mères / filles en indiquant des règles. Par exemple, une variable n aura de sens que si une autre variable a une certaine valeur. Si nous sélectionnons le menu Modify\Add single valued variables, une fenêtre s ouvre nous invitant à écrire une requête SQL destinée à extraire de notre base relationnelle les variables associées aux concepts. La requête SQL renvoie une ligne par concept : la première colonne représente l identifiant du concept et les colonnes suivantes correspondent aux variables de description des concepts. En ce qui nous concerne, nous avons créé la requête add_single_magasin_pays : SELECT DISTINCT nom_magasin, pays FROM liste_magasin, code_postal INNER JOIN (ville INNER JOIN (region INNER JOIN pays ON region.pays_id=pays.pays_id) ON ville.region_id=region.region_id) ON code_postal.ville_id = ville.ville_id WHERE liste_magasin.code_postal_id=code_postal.code_postal_id; Cette requête renvoie une table qui nous donne les noms des magasins et les pays où sont situés ces magasins. WAREMBOURG Pierre-Alexandre 17 / 52 Informatique de Gestion

22 Concernant le menu Modify\Add one set-valued multiple variable, la requête à utiliser doit renvoyer exactement un attribut multi-valué (qualitatif) en relation avec une variable multi-valuée et décrivant les concepts. La première colonne de la requête décrit le concept, la seconde contient les modalités de l attribut multi-valué et la troisième est la cardinalité de la modalité considérée, au sein du concept. Nous avons 3 requêtes de ce type : - requête add_mulitple_qte_00 : nom_magasin quantité vendue totale sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Qte vendue]) AS quantite_vendue, 1 AS ponderation FROM bilan_annee_00; - requête add_mulitple_revenu_vente_00 : nom_magasin montant total des ventes sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Total vente]) AS revenu_vente, 1 AS ponderation FROM bilan_annee_00; - requête add_mulitple_marge_00 : nom_magasin marge totale sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Marge total]) AS marge_tot, 1 AS ponderation FROM bilan_annee_00; l est également possible de rentrer des taxonomies (menu Modify\Create taxonomy). Pour ce faire, nous passons toujours par des requêtes SQL. Celles-ci doivent nous donner en première colonne la variable enfant et en deuxième colonne la variable parent. Nous avons 2 taxonomies : - requête taxo_article : etiquette_article categorie famille_article SELECT DISTINCT article.etiquette_article, article.categorie, article.famille_produit FROM article ORDER BY article.famille_produit; WAREMBOURG Pierre-Alexandre 18 / 52 Informatique de Gestion

23 - requête taxo_couleur : etiquette_couleur gamme_couleur SELECT DISTINCT article.etiquette_couleur, article.gamme_couleur FROM article ORDER BY article.gamme_couleur; Une fois toutes ces opérations réalisées, il est possible, à nouveau, de visualiser les Individus, les concepts, les taxonomies les règles établies à l aide du menu View. Une fois que nous avons effectué toutes ces manipulations dans le module DB2SO, un résume de toutes les opérations apparaît dans l écran principal : résultat de la requête de base : db2so_annee_00_promo 2 ici, nous voyons s afficher les 2 taxonomies portant sur les articles et sur les couleurs, présentées précédemment 3 ces 2 variables ont été insérées en utilisant le menu Modify\Add single valued variables 4 nous avons effectué 3 fois la manipulation Modify\Add one set-valued multiple variable afin d insérer 3 variables multimodales. Il est à noter que nous avons changé le type de nos variables grâce à l interface de DB2SO (menu View\Variables Properties). Par défaut, ces variables sont multimodale probabiliste et nous les avons transformées en variables multimodales booléennes. WAREMBOURG Pierre-Alexandre 19 / 52 Informatique de Gestion

24 2. SOE : Symbolic Objects Editor a. Présentation de la méthode SOE L éditeur d objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS et d effectuer quelques modifications sur les données. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau. Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins 3) que nous souhaitons voir représentés à l écran. Ensuite, suivant notre choix (bouton ou ), nous voyons apparaître à l écran une étoile zoom, en 2 ou 3 dimensions. Nous pouvons noter que les variables quantitatives sont représentées par des intervalles et que les variables qualitatives sont représentées par des histogrammes. Le bouton SOL ( dans le tableau. ), lui, renvoie une description SOL des objets symboliques sélectionnés Les taxonomies sont signalées sur les étoiles zoom par le symbole WAREMBOURG Pierre-Alexandre 20 / 52 Informatique de Gestion

25 b. Mise en œuvre de la méthode SOE Nous présentons tout d abord l étude sur un magasin précis «E-fashion Paris 8 ème» pour l année Ceci nous permettra d expliciter les différentes fonctionnalités que nous aurons choisies. Ensuite, nous ferons une analyse identique pour d autres magasins afin de comparer les résultats et éventuellement d en tirer quelques conclusions concernant l activité des différents magasins objets de notre étude. Nous avons choisi d afficher à l écran seulement les indications les plus importantes et surtout les plus exploitables. Par exemple, afficher les étiquettes des articles vendus n est pas envisageables car il y en a beaucoup trop et le graphique devient alors illisible. Par contre, afficher les familles de produits vendus est beaucoup plus pertinent ; en effet, ceci nous permet d en déduire des tendances. Les résultats peuvent être présentés à l aide d une étoile zoom en 2 dimensions : Une variable qualitative est représentée par un point de taille proportionnelle au nombre d occurrences rencontrées dans l étude. Le graphique relie l occurrence la plus importante. Si nous souhaitons nous rendre compte plus précisément de la répartition de la variable considérée, nous pouvons faire appel à l autre type de représentation : l étoile zoom en 3 dimensions. WAREMBOURG Pierre-Alexandre 21 / 52 Informatique de Gestion

26 L étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme d histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais sur un axe (avec mention également des valeurs extrêmes rencontrées pour l ensemble des concepts). Globalement, nous pouvons dire que les ventes de ce magasin, pour un article vendu et par mois, sont très faibles. Il ne s agit pas ici d une étude globale des ventes (nous verrons cela plutôt avec la méthode STAT). La remarque précédente ne signifie donc pas que le magasin ne vend pas beaucoup d articles globalement mais que pour un mois donné et un article donné, le niveau de vente est très faible ( ie : inférieur ou égal à 5 articles vendus). Cette représentation est un peu condensée ; nous pouvons cliquer sur les intervalles pour avoir les valeurs exactes ou bien sur les histogrammes pour en avoir une représentation plein écran. Les plus grosses ventes ont visé les Accessoires et concernant les vêtements, elles se répartissent entre les les pulls, les sweats & Tee-Shirts, les chemises, les robes et enfin les blousons. Aucun vêtement de cuir ne s est vendu dans ce magasin et très peu de pantalons, vestes et jupes. WAREMBOURG Pierre-Alexandre 22 / 52 Informatique de Gestion

27 Les couleurs de prédilections des clients (du moins dans ce magasin) sont le blanc, observation relativement classique, ainsi que les couleurs foncées (noir, bleu, marron). Par contre, aucun article de couleur écru et aucun article à motif n ont été vendus. Le gris, le bordeaux et les rayures n ont pas eu de succès auprès des clients. Si nous souhaitons obtenir une analyse plus précise, il est possible d afficher les catégories d articles, voire les étiquettes des articles et les étiquettes de couleurs des articles. Nous ne le présenterons pas ici car il y a trop d informations qui apparaissent à l écran et le résultat ne serait pas probant. Mais il est important de préciser que cela est possible puisque nous l avons prévu au moment de l extraction de nos individus dans le module DB2SO. Une autre observation intéressante concerne les promotions. Les différentes promotions réalisées sur des articles sont regroupées en 6 catégories représentées sur l étoile Zoom par leur numéro. Elles sont différenciées par le nombre le type de média utilisé : - type 1 : promotion dans le magasin (rabais sur le prix, ventes promotionnelles : 2 articles pour le prix d 1 ) - type 2 : promotion + publicité à la radio - type 3 : promotion + envoie de publicité par - type 4 : promotion + publicité à la radio + publicité à la télévision - type 5 : promotion + impression (affiche, tracts ) + publicité à la radio + publicité TV - type 6 : tous les types de média L histogramme concernant les types de promotions représentent l impact d une certaine forme de promotion sur les ventes des articles et non le nombre de promotions utilisées de tel ou tel type. WAREMBOURG Pierre-Alexandre 23 / 52 Informatique de Gestion

28 Ainsi, nous voyons sur l histogramme précédent que 58% des promotions de type 5 (sur l ensemble de toutes les promotions réalisées) ont coïncidé avec des ventes d articles. Par contre, aucune promotion de type 6 n est présente. Cela signifie certainement que le magasin n a pas utilisé ce type de promotions au cours de l année L étoile zoom nous indique également que le prix des promotions s étend sur un intervalle allant de 650 FF à FF. Nous pouvons également voir que le nombre d articles vendus, par mois s étale entre -1 et 56, pour un montant total des ventes compris entre -199 FF et 7944 FF et une marge réalisée entre FF et 2887 FF. Observer des chiffres négatifs et même nuls peut paraître déroutant. En fait, il s agit, dans le premier cas, d articles qui ont disparus (probablement volés) et dans le second cas, d articles renvoyés à la maison mère (articles tâchés, déchirés par les clients. Enfin, la visualisation de l histogramme représentant les mois avec les pourcentages des ventes réalisées nous permet de voir les périodes de l année où les ventes sont les plus importantes. Il s agit essentiellement de la période s étalant de Décembre à Mai, avec un léger ralentissement en Février. WAREMBOURG Pierre-Alexandre 24 / 52 Informatique de Gestion

29 2. STAT a. Présentation de la méthode STAT STAT permet d appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des objets symboliques représentés par leur description. Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle nous travaillons. 1. les fréquences relatives pour les variables multi nominales 2. les fréquences relatives pour les variables intervalles 3. les capacités et min/max/mean pour les variables multi nominales probabilistes 4. biplot pour les variables intervalles Le format de sortie des données sera, suivant le choix de l utilisateur, un listing ou bien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires...) par l utilisateur et ils peuvent également être copiés et sauvegardés. Les fréquences relatives pour les variables multi-nominales Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le choix de l utilisateur, être soit un diagramme bâton, soit un diagramme en camembert. Les fréquences relatives pour les variables intervalles Cette méthode a besoin, en entrée, de 2 paramètres : - une variable intervalle I - un nombre de classes k Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va permettre le calcul de la fréquence relative associée à la classe C k tout en tenant compte du recouvrement de cette classe C k par les valeurs intervalles de I et ceci pour tous les objets symboliques. WAREMBOURG Pierre-Alexandre 25 / 52 Informatique de Gestion

30 Les capacités et min/max/mean pour les variables multi nominales probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans l histogramme capacité, la capacité d une modalité est représentée par l union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l étendue et la moyenne de la probabilité de chaque modalité. Biplot pour les variables intervalles Ce graphique représente un objet symbolique par un rectangle dans le plan de 2 variables sélectionnées par l utilisateur. La dimension de chaque côté du rectangle correspond à l étendue de la variation de l objet symbolique relativement à la variable de l axe considéré. b. Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables multi-nominales Nous avons 3 variables de ce type : - la quantité totale d articles vendus - le montant total des ventes réalisées - la marge totale que ces ventes ont engendrée Nous avons choisi la représentation sous forme de camembert. L intérêt des graphiques que nous allons voir ci-après est de pouvoir comparer sur une même représentation, les différents résultats, liés à chaque magasin. Les pourcentages indiqués ne sont pas intéressants vu que les observations concernent chaque magasin et que nous avons un seul résultat par magasin, tous ces pourcentages sont alors identiques. Les résultats se répartissent entre 902 articles vendus (e-fashion London) et 9866 articles vendus (e-fashion Barcelona). On obtient donc des résultats s étalant sur une échelle de 1 à 10. Le magasin de Londres n a pas de bons résultats. WAREMBOURG Pierre-Alexandre 26 / 52 Informatique de Gestion

31 Les deux autres représentations confirment ce résultats puisqu ils sont en relation directe avec le nombre d articles vendus ; en effet, il s agit du montant total des ventes et de la marge totale réalisée. Les fréquences relatives pour les variables intervalles Nous appliquons cette méthode pour visualiser le coût des promotions. Nous étudions donc la variable cout_promotion et nous avons découpé notre intervalle en 10 classes. Le coût des promotions s étend entre 650 FF et FF. Cependant, nous constatons qu il y a plus de promotions dont le coût se situe entre FF et FF. Les extrêmes sont peu représentés : la politique des magasins est donc de privilégier une prestation de milieu de gamme (concernant les promotions). Ils choisissent peu la formule la plus simple (et donc la moins la moins chère) et la formule la plus chère, consistant en l utilisation de l ensemble des médias à disposition. WAREMBOURG Pierre-Alexandre 27 / 52 Informatique de Gestion

32 Les capacités et min/max/mean pour les variables multi nominales probabilistes La première variable que nous avons décidé d étudier concerne la famille de produit des articles vendus. Il apparaît nettement que ce sont les Accessoires qui se vendent le plus ; la moyenne de la probabilité de cette modalité de notre variable d étude est bien supérieure aux autres moyennes. Ensuite, arrivent les Sweat & Tee-shirts, suivis de très près par les Chemisiers. Nous trouvons ensuite les Robes et les Pulls, puis les Pantalons, les Vestes & Blazers et enfin les Jupes de Villes. Nous avons ensuite étudié la variable gamme de couleurs des articles afin de connaître les nuances de couleur que préfèrent les clients. WAREMBOURG Pierre-Alexandre 28 / 52 Informatique de Gestion

33 Les articles noirs sont les plus vendus. Ensuite, nous avons les articles bleus, puis marrons, vert et blanc. Nous pouvons remarquer également que certains magasins n ont vendu aucun article de couleur pierre, kaki, écru et gris. En effet, le minimum des proportions associées à ces modalités de la variable gamme_couleur est nul. Biplot pour les variables intervalles Etant donné que nous étudions 13 magasins et que les résultats de l application de cette méthode se superposent, nous allons faire 3 études : les magasins situés à Paris, les magasins dans les autres villes de France et les magasins dans les autres villes européennes. Nous remarquons que les magasins e-fashion 6 ème et e-fashion 8 ème ont fait des promotions dont le coût s étend dans les mêmes intervalles, cependant les ventes du magasin e-fashion Paris 8 ème ont été supérieures. Concernant le magasin e-fashion Paris 15 ème, il a opté pour des promotions dont les tarifs sont supérieurs mais le nombre de ses ventes est inférieur au magasin e-fashion Paris 8 ème. Il est possible que les promotions de haut de gamme (les plus chères) n aient pas les résultats escomptés. Nous allons maintenant observer les résultats concernant les autres magasins présents en France : - e-fashion Aix Marseille - e-fashion Lyon - e-fashion Toulouse WAREMBOURG Pierre-Alexandre 29 / 52 Informatique de Gestion

34 Un résultat intéressant : e-fashion Aix Marseille et e-fashion Toulouse ont encore choisi des gammes de promotions de prix identiques mais les ventes ont été plus importantes. Le budget promotion est donc mieux utilisé par el magasin de Toulouse que par celui de Aix Marseille. Par contre, e-fashion Lyon a choisi une large gamme de promotion et les ventes d articles sont nettement plus importantes. On peut donc imaginer que les promotions ont une influence non négligeable sur les ventes. Pour les 4 magasins de Milan, Rome, Madrid et Barcelone, nous pouvons considérer que les résultats sont à peu près équivalents. WAREMBOURG Pierre-Alexandre 30 / 52 Informatique de Gestion

35 Le magasin e-fashion Londres n a opté que pour un seul type de promotion, contrairement à e-fashion Berlin qui réalise, pourtant, moins de vente que e-fashion Londres. Le magasin de Bruxelles utilise des promotions dont l étendue de gamme est sensiblement équivalente aux deux autres magasins mais le total des ventes est supérieur. Une autre étude intéressante consiste à afficher en ordonnée les marges réalisées et en abscisse le total des ventes. Les résultats sont, cependant assez classiques : lorsque le nombre de ventes varie dans une large plage de valeurs, la marge réalisée varie dans une plage similaire. WAREMBOURG Pierre-Alexandre 31 / 52 Informatique de Gestion

36 Sur le graphique précédent, il apparaît que e-fashion Paris 15 ème réalise des ventes dont les montants sont équivalents à ceux réalisés par e-fashion Paris 6 ème mais les marges du premier magasin sont plus importantes. Il a peut-être vendu des articles à plus forte valeur ajoutée ou bien il a fait moins de vente ciblée par une promotion. Là encore, nous voyons que le magasin de Lyon réalise des marges importantes ; ce qui coïncide avec les montants des ventes réalisées. Les marges réalisées par e-fashion Roma sont équivalentes à celles de e-fashion Madrid mais les montants des ventes dans le magasin de Rome sont inférieurs à ceux du magasin de Madrid ; les bénéfices seront donc plus importants. WAREMBOURG Pierre-Alexandre 32 / 52 Informatique de Gestion

37 Les résultats concernant ces 3 derniers pays sont sensiblement proportionnels. Une autre étude intéressante aurait été l affichage des quantités d articles vendues en fonction des marges réalisées ou bien en fonction du montant total des ventes. Ces études complémentaires ne feraient que confirmer les résultats précédemment énoncés. WAREMBOURG Pierre-Alexandre 33 / 52 Informatique de Gestion

38 3. DIV : Divisive Clustering on Symbolic Objects a. Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur. Il ne s agit pas du seul paramètre à saisir, en entrée de la méthode. L utilisateur doit également choisir les variables qui seront utilisées pour calculer la matrice de dissimilarité, l extension du critère d inertie et pour définir l ensemble des questions binaires utiles pour effectuer le découpage. Au moment de choisir nos variables, il faut être attentif à deux choses principales : - le domaine de définition des variables doit être ordonné car dans le cas contraire, les résultats obtenus seront totalement faux - il n est pas possible de mélanger des variables dont le domaine de définition est continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l utilisateur doit choisir entre des variables qualitatives et des variables continues. Trois paramètres doivent également être définis : - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l inverse de la dispersion ou bien l inverse du maximum de la déviation. La dispersion des variables est, ici, une extension aux objets symboliques de la notion de variance - le nombre k de classes de la dernière partition. La division s arrêtera après k-1 itérations et la méthode DIV aura calculer des partitions de la classe 2 à la classe k - la méthode DIV offre également la possibilité de créer un fichier partition ; il s agit d un fichier texte contenant une matrice (a ij ) dans laquelle, chaque ligne i [1,n] correspond à un objet et chaque rangée j [2,k-1] correspond à une partition en j classes. Ainsi, (a ij ) signifie que l objet j appartient à la classe k, dans la partition en j classes. Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous obtenons, en sortie, un listing contenant les informations suivantes : - une liste de la «variance» des variables sélectionnées, à condition que ces variables soient continues - pour chaque partitions de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée relative à la partition - l arbre de classification. WAREMBOURG Pierre-Alexandre 34 / 52 Informatique de Gestion

39 b. Mise en oeuvre de la méthode DIV La méthode DIV va nous permettre de réaliser une classification hiérarchique des magasins par division successive de chaque classe, en partant d une seule classe réunissant tous les magasins. Cette méthode ne permet pas d étudier à la fois les variables qualitatives et les variables quantitatives. Nous procéderons alors en deux temps correspondant à chacun des types de variables. 1) Les variables qualitatives : Description des articles - Catégorie de l article - Gamme de couleur de l article - Mois de vente de l article Nous choisissons une partition en 5 classes La cinquième division nous apporte ainsi les classes suivantes : Cluster 1 (n=2) : "e-fashion Lyon" "e-fashion Barcelona" Cluster 2 (n=1) : "e-fashion London" Cluster 3 (n=4) : "e-fashion Roma" "e-fashion Toulouse" "e-fashion Madrid" "e-fashion Berlin" Cluster 4 (n=4) : "e-fashion Paris 6ème" "e-fashion Aix-Marseille" "e-fashion Paris 15ème" "e-fashion Paris 8ème" Cluster 5 (n=2) : "e-fashion Milano" "e-fashion Bruxelles" Explicated inertia : Le pourcentage d inertie est élevé. Le magasin de Londres se distingue des autres. Par contre, les autres classes montrent un regroupement des magasins sur les critères choisis, notamment entre le magasin de Milan et de Bruxelles ou bien entre le magasin de Lyon et de Barcelone. WAREMBOURG Pierre-Alexandre 35 / 52 Informatique de Gestion

40 L arbre de décision révèle, comme nous le supposions, des ventes différentes selon le mois de l année Classe 1 (Ng=2)!! [mois <= Mai]!!!! Classe 4 (Ng=4)!!!!! [famille_produit <= Accessoires]!!! Classe 5 (Nd=2)!! [mois <= Juin]!!! Classe 3 (Nd=4)!! [famille_produit <= Pulls]! Classe 2 (Nd=1) Nous avons également fait une autre étude en choisissant d autres paramètres en entrée de la méthode. Nous avons choisi comme paramètres de la méthode : - les variables : o le mois o la franchise (le magasin est-il franchisé ou non) o le numéro des promotions pratiquées o la quantité d articles vendus - le nombre de classes : 5 WAREMBOURG Pierre-Alexandre 36 / 52 Informatique de Gestion

41 Les résultats que nous obtenons sont représentés par l arbre ci-dessous : L état «franchisé ou non» représente la première variable de découpage. En avançant dans la hiérarchie, nous nous rendons compte que le type de promotion utilisée constitue les 2 facteurs suivants de découpage. Vient ensuite le mois où est réalisé la promotion puis enfin, la quantité vendue. 2) Les variables continues : Résultat des ventes - le total des ventes - le coût de la promotion - la marge réalisée Nous choisissons à nouveau une partition en 5 classes afin de détecter un éventuel changement dans le regroupement des magasins. Cluster 1 (n=8) : "e-fashion Roma" "e-fashion Barcelona" "e-fashion Toulouse" "e-fashion Aix- Marseille" "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e- Fashion Paris 15ème" Cluster 2 (n=1) : WAREMBOURG Pierre-Alexandre 37 / 52 Informatique de Gestion

42 "e-fashion London" Cluster 3 (n=1) : "e-fashion Paris 6ème" Cluster 4 (n=1) : "e-fashion Lyon" Cluster 5 (n=2) : "e-fashion Bruxelles" "e-fashion Paris 8ème" Explicated inertia : Les magasins ont des similarités ou des dissimilarités entre eux. En effet, le magasin de Londres se distingue à nouveau des autres mais il n est plus le seul. La première classe, quant à elle, regroupe un grand ensemble de magasin. L arbre de décision ci-dessous révèle la liaison entre le coût de promotion subit par le magasin et le niveau de vente réalisé Classe 1 (Ng=8)!! [total_vente <= ]!!!! Classe 3 (Ng=1)!!!!!!---4- [cout_promotion <= ]!!!!!!! Classe 5 (Nd=2)!!!!! [total_vente <= ]!!! Classe 4 (Nd=1)!! [cout_promotion <= ]! Classe 2 (Nd=1) WAREMBOURG Pierre-Alexandre 38 / 52 Informatique de Gestion

43 4. DSD : Discrimant Symbolic Descriptions a. Présentation de la méthode DSD Cette méthode consiste à trouver des descriptions qui permettent de généraliser et de discriminer des classes données sur un ensemble d observations. Ces descriptions sont formalisées par des objets symboliques probabilistes. La méthode DSD construit un ou plusieurs objets symboliques, pour chaque classe, à partir de seuils calculés par la comparaison de l extension de l objet symbolique avec sa classe. Ces objets créés peuvent éventuellement se superposés. Dans le modèle symbolique, la description générale d une classe correspond à une disjonction d objets symboliques. La méthode DSD demande, en entrée, une matrice de données dans laquelle toutes les variables doivent être de type nominal. L utilisateur est invité à sélectionner les variables qui seront utilisées par DSD. Ensuite, il doit choisir une «variable de partition», appelée «Variable Class Identifier», parmi la liste des variables de la matrice de données. Ce choix est unique et les valeurs prises par cette variable correspondent aux classes évoquées précédemment. Des variables de description permettront de décrire chaque classe du domaine de la variable de partition. Cet ensemble de variables est appelé «Variable Set Identifier». L utilisateur est invité à choisir le nombre de variables de description qu il désire tout en sachant qu il est interdit de choisir la variable de partition comme variable de description. Trois paramètres doivent également être définis : - Disc : il s agit d un pourcentage représenté par un entier (de 0 à 100). C est un ratio d erreur des objets symboliques, dans la couverture des individus en dehors de la classe. Disc = 20 signifie que, pour chaque classe, l union de l extension des objets symboliques couvre 20% des individus non présents dans la classe. - Ext : il s agit également d un pourcentage représenté par un entier (de 0 à 100). C est le seuil correspondant à la couverture de chaque classe par les objets symboliques. Par exemple, Ext = 80 signifie que, pour chaque classe, l union de l extension des objets symboliques recouvre 80% des individus de la classe. - Idind : ce paramètre a la valeur yes si les individus, dans la matrice, sont nommés et non, dans le cas contraire. WAREMBOURG Pierre-Alexandre 39 / 52 Informatique de Gestion

44 5. TREE : Decision Tree a. Présentation de la méthode TREE La méthode Tree nous propose un algorithme par agrandissement d arbres, appliqué à des données imprécises décrites par des concepts probabilistes. La procédure récursive de partitionnement peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques, répondant au mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d objets symboliques qui permet éventuellement d assigner de nouveaux objets à une classe. Avant d exécuter la méthode, l utilisateur doit choisir l ensemble des variables prédictives parmi : - un ensemble de variables quantitatives ou de variables intervalles - un ensemble de variables qualitative, multi valuées ou modales Ensuite, nous obtenons en sortie un listing contenant les informations suivantes : - la liste des variables utilisées - la liste des objets symboliques appartenant à un «training set» - la liste des objets symboliques appartenant à un «test set» - la liste des nœuds ; chaque nœud étant décrit par une règle - la liste des nœuds terminaux b. Mise en oeuvre de la méthode TREE La méthode TREE va nous permettre de définir un ensemble organisé des concepts (magasins) grâce à une procédure récursive de partitionnement. Nous choisissons comme variable de partitionnement : les mois Les variables explicatives choisies sont des variables continues : - le total des ventes - la marge réalisée - le coût de promotion subi - les quantités vendues L arbre de décision obtenu se lit de la manière suivante : si ASSERTION est vrai (en haut)! --- x [ ASSERTION ]! si ASSERTION est vrai (en bas) WAREMBOURG Pierre-Alexandre 40 / 52 Informatique de Gestion

45 Les résultats obtenus sont représentés par l arbre suivant : [ 16 ]Italie ( )!!----8[ quantite_vendue <= ]!!! [ 17 ]France ( )!!----4[ cout_promotion <= ]!!! [ 9 ]Royaume-Uni ( )!!----2[ quantite_vendue <= ]!!! [ 5 ]France ( )!!----1[ quantite_vendue <= ]!! [ 12 ]France ( )!!!!----6[ total_vente <= ]!!!!! [ 13 ]France ( )!!!----3[ total_vente <= ]! [ 7 ]France ( ) WAREMBOURG Pierre-Alexandre 41 / 52 Informatique de Gestion

46 6. PYR : Pyramical Clustering on Symbolic Objects a. Présentation de la méthode PYR Il s agit d une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce que nous autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par son extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intension de la classe). L intension est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur sera invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger. WAREMBOURG Pierre-Alexandre 42 / 52 Informatique de Gestion

47 b. Mise en oeuvre de la méthode PYR Nous avons choisi les variables famille_produit, categorie_couleur, total_vente et marge comme paramètres en entrée de la méthode. La pyramide obtenue est la suivante : WAREMBOURG Pierre-Alexandre 43 / 52 Informatique de Gestion

48 7. PCM : Principal Component Analysis a. Présentation de la méthode PCM La méthode PCM correspond à l analyse en composante principale classique. Mais au lieu d obtenir une représentation par points sur un plan factoriel, PCM propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum. L exécution de la méthode nous donne deux résultats : 1 - Le listing qui contient : - La description de la matrice de données par une table : chaque ligne correspond à une classe. - Les valeurs propres, le pourcentage d inertie et les premières composantes principales. Chaque classe est caractérisée d abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle. - Les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique des objets symboliques. b. Mise en œuvre de la méthode PCM La méthode accepte seulement les variables continues, en entrée. Nous avons choisi d analyser pour chacun des magasins de la chaîne : - les quantité vendues - le total des ventes - la marge réalisée - le coût de la promotion effectuée Les intervalles des variables descriptives sont les suivants : - 0 à 107 pour les quantités vendues - 0 à pour le total des ventes - 0 à pour la marge réalisée à pour le coût de la promotion WAREMBOURG Pierre-Alexandre 44 / 52 Informatique de Gestion

49 Nous obtenons alors la matrice de données ci-dessous représentant l ensemble des intervalles des variables pour chacun des concepts : Matrix of input data: quantite_vendue total_vente marge cout_promotion "e-fashion Paris 6ème" [0.00, 59.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Lyon" [0.00, ] [0.00, ] [0.00, ] [650.00, ] "e-fashion Roma" [0.00, 20.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Barcelona" [0.00, 34.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Toulouse" [0.00, 36.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Aix-Marseille" [0.00, 28.00] [0.00, ] [ , ] [ , ] "e-fashion Madrid" [0.00, 46.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Berlin" [0.00, 22.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Milano" [0.00, 25.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Bruxelles" [0.00, 50.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Paris 15ème" [0.00, 36.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Paris 8ème" [0.00, 56.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion London" [0.00, 19.00] [0.00, ] [0.00, ] [ , ] Les corrélations entre nos 4 variables sont étonnamment faibles. En effet, nous soupçonnions une forte liaison entre les quantités vendues et le total des ventes. Toutes les corrélations (coût de la promotion exclu) sont positives. L évolution entre les quantités vendues, le total des ventes et la marge dégagée vont dans le même sens. Plus les quantités et le chiffre d affaires augmentent, plus le magasin réalise des bénéfices. Par contre, la corrélation entre la marge, le total des ventes ou les quantités vendues et le coût de la promotion est négative. Ceci signifie que plus le magasin réalise de grands volumes de ventes et dégage une marge, plus le coût de sa promotion baisse. WAREMBOURG Pierre-Alexandre 45 / 52 Informatique de Gestion

50 Correlations Matrix : quantite_vendue total_vente marge cout_promotion Le graphique représentant les concepts sur le plan factoriel n apporte pas beaucoup de résultats. Les magasins sont tous regroupés vers le même angle du plan. Ils ne se distinguent donc pas les uns des autres selon la marge réalisée, les ventes, les quantités vendues ou le coût de la promotion. WAREMBOURG Pierre-Alexandre 46 / 52 Informatique de Gestion

51 8. FDA : Factorial Discriminant Analysis a. Présentation de la méthode FDA La méthode FDA permet de mettre en évidence les liaisons existant entre une variable à expliquer qualitative et un ensemble de variables explicatives quantitatives, à l aide d un plan factoriel approprié. L objectif est de déterminer q classes se différenciant au mieux. De même que pour la méthode PCM, on détermine un nouveau caractère, combinaison linéaire des anciens caractères. Cependant, il ne s agit plus d obtenir un caractère de variance maximale mais un caractère séparant au mieux les groupes entre eux. Il faut spécifier : - des variables (ou une) CLASS_ID qui permettront d identifier les différentes classes. Celles-ci devront être nominales (on multinominales) et non probabilistes. - le nombre NVARS de variables explicatives. Il en faut au moins deux. - SELECT les variables qui seront utilisées dans la détermination des axes factoriels discriminants. Ces variables peuvent être nominales, multinominales, probabilistes, modales ou bien des intervalles. - des variables illustratives SET_ID si besoin. Elles sont obligatoirement nominales et non probabilistes. - le nombre d axes factoriels NUMB de l analyse. Il en faut au moins deux. b. Mise en œuvre de la méthode FDA Nous allons définir une partition de l ensemble des magasins en q classes disjointes. Nous allons par ailleurs mesurer sur ces concepts p caractères quantitatifs. Nous avons choisi les pays des magasins comme variable de partition. Nous avons essayé deux groupes de variables descriptives : 1) des variables qualitatives définissant les articles vendus - la famille de l article - le mois de vente de l article - la couleur de l article Nous n ajoutons pas de variables illustratives et nous sélectionnons deux axes factoriels. WAREMBOURG Pierre-Alexandre 47 / 52 Informatique de Gestion

52 Nous obtenons les résultats suivants : La matrice de dissimilarités : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" La matrice de classification : Classification table: Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" WAREMBOURG Pierre-Alexandre 48 / 52 Informatique de Gestion

53 Le compte rendu de la classification et le ratio de classification : Classification Summary : Class\Class France Espagne Allemagn Belgique Royaume- Italie France Espagne Allemagne Belgique Royaume-Uni Italie Classification Ratio : 100.0% Le graphique permet la visualisation de la classification sur le plan factoriel. Nous remarquons que, suivant les caractères descriptifs choisis, les magasins en Allemagne et en France présentent des similarités et s opposent aux magasins de Belgique et du Royaume-Uni. De même, les magasins d Italie et d Espagne présentent d importantes dissimilarités. WAREMBOURG Pierre-Alexandre 49 / 52 Informatique de Gestion

54 2) Des variables continues expliquant les résultats des magasins : - le total des ventes - les quantités vendues - la marge réalisée Nous allons ainsi observer les changements dans les similarités ou dissimilarités des magasins. Matrice de dissimilaritiés : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" Matrice de classification : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" WAREMBOURG Pierre-Alexandre 50 / 52 Informatique de Gestion

55 Compte rendu de la classification et ratio de classification : Class\Class France Espagne Allemagn Belgique Royaume- Italie France Espagne Allemagne Belgique Royaume-Uni Italie Classification Ratio : 53.8% Le listing nous indique que la classification obtenue est nettement différente. Le ratio de classification a par ailleurs beaucoup diminué. Observons la classification sur le plan factoriel : Les classes ne regroupent pas les mêmes magasins. Les magasins se distinguent donc par leur niveau de ventes ou les marges obtenues. Si certains magasins peuvent être rapprochés par certains caractères de leurs articles, ils se distinguent alors par leur comportement de vente. WAREMBOURG Pierre-Alexandre 51 / 52 Informatique de Gestion

56 Conclusion Conclusion La réalisation de ce projet a été pour nous l occasion de découvrir un logiciel puissant d analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d extraire des connaissances d une importante base de données relationnelles. La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations graphiques a mis en évidence des résultats pertinents et facilement interprétables. Cependant, l utilisation optimale de ce logiciel nécessite une bonne maîtrise de l environnement des bases relationnelles ainsi que du langage SQL permettant d exécuter des requêtes. Ces requêtes sont en effet indispensables pour extraire, au sein du module DB2SO, les individus, leurs variables de description et les concepts de notre étude. Enfin, réaliser ce projet en équipe a été tout à fait intéressant et productif. En effet, nous avons pu confronter nos idées sur l étude et effectuer ainsi une analyse plus détaillée. WAREMBOURG Pierre-Alexandre 52 / 52 Informatique de Gestion

Montrer encore