DATAMINING. Etude et analyse des ventes d une chaîne de magasins
|
|
|
- Pierre-Yves Rousseau
- il y a 10 ans
- Total affichages :
Transcription
1 SILVI Stéphanie WAREMBOURG Pierre-Alexandre DESS 220 Informatique de Gestion Université Paris Dauphine DATAMINING Etude et analyse des ventes d une chaîne de magasins Tuteur : Monsieur Edwin DIDAY Promotion 2002 WAREMBOURG Pierre-Alexandre Informatique de Gestion
2 Sommaire Sommaire Introduction...1 PARTIE 1 : Méthode et Outils A. Le datamining Objectif Le logiciel SODAS (Symbolic Official Data Analysis System)... 4 B. Les outils : Le logiciel SODAS Présentation Méthode d utilisation... 6 a. Généralités...6 b. Sélection d une base d étude...7 c. Choix des méthodes à appliquer...8 PARTIE 2 : L'analyse : Etude Statistique A. Présentation de l étude Contexte de l étude et présentation des données Les objectifs B. L analyse DB2SO : extraction de données symboliques de la base de données relationnelles a. Généralités...13 b. Présentation de DB2SO SOE : Symbolic Objects Editor a. Présentation de la méthode SOE...20 b. Mise en œuvre de la méthode SOE STAT a. Présentation de la méthode STAT...25 b. Mise en oeuvre de la méthode STAT...26 WAREMBOURG Pierre-Alexandre Informatique de Gestion
3 Sommaire 3. DIV : Divisive Clustering on Symbolic Objects a. Présentation de la méthode DIV...34 b. Mise en oeuvre de la méthode DIV DSD : Discrimant Symbolic Descriptions a. Présentation de la méthode DSD TREE : Decision Tree a. Présentation de la méthode TREE...40 b. Mise en oeuvre de la méthode TREE PYR : Pyramical Clustering on Symbolic Objects a. Présentation de la méthode PYR...42 b. Mise en oeuvre de la méthode PYR PCM : Principal Component Analysis a. Présentation de la méthode PCM...44 b. Mise en œuvre de la méthode PCM FDA : Factorial Discriminant Analysis a. Présentation de la méthode FDA...47 b. Mise en œuvre de la méthode FDA...47 Conclusion...52 WAREMBOURG Pierre-Alexandre Informatique de Gestion
4 Introduction Introduction Désormais, le Datamining est au cœur de toutes les préoccupations du monde économique. Le Datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues mais qui peuvent être utiles et lucratives et d'utiliser ces informations pour soutenir des décisions commerciales tactiques et stratégiques. Les techniques statistiques du datamining sont bien connues. Il s'agit notamment de la régression linéaire et logistique, de l'analyse multivariée, de l'analyse des composantes principale, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l'inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de millions de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et mêmes les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L'objectif est de construire un modèle dont le pouvoir de prédiction soit satisfaisant. Il ne suffit pas de savoir quelles relations sont statistiquement importantes. Prenons le cas d'une campagne qui offre à la vente un produit ou un service et qui cible une base de clientèle donnée. En règle générale, environ 1% de la base de clientèle "réagiront", c'est-à-dire achèteront le produit ou le service s'il leur est proposé. Un publipostage envoyé à clients choisis au hasard générera ainsi environ ventes. Les techniques de datamining permettent un marketing fondé sur la relation avec la clientèle, en identifiant quels clients risquent le plus de réagir à la campagne. Si le taux de réponse peut être augmenté de 1% à 1,5%, par exemple, alors ventes pourront être réalisées avec envois seulement, ce qui réduit le coût du publipostage d'un tiers. L analyse de données symboliques prend actuellement de plus en plus d importance, en témoigne le développement du logiciel spécifique SODAS. Nous allons utiliser ce logiciel afin d extraire des informations concentrées dans une base de données relationnelle. Notre base d étude concerne les ventes réalisées par une chaîne de 13 magasins présents en Europe. Le présent rapport est constitué de deux parties principales. La première est une présentation générale du datamining et du logiciel SODAS que nous utilisons pour notre étude. Nous expliquerons, ensuite, le contexte de l étude et nous analyserons les données de notre base en appliquant diverses méthodes offertes par le logiciel SODAS. WAREMBOURG Pierre-Alexandre Informatique de Gestion
5 Partie 1 Méthodes et outils
6 Partie 1 : Méthodes et Outils A. Le datamining 1. Objectif Les progrès de la technologie informatique dans le recueil et le transport de données, font que dans tous les grands domaines de l'activité humaine, nous réunissons maintenant des données de toutes sortes (numériques, textuelles, graphiques...) et en quantité souvent gigantesque. Partout dans le monde, il se constitue ainsi de considérables gisements de connaissances. En particulier sur le réseau mondial Internet, des ensembles de données (sociales, économiques, commerciales, médicales, biologiques, industrielles ) qui étaient difficiles d'accès voire inaccessibles auparavant apparaissent désormais à la portée de tous. De plus, des systèmes d'interrogation des données, qui n'étaient autrefois réalisables qu'à l'aide de langages informatiques nécessitant l'intervention d'ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d'accès et d utilisation. Résumer ces données, à l'aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Elles sont dites "symboliques", car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l'extension des méthodes de "l'analyse des Données Exploratoires" et plus généralement, de la "Statistique Multidimensionnelle" à de telles données, pour en extraire des connaissances d'interprétation aisée, devient une tâche d'importance grandissante. Nous ne nous intéressons pas ici à la représentation des connaissances considérée comme un tout, dès le départ et organisé par un expert, ce qui a constitué l'un des domaines de prédilection de l'intelligence Artificielle, mais plutôt à des "atomes" ou "unités" de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu'il s'agit pour nous d'analyser et d'organiser de façon automatique. Par rapport aux approches classiques, l'analyse des Données Symboliques présente les caractéristiques et ouvertures suivantes : - Elle s'applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité ) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui vont être développés ci-dessous. WAREMBOURG Pierre-Alexandre 2 / 52 Informatique de Gestion
7 Partie 1 : Méthodes et Outils - Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et de spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravités. - Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l'utilisateur. - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus. - Ils peuvent être facilement transformés sous forme de requête sur une Base de Données. Ceci a au moins les deux conséquences suivantes : - Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d'enquête socio-démographiques). - Alors qu'habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l'utilisateur, les objets symboliques formés à partir de la base par les outils de l'analyse des Données Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l'utilisateur. WAREMBOURG Pierre-Alexandre 3 / 52 Informatique de Gestion
8 Partie 1 : Méthodes et Outils 2. Le logiciel SODAS (Symbolic Official Data Analysis System) Il s'agit d'un logiciel prototype public apte à analyser des données symboliques. Il est téléchargeable à l adresse : Il est issu d un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse de données symbolique. L idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Une analyse des données dans SODAS suit les étapes suivantes : - Partir d'une base de données relationnelle (ORACLE, ACCESS,...) - Définir ensuite un contexte par : o des unités statistiques de premier niveau (habitants, familles, entreprises, accidents,...), o les variables qui les décrivent o des concepts (villes, groupes socio-économiques, scénario d'accident,...) Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur notre base de données relationnelle.. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l'utilisateur. On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). WAREMBOURG Pierre-Alexandre 4 / 52 Informatique de Gestion
9 Partie 1 : Méthodes et Outils Le schéma ci dessous illustre les étapes successives d une étude avec le logiciel SODAS. WAREMBOURG Pierre-Alexandre 5 / 52 Informatique de Gestion
10 Partie 1 : Méthodes et Outils B. Les outils : Le logiciel SODAS 1. Présentation La fenêtre principale de SODAS se compose de 3 éléments principaux : La barre d outils de la fenêtre principale comporte 5 menus. 2. La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes méthodes disponibles. 3. La fenêtre Chaining de la fenêtre principale gère l enchaînement des méthodes appliquées à la base choisie. 2. Méthode d utilisation a. Généralités Il est tout d abord important de définir ce qu est une filière dans le logicielle SODAS. Il s agit d une représentation graphique des calculs que nous souhaitons effectuer qu il nous est possible de visionner dans la fenêtre Chaining. En tête d une filière, figure l icône BASE représentant notre fichier SODAS (.sds) sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l enregistrement de la filière, les résultats figureront sous forme d icônes, à droite de chacune des méthodes. WAREMBOURG Pierre-Alexandre 6 / 52 Informatique de Gestion
11 Partie 1 : Méthodes et Outils b. Sélection d une base d étude Icône BASE Tout fichier SODAS possède l extension.sds. C est un fichier de ce type qui va constituer la BASE de notre étude. Pour sélectionner un tel fichier, il faut : 1 double-cliquer sur l icône BASE 2 sélectionner notre fichier dans la liste de bases disponibles 3 cliquer sur OK. Notre filière a été modifiée et maintenant nous pouvons lire le nom de la base associée à notre filière ainsi que son chemin d accès sur le disque dur. Identification de la BASE WAREMBOURG Pierre-Alexandre 7 / 52 Informatique de Gestion
12 Partie 1 : Méthodes et Outils c. Choix des méthodes à appliquer Nous allons enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d analyser les données de notre base. Pour cela nous pouvons utiliser des filières prédéfinies (Model \ Predefined chaining) ou bien composer nous-mêmes une filière en enchaînant des méthodes issues de la fenêtre Methods. Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l icône BASE ; nous sélectionnons ensuite la méthode que nous souhaitons appliquer, dans la fenêtre Methods et nous la faions glisser jusqu à l emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l icône BASE, selon l ordre défini par l utilisateur, dans lequel elles vont s enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu une description sommaire. La couleur de l icône de la méthode nous renseigne sur son état : - gris : la méthode n est pas encore paramétrée - rouge : la méthode est paramétrée Par défaut, les méthodes qui viennent d être insérée sont grisées. Chaque Méthodes est numérotées dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthodes. La couleur de cette boîte indique le statut de la méthode : - gris : la méthode ne peut être exécutée car elle n est pas paramétrée - vert : la méthode est exécutable car elle est paramétrée - rouge : la méthode est désactivée. Elle est exécutable mais l utilisateur en interdit l exécution (menu Methods puis Desactivate method). Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s ouvre ; elle regroupe l ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage de toutes les méthodes de la filière étant terminé, nous pouvons l exécuter. Par contre, toute exécution d une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d un nom dont l extension est.fil). Une fois cette opération effectuée, nous exécutons la filière en cliquant sur le sous menu Run chaining du menu Chaining. WAREMBOURG Pierre-Alexandre 8 / 52 Informatique de Gestion
13 Partie 1 : Méthodes et Outils Avant exécution de la filière Après exécution de la filière Suite à l exécution de la filière PROJET.FIL (dont le nom apparaît en haut à gauche de la fenêtre), de nouvelles icônes sont apparues dans la fenêtre Chaining, à droite des icônes Méthodes. Ces nouvelles icônes permettent d accéder aux résultats numériques et, le cas échéant, aux résultats graphiques de chaque Méthode exécutée. 1 un double-clic sur cette icône permet de d accéder aux résultats numériques (dans l éditeur de texte, Wordpad) de la méthode SOE 2 cette icône permet d accéder à l éditeur graphique de la méthode SOE 3 un double-clic sur cette icône affiche une représentation graphique de la méthode STAT suivant les paramètres saisis précédemment 4 cette icône entraîne l affichage de la représentation graphique de la classification pyramidale Toutes ces méthodes, ainsi que d autres, seront expliquées plus en détails dans la partie suivante du présent rapport. WAREMBOURG Pierre-Alexandre 9 / 52 Informatique de Gestion
14 Partie 2 L analyse : Etude statistique
15 A. Présentation de l étude 1. Contexte de l étude et présentation des données La base de données relationnelle, sur laquelle nous avons choisi de baser notre étude, est une base exemple du logiciel Business Objects. Elle regroupe les ventes sur 3 années (1999, 2000 et 2001) d une chaîne de 13 magasins de vêtements et accessoires, répartis dans 6 pays différents. Elle est constituée de 6 groupes de tables : - article : Liste tous les caractères descriptifs des articles (étiquette, couleur, catégorie, prix...) - promotion_produit et promotion_forme : Présentent le type et la période de promotion subit par certains articles. - vente_article : Liste les articles vendus, le magasin de la vente ainsi que diverses indications sur le chiffre d affaires. - calendrier et mois : Permettent d associer à chaque numéro de semaine de la tabel vente_article, notamment, un mois et une année. - liste_magasin, code_postal, ville, region et pays : Listent les magasins dans lesquels sont vendus les articles vendus et apportent diverses informations identifiant le magasin (nom, adresse ). - bilan_ventes : Contient différents résultats des ventes réalisées (marge, quantité vendue ). WAREMBOURG Pierre-Alexandre 11 / 52 Informatique de Gestion
16 Nous présentons ci-dessous le schéma relationnel de notre base de données afin de mieux la définir: 2. Les objectifs L objectif de notre étude est d analyser les ventes d une chaîne de 13 magasins. La base Access sur laquelle nous avons travaillé, associait à chaque article vendu, un numéro de vente. Ainsi, le nombre d enregistrements devenait très important puisque l étude porte sur les ventes de 13 magasins sur une durée de 3 années. Nous avons donc décidé de regrouper sous un numéro de ventes, les ventes d un même article, pour un magasin donné et pour un mois donné d une année donnée. Nos individus, c est-à-dire nos unités statistiques de premier niveau, seront donc constitués par les numéros de chaque vente et ils seront décrits, notamment, par l intitulé de l article vendu, sa couleur, la quantité vendue (puisque que nous agrégeons les résultats sur un mois), le montant total de la vente, la marge réalisée... La majorité de ces variables de description se trouvent dans la table vente_article. Nos concepts apparaissent alors de façon presque naturelle ; il s agit des noms de magasins. Nous avons réalisé plusieurs requêtes sur cette base afin de créer notre contexte d étude. WAREMBOURG Pierre-Alexandre 12 / 52 Informatique de Gestion
17 B. L analyse Une fois notre cadre d étude parfaitement défini, il nous est alors possible de débuter l analyse de nos données à l aide du logiciel SODAS. 1. DB2SO : extraction de données symboliques de la base de données relationnelles a. Généralités DB2SO est le module du logiciel SODAS qui permet à l utilisateur de créer un ensemble de concepts à partir de données stockées dans une base de données relationnelles. On présuppose bien évidemment qu une série d individus est stockée dans la base de données et que ces individus sont répartis entre plusieurs groupes. Ainsi, DB2SO va pouvoir construire un concept pour chaque groupe d individus. Dans ce processus, les variables mères / filles ainsi que les taxonomies sur les variables pourront également être associées avec les concepts créés. b. Présentation de DB2SO Le système de liaisons ODBC de SODAS lui permet d accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS file. WAREMBOURG Pierre-Alexandre 13 / 52 Informatique de Gestion
18 Un premier écran d importation apparaît alors dans lequel il faut sélectionner le menu File puis New. L écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il s agit d une base Microsoft Access. Notre projet a, en effet, pour objet l étude d une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l accès de DB2SO à la base de données relationnelles. SODAS ne propose aucun menu de connexion à la base de données car l utilisateur est automatiquement invité à s y connecter quand cela est nécessaire, c est-à-dire lorsqu il souhaite exécuter une requête. A tout moment, l utilisateur peut décider de changer de base de données en choisissant le menu File\Disconnect de l écran ci-dessus. Il sera alors invité à spécifier une nouvelle base de données. Une fois, le bon driver choisi, il faut indiquer le fichier.mdb. Pour ce faire, nous cliquons sur OK. WAREMBOURG Pierre-Alexandre 14 / 52 Informatique de Gestion
19 L étape suivante consiste à rechercher la base de travail et à la sélectionner. Lorsque ces étapes préliminaires ont été exécutées, nous allons procéder à l extraction des individus. Pour ce faire, il faut taper une requête SQL dans l écran qui se présente alors à nous. Cette requête est de la forme : select * from requête1 avec requête1 une requête qui nous renvoie une table : individus concepts description des individus Résultat de la requête1 : 1 ère colonne = individus 2 nde colonne = concepts 3 ème colonne et suivante = description des individus Individus concepts //// //// //// //// Description des individus Dans notre projet, il s agit de la requête : db2so_annee_00_promo SELECT db2so_annee_00.id_vente, db2so_annee_00.nom_magasin, db2so_annee_00.etiquette_article, db2so_annee_00.categorie, db2so_annee_00.famille_produit, db2so_annee_00.etiquette_couleur, db2so_annee_00.gamme_couleur, db2so_annee_00.mois, db2so_annee_00.quantite_vendue, db2so_annee_00.total_vente, db2so_annee_00.niv_vente, db2so_annee_00.marge, promotion_00.numero, promotion_00.cout_promotion FROM db2so_annee_00 LEFT JOIN promotion_00 ON (db2so_annee_00.code_article = promotion_00.code_article) AND (db2so_annee_00.mois = promotion_00.mois_promo); WAREMBOURG Pierre-Alexandre 15 / 52 Informatique de Gestion
20 La requête doit retourner une ligne pour chaque individu ; chaque ligne ayant la structure précisée à la page précédente : identifiant de l individu, groupe auquel appartient l individu et ensuite les différents attributs décrivant les individus. Le nombre de ces attributs est variable mais un minimum d un attribut est requis. Requête SQL renvoyant les individus, les concepts et la description des individus. Ce bouton permet de changer de base de données de travail. Si la dernière colonne de la table résultant de la requête représente un poids associé à chaque individu, nous pourrons cocher la première checkbox «Last column is ponderation» de la fenêtre. La seconde checkbox est, elle, utilisée si notre requête est supposée renvoyée un grand nombre de tuples (qui pourrait surcharger la mémoire). Dans ce cas, l utilisateur cochera l option Sampling et il devra spécifier le nombre d individus maximum pour chaque groupe (par défaut, ce nombre est fixé à 1000). Nous avons dû l utiliser en raison du trop grand nombre d individus de notre étude. Une fois la requête SQL tapée, nous cliquons sur le bouton OK et la requête est envoyée à la base de données ; les individus sont alors extraits de la base de donnée, ils sont stockés en mémoire et un tableau des concepts est généré. A l issue de l extraction de nos individus, il est possible de visualiser les résultats de l extraction, à savoir les tableaux des individus et des concepts en sélectionnant le menu View et en choisissant Individuals ou bien Assertions suivant ce que nous souhaitons voir. WAREMBOURG Pierre-Alexandre 16 / 52 Informatique de Gestion
21 A ce stade, nous pouvons sauvegarder notre travail en choisissant File\Save as ; le fichier sera alors enregistré avec l extension.gaj. Cette opération permet à l utilisateur de retrouver son travail dans l état actuel s il souhaite s arrêter et continuer plus tard. Il lui suffira alors de cliquer sur File\Open et de sélectionner le fichier voulu. Les fichiers SODAS, utilisés en entrée des méthodes de SODAS, sont des fichiers avec l extension.sds. Pour créer de tels fichiers, il faut utiliser le menu File\Export. Il est alors demandé de saisir un titre et un sous-titre afin de commenter le contenu de notre fichier. Le menu suivant File\Export and view crée également le fichier.sds, comme précédemment, mais il permet aussi de visualiser le fichier généré dans un éditeur de texte. Le menu Modify, lui, permet à l utilisateur de modifier les concepts à l aide de plusieurs opérations. Nous pouvons, par exemple, ajouter ou supprimer des variables singled-valued et multi-valued aux concepts, ajouter des taxonomies, spécifier des variables mères / filles en indiquant des règles. Par exemple, une variable n aura de sens que si une autre variable a une certaine valeur. Si nous sélectionnons le menu Modify\Add single valued variables, une fenêtre s ouvre nous invitant à écrire une requête SQL destinée à extraire de notre base relationnelle les variables associées aux concepts. La requête SQL renvoie une ligne par concept : la première colonne représente l identifiant du concept et les colonnes suivantes correspondent aux variables de description des concepts. En ce qui nous concerne, nous avons créé la requête add_single_magasin_pays : SELECT DISTINCT nom_magasin, pays FROM liste_magasin, code_postal INNER JOIN (ville INNER JOIN (region INNER JOIN pays ON region.pays_id=pays.pays_id) ON ville.region_id=region.region_id) ON code_postal.ville_id = ville.ville_id WHERE liste_magasin.code_postal_id=code_postal.code_postal_id; Cette requête renvoie une table qui nous donne les noms des magasins et les pays où sont situés ces magasins. WAREMBOURG Pierre-Alexandre 17 / 52 Informatique de Gestion
22 Concernant le menu Modify\Add one set-valued multiple variable, la requête à utiliser doit renvoyer exactement un attribut multi-valué (qualitatif) en relation avec une variable multi-valuée et décrivant les concepts. La première colonne de la requête décrit le concept, la seconde contient les modalités de l attribut multi-valué et la troisième est la cardinalité de la modalité considérée, au sein du concept. Nous avons 3 requêtes de ce type : - requête add_mulitple_qte_00 : nom_magasin quantité vendue totale sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Qte vendue]) AS quantite_vendue, 1 AS ponderation FROM bilan_annee_00; - requête add_mulitple_revenu_vente_00 : nom_magasin montant total des ventes sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Total vente]) AS revenu_vente, 1 AS ponderation FROM bilan_annee_00; - requête add_mulitple_marge_00 : nom_magasin marge totale sur l année 00 SELECT bilan_annee_00.nom_magasin, Str([Marge total]) AS marge_tot, 1 AS ponderation FROM bilan_annee_00; l est également possible de rentrer des taxonomies (menu Modify\Create taxonomy). Pour ce faire, nous passons toujours par des requêtes SQL. Celles-ci doivent nous donner en première colonne la variable enfant et en deuxième colonne la variable parent. Nous avons 2 taxonomies : - requête taxo_article : etiquette_article categorie famille_article SELECT DISTINCT article.etiquette_article, article.categorie, article.famille_produit FROM article ORDER BY article.famille_produit; WAREMBOURG Pierre-Alexandre 18 / 52 Informatique de Gestion
23 - requête taxo_couleur : etiquette_couleur gamme_couleur SELECT DISTINCT article.etiquette_couleur, article.gamme_couleur FROM article ORDER BY article.gamme_couleur; Une fois toutes ces opérations réalisées, il est possible, à nouveau, de visualiser les Individus, les concepts, les taxonomies les règles établies à l aide du menu View. Une fois que nous avons effectué toutes ces manipulations dans le module DB2SO, un résume de toutes les opérations apparaît dans l écran principal : résultat de la requête de base : db2so_annee_00_promo 2 ici, nous voyons s afficher les 2 taxonomies portant sur les articles et sur les couleurs, présentées précédemment 3 ces 2 variables ont été insérées en utilisant le menu Modify\Add single valued variables 4 nous avons effectué 3 fois la manipulation Modify\Add one set-valued multiple variable afin d insérer 3 variables multimodales. Il est à noter que nous avons changé le type de nos variables grâce à l interface de DB2SO (menu View\Variables Properties). Par défaut, ces variables sont multimodale probabiliste et nous les avons transformées en variables multimodales booléennes. WAREMBOURG Pierre-Alexandre 19 / 52 Informatique de Gestion
24 2. SOE : Symbolic Objects Editor a. Présentation de la méthode SOE L éditeur d objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS et d effectuer quelques modifications sur les données. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau. Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins 3) que nous souhaitons voir représentés à l écran. Ensuite, suivant notre choix (bouton ou ), nous voyons apparaître à l écran une étoile zoom, en 2 ou 3 dimensions. Nous pouvons noter que les variables quantitatives sont représentées par des intervalles et que les variables qualitatives sont représentées par des histogrammes. Le bouton SOL ( dans le tableau. ), lui, renvoie une description SOL des objets symboliques sélectionnés Les taxonomies sont signalées sur les étoiles zoom par le symbole WAREMBOURG Pierre-Alexandre 20 / 52 Informatique de Gestion
25 b. Mise en œuvre de la méthode SOE Nous présentons tout d abord l étude sur un magasin précis «E-fashion Paris 8 ème» pour l année Ceci nous permettra d expliciter les différentes fonctionnalités que nous aurons choisies. Ensuite, nous ferons une analyse identique pour d autres magasins afin de comparer les résultats et éventuellement d en tirer quelques conclusions concernant l activité des différents magasins objets de notre étude. Nous avons choisi d afficher à l écran seulement les indications les plus importantes et surtout les plus exploitables. Par exemple, afficher les étiquettes des articles vendus n est pas envisageables car il y en a beaucoup trop et le graphique devient alors illisible. Par contre, afficher les familles de produits vendus est beaucoup plus pertinent ; en effet, ceci nous permet d en déduire des tendances. Les résultats peuvent être présentés à l aide d une étoile zoom en 2 dimensions : Une variable qualitative est représentée par un point de taille proportionnelle au nombre d occurrences rencontrées dans l étude. Le graphique relie l occurrence la plus importante. Si nous souhaitons nous rendre compte plus précisément de la répartition de la variable considérée, nous pouvons faire appel à l autre type de représentation : l étoile zoom en 3 dimensions. WAREMBOURG Pierre-Alexandre 21 / 52 Informatique de Gestion
26 L étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme d histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais sur un axe (avec mention également des valeurs extrêmes rencontrées pour l ensemble des concepts). Globalement, nous pouvons dire que les ventes de ce magasin, pour un article vendu et par mois, sont très faibles. Il ne s agit pas ici d une étude globale des ventes (nous verrons cela plutôt avec la méthode STAT). La remarque précédente ne signifie donc pas que le magasin ne vend pas beaucoup d articles globalement mais que pour un mois donné et un article donné, le niveau de vente est très faible ( ie : inférieur ou égal à 5 articles vendus). Cette représentation est un peu condensée ; nous pouvons cliquer sur les intervalles pour avoir les valeurs exactes ou bien sur les histogrammes pour en avoir une représentation plein écran. Les plus grosses ventes ont visé les Accessoires et concernant les vêtements, elles se répartissent entre les les pulls, les sweats & Tee-Shirts, les chemises, les robes et enfin les blousons. Aucun vêtement de cuir ne s est vendu dans ce magasin et très peu de pantalons, vestes et jupes. WAREMBOURG Pierre-Alexandre 22 / 52 Informatique de Gestion
27 Les couleurs de prédilections des clients (du moins dans ce magasin) sont le blanc, observation relativement classique, ainsi que les couleurs foncées (noir, bleu, marron). Par contre, aucun article de couleur écru et aucun article à motif n ont été vendus. Le gris, le bordeaux et les rayures n ont pas eu de succès auprès des clients. Si nous souhaitons obtenir une analyse plus précise, il est possible d afficher les catégories d articles, voire les étiquettes des articles et les étiquettes de couleurs des articles. Nous ne le présenterons pas ici car il y a trop d informations qui apparaissent à l écran et le résultat ne serait pas probant. Mais il est important de préciser que cela est possible puisque nous l avons prévu au moment de l extraction de nos individus dans le module DB2SO. Une autre observation intéressante concerne les promotions. Les différentes promotions réalisées sur des articles sont regroupées en 6 catégories représentées sur l étoile Zoom par leur numéro. Elles sont différenciées par le nombre le type de média utilisé : - type 1 : promotion dans le magasin (rabais sur le prix, ventes promotionnelles : 2 articles pour le prix d 1 ) - type 2 : promotion + publicité à la radio - type 3 : promotion + envoie de publicité par - type 4 : promotion + publicité à la radio + publicité à la télévision - type 5 : promotion + impression (affiche, tracts ) + publicité à la radio + publicité TV - type 6 : tous les types de média L histogramme concernant les types de promotions représentent l impact d une certaine forme de promotion sur les ventes des articles et non le nombre de promotions utilisées de tel ou tel type. WAREMBOURG Pierre-Alexandre 23 / 52 Informatique de Gestion
28 Ainsi, nous voyons sur l histogramme précédent que 58% des promotions de type 5 (sur l ensemble de toutes les promotions réalisées) ont coïncidé avec des ventes d articles. Par contre, aucune promotion de type 6 n est présente. Cela signifie certainement que le magasin n a pas utilisé ce type de promotions au cours de l année L étoile zoom nous indique également que le prix des promotions s étend sur un intervalle allant de 650 FF à FF. Nous pouvons également voir que le nombre d articles vendus, par mois s étale entre -1 et 56, pour un montant total des ventes compris entre -199 FF et 7944 FF et une marge réalisée entre FF et 2887 FF. Observer des chiffres négatifs et même nuls peut paraître déroutant. En fait, il s agit, dans le premier cas, d articles qui ont disparus (probablement volés) et dans le second cas, d articles renvoyés à la maison mère (articles tâchés, déchirés par les clients. Enfin, la visualisation de l histogramme représentant les mois avec les pourcentages des ventes réalisées nous permet de voir les périodes de l année où les ventes sont les plus importantes. Il s agit essentiellement de la période s étalant de Décembre à Mai, avec un léger ralentissement en Février. WAREMBOURG Pierre-Alexandre 24 / 52 Informatique de Gestion
29 2. STAT a. Présentation de la méthode STAT STAT permet d appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des objets symboliques représentés par leur description. Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle nous travaillons. 1. les fréquences relatives pour les variables multi nominales 2. les fréquences relatives pour les variables intervalles 3. les capacités et min/max/mean pour les variables multi nominales probabilistes 4. biplot pour les variables intervalles Le format de sortie des données sera, suivant le choix de l utilisateur, un listing ou bien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires...) par l utilisateur et ils peuvent également être copiés et sauvegardés. Les fréquences relatives pour les variables multi-nominales Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le choix de l utilisateur, être soit un diagramme bâton, soit un diagramme en camembert. Les fréquences relatives pour les variables intervalles Cette méthode a besoin, en entrée, de 2 paramètres : - une variable intervalle I - un nombre de classes k Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va permettre le calcul de la fréquence relative associée à la classe C k tout en tenant compte du recouvrement de cette classe C k par les valeurs intervalles de I et ceci pour tous les objets symboliques. WAREMBOURG Pierre-Alexandre 25 / 52 Informatique de Gestion
30 Les capacités et min/max/mean pour les variables multi nominales probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans l histogramme capacité, la capacité d une modalité est représentée par l union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l étendue et la moyenne de la probabilité de chaque modalité. Biplot pour les variables intervalles Ce graphique représente un objet symbolique par un rectangle dans le plan de 2 variables sélectionnées par l utilisateur. La dimension de chaque côté du rectangle correspond à l étendue de la variation de l objet symbolique relativement à la variable de l axe considéré. b. Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables multi-nominales Nous avons 3 variables de ce type : - la quantité totale d articles vendus - le montant total des ventes réalisées - la marge totale que ces ventes ont engendrée Nous avons choisi la représentation sous forme de camembert. L intérêt des graphiques que nous allons voir ci-après est de pouvoir comparer sur une même représentation, les différents résultats, liés à chaque magasin. Les pourcentages indiqués ne sont pas intéressants vu que les observations concernent chaque magasin et que nous avons un seul résultat par magasin, tous ces pourcentages sont alors identiques. Les résultats se répartissent entre 902 articles vendus (e-fashion London) et 9866 articles vendus (e-fashion Barcelona). On obtient donc des résultats s étalant sur une échelle de 1 à 10. Le magasin de Londres n a pas de bons résultats. WAREMBOURG Pierre-Alexandre 26 / 52 Informatique de Gestion
31 Les deux autres représentations confirment ce résultats puisqu ils sont en relation directe avec le nombre d articles vendus ; en effet, il s agit du montant total des ventes et de la marge totale réalisée. Les fréquences relatives pour les variables intervalles Nous appliquons cette méthode pour visualiser le coût des promotions. Nous étudions donc la variable cout_promotion et nous avons découpé notre intervalle en 10 classes. Le coût des promotions s étend entre 650 FF et FF. Cependant, nous constatons qu il y a plus de promotions dont le coût se situe entre FF et FF. Les extrêmes sont peu représentés : la politique des magasins est donc de privilégier une prestation de milieu de gamme (concernant les promotions). Ils choisissent peu la formule la plus simple (et donc la moins la moins chère) et la formule la plus chère, consistant en l utilisation de l ensemble des médias à disposition. WAREMBOURG Pierre-Alexandre 27 / 52 Informatique de Gestion
32 Les capacités et min/max/mean pour les variables multi nominales probabilistes La première variable que nous avons décidé d étudier concerne la famille de produit des articles vendus. Il apparaît nettement que ce sont les Accessoires qui se vendent le plus ; la moyenne de la probabilité de cette modalité de notre variable d étude est bien supérieure aux autres moyennes. Ensuite, arrivent les Sweat & Tee-shirts, suivis de très près par les Chemisiers. Nous trouvons ensuite les Robes et les Pulls, puis les Pantalons, les Vestes & Blazers et enfin les Jupes de Villes. Nous avons ensuite étudié la variable gamme de couleurs des articles afin de connaître les nuances de couleur que préfèrent les clients. WAREMBOURG Pierre-Alexandre 28 / 52 Informatique de Gestion
33 Les articles noirs sont les plus vendus. Ensuite, nous avons les articles bleus, puis marrons, vert et blanc. Nous pouvons remarquer également que certains magasins n ont vendu aucun article de couleur pierre, kaki, écru et gris. En effet, le minimum des proportions associées à ces modalités de la variable gamme_couleur est nul. Biplot pour les variables intervalles Etant donné que nous étudions 13 magasins et que les résultats de l application de cette méthode se superposent, nous allons faire 3 études : les magasins situés à Paris, les magasins dans les autres villes de France et les magasins dans les autres villes européennes. Nous remarquons que les magasins e-fashion 6 ème et e-fashion 8 ème ont fait des promotions dont le coût s étend dans les mêmes intervalles, cependant les ventes du magasin e-fashion Paris 8 ème ont été supérieures. Concernant le magasin e-fashion Paris 15 ème, il a opté pour des promotions dont les tarifs sont supérieurs mais le nombre de ses ventes est inférieur au magasin e-fashion Paris 8 ème. Il est possible que les promotions de haut de gamme (les plus chères) n aient pas les résultats escomptés. Nous allons maintenant observer les résultats concernant les autres magasins présents en France : - e-fashion Aix Marseille - e-fashion Lyon - e-fashion Toulouse WAREMBOURG Pierre-Alexandre 29 / 52 Informatique de Gestion
34 Un résultat intéressant : e-fashion Aix Marseille et e-fashion Toulouse ont encore choisi des gammes de promotions de prix identiques mais les ventes ont été plus importantes. Le budget promotion est donc mieux utilisé par el magasin de Toulouse que par celui de Aix Marseille. Par contre, e-fashion Lyon a choisi une large gamme de promotion et les ventes d articles sont nettement plus importantes. On peut donc imaginer que les promotions ont une influence non négligeable sur les ventes. Pour les 4 magasins de Milan, Rome, Madrid et Barcelone, nous pouvons considérer que les résultats sont à peu près équivalents. WAREMBOURG Pierre-Alexandre 30 / 52 Informatique de Gestion
35 Le magasin e-fashion Londres n a opté que pour un seul type de promotion, contrairement à e-fashion Berlin qui réalise, pourtant, moins de vente que e-fashion Londres. Le magasin de Bruxelles utilise des promotions dont l étendue de gamme est sensiblement équivalente aux deux autres magasins mais le total des ventes est supérieur. Une autre étude intéressante consiste à afficher en ordonnée les marges réalisées et en abscisse le total des ventes. Les résultats sont, cependant assez classiques : lorsque le nombre de ventes varie dans une large plage de valeurs, la marge réalisée varie dans une plage similaire. WAREMBOURG Pierre-Alexandre 31 / 52 Informatique de Gestion
36 Sur le graphique précédent, il apparaît que e-fashion Paris 15 ème réalise des ventes dont les montants sont équivalents à ceux réalisés par e-fashion Paris 6 ème mais les marges du premier magasin sont plus importantes. Il a peut-être vendu des articles à plus forte valeur ajoutée ou bien il a fait moins de vente ciblée par une promotion. Là encore, nous voyons que le magasin de Lyon réalise des marges importantes ; ce qui coïncide avec les montants des ventes réalisées. Les marges réalisées par e-fashion Roma sont équivalentes à celles de e-fashion Madrid mais les montants des ventes dans le magasin de Rome sont inférieurs à ceux du magasin de Madrid ; les bénéfices seront donc plus importants. WAREMBOURG Pierre-Alexandre 32 / 52 Informatique de Gestion
37 Les résultats concernant ces 3 derniers pays sont sensiblement proportionnels. Une autre étude intéressante aurait été l affichage des quantités d articles vendues en fonction des marges réalisées ou bien en fonction du montant total des ventes. Ces études complémentaires ne feraient que confirmer les résultats précédemment énoncés. WAREMBOURG Pierre-Alexandre 33 / 52 Informatique de Gestion
38 3. DIV : Divisive Clustering on Symbolic Objects a. Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur. Il ne s agit pas du seul paramètre à saisir, en entrée de la méthode. L utilisateur doit également choisir les variables qui seront utilisées pour calculer la matrice de dissimilarité, l extension du critère d inertie et pour définir l ensemble des questions binaires utiles pour effectuer le découpage. Au moment de choisir nos variables, il faut être attentif à deux choses principales : - le domaine de définition des variables doit être ordonné car dans le cas contraire, les résultats obtenus seront totalement faux - il n est pas possible de mélanger des variables dont le domaine de définition est continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l utilisateur doit choisir entre des variables qualitatives et des variables continues. Trois paramètres doivent également être définis : - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l inverse de la dispersion ou bien l inverse du maximum de la déviation. La dispersion des variables est, ici, une extension aux objets symboliques de la notion de variance - le nombre k de classes de la dernière partition. La division s arrêtera après k-1 itérations et la méthode DIV aura calculer des partitions de la classe 2 à la classe k - la méthode DIV offre également la possibilité de créer un fichier partition ; il s agit d un fichier texte contenant une matrice (a ij ) dans laquelle, chaque ligne i [1,n] correspond à un objet et chaque rangée j [2,k-1] correspond à une partition en j classes. Ainsi, (a ij ) signifie que l objet j appartient à la classe k, dans la partition en j classes. Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous obtenons, en sortie, un listing contenant les informations suivantes : - une liste de la «variance» des variables sélectionnées, à condition que ces variables soient continues - pour chaque partitions de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée relative à la partition - l arbre de classification. WAREMBOURG Pierre-Alexandre 34 / 52 Informatique de Gestion
39 b. Mise en oeuvre de la méthode DIV La méthode DIV va nous permettre de réaliser une classification hiérarchique des magasins par division successive de chaque classe, en partant d une seule classe réunissant tous les magasins. Cette méthode ne permet pas d étudier à la fois les variables qualitatives et les variables quantitatives. Nous procéderons alors en deux temps correspondant à chacun des types de variables. 1) Les variables qualitatives : Description des articles - Catégorie de l article - Gamme de couleur de l article - Mois de vente de l article Nous choisissons une partition en 5 classes La cinquième division nous apporte ainsi les classes suivantes : Cluster 1 (n=2) : "e-fashion Lyon" "e-fashion Barcelona" Cluster 2 (n=1) : "e-fashion London" Cluster 3 (n=4) : "e-fashion Roma" "e-fashion Toulouse" "e-fashion Madrid" "e-fashion Berlin" Cluster 4 (n=4) : "e-fashion Paris 6ème" "e-fashion Aix-Marseille" "e-fashion Paris 15ème" "e-fashion Paris 8ème" Cluster 5 (n=2) : "e-fashion Milano" "e-fashion Bruxelles" Explicated inertia : Le pourcentage d inertie est élevé. Le magasin de Londres se distingue des autres. Par contre, les autres classes montrent un regroupement des magasins sur les critères choisis, notamment entre le magasin de Milan et de Bruxelles ou bien entre le magasin de Lyon et de Barcelone. WAREMBOURG Pierre-Alexandre 35 / 52 Informatique de Gestion
40 L arbre de décision révèle, comme nous le supposions, des ventes différentes selon le mois de l année Classe 1 (Ng=2)!! [mois <= Mai]!!!! Classe 4 (Ng=4)!!!!! [famille_produit <= Accessoires]!!! Classe 5 (Nd=2)!! [mois <= Juin]!!! Classe 3 (Nd=4)!! [famille_produit <= Pulls]! Classe 2 (Nd=1) Nous avons également fait une autre étude en choisissant d autres paramètres en entrée de la méthode. Nous avons choisi comme paramètres de la méthode : - les variables : o le mois o la franchise (le magasin est-il franchisé ou non) o le numéro des promotions pratiquées o la quantité d articles vendus - le nombre de classes : 5 WAREMBOURG Pierre-Alexandre 36 / 52 Informatique de Gestion
41 Les résultats que nous obtenons sont représentés par l arbre ci-dessous : L état «franchisé ou non» représente la première variable de découpage. En avançant dans la hiérarchie, nous nous rendons compte que le type de promotion utilisée constitue les 2 facteurs suivants de découpage. Vient ensuite le mois où est réalisé la promotion puis enfin, la quantité vendue. 2) Les variables continues : Résultat des ventes - le total des ventes - le coût de la promotion - la marge réalisée Nous choisissons à nouveau une partition en 5 classes afin de détecter un éventuel changement dans le regroupement des magasins. Cluster 1 (n=8) : "e-fashion Roma" "e-fashion Barcelona" "e-fashion Toulouse" "e-fashion Aix- Marseille" "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e- Fashion Paris 15ème" Cluster 2 (n=1) : WAREMBOURG Pierre-Alexandre 37 / 52 Informatique de Gestion
42 "e-fashion London" Cluster 3 (n=1) : "e-fashion Paris 6ème" Cluster 4 (n=1) : "e-fashion Lyon" Cluster 5 (n=2) : "e-fashion Bruxelles" "e-fashion Paris 8ème" Explicated inertia : Les magasins ont des similarités ou des dissimilarités entre eux. En effet, le magasin de Londres se distingue à nouveau des autres mais il n est plus le seul. La première classe, quant à elle, regroupe un grand ensemble de magasin. L arbre de décision ci-dessous révèle la liaison entre le coût de promotion subit par le magasin et le niveau de vente réalisé Classe 1 (Ng=8)!! [total_vente <= ]!!!! Classe 3 (Ng=1)!!!!!!---4- [cout_promotion <= ]!!!!!!! Classe 5 (Nd=2)!!!!! [total_vente <= ]!!! Classe 4 (Nd=1)!! [cout_promotion <= ]! Classe 2 (Nd=1) WAREMBOURG Pierre-Alexandre 38 / 52 Informatique de Gestion
43 4. DSD : Discrimant Symbolic Descriptions a. Présentation de la méthode DSD Cette méthode consiste à trouver des descriptions qui permettent de généraliser et de discriminer des classes données sur un ensemble d observations. Ces descriptions sont formalisées par des objets symboliques probabilistes. La méthode DSD construit un ou plusieurs objets symboliques, pour chaque classe, à partir de seuils calculés par la comparaison de l extension de l objet symbolique avec sa classe. Ces objets créés peuvent éventuellement se superposés. Dans le modèle symbolique, la description générale d une classe correspond à une disjonction d objets symboliques. La méthode DSD demande, en entrée, une matrice de données dans laquelle toutes les variables doivent être de type nominal. L utilisateur est invité à sélectionner les variables qui seront utilisées par DSD. Ensuite, il doit choisir une «variable de partition», appelée «Variable Class Identifier», parmi la liste des variables de la matrice de données. Ce choix est unique et les valeurs prises par cette variable correspondent aux classes évoquées précédemment. Des variables de description permettront de décrire chaque classe du domaine de la variable de partition. Cet ensemble de variables est appelé «Variable Set Identifier». L utilisateur est invité à choisir le nombre de variables de description qu il désire tout en sachant qu il est interdit de choisir la variable de partition comme variable de description. Trois paramètres doivent également être définis : - Disc : il s agit d un pourcentage représenté par un entier (de 0 à 100). C est un ratio d erreur des objets symboliques, dans la couverture des individus en dehors de la classe. Disc = 20 signifie que, pour chaque classe, l union de l extension des objets symboliques couvre 20% des individus non présents dans la classe. - Ext : il s agit également d un pourcentage représenté par un entier (de 0 à 100). C est le seuil correspondant à la couverture de chaque classe par les objets symboliques. Par exemple, Ext = 80 signifie que, pour chaque classe, l union de l extension des objets symboliques recouvre 80% des individus de la classe. - Idind : ce paramètre a la valeur yes si les individus, dans la matrice, sont nommés et non, dans le cas contraire. WAREMBOURG Pierre-Alexandre 39 / 52 Informatique de Gestion
44 5. TREE : Decision Tree a. Présentation de la méthode TREE La méthode Tree nous propose un algorithme par agrandissement d arbres, appliqué à des données imprécises décrites par des concepts probabilistes. La procédure récursive de partitionnement peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques, répondant au mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d objets symboliques qui permet éventuellement d assigner de nouveaux objets à une classe. Avant d exécuter la méthode, l utilisateur doit choisir l ensemble des variables prédictives parmi : - un ensemble de variables quantitatives ou de variables intervalles - un ensemble de variables qualitative, multi valuées ou modales Ensuite, nous obtenons en sortie un listing contenant les informations suivantes : - la liste des variables utilisées - la liste des objets symboliques appartenant à un «training set» - la liste des objets symboliques appartenant à un «test set» - la liste des nœuds ; chaque nœud étant décrit par une règle - la liste des nœuds terminaux b. Mise en oeuvre de la méthode TREE La méthode TREE va nous permettre de définir un ensemble organisé des concepts (magasins) grâce à une procédure récursive de partitionnement. Nous choisissons comme variable de partitionnement : les mois Les variables explicatives choisies sont des variables continues : - le total des ventes - la marge réalisée - le coût de promotion subi - les quantités vendues L arbre de décision obtenu se lit de la manière suivante : si ASSERTION est vrai (en haut)! --- x [ ASSERTION ]! si ASSERTION est vrai (en bas) WAREMBOURG Pierre-Alexandre 40 / 52 Informatique de Gestion
45 Les résultats obtenus sont représentés par l arbre suivant : [ 16 ]Italie ( )!!----8[ quantite_vendue <= ]!!! [ 17 ]France ( )!!----4[ cout_promotion <= ]!!! [ 9 ]Royaume-Uni ( )!!----2[ quantite_vendue <= ]!!! [ 5 ]France ( )!!----1[ quantite_vendue <= ]!! [ 12 ]France ( )!!!!----6[ total_vente <= ]!!!!! [ 13 ]France ( )!!!----3[ total_vente <= ]! [ 7 ]France ( ) WAREMBOURG Pierre-Alexandre 41 / 52 Informatique de Gestion
46 6. PYR : Pyramical Clustering on Symbolic Objects a. Présentation de la méthode PYR Il s agit d une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce que nous autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par son extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intension de la classe). L intension est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur sera invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger. WAREMBOURG Pierre-Alexandre 42 / 52 Informatique de Gestion
47 b. Mise en oeuvre de la méthode PYR Nous avons choisi les variables famille_produit, categorie_couleur, total_vente et marge comme paramètres en entrée de la méthode. La pyramide obtenue est la suivante : WAREMBOURG Pierre-Alexandre 43 / 52 Informatique de Gestion
48 7. PCM : Principal Component Analysis a. Présentation de la méthode PCM La méthode PCM correspond à l analyse en composante principale classique. Mais au lieu d obtenir une représentation par points sur un plan factoriel, PCM propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum. L exécution de la méthode nous donne deux résultats : 1 - Le listing qui contient : - La description de la matrice de données par une table : chaque ligne correspond à une classe. - Les valeurs propres, le pourcentage d inertie et les premières composantes principales. Chaque classe est caractérisée d abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle. - Les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique des objets symboliques. b. Mise en œuvre de la méthode PCM La méthode accepte seulement les variables continues, en entrée. Nous avons choisi d analyser pour chacun des magasins de la chaîne : - les quantité vendues - le total des ventes - la marge réalisée - le coût de la promotion effectuée Les intervalles des variables descriptives sont les suivants : - 0 à 107 pour les quantités vendues - 0 à pour le total des ventes - 0 à pour la marge réalisée à pour le coût de la promotion WAREMBOURG Pierre-Alexandre 44 / 52 Informatique de Gestion
49 Nous obtenons alors la matrice de données ci-dessous représentant l ensemble des intervalles des variables pour chacun des concepts : Matrix of input data: quantite_vendue total_vente marge cout_promotion "e-fashion Paris 6ème" [0.00, 59.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Lyon" [0.00, ] [0.00, ] [0.00, ] [650.00, ] "e-fashion Roma" [0.00, 20.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Barcelona" [0.00, 34.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Toulouse" [0.00, 36.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Aix-Marseille" [0.00, 28.00] [0.00, ] [ , ] [ , ] "e-fashion Madrid" [0.00, 46.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Berlin" [0.00, 22.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Milano" [0.00, 25.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Bruxelles" [0.00, 50.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Paris 15ème" [0.00, 36.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion Paris 8ème" [0.00, 56.00] [0.00, ] [0.00, ] [650.00, ] "e-fashion London" [0.00, 19.00] [0.00, ] [0.00, ] [ , ] Les corrélations entre nos 4 variables sont étonnamment faibles. En effet, nous soupçonnions une forte liaison entre les quantités vendues et le total des ventes. Toutes les corrélations (coût de la promotion exclu) sont positives. L évolution entre les quantités vendues, le total des ventes et la marge dégagée vont dans le même sens. Plus les quantités et le chiffre d affaires augmentent, plus le magasin réalise des bénéfices. Par contre, la corrélation entre la marge, le total des ventes ou les quantités vendues et le coût de la promotion est négative. Ceci signifie que plus le magasin réalise de grands volumes de ventes et dégage une marge, plus le coût de sa promotion baisse. WAREMBOURG Pierre-Alexandre 45 / 52 Informatique de Gestion
50 Correlations Matrix : quantite_vendue total_vente marge cout_promotion Le graphique représentant les concepts sur le plan factoriel n apporte pas beaucoup de résultats. Les magasins sont tous regroupés vers le même angle du plan. Ils ne se distinguent donc pas les uns des autres selon la marge réalisée, les ventes, les quantités vendues ou le coût de la promotion. WAREMBOURG Pierre-Alexandre 46 / 52 Informatique de Gestion
51 8. FDA : Factorial Discriminant Analysis a. Présentation de la méthode FDA La méthode FDA permet de mettre en évidence les liaisons existant entre une variable à expliquer qualitative et un ensemble de variables explicatives quantitatives, à l aide d un plan factoriel approprié. L objectif est de déterminer q classes se différenciant au mieux. De même que pour la méthode PCM, on détermine un nouveau caractère, combinaison linéaire des anciens caractères. Cependant, il ne s agit plus d obtenir un caractère de variance maximale mais un caractère séparant au mieux les groupes entre eux. Il faut spécifier : - des variables (ou une) CLASS_ID qui permettront d identifier les différentes classes. Celles-ci devront être nominales (on multinominales) et non probabilistes. - le nombre NVARS de variables explicatives. Il en faut au moins deux. - SELECT les variables qui seront utilisées dans la détermination des axes factoriels discriminants. Ces variables peuvent être nominales, multinominales, probabilistes, modales ou bien des intervalles. - des variables illustratives SET_ID si besoin. Elles sont obligatoirement nominales et non probabilistes. - le nombre d axes factoriels NUMB de l analyse. Il en faut au moins deux. b. Mise en œuvre de la méthode FDA Nous allons définir une partition de l ensemble des magasins en q classes disjointes. Nous allons par ailleurs mesurer sur ces concepts p caractères quantitatifs. Nous avons choisi les pays des magasins comme variable de partition. Nous avons essayé deux groupes de variables descriptives : 1) des variables qualitatives définissant les articles vendus - la famille de l article - le mois de vente de l article - la couleur de l article Nous n ajoutons pas de variables illustratives et nous sélectionnons deux axes factoriels. WAREMBOURG Pierre-Alexandre 47 / 52 Informatique de Gestion
52 Nous obtenons les résultats suivants : La matrice de dissimilarités : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" La matrice de classification : Classification table: Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" WAREMBOURG Pierre-Alexandre 48 / 52 Informatique de Gestion
53 Le compte rendu de la classification et le ratio de classification : Classification Summary : Class\Class France Espagne Allemagn Belgique Royaume- Italie France Espagne Allemagne Belgique Royaume-Uni Italie Classification Ratio : 100.0% Le graphique permet la visualisation de la classification sur le plan factoriel. Nous remarquons que, suivant les caractères descriptifs choisis, les magasins en Allemagne et en France présentent des similarités et s opposent aux magasins de Belgique et du Royaume-Uni. De même, les magasins d Italie et d Espagne présentent d importantes dissimilarités. WAREMBOURG Pierre-Alexandre 49 / 52 Informatique de Gestion
54 2) Des variables continues expliquant les résultats des magasins : - le total des ventes - les quantités vendues - la marge réalisée Nous allons ainsi observer les changements dans les similarités ou dissimilarités des magasins. Matrice de dissimilaritiés : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" Matrice de classification : Test\Classes France Espagne Allemagn Belgique Royaume- Italie "e-fashion Paris 6èm "e-fashion Lyon" "e-fashion Roma" "e-fashion Barcelona "e-fashion Toulouse" "e-fashion Aix-Marse "e-fashion Madrid" "e-fashion Berlin" "e-fashion Milano" "e-fashion Bruxelles "e-fashion Paris 15è "e-fashion Paris 8èm "e-fashion London" WAREMBOURG Pierre-Alexandre 50 / 52 Informatique de Gestion
55 Compte rendu de la classification et ratio de classification : Class\Class France Espagne Allemagn Belgique Royaume- Italie France Espagne Allemagne Belgique Royaume-Uni Italie Classification Ratio : 53.8% Le listing nous indique que la classification obtenue est nettement différente. Le ratio de classification a par ailleurs beaucoup diminué. Observons la classification sur le plan factoriel : Les classes ne regroupent pas les mêmes magasins. Les magasins se distinguent donc par leur niveau de ventes ou les marges obtenues. Si certains magasins peuvent être rapprochés par certains caractères de leurs articles, ils se distinguent alors par leur comportement de vente. WAREMBOURG Pierre-Alexandre 51 / 52 Informatique de Gestion
56 Conclusion Conclusion La réalisation de ce projet a été pour nous l occasion de découvrir un logiciel puissant d analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d extraire des connaissances d une importante base de données relationnelles. La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations graphiques a mis en évidence des résultats pertinents et facilement interprétables. Cependant, l utilisation optimale de ce logiciel nécessite une bonne maîtrise de l environnement des bases relationnelles ainsi que du langage SQL permettant d exécuter des requêtes. Ces requêtes sont en effet indispensables pour extraire, au sein du module DB2SO, les individus, leurs variables de description et les concepts de notre étude. Enfin, réaliser ce projet en équipe a été tout à fait intéressant et productif. En effet, nous avons pu confronter nos idées sur l étude et effectuer ainsi une analyse plus détaillée. WAREMBOURG Pierre-Alexandre 52 / 52 Informatique de Gestion
DATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont
I Open Boutique Sommaire : I Open Boutique... 1 Onglet «Saisie des Produits»... 3 Création d'une nouvelle fiche boutique :... 3 Création d'une nouvelle fiche lieux de retraits :... 10 Création d'une nouvelle
Créer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
Traitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Dossier I Découverte de Base d Open Office
ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
MEDIAplus elearning. version 6.6
MEDIAplus elearning version 6.6 L'interface d administration MEDIAplus Sommaire 1. L'interface d administration MEDIAplus... 5 2. Principes de l administration MEDIAplus... 8 2.1. Organisations et administrateurs...
Tutoriel. Votre site web en 30 minutes
Tutoriel Votre site web en 30 minutes But du tutoriel Nous allons vous présenter comment réaliser rapidement votre site avec Web Creator Pro 6 en vous basant sur l utilisation des modèles fournis avec
clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE
Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données
EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05
EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA
Université Paris IX DAUPHINE DATE : 24/04/06
Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE
WEBSELL. Projet DATAMINING
WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.
INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10
PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION
Créer et partager des fichiers
Créer et partager des fichiers Le rôle Services de fichiers... 246 Les autorisations de fichiers NTFS... 255 Recherche de comptes d utilisateurs et d ordinateurs dans Active Directory... 262 Délégation
Administration du site (Back Office)
Administration du site (Back Office) A quoi sert une interface d'administration? Une interface d'administration est une composante essentielle de l'infrastructure d'un site internet. Il s'agit d'une interface
MEGA ITSM Accelerator. Guide de Démarrage
MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune
La Clé informatique. Formation Excel XP Aide-mémoire
La Clé informatique Formation Excel XP Aide-mémoire Septembre 2005 Table des matières Qu est-ce que le logiciel Microsoft Excel?... 3 Classeur... 4 Cellule... 5 Barre d outil dans Excel...6 Fonctions habituelles
INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX
TABLE DES MATIERES Livret Utilisateur Excel 2007 Niveau 2 INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX... 4 Les tableaux croisés dynamiques... 4 Création d un tableau croisé... 5 Comparer des
ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.
ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. - 1 - PREAMBULE Les conditions générales d utilisation détaillant l ensemble des dispositions applicables
Critères pour avoir la meilleure équipe!
PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...
Database Manager Guide de l utilisateur DMAN-FR-01/01/12
Database Manager Guide de l utilisateur DMAN-FR-01/01/12 Les informations contenues dans le présent manuel de documentation ne sont pas contractuelles et peuvent faire l objet de modifications sans préavis.
GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU
GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles
PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
BIRT (Business Intelligence and Reporting Tools)
BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»
1 Introduction et installation
TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on
les Formulaires / Sous-Formulaires Présentation...2 1. Créer un formulaire à partir d une table...3
Présentation...2 1. Créer un formulaire à partir d une table...3 2. Les contrôles :...10 2.1 Le contrôle "Intitulé"...11 2.2 Le contrôle "Zone de Texte"...12 2.3 Le contrôle «Groupe d options»...14 2.4
1. Introduction... 2. 2. Création d'une macro autonome... 2. 3. Exécuter la macro pas à pas... 5. 4. Modifier une macro... 5
1. Introduction... 2 2. Création d'une macro autonome... 2 3. Exécuter la macro pas à pas... 5 4. Modifier une macro... 5 5. Création d'une macro associée à un formulaire... 6 6. Exécuter des actions en
1. Introduction...2. 2. Création d'une requête...2
1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête
Access 2007 FF Access FR FR Base
ACCESS Basic Albertlaan 88 Avenue Albert Brussel B-1190 Bruxelles T +32 2 340 05 70 F +32 2 340 05 75 E-mail [email protected] Website www.keyjob-training.com BTW TVA BE 0425 439 228 Access 2007
Formation. Module WEB 4.1. Support de cours
Formation Module WEB 4.1 Support de cours Rédacteur Date de rédaction F.CHEA 08/02/2012 Les informations contenues dans ce document pourront faire l'objet de modifications sans préavis Sauf mention contraire,
Utiliser Access ou Excel pour gérer vos données
Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que
Manuel d utilisation email NETexcom
Manuel d utilisation email NETexcom Table des matières Vos emails avec NETexcom... 3 Présentation... 3 GroupWare... 3 WebMail emails sur internet... 4 Se connecter au Webmail... 4 Menu principal... 5 La
SOMMAIRE. Travailler avec les requêtes... 3
Access Les requêtes SOMMAIRE Travailler avec les requêtes... 3 A) Créer une requête sélection en mode QBE... 3 B) Exécuter une requête à partir du mode Modifier (QBE)... 3 C) Passer du mode Feuille de
Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs
Dans la série Les tutoriels libres présentés par le site FRAMASOFT Automatisation d'une Facture 4 Liste Déroulante Remises Case à cocher Calculs Logiciel: Version: Licence: Site: OpenOffice.org Calc :
Business Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Reporting Services - Administration
Reporting Services - Administration Comment administrer SQL Server Reporting Services Cet article a pour but de présenter comment gérer le serveur depuis le "portail" de Reporting Services. Nous verrons
Interface PC Vivago Ultra. Pro. Guide d'utilisation
Interface PC Vivago Ultra Pro Guide d'utilisation Version 1.03 Configuration de l'interface PC Vivago Ultra Configuration requise Avant d'installer Vivago Ultra sur votre ordinateur assurez-vous que celui-ci
Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B
Excel : Réalisation d un classeur Compta Saisir les étiquettes Renommer la première feuille Compta Laisser la première ligne vide et sur la deuxième ligne saisir les étiquettes Se placer sur A2 et saisir
COURS WINDEV NUMERO 3
COURS WINDEV NUMERO 3 01/02/2015 Travailler avec un fichier de données Etude du gestionnaire d analyse, Manipulation des tables mémoires, Manipulation de données, Création d états, Pré requis : Cours WinDev
Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.
Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...
Excel avancé. Frédéric Gava (MCF) [email protected]
Excel avancé Frédéric Gava (MCF) [email protected] LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Rappels et compléments
Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0
2010 Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0 Observatoire d Information, de Formation, de Documentation et d Etudes pour la Protection
MEGA ITSM Accelerator. Guide de démarrage
MEGA ITSM Accelerator Guide de démarrage MEGA 2013 1ère édition (janvier 2013) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune
GUIDE DE PRISE EN MAIN
27/04/2011 Firstmag version 7 Ce document va vous expliquer en quelques pages comment maitriser les principales fonctions du logiciel. Ce guide n est pas exhaustif, pour une utilisation avancée du logiciel
GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)
GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA) Publié en 2013 par : Institut de statistiques de l UNESCO C.P. 6128, Succursale Centre-Ville Montréal,
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Comment utiliser FileMaker Pro avec Microsoft Office
Guide d utilisation Comment utiliser FileMaker Pro avec Microsoft Office Comment utiliser FileMaker Pro et Microsoft Office page 1 Table des matières Introduction... 3 Avant de commencer... 4 Partage de
LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.
LIMESURVEY LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement. CERPEG janvier 2014 - Fabienne Mauri - Académie de Bordeaux page 1 SOMMAIRE
CREG : http://www.creg.ac- versailles.fr/spip.php?article803
OUTILS NUMERIQUES Édu-Sondage : concevoir une enquête en ligne Rédacteur : Olivier Mondet Bla. 1 Présentation Parmi les pépites que contient l Édu-Portail, l application Édu-Sondage est l une des plus
Module 1 : Tableau de bord Excel * 2010 incl.*
Module 1 : Tableau de bord Excel * 2010 incl.* 1.0 Introduction Excel nous aide à mieux comprendre les données en les plaçant dans des cellules (réparties en lignes et en colonnes) et au moyen de formules
VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET
VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET Brancher / débrancher l ordinateur de la prise Allumer / éteindre l ordinateur : pour allumer ou éteindre l ordinateur vous devez appuyer sur le bouton On/off
Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons
Guide d'utilisation OpenOffice Calc AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons 1 Table des matières Fiche 1 : Présentation de l'interface...3 Fiche 2 : Créer un nouveau classeur...4
Business Intelligence simple et efficace
Business Intelligence simple et efficace avec Excel et PowerPivot Jean-Philippe GOUIGOUX Table des matières 1 Chapitre 1 Présentation de PowerPivot A. L analyse de données.....................................................
Mise à jour ESCentiel - Juin 2012
Mise à jour ESCentiel - Juin 2012 Nous avons le plaisir de vous adresser ci-après une liste des principales modifications, améliorations et ajouts que nous avons jugé utiles à vous précisez. Comme vous
GUIDE DE DEMARRAGE RAPIDE:
GUIDE DE DEMARRAGE RAPIDE: COMMENT CREER VOTRE BOUTIQUE EN LIGNE Vous voulez créer votre propre boutique en ligne? C est désormais plus simple que jamais. Suivez simplement les instructions de ce guide
EXCEL TUTORIEL 2012/2013
EXCEL TUTORIEL 2012/2013 Excel est un tableur, c est-à-dire un logiciel de gestion de tableaux. Il permet de réaliser des calculs avec des valeurs numériques, mais aussi avec des dates et des textes. Ainsi
CONCEPTION Support de cours n 3 DE BASES DE DONNEES
CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...
Tutoriaux : Faites vos premiers pas avec Microsoft Visio 2010
Tutoriaux : Faites vos premiers pas avec Microsoft Visio 2010 Les tutoriaux suivants vous guident dans l utilisation de Visio 2010. Certaines vidéos sont disponibles sur le site. Tutoriaux : Faites vos
MODE OPERATOIRE CIEL GESTION COMMERCIALE VERSION EVOLUTION BTS PME PMI
MODE OPERATOIRE CIEL GESTION COMMERCIALE VERSION EVOLUTION BTS PME PMI BTS AGPME Ciel Gestion commerciale (mai 2005) Pierre TASSION 1 Table des matières D après le référentiel BTS PME PMI Présentation
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3
RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans
SUGARCRM MODULE RAPPORTS
SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur
Le langage SQL Rappels
Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,
OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR
OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR HISTORIQUE DES VERSIONS Vers. Date Rédacteur Objet de la modification 1.00 Juillet 2007 GTBO_AGRI Création du document 1.01 Février 2009 SAMOA
PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau
OpenOffice.org Calc 2 Avancé Guide de formation avec exercices et cas pratiques Philippe Moreau Tsoft et Groupe Eyrolles, 2007, ISBN : 2-212-12036-2, ISBN 13 : 978-2-212-12036-3 4 - Plages de données 4
Initiation à Excel. Frédéric Gava (MCF) [email protected]
Initiation à Excel Frédéric Gava (MCF) [email protected] LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Plan de cette année
GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e
GUIDE DE DÉMARRAGE SitagriPro Infinite Un service FINANCEAGRI c o r p o r a t e SOMMAIRE ÉTAPE 1 : Installation... p.3 1. Introduction 2. Connexion à SitagriPro Infinite ÉTAPE 2 : Identification... p.5
MODE OPERATOIRE OPENOFFICE BASE
MODE OPERATOIRE OPENOFFICE BASE Openoffice Base est un SGBDR : Système de Gestion de Base de Données Relationnelle. L un des principaux atouts de ce logiciel est de pouvoir gérer de façon efficace et rapide
Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh
NOTATION UML AVEC RATIONAL ROSE G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh Sommaire 1 GÉNÉRALITES...2 1.1 ENVIRONNEMENT LOGICIEL...2 1.2 LES VUES DU LOGICIEL ROSE...3 1.3 ORGANISATION RECOMMANDÉE...3
Guide d usage pour Word 2007
Formation TIC Septembre 2012 [email protected] Guide d usage pour Word 2007 ETSUP 8 villa du Parc Montsouris 75014 PARIS SOMMAIRE Interface... 2 Organiser son espace de travail... 3 La barre d
Planifier et contrôler un projet avec Microsoft Project
Planifier et contrôler un projet avec Microsoft Project Martin Schmidt Anteo-consulting.fr 27/02/2009 Principes de base Copyright Anteo-Consulting Page 2 Saisir des tâches Tout nouveau projet commence
CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE
CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE 2 ème partie : REQUÊTES Sommaire 1. Les REQUÊTES...2 1.1 Créer une requête simple...2 1.1.1 Requête de création de listage ouvrages...2 1.1.2 Procédure de
[WINDOWS 7 - LES FICHIERS] 28 avril 2010. Logiciel / Windows
Ce dossier a une forme un peu différente des précédentes : c est un ensemble de «fiches» décrivant chacune une des opérations que l on peut effectuer avec un fichier (enregistrer, renommer, etc.). Chaque
ESPACE COLLABORATIF SHAREPOINT
Conseil de l Europe Service des Technologies de l Information ESPACE COLLABORATIF SHAREPOINT DOSSIER D UTILISATEUR 1/33 Sommaire 1. Présentation de SharePoint... 3 1.1. Connexion... 4 2. Les listes...
Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture
Excel 2007 -2- Avertissement Ce document accompagne le cours qui a été conçu spécialement pour les stagiaires des cours de Denis Belot. Le cours a été réalisé en réponse aux diverses questions posées par
Utiliser un tableau de données
Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Découvrir la notion de tableau croisé dynamique
Découvrir la notion de tableau croisé dynamique Excel 2007 en quelques mots... 11 Travailler avec des données en grande quantité... 14 Les apports des tableaux croisés dynamiques... 21 S ouvrir à l informatique
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Créer un tableau avec LibreOffice / Calc
Créer un tableau avec LibreOffice / Calc Réaliser des tableaux LibreOffice / Calc permet de créer des tableaux facilement en utilisant les cellules. En premier lieu, il faut prévoir le nombre de colonnes
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
GUIDE Excel (version débutante) Version 2013
Table des matières GUIDE Excel (version débutante) Version 2013 1. Créer un nouveau document Excel... 3 2. Modifier un document Excel... 3 3. La fenêtre Excel... 4 4. Les rubans... 4 5. Saisir du texte
Si vous décidez d utiliser un autre chemin, c est ce nouveau chemin qu il faudra prendre en compte pour la sauvegarde. Cf. : Chapitre 9 Sauvegarde
Sommaire Installation du logiciel...2 Enregistrement du logiciel...2 Présentation du logiciel...3 Initialisation du logiciel... 1. Initialisation des constantes...4 2. Initialisation des codes grades...5
«Manuel Pratique» Gestion budgétaire
11/06/01 B50/v2.31/F/MP005.01 «Manuel Pratique» Gestion budgétaire Finance A l usage des utilisateurs de Sage BOB 50 Solution Sage BOB 50 2 L éditeur veille à la fiabilité des informations publiées, lesquelles
Créer une base de données
Access Créer une base de données SOMMAIRE Généralités sur les bases de données... 3 Création de la base de données... 4 A) Lancement d'access... 4 B) Enregistrement de la base de données vide... 4 Création
Contrôle en Cours de Formation
Win CFA Module C.C.F. Module Contrôle en Cours de Formation *********************************************************************************** [ Documentation Technico Commerciale ] ************************************************************************************
Manuel de formation Spaceman 1 ère journée
Manuel de formation Spaceman 1 ère journée Table des Matières Présentation des barres d outils et des icônes...4 Présentation de l espace de travail...10 1 ère PARTIE : CONSTRUIRE LE MOBILIER...11 La gondole
1. LA GESTION DES BASES DE DONNEES RELATIONNELLES
Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de
www.imprimermonlivre.com
0 www.imprimermonlivre.com Composition d une couverture avec Word L objectif de ce guide est de vous proposer un mode opératoire pour créer une couverture avec Word. Nous vous rappelons toutefois que Word
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
La Clé informatique. Formation Internet Explorer Aide-mémoire
La Clé informatique Formation Internet Explorer Aide-mémoire Novembre 2003 Table des matières Novembre 2003...i Configuration d Internet Explorer... 1 Internet Explorer 6... 5 Gestion des Raccourcies...
L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?
L ARBORESCENCE Qu est-ce qu un dossier? Un dossier est une pochette vide dans laquelle on peut disposer des documents créés à l aide de l outil informatique. Comme les systèmes utilisés dans la vie courante
ScolaStance V6 Manuel vie scolaire
ScolaStance V6 Manuel vie scolaire Sommaire INTRODUCTION... 5 ACCES A L ENT... 5 Modification du mot de passe temporaire... 6 Mot de passe oublié... 6 PERSONNALISATION DE LA PAGE D ACCUEIL... 7 Editer
VTigerCRM. CRM : Logiciel de gestion des activités commerciales d'une (petite) entreprise
CRM : Logiciel de gestion des activités commerciales d'une (petite) entreprise Possibilités : Gestion des rendez-vous/appels Gestion des e-mails Gestion des stocks Gestion des ventes Enregistrement des
