Data Mining Location de voiture

Transcription

1 Pôle Info 3 Master ID Data Mining Location de voiture Responsables : M. DIDAY Réalisé par: Fatimaezzahra HOUDAF Fatima LANSEUR Année universitaire:2oo5/2006 Page 1 sur 34

2 Table des Matières Table des Matières INTRODUCTION LE LOGICIEL SODAS Fonctionnement du logiciel Interface du logiciel Utilisation : ETUDE DES DONNÉES SUR LES LOCATIONS DE VOITURES Le sujet La base de données Les requêtes Application des diverses méthodes statistiques STAT: Histogram and Elementary Statistics DIV: Divisive Classification TREE SOE: Symbolic Pbject Editor PYR PCM: Principal Component and Factorial Analysis FDA : Factorial Discriminant Analysis CONCLUSION Page 2 sur 34

3 1. Introduction Les entreprises exploitent de nos jours des volumes de données de plus en plus importants. Ces données permettent d effectuer des analyses poussées à l aide des techniques d analyses classiques. Cependant, lorsque le volume de données devient trop conséquent, les traitements statistiques classiques atteignent leur limite. Le Datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues mais qui peuvent être utiles et lucratives et d'utiliser ces informations pour soutenir des décisions commerciales stratégiques. Notre étude se portera sur le marché de location de voiture de certaines agences de Paris (principalement des gares parisiennes). Le présent rapport est constitué de deux parties principales. La première est une présentation du logiciel SODAS que nous utilisons pour notre étude. Nous expliquerons, ensuite, le contexte de l étude et nous analyserons les données de notre base en appliquant diverses méthodes offertes par le logiciel SODAS. Page 3 sur 34

4 2.Le logiciel SODAS 2.1. Fonctionnement du logiciel Le logiciel est appelé SODAS. Il est téléchargeable à l adresse suivante : Son idée générale est de construire un tableau de données symboliques, parfois munis de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Les principales étapes d une analyse des données SODAS, sont les suivantes : Partir d une base de données (Access, Oracle ) Définir un contexte par : o Des unités de premier niveau o Les variables qui les décrivent o Des concepts Chaque unité de premier niveau est associée à un concept qui décrit par généralisation les propriétés qui lui est associée Interface du logiciel La fenêtre principale de SODAS se compose de 3 éléments principaux : 1. La barre d outils de la fenêtre principale comporte 5 menus. 2. La fenêtre Methods de la fenêtre principale propose, par groupe, la différente méthode disponible. 3. La fenêtre Chaining de la fenêtre principale gère l enchaînement des méthodes appliquées à la base choisie. Page 4 sur 34

5 2.3. Utilisation : Il est tout d abord important de définir ce qu est une filière dans le logicielle SODAS. Il s agit d une représentation graphique des calculs que nous souhaitons effectuer qu il nous est possible de visionner dans la fenêtre Chaining. En tête d une filière, figure l icône BASE représentant notre fichier SODAS (.sds) sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l enregistrement de la filière, les résultats figureront sous forme d icônes, à droite de chacune des méthodes. Pour bien décrire l utilisation du logiciel, nous allons l illustrer par un exemple dans la barre d outil on déroule le menu Chining, et on clique sur Select SODAS File. On sélectionne alors le fichier nom_fichier.sds sur lequel on souhaite appliquer notre méthode. Page 5 sur 34

6 On peut alors commencer l application de méthode. Dans la barre d outil on déroule le menu Method, et on clique su Insert method. Un nouvel emplacement vide est créé, ou on ferra glisser une des méthodes de la fenêtre methods Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l icône de la méthode. Alors une fenêtre structurée en fiches à onglets s ouvre; elle regroupe l ensemble des différents paramètres de la méthodes. Apres paramétrage de la méthode, l icône de la méthode devient rouge, cela signifie qu elle est prête à être exécutée. Page 6 sur 34

7 La méthode est exécutable Remarque : toute exécution doit être précédée de la sauvegarde de la filière (chaining) : dans le menu Chaining, puis Save chaining as et enfin saisie du nom : nom_chaining.fil. Prés l exécution de la méthode, on obtient : Permet d accéder au résultat numérique avec un double clique Permet d afficher la représentation graphique de la méthode Page 7 sur 34

8 3. Etude des données sur les locations de voitures 3.1. Le sujet Nous avons choisi d étudier à travers cette analyse, les locations de voitures sur la région de Paris. Nous avons donc décidé d étudier les différentes agences de location de voitures sur Paris et plus précisément tous ce qui concerne les agences des gares (locations par des personnes qui se rendent à ces gares). L objet de notre analyse est donc d étudier les individus qui sont des offres de locations de voitures au travers les concepts qui sont des agences de type gares. Nous avons recueilli l ensemble de nos données manuellement par l intermédiaire du site Internet «Europcar» à l adresse La base de données Pour réaliser notre analyse, nous avons construit et alimenté la base de données suivante : Location : Cette table comporte l ensemble des offres de location de voitures. Une offre (location) est définie par : Id_location (Clé primaire) : identifiant de chaque location Id_Typevoiture, Id_Typelocation, Id_assurance, Id_carburant, Id_marque (clés étrangères). Prix : le prix d une location nbportes : C est le nombre de porte de la voiture Surfacecoffre : la surface du coffre de la voiture Page 8 sur 34

9 Climatisation : prend la valeur 1 si la voiture est climatisés et 0 sinon. lecteurcd : prend 1 si la voiture possède un lecteur CD et 0 sinon boitevitesseauto : prend 1 si la voiture à une boite de vitesse automatique et 0 sinon. agence : Cette table comporte la liste des agences de location de voitures Id_agence (clé primaire) : identifiant de l agence arrandissement : le nom de l agence arrondissement : Cette table associe chaque agence à son arrondissement Id_agence (clé étrangère) : identifiant de la catégorie d une voiture arrondissement : le nom de l arrondissement Type_voiture : Cette table comporte la liste des catégories de voitures (exemple : Economique, Luxe,...) Id_ Typevoiture (clé étrangère) : identifiant de type de la voiture Lib_Typevoiture : le nom de la catégorie de la voiture Type_Location : Cette table comporte la liste des types de locations (exemple : journée,...) Id_TypeLocation (clé étrangère) : identifiant de type de location Lib_TypeLocation : le libelle du forfait de la location assurance: Cette table contient la liste des types d assurasses Id_assurance (clé primaire) : identifiant d un type d assurance montant : le montant de l assurance libeleassurance : Le nom du type d assurance carburant : Cette table contient la liste des différents carburants Id_carburant (clé primaire) : identifiant du carburant Lib_carburant : le nom du carburant marque : Cette table contient la liste des différentes marques de voitures Id_marque (clé primaire) : identifiant de la marque Lib_marque : le nom de la marque Page 9 sur 34

10 3.3. Les requêtes Les individus de premier ordre de notre étude sont les offres de location de voitures à Paris et les individus de second ordre sont les agences (Gares parisienne et certaines villes). Les agences sont des concepts et chaque agence propose un certain nombre de locations. Après avoir construit la base de donnée, la seconde étape consiste à construire les requêtes SQL pour extraire l information à alimenter dans le fichier SDS (fichier source pour les analyses statistiques). Cette partie est ce que SODAS nomme DB2SO : il s agit d un module qui extrait l information d une base de données (dans notre cas il s agit de ACCESS) et qui construit un ensemble d assertions. Nous avons utilisé trois requêtes. La première requête, nommée Description_Locations, correspond à l extraction des individus. Elle est décrite ci-dessous : SELECT DISTINCT Location.Id_Location, agence.lib_agence, carburant.lib_carburant, assurances.montant, assurances.libeleassurance, Type_voiture.Lib_Typevoiture, Type_Location.Lib_TypeLocation, Location.Prix, Location.nbPortes, Location.Surfacecoffre, marque.libelemarque FROM agence, carburant, assurances, Type_voiture, Type_Location, marque INNER JOIN Location ON marque.id_marque = Location.Id_marque WHERE (((agence.id_agence)=[location].[id_agence]) AND ((carburant.id_carburant)=[location].[id_carburant]) AND ((assurances.id_assurance)=[location].[id_assurance]) AND ((Type_voiture.Id_Typevoitures)=[Location].[Id_Typevoiture]) AND ((Type_Location.Id_TypeLocation)=[Location].[Id_TypeLocation])); La seconde requête nommée Description_agence, est définie ci-dessous SELECT agence.lib_agence, count([id_location]) AS Nb_Location, round(avg(location.prix)) AS Prix_Moy, round(avg(location.surfacecoffre)) AS Surface_Moy, sum([climatisation]) AS NbVoit_Clim, sum([lecteurcd]) AS NbVoit_LecteurCD, sum([boitevitesseauto]) AS NbVoit_BoiteVitesseAuto FROM agence INNER JOIN Location ON agence.id_agence=location.id_agence GROUP BY agence.lib_agence, Location.Id_agence ORDER BY Location.Id_agence; La troisième requête, nommée taxo, correspond à l ajout d une variable multi modale, nous avons choisit l arrondissement de chaque agence. Elle est présentée ci-dessous : SELECT agence.lib_agence, arrondissement.arrondissement FROM agence INNER JOIN arrondissement ON agence.id_agence = arrondissement.id_agence; Page 10 sur 34

11 Nous avons utilisé le module SODAS DB, pour extraire les individus à partir de la base de données. L interface du module est présentée ci-dessous : Puis nous avons ajouté la requête Description_Agence et taxo avec add_single Au final, le module SODAS DB fournit une synthèse des éléments créés. Nous avons 20 concepts et 16 variables : La première requête nous a permis de définir 9 variables, quatre qualitatives (Prix, montant (assurance), surfacecoffre, nbportes) et 5 variables qualitatives (Lib_Carburant, libeleassurance, Lib_Typevoiture, Lib_TypeLocation, libelemarque). La deuxième requête nous a permis de rajouter six variables qualitatives décrivant le concept (nombre de location, prix moyen d une location, nombre de location avec climatisation, nombre de location avec lecteur CD, nombre de location avec boite de vitesse automatique). Page 11 sur 34

12 A troisième requête (taxonomie) nous a permis de rajouter une variable de calsse (qualitatives), c est l arrondissement de chaque concept. En utilisant le fichier précédent, nous avons crée le fichier SDS qui est le fichier de base de toutes l analyse. Voici la structure du fichier SDS : 3.4. Application des diverses méthodes statistiques STAT: Histogram and Elementary Statistics Cette méthode étend aux objets symboliques. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables quantitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables qualitatives, elle permet de représenter l information (minimum, maximum et moyenne) via des diagrammes en boîte. L objectif est de décrire la répartition des données variable par variable indépendamment du concept. Application : Nous avons choisi d étudier en détail deux variables : Prix, «Lib_Typelocation» et Lib_typevoiture. Le paramétrage de la variable «Prix» est le suivant : représenter les fréquences pour les intervalles et un découpage en six classes Page 12 sur 34

13 En ce qui concerne le paramétrage des variables «Lib_TypeLocation» et Lib_typeVoiture, nous avons choisi de visualiser les capacités, autrement dit l étendue des données : minimum, maximum et moyenne. L application de la méthode STAT sur la variable Prix donne le résultat suivant Interprétations : Pour tous les concepts confondus et pour tous types de locations (jour, Week end), 50% des locations de voitures ont un prix qui varie entre 88 et un peu moins de % des locations coûtent entre un peu plus de 500 et un peu plus de 900, environ 13% des locations ont un prix qui varie entre un peu plus de 900 et un peu moins de 1400 et seulement 3% des locations coûtent entre 2200 et Le prix moyen d une location est de 754. Page 13 sur 34

14 L application de la méthode STAT sur la variable Lib_Typevoiture donne le résultat suivant : Interprétations : Dans ce graphe, nous considérons les catégories de voitures pour tous les concepts. Nous remarquons que les voitures de catégorie «intermédiaire» sont les plus présentes dans les locations du fait que la capacité de la catégorie «intermédiaire» est de 1. En Moyenne 20% des locations de voitures sont de type voiture économique, 18% de type voiture compacte, 16% intermédiaire et seulement 1,5% de type Grande routière. Page 14 sur 34

15 L application de la méthode STAT sur la variable Lib_Typelocation donne le résultat suivant : Interprétations : Dans ce graphe, Nous constatons qu en moyenne 38% des locations sont des locations pour un Week end, 33% sont des locations pour un jour et 28% sont des locations pour une semaine. Les offres Week end sont les plus fréquentes en moyenne. Page 15 sur 34

16 La méthode STAT permet également d étudier conjointement la répartition de deux variables quantitatives. Nous avons choisit d étudier conjointement les variables «Prix» et «SurfaceCoffre» pour quatre concepts de façon à mieux visualiser le résultat. Interprétations : Le concept PARIS CONVENTION propose des locations à des prix les plus chères mais également dont la surface des coffres est la plus grande. Nous constatons également que BERRI CHAMPS LYSEES propose des prix mois important que GARE DE LYON avec une surface du coffre plus grande. Sur ces quatre concepts, nous pouvons dire qu il n existe pas corrélation linéaire entre le prix et la surface car les deux variables n évoluent pas dans le même sens DIV: Divisive Classification Cette méthode est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L objectif est de regrouper au sein d une même classe des concepts proches de par leurs caractéristiques. Application : Nous avons réalisé deux classifications, une à partir d un ensemble de variables qualitatives et l autre à partir d un ensemble de variables quantitatives : Les variables qualitatives Page 16 sur 34

17 - «Lib_Carburant» - «Lib_Typevoiture» - «Lib_Typelocation» - «libelemarque» Les variables quantitatives - «Prix» - «NbVoit_clim» - «Nbvoit_LecteurCD» - «NbVoit_BoiteVitesseAuto» Pour le paramétrage, nous avons considéré cinq classes. L application de la méthode DIV sur les variables qualitatives donne le résultat suivant : THE SELECTED VARIABLES ARE : (Verify the order of the modality) ( 1) :Lib_Carburant (Initial order) 1- GPL (gaz liquide) 2- Electrique 3- essence 4- gasoil 5- diesel ( 4) :Lib_Typevoiture (Initial order) 1- economique 2- luxe 3- compact 4- intermédiaire 5- Confort 6- routière 7- Grande routière 8- mini 9- sportive 10- familliale ( 5) :Lib_TypeLocation (Initial order) 1- journée 2- WE 3- la semaine ( 9) :libelemarque (Initial order) 1- peugeot 2- renault 3- BMW 4- mercedes PARTITION IN 2 CLUSTERS : : Cluster 1 (n=19) : "PORTE D'ORLEANS" "GARE DU NORD" "ETOILE FOCH" "PARC DES PRINCES" "GARE DE L'EST" "PARIS CONVENTION" "PARIS DIDEROTNATION" "BERRI CHAMPSELYSEES" "GARE MONTPARNASSE" "PARIS Italie" "PORTE MAILLOT" "PARIS INVALIDES" "ST LAZAR" "PARIS DAUPHINE" "LE LOUVRE" "CHATELET LES HALLES" "LA DEFENCE" "GARE AUSTERLITZ" "GARE DE LYON" Page 17 sur 34

18 Cluster 2 (n=1) : "GARE PASTEUR MONTP" Explicated inertia : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=4) : "PORTE D'ORLEANS" "GARE DU NORD" "BERRI CHAMPSELYSEES" "GARE AUSTERLITZ" Cluster 2 (n=1) : "GARE PASTEUR MONTP" Cluster 3 (n=15) : "ETOILE FOCH" "PARC DES PRINCES" "GARE DE L'EST" "PARIS CONVENTION" "PARIS DIDEROTNATION" "GARE MONTPARNASSE" "PARIS Italie" "PORTE MAILLOT" "PARIS INVALIDES" "ST LAZAR" "PARIS DAUPHINE" "LE LOUVRE" "CHATELET LES HALLES" "LA DEFENCE" "GARE DE LYON" Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=4) : "PORTE D'ORLEANS" "GARE DU NORD" "BERRI CHAMPSELYSEES" "GARE AUSTERLITZ" Cluster 2 (n=1) : "GARE PASTEUR MONTP" Cluster 3 (n=11) : "ETOILE FOCH" "GARE DE L'EST" "PARIS DIDEROTNATION" "GARE MONTPARNASSE" "PARIS Italie" "PORTE MAILLOT" "PARIS INVALIDES" "ST LAZAR" "PARIS DAUPHINE" "LA DEFENCE" "GARE DE LYON" Cluster 4 (n=4) : "PARC DES PRINCES" "PARIS CONVENTION" "LE LOUVRE" "CHATELET LES HALLES" Explicated inertia : PARTITION IN 5 CLUSTERS : : Page 18 sur 34

19 Cluster 1 (n=4) : "PORTE D'ORLEANS" "GARE DU NORD" "BERRI CHAMPSELYSEES" "GARE AUSTERLITZ" Cluster 2 (n=1) : "GARE PASTEUR MONTP" Cluster 3 (n=11) : "ETOILE FOCH" "GARE DE L'EST" "PARIS DIDEROTNATION" "GARE MONTPARNASSE" "PARIS Italie" "PORTE MAILLOT" "PARIS INVALIDES" "ST LAZAR" "PARIS DAUPHINE" "LA DEFENCE" "GARE DE LYON" Cluster 4 (n=2) : "PARC DES PRINCES" "PARIS CONVENTION" Cluster 5 (n=2) : "LE LOUVRE" "CHATELET LES HALLES" Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=4)!! [Lib_TypeLocation <= journée]!!!! Classe 3 (Ng=11)!!!!! [Lib_Typevoiture <= intermédiaire]!!!! Classe 4 (Ng=2)!!!!!---4- [Lib_Typevoiture <= Confort]!!! Classe 5 (Nd=2)!! [Lib_Typevoiture <= routière]! Classe 2 (Nd=1) Interprétations : Nous remarquons que les deux variables «Lib_Carburant» et «libelemarque» n ont pas été utilisés pour la classification, nous pouvons donc dire qu elles ne sont pas discriminantes. La classe 2 est composé d un seul concept «GARE PASTEUR MONTP» est caractérisé par des locations de voitures qui ne sont pas de catégorie «routière». Page 19 sur 34

20 La classe 1 est composée de quatre concepts caractérisés par des locations de voitures pour une journée et qui peux être de catégorie routière et qui peuvent être de catégories «routière ou intermédiaire». La classe 3 est composée de 11 agences caractérisées par des locations de types semaine et Week End La classe 4 contient deux concepts caractérisés par des locations de types «semaine ou Week End» de catégories qui peuvent être «routière ou confort» et non de catégorie «intermédiaire». La classe 5 est composé de deux concepts caractérisés par des locations qui ne sont pas de catégorie «confort». L application de la méthode DIV sur les variables quantitatives donne le résultat suivant : VARIANCE OF THE SELECTED VARIABLES : Prix : NbVoit_Clim : NbVoit_LecteurCD : NbVoit_BoiteVitesseAuto : PARTITION IN 2 CLUSTERS : : Cluster 1 (n=13) : "PORTE D'ORLEANS" "GARE DU NORD" "ETOILE FOCH" "PARC DES PRINCES" "GARE DE L'EST" "BERRI CHAMPSELYSEES" "GARE MONTPARNASSE" "PARIS INVALIDES" "LE LOUVRE" "LA DEFENCE" "GARE AUSTERLITZ" "GARE DE LYON" "GARE PASTEUR MONTP" Cluster 2 (n=7) : "PARIS CONVENTION" "PARIS DIDEROTNATION" "PARIS Italie" "PORTE MAILLOT" "ST LAZAR" "PARIS DAUPHINE" "CHATELET LES HALLES" Explicated inertia : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=8) : "GARE DU NORD" "ETOILE FOCH" "GARE DE L'EST" "BERRI CHAMPSELYSEES" "GARE MONTPARNASSE" "PARIS INVALIDES" "LA DEFENCE" "GARE AUSTERLITZ" Page 20 sur 34

21 Cluster 2 (n=7) : "PARIS CONVENTION" "PARIS DIDEROTNATION" "PARIS Italie" "PORTE MAILLOT" "ST LAZAR" "PARIS DAUPHINE" "CHATELET LES HALLES" Cluster 3 (n=5) : "PORTE D'ORLEANS" "PARC DES PRINCES" "LE LOUVRE" "GARE DE LYON" "GARE PASTEUR MONTP" Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=8) : "GARE DU NORD" "ETOILE FOCH" "GARE DE L'EST" "BERRI CHAMPSELYSEES" "GARE MONTPARNASSE" "PARIS INVALIDES" "LA DEFENCE" "GARE AUSTERLITZ" Cluster 2 (n=3) : "ST LAZAR" "PARIS DAUPHINE" "CHATELET LES HALLES" Cluster 3 (n=5) : "PORTE D'ORLEANS" "PARC DES PRINCES" "LE LOUVRE" "GARE DE LYON" "GARE PASTEUR MONTP" Cluster 4 (n=4) : "PARIS CONVENTION" "PARIS DIDEROTNATION" "PARIS Italie" "PORTE MAILLOT" Explicated inertia : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=8) : "GARE DU NORD" "ETOILE FOCH" "GARE DE L'EST" "BERRI CHAMPSELYSEES" "GARE MONTPARNASSE" "PARIS INVALIDES" "LA DEFENCE" "GARE AUSTERLITZ" Cluster 2 (n=3) : "ST LAZAR" "PARIS DAUPHINE" "CHATELET LES HALLES" Cluster 3 (n=3) : "PORTE D'ORLEANS" "LE LOUVRE" "GARE PASTEUR MONTP" Cluster 4 (n=4) : "PARIS CONVENTION" "PARIS DIDEROTNATION" "PARIS Italie" "PORTE MAILLOT" Page 21 sur 34

22 Cluster 5 (n=2) : "PARC DES PRINCES" "GARE DE LYON" Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=8)!! [Prix <= ]!!!! Classe 3 (Ng=3)!!!!! [NbVoit_Clim <= ]!!! Classe 5 (Nd=2)!! [Prix <= ]!! Classe 2 (Ng=3)!!! [Prix <= ]! Classe 4 (Nd=4) Interprétations : La première remarque est que 97% de l information est reconstituée. Nous pouvons donc affirmer que cette classification donne de meilleurs résultats que la précédente. Nous remarquons également que les variables «NbVoit_LecteurCD» et «NbVoit_BoiteVitesseAuto» n ont pas été retenues pour la classification, donc elles ne sont pas discriminantes. La première classe est composée de 8 concepts caractérisés par des locations à des prix qui sont inférieures à 516. La classe 3 est composée de trois concepts caractérisés par des prix qui varient entre 516 et 917 dont le nombre de location de voitures avec climatiseur est inférieure à 7. La classe 5 est composée de deux concepts qui ont les mêmes prix que la classe trois mais dont le nombre de location avec climatiseur est supérieure à 7. La classe 2 est composée de trois concepts caractérisés par des locations à des prix qui varient entre 917 et Et pour finir la classe 4 est composé de 4 concepts caractérisés par des locations à des prix supérieurs à Page 22 sur 34

23 TREE La méthode TREE propose un algorithme par agrandissement d arbre, appliqué aux données imprécises décrites par des concepts probabilistes. Dans ce contexte, la procédure de partage récursif peut être vue comme une recherche itérative d un ensemble d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partage est obtenu à travers l utilisation d une mesure donnée en paramètre. On obtient une nouvelle liste d objets symboliques qui permet d assigner de nouveaux objets à une classe. Application : Les paramètres choisis sont les suivants : - Variable Class Identifier : Arrondissement (c est la liste des arrondissements, chaque arrondissement représente un ou plusieurs concepts (Agence de location de voitures) - Variables Set Identifier : Prix_Moyen des locations et nb_location - Nombre de nœuds : 5 Le résultat obtenu est le suivant : Interprétations : L étiquette de chaque nœuds est associé à la classe qui est majoritaire (exemple : le 10 ème arrondissement associé au nœud 5). Ce qui distingue les agences du 13 ème arrondissement et les agences du 15 ème arrondissement sont le nombre total de locations de chaque agence alors que le reste des arrondissements de l arbre sont différencié par le prix moyen des locations SOE: Symbolic Pbject Editor La méthode SOE (Symbolic Pbject Editor) permet de présenter les variables sous forme de tableaux ou de graphes selon le concept sélectionné, cet éditeur permet donc aux utilisateurs de visualiser tous les objets symboliques présent dans SODAS et éventuellement d effectuer des modifications basiques de données. Page 23 sur 34

24 Par ailleurs, il permet aussi de visualiser des représentations en 2D ou en 3D, ainsi qu une représentation SQL (Symbolique Object Language) de chaque objet symbolique. L objectif de cette méthode est de fournir une image synthétique du concept et de comparer les concepts entre eux. Application : Nous avons choisit d analyser deux concept : l agence de gare du nord et celle du parc des princes. Le but étant de comparer ces deux agences selon les 4 critères (qui décrivent chaque concept) : type assurance, prix, type voiture et type location. Donc le paramétrage de la méthode est le suivant : Prix Type assurance Type voiture Type location. Variables quantitatives Variables qualitatives Sur Sodas on obtient le tableau suivant qui représente chaque objet symbolique. Nous sélectionnons alors les concepts que nous voulons analyser ainsi que les selon lesquels l analyse va être effectuée. Nous avons choisit la représentation graphique 3D car elle offre (pour notre analyse) une vue plus parlante. Page 24 sur 34

25 Interprétations : A partir des deux graphes on peut conclure que : Au niveau des prix de location : les prix le location de l agence de la gare du nord se situent entre 188 et 500 euros, tandis que pour l agence de parc des prince ce chiffre augmente, puisqu il se situ entre 188 et 1474 euros. Au nivaux des types de locations choisit par les clients des deux agences, on remarque que les clients de l agence de la gare du nord préfèrent les location a la journée et au WE tandis que ceux de l agence de parc des prince utilisent en plus des deux types déjà cité, la location à la semaine. Ceci nous donne une vision globale des différent aspects de chaque concept, néanmoins Sodas offre une visions plus en détail ( à partir du graphique en deux Page 25 sur 34

26 dimensions de visualiser les diagrammes en barres associés aux variables qualitatives ) pour connaître les chiffres exacts. Donc, l agence de la gare du nord effectue 60% de locations à la journée et 40% au WE, tandis que l agence de parc des prince effectue 38% de locations à la journée, 31% au WE et 31% à la semaine. De même, aux niveaux du type d assurance et type voiture louée on visionne les graphes détaillés : On remarque une grande différence entre les types de voitures loués dans l une et l autre. Par exemple, les voitures familiales ne sont pas demandées dans l agence de parc des princes alors qu elles constituent 20% de la voiture louée dans l agence de la gare du nord. Le différence s étend aussi au niveaux des assurance choisit, on remarque par exemple que l assurance tous risques constitue 80% dans l agence de parc des prince, et 54% dans l agence de la gare du nord PYR La méthode des pyramides généralise le principe des hiérarchies en permettant les classes non disjointes à un niveau donné.la pyramide est construite par l algorithme d agglomération opérant du bas en haut, c est à dire les concepts, vers le haut ( à chaque niveau, des classes sont agglomérées) Page 26 sur 34

27 Dans une classification pyramidale, chaque classe formée est d définie par son extension, c est à dire l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intention de la classe). L intention est hérité d un prédécesseur vers son successeur et une structure d héritage est ainsi obtenue. Les données en entrée pour PYR sont des variables continues (valeurs réelles), des intervalles de valeurs réelles, ou encore des histogrammes. L objectif est de regrouper des concepts proches de par leurs caractéristiques en permettant de trouver des concepts dans plusieurs classes. Application : Nous avons appliqué la méthode à tous no concept en plus des variables : montant, type d assurance, type voiture, type location et surface coffre. Montant Surface coffre Type d assurance Type voiture Type location Variables quantitatives Variables qualitatives La classification pyramidale donne les résultats suivants : DESCRIPTION-OF-THE-NODES Where_the_labels_are_of_the_individuals_are: 1.="PORTE_D'ORLEANS" 2.="GARE_DU_NORD" 3.="ETOILE_FOCH" 4.="PARC_DES_PRINCES" 5.="GARE_DE_L'EST" 6.="PARIS_CONVENTION" 7.="PARIS_DIDEROTNATION" 8.="BERRI_CHAMPSELYSEES" 9.="GARE_MONTPARNASSE" 10.="PARIS_Italie" 11.="PORTE_MAILLOT" 12.="PARIS_INVALIDES" 13.="ST_LAZAR" 14.="PARIS_DAUPHINE" 15.="LE_LOUVRE" 16.="CHATELET_LES_HALLES" 17.="LA_DEFENCE" 18.="GARE_AUSTERLITZ" 19.="GARE_DE_LYON" 20.="GARE_PASTEUR_MONTP" Where_the_labels_are_of_the_variables_are: y1.=lib_carburant y2.=montant y3.=libeleassurance y4.=lib_typevoiture Page 27 sur 34

28 y5.=lib_typelocation y6.=prix y7.=nbportes y8.=surfacecoffre y9.=libelemarque y10.=nb_location y11.=prix_moy y12.=surface_moy y13.=nbvoit_clim y14.=nbvoit_lecteurcd y15.=nbvoit_boitevitesseauto y16.=arrondissement Interprétations : Généralement, On remarque qu il y a des classes qui regroupent les différentes agences (par exemple la classe 22 qui regroupe l agence «porte d Orléans» et «gare Austerlitz»). La classification pyramidale permet donc de mettre en valeur un rapprochement entre les objets symboliques qui n était pas évident au départ PCM: Principal Component and Factorial Analysis La méthode PCM correspond à une analyse en composante principale classique, Néanmoins, au lieu d obtenir une représentation pas points sur un plan factoriel, cette méthode représente chaque concept par un rectangle. Page 28 sur 34

29 L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. Cette méthode est une méthode factorielle de réduction du nombre de caractères permettant les représentations géométriques des individus et des variables. La réduction se fait par construction de nouveaux caractères synthétiques obtenus en combinant les variables au moyen des «facteurs» Application : Nous avons appliqué la méthode PCM sur les variables quantitatives : prix, montant (assurance) et surface coffre La méthode nous donne les résultats suivants : Matrix of input data: montant Prix "PORTE D'ORLEANS" [50.00, ] [88.00, ] "GARE DU NORD" [200.00, ] [132.00, ] "ETOILE FOCH" [50.00, ] [111.00, ] "PARC DES PRINCES" [20.00, ] [111.00, ] "GARE DE L'EST" [20.00, ] [118.00, ] "PARIS CONVENTION" [20.00, ] [177.00, ] "PARIS DIDEROTNATION" [50.00, ] [88.00, ] "BERRI CHAMPSELYSEES" [50.00, ] [101.00, ] "GARE MONTPARNASSE" [50.00, ] [178.00, ] "PARIS Italie" [20.00, ] [111.00, ] "PORTE MAILLOT" [200.00, ] [88.00, ] "PARIS INVALIDES" [200.00, ] [88.00, ] "ST LAZAR" [50.00, ] [88.00, ] "PARIS DAUPHINE" [20.00, ] [200.00, ] "LE LOUVRE" [50.00, ] [178.00, ] "CHATELET LES HALLES" [300.00, ] [270.00, ] "LA DEFENCE" [200.00, ] [111.00, ] "GARE AUSTERLITZ" [200.00, ] [200.00, ] "GARE DE LYON" [50.00, ] [118.00, ] "GARE PASTEUR MONTP" [20.00, ] [110.00, ] Matrix Variance/Covariance : montant Prix Correlations Matrix : montant Prix Propers Values and inerty percentage: montant= (48.09%) Prix= (51.91%) Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 : Page 29 sur 34

30 "PORTE D'ORLEANS" [-1.20, 1.06] [-1.38, 0.87] [-1.38, 0.87] [-1.38, 0.87] "GARE DU NORD" [-1.16, -0.26] [-0.45, 0.45] [-0.45, 0.45] [-0.45, 0.45] "ETOILE FOCH" [-1.18, 0.56] [-1.36, 0.37] [-1.36, 0.37] [-1.36, 0.37] "PARC DES PRINCES" [-1.18, 1.63] [-1.54, 1.26] [-1.54, 1.26] [-1.54, 1.26] "GARE DE L'EST" [-1.17, 0.91] [-1.54, 0.55] [-1.54, 0.55] [-1.54, 0.55] "PARIS CONVENTION" [-1.12, 2.46] [-1.49, 2.10] [-1.49, 2.10] [-1.49, 2.10] "PARIS DIDEROTNATION" [-0.60, 2.44] [-1.38, 1.66] [-1.38, 1.66] [-1.38, 1.66] "BERRI CHAMPSELYSEES" [-1.19, 0.46] [-1.37, 0.28] [-1.37, 0.28] [-1.37, 0.28] "GARE MONTPARNASSE" [-1.12, 0.89] [-1.31, 0.70] [-1.31, 0.70] [-1.31, 0.70] "PARIS Italie" [-1.18, 2.62] [-1.54, 2.26] [-1.54, 2.26] [-1.54, 2.26] "PORTE MAILLOT" [-1.20, 1.55] [-0.49, 2.26] [-0.49, 2.26] [-0.49, 2.26] "PARIS INVALIDES" [-1.20, -0.19] [-0.49, 0.52] [-0.49, 0.52] [-0.49, 0.52] "ST LAZAR" [-1.20, 1.97] [-1.38, 1.79] [-1.38, 1.79] [-1.38, 1.79] "PARIS DAUPHINE" [-1.10, 2.23] [-1.47, 1.87] [-1.47, 1.87] [-1.47, 1.87] "LE LOUVRE" [-1.12, 1.22] [-1.31, 1.04] [-1.31, 1.04] [-1.31, 1.04] "CHATELET LES HALLES" [-1.04, 0.21] [0.26, 1.52] [0.26, 1.52] [0.26, 1.52] "LA DEFENCE" [-1.18, -0.34] [-0.47, 0.37] [-0.47, 0.37] [-0.47, 0.37] "GARE AUSTERLITZ" [-0.51, -0.34] [-0.39, -0.23] [-0.39, -0.23] [-0.39, -0.23] "GARE DE LYON" [-1.17, 1.47] [-1.36, 1.29] [-1.36, 1.29] [-1.36, 1.29] "GARE PASTEUR MONTP" [-1.18, 1.40] [-1.54, 1.04] [-1.54, 1.04] [-1.54, 1.04] Correlations Matrix, initiales Variables/principals components PC1...PC4 montant Prix Résultats de la PCM sur les variables quantitatives Pour des problèmes de lisibilité, Nous avons réduit l ensemble de concept, en choisissant six agence de location : porte maillot, st Lazare, parc des princes, paris invalides, Berri champs Elysées et gare Austerlitz Page 30 sur 34

31 Interprétations : Graphique des deux premiers axes D après la matrice de corrélation, on remarque que la corrélation entre nos deux variables est faible, alors que nous nous attendions à ce que le coût de l assurance soit en rapport avec le coût de la location. On remarque aussi que la corrélation est négative, ceci est logique dans le sens ou un client qui a des frais de location assez élevés préfère diminuer sa facture en choisissant une assurance moins coûteuse! Le graphique représentant les concepts par contre, n apporte pas beaucoup de résultas. En effet, les agences sont toutes groupées vers le même angle du plan. On peut on déduire qu il n y a pas une vraie distinction entre les agence par rapport au prix de location ou les montant d assurance FDA : Factorial Discriminant Analysis FDA permet de mettre en évidence les liaisons existant entre une variable à expliquer qualitative et un ensemble de variables explicatives, à l aide d un plan factoriel approprié. L objectif est de déterminer q classes se différenciant au mieux. Il faut spécifier : Page 31 sur 34

32 une variable (variable_class_identifier) qui permettra d identifier les différentes classes. Celle-ci doit être nominale et non probabiliste ; des variables variable_to_be_selected qui peuvent être nominales, multinominales, probabilistes, modales ou bien d intervalles ; le nombre d axes factoriels d analyse. Il en faut au moins deux. Application : Les paramètres choisis sont les suivants : - Variable class identifier : arrandissement - Variables to be selected : prix,nb_location Le résultat est le suivant : Page 32 sur 34

33 Interprétation: Pour mieux distinguer le premier schéma, nous avons choisi de garder le 12 ème, 13 ème, le 15 ème et le 17 ème arrondissement puisque les autres arrondissements ont des caractéristiques proches. Nous constatons que le 13 ème et le 17 ème arrondissement se rapprochent par le nombre de location mais le 13 ème arrondissement à des prix de location plus grands que le 17 ème. Sachant que chaque agence appartient à un arrondissement. On constate que les magasins qui se rapprochent par leur prix peuvent se distinguer par le nombre de location et inversement proportionnel Page 33 sur 34

34 4. Conclusion Ce projet nous a permis de découvrir un logiciel d analyse des données symboliques (SODAS). Ce logiciel nous a permis d extraire des connaissances à partir d importante base de données dans le but d étudier le comportement de groupes d individus, à savoir des concepts. Ce logiciel nous a permis donc d analyser des données par différentes méthodes et de représenter les résultats à travers des graphes. Cependant utiliser au mieux ce logiciel demande une bonne maîtrise des bases de données relationnelles pour réaliser les requêtes SQL permettant de définir les individus et les variables qui expliquent ces individus, définir les concepts et les variables qui décrivent ces concepts. Réalisé ce projet nous a permis également de comprendre le Data Mining et le travail en équipe nous a permis de confronter nos idées pour mieux analyser le sujet. Nous avons eu quelques difficultés avec les logiciels, nous n avons pas réussi à faire fonctionner la deuxième version ce qui fait que notre analyse a été réalisée avec la première version du logiciel SODAS. Page 34 sur 34