V.COSTENTIN && F.MOSKAWITZ MIAGE IUP PROJET DATA MANING. Réalisé par. Véronique COSTENTIN et Fabien MOSKAWITZ. Professeur : M.

Transcription

1 PROJET DATA MANING Réalisé par Véronique COSTENTIN et Fabien MOSKAWITZ Professeur : M. DIDAY 1

2 Sommaire INTRODUCTION PRESENTATION DU DATA MINING... 4 a) Historique... 4 b) Les raisons du succès actuel du Data mining... 5 c) L objet du data mining... 6 d) Les solutions de data mining offertes sur le marché... 7 e) Exemples d applications du Data mining dans le domaine du marketing... 7 II- PRESENTATION DES DONNEES... 8 a) Sélection des données... 8 b) La base de données relationnelle... 8 c) Présentation de la vue étudiée... 9 d) Les variables... 9 III- ANALYSE a) La méthode STAT Présentation Résultats obtenus et interprétation b) La méthode DIV Présentation Résultats obtenus et interprétation c) La méthode SOE Présentation Résultats obtenus et interprétation d) La méthode PCM Présentation Résultats obtenus et interprétation e) La méthode PYRAMIDE Présentation Résultats obtenus et interprétation CONCLUSION ET SYNTHESE ANNEXES

3 Introduction Le data mining peut être défini comme l'extraction d informations ou de connaissances originales, auparavant inconnues, potentiellement utiles à partir de gros volumes de données (d après Frawley et Piateski-Shapiro). On peut voir le data mining comme une nécessité imposée par le besoin des entreprises de valoriser les données qu elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec des données coûteuses à collecter et à conserver? Le data mining correspond à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. D autre part, une confusion subsiste encore entre data mining, que nous appelons en français «fouille de données», et knowledge discovery in data bases (KDD), que nous appelons en français «extraction des connaissances à partir des données» (ECD). Le data mining est l un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Entrepôt de données Data Mining Découverte de modèles connaissances Compréhension Prédiction Le data mining vise à découvrir des modèles à partir de grandes bases de faits connues (datawarehouse). Le processus de construction des modèles est complexe : - préparer les données - modéliser - valider - expérimenter plusieurs modèles Les applications du data mining sont multiples, elles concernent: la grande distribution, la vente par correspondance, les opérateurs de télécommunications, les banques et assurances, etc. Le domaine majeur où le data mining a prouvé son efficacité est la gestion de la relation client (CRM ou Customer Relationship Management). En effet, le data mining permet par une meilleure connaissance de la clientèle d'accroître les ventes. 3

4 1- Présentation du data mining Le data mining est un outil de prédilection pour étudier le comportement du consommateur. La traduction littérale du terme data mining est «forage de données». Comme dans tout forage, son but est d extraire à partir des données disponibles au sein de toute entreprise, des informations exploitables d un point de vue commercial. Dans le contexte actuel où le consommateur est considéré comme volatile, ou la concurrence s'intensifie et où les marchés deviennent saturés, le client devient l'acteur principal de l'entreprise. Des milliers d'informations sont collectées sur les comportements des clients mais sont le plus souvent mal exploitées. Le data mining intervient alors pour exploiter au mieux ces données. En effet, le data mining est l art d extraire des connaissances à partir des données. Les données peuvent être stockées dans des entrepôts (datawarehouse), dans des bases de données distribuées ou sur Internet : web mining. Le data mining ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (text mining), les images (image mining), le son (sound mining) ou la vidéo et dans ce cas, on parle alors plus généralement de multimedia mining. vise : Par analogie à la recherche des pépites d or dans un gisement, la fouille de données - à extraire des informations cachées par analyse globale - à découvrir des modèles difficiles à percevoir car le volume des données est très grand et le nombre de variables à considérer est important. Le data mining utilise une démarche statistique mais ses outils sont appelés à être utilisés par des non-statisticiens spécialistes. Pour cela, il faut mettre en place et utiliser des progiciels spécialisés. Pour la réalisation de notre étude, nous emploierons le logiciel SODAS. a) Historique L expression «data mining» est apparue vers le début des années 1960 et avait, à cette époque, un sens péjoratif. En effet, les ordinateurs étaient de plus en plus utilisés pour toutes sortes de calculs qu il n était pas envisageable d effectuer manuellement jusque là. Certains chercheurs ont commencé à traiter sans a priori statistique les tableaux de données relatifs à des enquêtes ou des expériences dont ils disposaient. Comme ils constataient que les résultats obtenus, loin d être aberrants, étaient tout au contraire prometteurs, ils furent incités à systématiser cette approche opportuniste. Les statisticiens officiels considéraient toutefois cette démarche comme peu scientifique et utilisèrent alors les termes «data mining» ou «data fishing» pour les critiquer. Cette attitude opportuniste face aux données coïncida en France avec la diffusion dans le grand public de l analyse de données dont les promoteurs, comme Jean-Paul Benzecri, ont également dû subir dans les premiers temps les critiques venant des membres de la communauté des statisticiens. Le succès de cette démarche empirique ne s est pas démenti malgré tout. L analyse des données s est développée et son intérêt grandissait en même temps que la taille des bases 4

5 de données. Vers la fin des années 1980, des chercheurs en base de données, tel que Rakesh Agrawal, ont commencé à travailler sur l exploitation du contenu des bases de données volumineuses comme par exemple celles des tickets de caisses de grandes surfaces, convaincus de pouvoir valoriser ces masses de données dormantes. Ils utilisèrent l expression «database mining» mais, celle-ci étant déjà déposée par une entreprise (Database mining workstation), ce fut «data mining» qui s imposa. En mars 1989, Shapiro Piatetski proposa le terme «knowledge discovery» à l occasion d un atelier sur la découverte des connaissances dans les bases de données. La communauté de «data mining» a initié sa première conférence en 1995 à la suite de nombreux workshops sur le KDD entre 1989 et En 1998 s est créé, sous les auspices de l ACM, un chapitre spécial baptisé ACM-SIGKDD, qui réunit la communauté internationale du KDD. La première revue du domaine «Data mining and knowledge discovery journal» publiée par «Kluwers» a été lancée en b) Les raisons du succès actuel du data mining Au-delà de l origine de la paternité de l expression «data mining», nous allons maintenant nous intéresser à l émergence de ce champ à la fois technologique et scientifique. L exploitation des données pour en extraire des connaissances est une préoccupation constante de l être humain car elle est une condition essentielle de son évolution. L homme a toujours mémorisé sur des supports différents des informations qui lui ont permis d inférer des lois. La biologie, la physique, la chimie ou la sociologie, pour ne citer que ces disciplines, font largement usage de l approche empirique pour découvrir des lois ou faire ressortir des éléments structurants dans des populations. La statistique est devenue une science dont l objet est de donner un cadre rigoureux à la démarche empirique. C est au sein de la statistique et du domaine des bases de données que le data mining a puisé ses outils. Dans sa forme actuelle, le data mining est né d un besoin : valoriser les bases de données dont la taille croît de manière exponentielle afin de mieux maîtriser la compétitivité. Par exemple l exploitation de l historique des achats des clients permet d optimiser qualitativement et quantitativement les campagnes de marketing. L'intensification de la concurrence et de la volatilité du consommateur doublée du développement des systèmes d'informations ont permis l'émergence du data mining dans les entreprises. Cet engouement récent ne semble pas être un effet de mode puisque le développement des datawarehouse a entraîné un accroissement de l'information disponible. Par ailleurs, pour assurer aux clients un produit de qualité, les entreprises sont passées d un marketing de masse à un marketing individualisé. Cela est possible grâce à l exploitation des données collectées qui permettent d anticiper et de satisfaire les besoins des consommateurs. Par conséquent, les principaux facteurs d émergence du data mining sont : - le volume des bases de données - le rapport à la clientèle 5

6 c) L objet du data mining Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales, de les garder. Le data mining est un processus qui fait intervenir des méthodes et des outils issus de différents domaines de l informatique, de la statistique ou de l intelligence artificielle en vue de découvrir des connaissances utiles. Technologies et modèle général La définition proposée par Fayyad en 1996 est «l extraction de connaissances à partir des données est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données». Le data mining est une discipline qui met en œuvre un ensemble de techniques provenant des bases de données, de la statistique, de l intelligence artificielle, de l analyse des données, des interfaces de communication homme-machine. Le data mining vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Celles-ci peuvent s exprimer sous forme d un concept général qui enrichit le champ sémantique de l usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d un rapport ou d un graphique. Elles peuvent s exprimer comme un modèle mathématique ou logique pour la prise de décision. Les modèles explicites, quelle que soit leur forme, peuvent alimenter un système à base de connaissances ou un système expert. 6

7 d) Les solutions de data mining offertes sur le marché Sur ce marché vaste et en pleine expansion, de nombreux éditeurs de logiciels proposent des solutions de data mining. Ce type d'applications appartient aux outils d'aide à la décision des années 80. Mais actuellement, vu la masse des données traitées, elles permettent un véritable pilotage de la fonction marketing par une connaissance beaucoup plus étoffée et fine du comportement des consommateurs. Les logiciels de data mining doivent offrir des richesses analytiques importantes, doivent pouvoir être utilisés par des non-spécialistes des méthodes statistiques, doivent être conviviaux, faciles à mettre en œuvre, offrir une certaine ergonomie et permettre l'accès aux datawarehouse. Les différents outils proposés par les éditeurs de logiciels reposent sur des techniques différentes. On retrouve principalement les arbres de décision, les règles d'associations, les réseaux de neurones, les grilles de score e) Exemples d applications du data mining dans le domaine du marketing Les applications du data mining sont multiples ; elles concernent : la grande distribution, la vente par correspondance, le marketing direct, la gestion de la relation client. Marketing direct Le data mining répond aux besoins de comprendre la relation client, de connaître les comportements des clients, d'optimiser et de rentabiliser les opérations de prospection afin de diminuer les coûts d'acquisition des clients. Les solutions de data mining vont faire des prédictions de comportement et indiquer quels types de prospects devront en priorité être contactés par des opérations de marketing direct afin d'augmenter le taux de retour. Par exemple, les sociétés de vente par correspondance réalisent à coté de leur catalogue généraliste des catalogues spécialisés. L utilisation du data mining permet de sélectionner parmi les clients principaux, ceux pour lesquels il est utile de leur envoyer un catalogue spécialisé en terme de ciblage. Cela augmente le taux de retour. C est en effet grâce à l historique des achats que les vépécistes peuvent déterminer quel client est susceptible d acheter un article sur catalogue spécialisé. Comportement des clients de grandes surfaces spécialisées Les grandes surfaces spécialisées utilisent les techniques d'associations de produits pour anticiper le comportement futur de ses clients. Un client qui achète une baignoire va probablement envisager l'achat de robinets. Par conséquent, les outils de data mining peuvent permettre de sélectionner selon les achats antérieurs des clients vers qui l'envoi d'un mailing sera efficace. 7

8 II- Présentation des données a) Sélection des données Afin de réaliser notre mémoire de data mining, nous avons décidé de travailler sur des données du secteur immobilier. Par conséquent, nous avons construit notre base de données relationnelle à partir de petites annonces que nous avons sélectionnées. La première difficulté de ce projet consistait à déterminer une liste de variables et de choisir des individus (ici des biens immobiliers) pour lesquels la valeur de ces variables était précisée dans l annonce. Le but de notre analyse sera de déterminer s il existe ou non une variable qui permet d expliquer le prix de vente d un bien immobilier. Nous tenterons de mettre en évidence des relations existantes entre les individus, entre les variables ou entre les individus et les variables. L étude qui va suivre sera basée sur une centaine d habitations qui seront nos individus. Les concepts auxquels nous nous intéresserons seront les villes. En effet, notre base de données relationnelle initiale comporte, pour une ville donnée, un ensemble de biens immobiliers. b) La base de données relationnelle Le schéma ci-dessous présente notre base de données relationnelle : 8

9 c) Présentation de la vue étudiée Afin de pouvoir exploiter nos données à l aide du logiciel SODAS, nous avons créé une vue à partir de la requête SQL suivante : SELECT habitation.id, ville.nom, habitation.libelle, habitation.habitable, habitation.terrain, habitation.prix, habitation.chambres, habitation.sejour, habitation.[salle de bain], parking.type AS parking, environnement.type, cuisine.type AS cuisine FROM ville INNER JOIN (parking INNER JOIN (environnement INNER JOIN (cuisine INNER JOIN habitation ON cuisine.id = habitation.cuisine) ON environnement.id = habitation.environnement) ON parking.id = habitation.parking) ON ville.id = habitation.ville ORDER BY ville.nom; Nous obtenons ainsi l identifiant de nos biens immobiliers dans la première colonne ce qui correspond à nos individus. Dans la seconde colonne, nous trouvons la ville dans laquelle se situe l appartement ou la maison. Par conséquent, cette deuxième colonne représente les différents concepts. Ensuite, nous trouvons la description de chaque individu par des variables classiques. Cette vue est présentée de telle sorte à pouvoir être prise en compte par DB2SO. Ce dernier va la convertir en un tableau de données exploitable par SODAS. Dans ce tableau, nous ne verront plus apparaître les individus mais nous aurons des concepts à la place (c està-dire les villes). Chacun de nos concepts sera décrit par des variables symboliques. Ces dernières auront pour valeur une agrégation des valeurs des différents biens immobiliers qui appartenaient à cette ville dans notre base de données relationnelle initiale. Par ailleurs, nous allons importer les données propres aux concepts des villes par l intermédiaire de la requête suivante : SELECT ville.nom, ville.département, ville.superficie, ville.population FROM ville ORDER BY ville.nom; d) Les variables Avant de sélectionner nos individus dans les petites annonces, nous avions déterminé une liste de variables qui permettent de décrire et de modéliser un bien immobilier. Les variables que nous avions retenues sont les suivantes : - le type de logement, - la ville dans laquelle il est situé, - la superficie habitable (en m²), - la superficie du terrain (en m²), - le prix de vente (en ), - le nombre de chambres, - la superficie du séjour (en m²), - le nombre de salles de bains, - le type de parking proposé (intérieur, extérieur), - l environnement dans lequel est situé le bien immobilier (centre ville, à proximité des transports, des commerces, au calme), - le type de cuisine (indépendante, équipée, américaine, kitchenette). 9

10 Par conséquent, nos individus sont décrits par des variables hétérogènes puisque ces dernières ne sont pas toutes de même type. Le tableau ci-dessous présente le type de chacune de nos variables : Nom de la variable Type Ville Superficie habitable Superficie du terrain Prix de vente Nombre de chambres Taille du séjour Nombre de salles de bains Parking Environnement Cuisine Type Qualitative nominale Qualitative nominale Quantitative mesurable Quantitative mesurable Quantitative mesurable Quantitative ordinale Quantitative mesurable Quantitative ordinale Qualitative nominale Qualitative nominale Qualitative nominale Le tableau obtenu à partir de DB2SO comporte des données symboliques. Nous observons parmi celles-ci des variables taxonomiques comme par exemple l environnement. En effet, les valeurs de cette variable sont sur différents niveaux puisque le centre ville comprend la proximité des transports et des commerces. D autre part, nous pouvons observer des dépendances hiérarchiques entre nos variables puisque la superficie du terrain n a de sens que dans le cas où le type de bien immobilier que nous traitons est «maison». Par ailleurs, aucune de nos variables ne présente de dépendance logique. Enfin, nous possédons également des variables propres à nos concepts, c est-à-dire les villes, qui sont le nombre d habitants, la superficie de la ville et le département dans lequel elle se trouve. Nom de la variable Département Superficie de la commune Nombre d habitants Type Qualitative nominale Quantitative mesurable Quantitative mesurable 10

11 III- Analyse a) La méthode STAT Présentation Entrées Sorties Objectif Sélection des variables à étudier parmi des variables inter-continues et nominales Un fichier texte, dans lequel se trouve pour chaque variable, le minimum et le maximum observé sur les concepts. Répartition des concepts dans k classes représentées graphiquement dans un histogramme. Indicateur de la tendance centrale c est-à-dire de la moyenne ainsi que de l écart type. Obtenir des statistiques générales et focalisées sur les variables décrivant nos concepts. Permet d avoir une première vision de la répartition de nos données. Résultats obtenus et interprétation Nous ne présenterons pas dans cette partie tous les résultats fournis par SODAS mais seulement un exemple pour une variable quantitative et un autre pour une variable qualitative. Prenons par exemple, les statistiques concernant la variable quantitative nommée «habitable» qui représente la surface habitable d un bien immobilier. Nous avons choisi de réaliser notre étude sur 6 classes pour cette variable quantitative mesurable. Nous obtenons un fichier WordPad comprenant les statistiques des variables quantitatives. L extrait suivant s intéresse plus particulièrement à la variable que nous souhaitons étudier : SODAS - STAT RELATIVE FREQUENCIES (INTERVAL) May :52 File: PROJET.SDS Title: projet habitable limits: class width: class class class class class class Central tendancy: Dispersion: Par conséquent, nous apprenons par ce fichier que la surface habitable est comprise entre 20 et 268 m². Nous avons demandé à SODAS de répartir nos données en 6 classes et le logiciel nous présente les résultats obtenus en fonction de 6 classes. 11

12 Ainsi, ce fichier nous indique que chaque classe a une largeur de Ainsi nous en déduisons que la première classe comprend les surfaces habitables inclues dans la fourchette [20 ; 61.33]. D autre part, nous pouvons constater que 10.75% de nos données appartiennent à cette première classe. De plus, nous apprenons que la 3 ème classe est celle qui comporte le plus grand nombre de nos surfaces habitables puisqu elles sont 31.45% à en faire partie ce qui signifie que près du tiers de nos données ont une surface habitable comprise entre et 144 m². Enfin, ce fichier nous informe que la moyenne des surfaces habitables vaut 119,72m² et que la variable étudiée a un écart type de D autre part, SODAS nous permet de visualiser ces résultats sous forme d histogramme. Ainsi, nous obtenons pour la variable «habitable» le schéma suivant : Nous constatons que cet histogramme est une représentation graphique exacte des résultats fournis dans le fichier texte. En effet, nous obtenons 6 classes de largeur identique à savoir La représentation graphique met en évidence très rapidement qu environ 60% de nos données ont une surface habitable comprise en et 144m² puisque la 2 ème et la 3 ème classe regroupent à elles seules 60% des observations. Par ailleurs, nous avons également voulu étudier une variable qualitative nominale intitulée «cuisine». Cette dernière comporte 4 modalités. Lorsque nous souhaitons étudier une variable qualitative, le logiciel réalise ses statistiques sur chacune des modalités que peut prendre la variable. En effet, nous ne pouvons choisir un nombre de classes. Un extrait du fichier WordPad obtenu se trouve ci-dessous SODAS - STAT CAPACITIES May :49 File: PROJET.SDS Title: projet 12

13 cuisine capa mini maxi mean AK01 équipée AK02 indépendante AK03 américaine AK04 kitchenette Tout d abord, nous pouvons constater que SODAS affecte un code à chacune des modalités de la variable. Ensuite, il présente les résultats en 4 colonnes. Il semble important de noter qu après l importation des données à partir d Access, DB2SO réalise un fichier qui décrit les concepts (ici les villes) à partir de variables symboliques. La variable «cuisine» est une variable qualitative comprenant 4 modalités. Pour chaque concept SODAS associe un pourcentage à chaque modalité de la variable. Par exemple, pour le concept nommé «Vincennes», SODAS nous fournit les informations suivantes concernant la variable «cuisine» : ^[cuisine = {"equipée"( ), "indépendante"( )}] Ceci signifie que 83.33% des biens immobiliers situés à Vincennes comportent une cuisine équipée et que 16.67% d entre eux ont une cuisine indépendante. Par conséquent, il n y a aucun biens immobiliers sur Vincennes qui dispose d une cuisine américaine ou d une kitchenette. La colonne mini de la méthode STAT appliquée à la variable cuisine nous indique le pourcentage minimum observé pour une modalité sur l ensemble des concepts. Ainsi, nous en déduisons que la ville ayant le moins de cuisines équipées en a 12.5%. En revanche, la colonne maxi indique le pourcentage maximum relevé pour une modalité de la variable. Ainsi nous apprenons qu un de nos concepts dispose de 60% de kitchenettes et que ce dernier est la ville qui dispose de la plus grande proportion de kitchenettes parmi toutes les villes que nous étudions. Par ailleurs, la colonne intitulée mean indique la moyenne observée pour chaque modalité. Ainsi, nous avons 5.26% de cuisine américaine sur l ensemble de nos concepts. En effet, SODAS additionne tous les pourcentages correspondants à cette modalité puis divise le résultat par 18 ce qui correspond au nombre total de concepts. Par conséquent, nous constatons qu en moyenne une ville a 47.95% de biens immobiliers en vente possédant une cuisine indépendante et seulement 3.33% de biens comportant une kitchenette. De plus, SODAS permet d obtenir une représentation graphique de ces résultats qui est la suivante : 13

14 Ce schéma, représente fidèlement les résultats fournis par le fichier WordPad. En effet, il indique pour chacune des modalités de la variable, le pourcentage minimum observé parmi tous les concepts étudiés ainsi que le pourcentage maximum. De plus, le trait situé au milieu des barres indique la localisation de la moyenne. Par exemple, après observation du résultat fourni pour la modalité équipée, nous constatons qu au minimum une ville dispose de 12.5% de cuisines équipées et en a 83.33% au maximum. Nous observons également que la moyenne se situe aux alentours de 44% ce qui correspond parfaitement aux résultats obtenus précédemment. b) La méthode DIV Présentation Entrées Sorties Objectif Sélection des variables à étudier parmi des variables qualitatives ou continues. Ces variables seront utilisées pour calculer la matrice de dissimilarité et l extension du critère d inertie. Un fichier WordPad présentant un arbre de classification hiérarchique par le haut en fonction des variables préalablement sélectionnées. Pour chaque partition de 2 à k classes, une liste des concepts contenus dans chaque classe ainsi que l inertie expliquée relative à la partition de l arbre de classification hiérarchique par le haut. Réaliser une classification hiérarchique par le haut c est-à-dire qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par divisions successives. 14

15 Résultats obtenus et interprétation Lorsque nous avons utilisé SODAS pour appliquer la méthode DIV, nous avons réalisé une classification hiérarchique sur les variables qualitatives et une autre à partir des variables quantitatives. Le schéma ci-après présente la classification hiérarchique obtenue selon les variables qualitatives. THE SELECTED VARIABLES ARE : (Verify the order of the modality) ( 1) :libelle (Initial order) 1- Maison 2- Appartement ( 8) :parking (Initial order) 1- Inconnu 2- Interieur 3- Exterieur ( 9) :type (Initial order) 1- calme 2- centre ville 3- inconnu 4- commerces 5- transports ( 10) :cuisine (Initial order) 1- equipée 2- indépendante 3- américaine 4- kitchenette PARTITION IN 5 CLUSTERS : : Cluster 1 (n=4) : "bry-sur-marne" "chennevieres-sur-marne" "limeil-brévannes" "montfermeil" Cluster 2 (n=1) : "paris 18" Cluster 3 (n=4) : "fontenay-sous-bois" "paris 10" "paris 14" "paris 16" Cluster 4 (n=7) : "charenton" "clichy-sous-bois" "livry-gargan" "nogent-sur-marne" "paris 20" "saint-mandé" "vincennes" Cluster 5 (n=2) : "montreuil" "villemomble" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=4) [type <= calme] Classe 5 (Nd=2) [libelle = Maison] Classe 3 (Ng=4) [parking <= Inconnu] Classe 4 (Nd=7) [cuisine <= indépendante] Classe 2 (Nd=1) La partie intitulée «partition in 5 clusters» nous permet de savoir quels sont les concepts que SODAS a regroupés. Par exemple, les villes de Montreuil et Villemomble ont été rassemblées dans la classe 5. La partie «clustering tree» permet de savoir quelles sont les variables qui ont permis de distinguer les concepts entre eux. Ainsi, cet arbre de classification donne une information sur les éléments qui servent à regrouper les concepts en classe. 15

16 Tout d abord, nous pouvons constater que la première distinction s établie à partir du type de cuisine. En effet, les concepts appartenant à la classe 2 disposent de cuisine de type supérieur au type «indépendante». Or le premier tableau que fourni SODAS lors de la réalisation de la méthode DIV, indique que la modalité «indépendante» porte le numéro 2. D autre part, la modalité «américaine» est numérotée 3 et «kitchenette» 4. Par conséquent, on en déduit que SODAS à séparer les concepts selon le type de cuisine et que la classe 2 comporte les concepts qui disposent principalement de cuisines américaines ou de kitchenettes. Nous pouvons ajouter que seul le concept Paris 18 fait partie de la classe 2 et est caractérisé par des cuisines américaines ou par des kitchenettes. Ensuite, le second critère est celui de savoir si c est une maison ou un appartement. A la vue de cet arbre, nous avons 11 concepts majoritairement représentés par des appartements et seulement 6 où les maisons sont plus importantes. Prenons le coté de l arbre où les appartements sont regroupés et voyons quel critère intervient après. Le troisième critère qui a de l importance pour un appartement, est le fait d avoir ou pas un parking. Les 7/11 ème ont un parking intérieur ou extérieur et donc seulement 4 concepts parmi 11 ont en grande partie la modalité «inconnu» pour le critère «parking». Dans le premier cas, nous trouvons entre autre les concepts suivants : «charenton» et «clichy-sous-bois» et pour le second : «fontenay-sous-bois» et «paris 10». Prenons maintenant le coté où les maisons sont regroupées. Le troisième critère qui arrive est l environnement à savoir s il est calme ou non. La proportion de nos concepts ayant un environnement calme est deux fois plus grande que nos concepts n ayant pas cette modalité pour majorité dans le critère «environnement», respectivement 4 contre 2. Les 4 concepts ayant comme caractéristiques principales «maison» et «calme» sont les suivants : «bry-sur-marne», «chennevieres-sur-marne», «limeil-brévannes» et «montfermeil» tandis que ceux ayant un environnement autre que calme sont : «montreuil» et «villemomble». En résumé, le premier critère est de savoir si la cuisine est indépendante ou pas, le second porte sur le type d habitation, maison ou appartement. Les critères suivants sont : un environnement calme pour les maisons et la présence d un parking pour les appartements. Le premier critère peut paraître surprenant en revanche, le second lui semble logique et les critères suivants également. En effet, la distinction entre maison et appartement nous paraît tout à fait triviale du fait que certaines villes sont plus destinées à la construction de zones pavillonnaires tandis que d autres sont plus concernées par la construction d immeubles. Les critères portant sur l environnement et le parking sont eux aussi tout à fait légitime. Lorsque vous habitez dans un appartement, donc près du centre ville, les places de stationnement sont plutôt rares et par conséquent un parking privé est très prisé et en revanche, si vous habitez dans une maison, vous possédez, dans l ensemble, un garage et par conséquent, votre priorité est de trouver un environnement calme. A présent, nous allons nous intéresser à la classification des concepts selon les variables quantitatives. Lorsque nous appliquons la méthode DIV, le logiciel SODAS nous apporte les résultats suivants : VARIANCE OF THE SELECTED VARIABLES : habitable : terrain : prix :

17 chambres : sejour : salle_de_bain : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=5) : "clichy-sous-bois" "livry-gargan" "montfermeil" "montreuil" "villemomble" Cluster 2 (n=2) : "paris 14" "paris 18" Cluster 3 (n=2) : "nogent-sur-marne" "paris 16" Cluster 4 (n=6) : "charenton" "fontenay-sous-bois" "limeil-brévannes" "paris 10" "paris 20" "saint-mandé" Cluster 5 (n=3) : "bry-sur-marne" "chennevieres-sur-marne" "vincennes" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=5) [prix <= ] Classe 4 (Nd=6) [prix <= ] Classe 2 (Ng=2) [sejour <= ] Classe 3 (Ng=2) [chambres <= ] Classe 5 (Nd=3) La partie intitulée «variance of the selected variables» nous informe de la valeur des variances de chacune de nos variables quantitatives. Ainsi, nous pouvons constater que le prix est la variable qui a la plus importante variance, ce qui nous permet de constater que les prix de vente sont très différents entre les concepts. Ensuite, SODAS nous présente la partition qu il a effectuée en 5 classes en nous précisant quels sont les concepts appartenant à chacune des classes qu il a réalisées. Enfin, le logiciel nous fournit un arbre de classification qu il a réalisé à partir des variables quantitatives. Tout d abord, nous pouvons constater que le premier critère de différenciation est le prix de vente. En effet, SODAS a séparé les concepts en 2 grandes parties : d une part ceux pour lesquels les prix sont inférieurs à euros et d autre part ceux qui ont un prix supérieur à euros. Les concepts dont le prix est inférieur à euros sont ceux des classes 1 et 4. De plus, nous constatons que parmi les prix les plus faibles, SODAS effectue une autre distinction à partir du prix. En effet, les concepts appartenant à la classe 1 sont ceux dont le prix est inférieur à euros comme par exemple les villes de Montfermeil, Montreuil, Villemomble, Clichy-Sous-Bois et Livry-Gargan. La classe 4 comporte les concepts tels que Charenton, Paris 10 et Saint-Mandé dont le prix de vente se situe entre et euros. Par ailleurs parmi les concepts qui ont un prix de vente supérieur à euros, SODAS effectue une distinction en fonction de la taille du séjour. Ainsi, les concepts constituant la classe 2 sont ceux qui ont un séjour dont la taille n excède pas 34,5m². Il s agit par exemple des villes de Paris 14 et Paris

18 Ensuite, SODAS opère sa différenciation selon le nombre de chambres. Les concepts de la classe 3 (Nogent-Sur-Marne et Paris 16) sont ceux qui possèdent moins de 2.5 chambres en moyenne tandis que les concepts constituant la classe 5 (Bry-Sur-Marne, Chennevières- Sur-Marne et Vincennes) ont dans l ensemble plus de 2.5 chambres. En résumé, nous pouvons dire que le prix est un facteur très déterminant pour classifier les concepts puisqu il intervient deux fois de suite lorsque l on souhaite effectuer une classification en 5 classes. Parmi, les concepts dont les prix sont assez élevés, SODAS effectue une distinction à partir de la taille du séjour. Ensuite pour les concepts ayant à la fois un prix élevé et un grand séjour, il sépare les concepts en fonction du nombre de chambres. Ces résultats peuvent sembler assez surprenants dans la mesure où ni la surface habitable ni la superficie du terrain n interviennent dans cette classification à 5 classes dont l inertie est expliquée à 92,41%. Puisque ces résultats nous paraissent plutôt inattendus, nous avons souhaité étendre la méthode DIV à 10 classes de façon à visualiser l importance de la surface habitable dans la classification des concepts par le logiciel. Nous obtenons alors les résultats suivants : PARTITION IN 10 CLUSTERS : Cluster 1 (n=1) : "clichy-sous-bois" Cluster 2 (n=2) : "paris 14" "paris 18" Cluster 3 (n=2) : "nogent-sur-marne" "paris 16" Cluster 4 (n=2) : "limeil-brévannes" "paris 20" Cluster 5 (n=1) : "vincennes" Cluster 6 (n=3) : "fontenay-sous-bois" "paris 10" "saint-mandé" Cluster 7 (n=2) : "montfermeil" "montreuil" Cluster 8 (n=1) : "charenton" Cluster 9 (n=2) : "bry-sur-marne" "chennevieres-sur-marne" Cluster 10 (n=2) : "livry-gargan" "villemomble" Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=1) [sejour <= ] Classe 10 (Nd=2) [prix <= ] Classe 7 (Nd=2) [prix <= ] Classe 4 (Ng=2) [prix <= ] Classe 8 (Nd=1) [prix <= ] Classe 6 (Nd=3) [prix <= ] Classe 2 (Ng=2) [sejour <= ] Classe 3 (Ng=2) [chambres <= ] Classe 5 (Ng=1) [habitable <= ] Classe 9 (Nd=2) 18

19 Tout d abord, nous pouvons constater que l inertie de la classification hiérarchique par le haut est expliquée à 98% et qu une classe ne comporte jamais plus de trois concepts à la fois. Si nous observons rapidement cette classification, nous constatons que le premier critère de séparation est toujours le prix. Pour les concepts dont le prix n excède pas les séparations suivantes se font également sur le prix. Ainsi, nous pouvons supposer que la variable prix est fortement liée à nos concepts. Par ailleurs, pour les classes dont le prix de vente dépasse , SODAS effectue sa classification à partir de la taille du séjour, puis du nombre de chambres et enfin en fonction de la surface habitable. Ainsi, nous en déduisons que la superficie habitable ainsi que celle du terrain n est pas un critère déterminant pour effectuer une classification entre les concepts que nous étudions. c) La méthode SOE Présentation Entrées Sorties Objectif La liste des variables à étudier Un tableau donnant les valeurs de chaque variable symboliques pour chacun des concepts. Graphique en 2 ou 3 dimensions représentant les valeurs de chacune des variables après sélection d un concept dans le tableau. Représenter graphiquement les valeurs prises par les variables de chaque concept. Résultats obtenus et interprétation Dans la méthode SOE, SODAS présente les valeurs des variables symboliques pour chaque concept dans un tableau dont voici un extrait : 19

20 Nous observons deux représentations différentes des valeurs. En effet, les pourcentages pour chaque modalité sont donnés lorsqu il s agit de variables qualitatives. Par exemple, nous constatons qu il existe 57% de maisons et 43% d appartements à Villemomble. Les variables quantitatives sont quant à elles représentées différemment. En effet, SODAS fournit une plage de valeurs. Ainsi nous constatons que Bry-sur-Marne comprend des biens immobiliers dont le prix est compris entre et euros. D autre part, nous avons choisi d appliquer la méthode SOE à deux concepts que nous pensons différents : Montfermeil et Saint-Mandé. En effet, la ville de Montfermeil est située dans le département de la Seine-Saint-Denis, elle a une superficie de 545 hectares et possède habitants. Par contre, la ville de Saint-Mandé est située dans le Val de Marne, compte habitants et a une superficie de 92 hectares. Tout d abord, nous allons nous intéresser au concept de Montfermeil. En sélectionnant cette ville dans le tableau présenté auparavant, le logiciel nous fournit le graphique suivant : La première chose que nous constatons est le fait que SODAS ne représente pas de la même façon les variables quantitatives et les variables qualitatives. En effet, nous pouvons remarquer que les variables quantitatives sont «étalées» sur une plage de valeurs tandis que les variables qualitatives sont plutôt modélisées sous forme de «barres». Le schéma ci-dessus montre que le concept de Montfermeil ne possède que des maisons qui sont pour la plus grande majorité situées dans un environnement calme et ayant une cuisine indépendante ce qui signifie située dans une pièce fermée. D autre part, nous remarquons que tous les parkings sont intérieurs. Or ce concept est constitué de 100% de maisons donc nous pouvons en déduire que ces parkings intérieurs sont en fait des garages. 20

21 D autre part, il s agit d une ville dont les habitations ont des surfaces habitables comprises entre 100 et 170m² et qui dispose de 3 à 6 chambres. En revanche, nous pouvons constater que les terrains de ces biens immobiliers sont assez petits puisqu ils ont une superficie de 306 à 574m². Enfin, la taille des séjours des maisons de Montfermeil varie entre 26 et 41m². Ce graphique permet de visualiser quel est le profil type d un bien immobilier situé dans la ville de Montfermeil mais il permet également de pouvoir effectuer des comparaisons avec tous les autres concepts que nous étudions. En effet, les axes de ce schéma possèdent toutes les modalités possibles pour une variable qualitative et les axes des variables quantitatives sont gradués à partir de la valeur minimale observée pour la variable sur l ensemble des concepts jusqu à la valeur maximale observée pour cette même variable. Par exemple, nous avons pu déduire du graphique précédent que les terrains de Montfermeil sont plutôt petits puisqu il existe un concept qui détient un terrain de 4000m². De plus, nous pouvons signaler que Montfermeil est une ville qui comporte des logements qui ont grand nombre de chambres puisqu il s agit du concept qui détient la valeur maximale constatée pour la variable «nombre de chambres». Enfin, en ce qui concerne les prix de vente, nous pouvons observer qu ils sont compris entre et euros. Si on regarde l axe de la variable «prix», on remarque qu il s agit de prix assez faibles compte tenu de la position de la plage des valeurs sur l axe. D autre part, nous pourrions supposer que le prix n est pas directement proportionnel à la surface habitable puisque cette ville comporte des biens immobiliers dont la surface habitable se situe sur le milieu de l axe tandis que la plage des prix est plus proche de l origine. Ceci signifie que les prix sont faibles mais que les habitations ne sont pas pour autant de petite taille. Saint-Mandé 21

22 Le second schéma ci-dessus montre que le concept de Saint-Mandé ne possède que des appartements qui sont pour la plus grande majorité situés dans un environnement dit «centre ville» c est-à-dire proche des commerces et des transports. Comme le concept de Montfermeil, les cuisines sont principalement indépendantes cependant, nous pouvons observer la présence de quelques cuisines «américaines», modalité qui n était pas présente pour le premier concept analysé. Par ailleurs, les deux tiers des parkings ont la modalité «intérieur» et le dernier tiers restant la modalité «inconnu». Ceci pouvant s expliquer par le fait que certains immeubles ont des garages en sous-sol. En revanche la modalité «inconnu» ne signifie pas qu il n y a pas de parking mais que cela n était pas précisé dans les annonces. La surface habitable propre à ce concept s étend de 38 à 111m² et le nombre de chambres va de 1 à 3. L absence de terrain se justifie de par le fait que nous n avons ici que des appartements. Cependant, que cela soit un appartement ou une maison, un séjour est toujours présent et la taille de celui-ci varie entre 19 et 44m². Enfin, le nombre de salles de bains va de 1 à 2. Grâce à ce graphique, nous pouvons constater que les variables quantitatives sont faiblement étalées et qu elles se situent assez proche du centre ou tout du moins des valeurs minimales. Pour preuve, la plus grande variation est celle des prix. Ces derniers vont de à euros. Contrairement à Montfermeil, il semblerait que l étendue de la plage des valeurs prises soit comparable à celle de la superficie habitable. En effet, ces deux plages ont quasiment la même étendue (un peu après l origine et jusqu à la moitié environ). Par conséquent, si l on compare ces deux concepts, on s aperçoit que la surface habitable n influence pas directement la variable prix. Globalement, la surface habitable de Montfermeil est plus importante que celle de Saint-Mandé mais que les prix fluctuent nettement moins à Montfermeil. D autre part, ces deux concepts ont des tailles de séjour très semblables (globalement entre 20 et 40m²) mais que les maisons de Montfermeil possèdent un plus grand nombre de chambres que les appartements de Saint-Mandé. Par ailleurs, on remarque que l environnement de chacun de ces deux concepts est assez différent. En effet, plus de 80% des habitations de Montfermeil sont situées dans un environnement calme tandis qu à Saint-Mandé, il ne sont seulement que 29%. Ainsi, nous pourrions nous demander si la proximité du centre-ville et des commerces a une influence sur le prix de vente d un bien immobilier. d) La méthode PCM Présentation Entrées Choisir l ensemble des variables quantitatives sur lesquelles on souhaite réaliser l analyse en composantes principales Sorties Un listing contenant : - une matrice des données - la matrice des variances-covariances entre les variables - la matrice de corrélation entre les variables - des pourcentages d inertie pour la construction des axes factoriels 22

23 Objectif Un graphique selon les deux premiers axes factoriels (possibilité de réaliser un graphique avec les 3 ème et 4 ème axes factoriels) Réaliser une étude en composantes principales. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. Résultats obtenus et interprétation Nous avons souhaité réaliser une analyse en composantes principales dans ce mémoire car il s agissait d une méthode que nous avions étudiée en IUP 2 et nous étions assez curieux de voir les résultats que SODAS pouvait nous fournir. Dans un premier temps, nous allons considérer les résultats fournis dans le listing. Précisons tout d abord que nous avons sélectionné les variables surface habitable, prix, nombre de chambres et superficie du séjour. Matrix of input data: (extrait) habitable prix chambres sejour "chennevieres-marne" [110.00, ] [ , ] [2.00, 5.00] [40.00, 80.00] "montreuil" [45.00, ] [ , ] [1.00, 5.00] [28.00, 80.00] "paris 10" [23.00, ] [ , ] [0.00, 4.00] [0.00, 70.00] "paris 16" [40.00, ] [ , ] [0.00, 4.00] [0.00, 73.00] "saint-mandé" [38.00, ] [ , ] [1.00, 3.00] [19.00, 44.00] "vincennes" [93.00, ] [ , ] [2.00, 4.00] [36.00, 50.00] La matrice ci-dessus fournie pour chacun des concepts, la plage de valeurs de chacune des variables. Ainsi, nous en déduisons que les biens immobiliers situés dans la ville de Chennevières-Sur-Marne ont une surface habitable comprise entre 110 et 240 m² et que ces derniers possèdent de 2 à 5 chambres. Ainsi, nous pouvons dire que cette matrice nous apporte les mêmes renseignements que ceux compris dans le tableau fourni par la méthode SOE. Matrix Variance/Covariance : habitable prix chambres sejour Par ailleurs, la méthode d analyse en composantes principales réalise une matrice de variance-covariance entre les variables. Ainsi, nous constatons que la variable qui fluctue le plus est le prix puisqu il s agit de la variable qui a la plus grande variance et par conséquent le plus fort écart-type. D autre part, la variable représentant le nombre de chambres est celle qui a la plus petite variance mais ce résultat semble logique car les valeurs que peut prendre cette variable se situent dans un intervalle beaucoup plus réduit que le prix. Correlations Matrix : habitable prix chambres sejour A présent, observons la matrice des corrélations que SODAS a calculée à partir de la matrice précédente. Cette matrice a l avantage de nous permettre de déterminer quelles sont les variables qui sont corrélées c est-à-dire celles qui s influencent mutuellement. Par exemple, nous constatons que le prix est très peu corrélé (0.0695) avec la surface habitable. 23

24 Ainsi nous en déduisons qu une augmentation de la surface habitable n implique pas un accroissement du prix. De plus, le nombre de chambres est quasiment indépendant du prix puisque le coefficient de corrélation ne vaut que Ces résultats paraissent surprenants mais ils confirment ceux que nous avons pu obtenir par le biais d autres méthodes (SOE et DIV). D autre part, la matrice des corrélations nous informe que la superficie habitable est corrélée à avec la taille du séjour et à avec le nombre de chambres. Cette information peut être expliquée par le fait que plus le séjour est grand et plus le bien immobilier comporte de chambres alors plus la superficie habitable de ce dernier est importante. Enfin, la variable qui est la plus corrélée avec le prix est la taille du séjour puisque ces deux dernières sont corrélées à près de Ainsi, on en déduit que la taille du séjour influe sur le prix du bien immobilier même si cette influence n est pas très importante. En effet, nous ne disposons d aucun couple de variables qui soit très fortement corrélées. Cependant, cette matrice nous permet de constater que la superficie du séjour est deux fois plus influente que la superficie totale dans la détermination du prix d un bien immobilier. Propers Values and inerty percentage: habitable= (31.97%) prix= (21.74%) chambres= (25.46%) sejour= (20.82%) Le tableau ci-dessus nous permet de visualiser les pourcentages d inertie. Ces derniers sont utilisés par le logiciel afin de construire les axes factoriels. Factorials Descriptions of interval type upon axes (extrait): PC1,PC2,PC3,PC4 : "chennevieres-sur-marne" [-0.14, 3.00] [-1.65, 1.24] [-1.52, 1.54] [-1.37, 1.34] "montreuil" [-1.56, 2.19] [-1.35, 1.91] [-2.20, 1.41] [-0.97, 2.22] "paris 10" [-2.59, 1.81] [-2.29, 1.63] [-2.14, 1.86] [-1.86, 2.07] "paris 16" [-2.30, 2.75] [-2.49, 1.74] [-2.74, 1.91] [-2.65, 1.89] "saint-mandé" [-1.76, 0.50] [-1.57, 0.73] [-1.02, 1.23] [-0.83, 1.13] "vincennes" [-0.32, 1.08] [-1.16, 0.43] [-0.38, 1.13] [-0.54, 0.54] Le tableau précédent montre pour chacun des concepts de notre base quelles sont les valeurs prises par les variables en fonction de chacun des axes factoriels. Ainsi, nous constatons que Paris 10 se situe entre et 1.81 sur le premier axe factoriel (ici la surface habitable). Correlations Matrix, initiales Variables/principals components PC1...PC4 habitable prix chambres sejour Enfin, le dernier tableau fourni par le listing de la méthode PCM montre la corrélation entre les variables et les différents axes factoriels. Par exemple, nous observons que le coefficient de corrélation entre la taille du séjour et le premier axe factoriel est de Ainsi, nous en déduisons que cette variable est fortement représentée par le premier axe. Par ailleurs, le coefficient de corrélation entre la variable «chambres» et le 4 ème axe factoriel est très faible (0.053), par conséquent, nous pouvons en déduire que cette variable n est quasiment pas représentée sur cette composante principale. 24

Montrer encore