Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008 - Edwin DIDAY
SOMMAIRE I Introduction p.3 II Présentation du datamining p.4 II.1) Qu est ce que le datamining? P.4 II.2) Présentation du logiciel SODAS p.5 III Présentation de l étude p.6 III.1) Objectifs et définition de la problématique p.6 III.2) Construction de la base de données p.6 1 - Définition des «concepts» et «individus» 2 - Structure de la base III.3) Importation des données sous DB2SO p.9 1 - Présentation de DB2SO 2 - Importation des données IV Méthodes statistiques utilisées p.13 IV.1) SOE (Symbolic Objects Editor)/VIEW selon la version de SODAS a) Présentation de la méthode b) Application de la méthode IV.2) STAT (Elementary Statistics on Symbolic Objects) p.18 c) Présentation de la méthode d) Application de la méthode IV.3) DIV (Divisive Clustering on Symbolic Objects) p.27 e) Présentation de la méthode f) Application de la méthode IV.4) TREE (Decision Tree) p.30 g) Présentation de la méthode IV.5) HYPYR (Pyramidal Clustering on Symbolic Objects) p.31 h) Présentation de la méthode i) Application de la méthode V Résumé des résultats obtenus p.34 VI Conclusion p.35 VII Bibliographie p.37 VIII Annexes p.38 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 2
I Introduction Le datamining consiste à extraire et à analyser par des méthodes statistiques un large volume de données provenant d une base de données ou d un Datawarehouse. Dans ce projet, nous allons nous intéresser aux régions de France. Notre objectif est d établir une typologie des régions françaises en se basant sur les caractéristiques propres à ces régions et sur leur lien avec les caractéristiques des départements qui les composent. Cette étude nous permettra également de savoir quelles sont les régions qui se ressemblent ou au contraire s opposent. Notre projet de décompose en plusieurs parties : tout d abord, nous ferons une présentation du datamining et du logiciel SODAS utilisé dans le cadre de ce projet. Puis, nous décrirons ensuite notre base de données que nous importerons dans SODAS avec DB2SO. Dans une troisième partie, nous utiliserons les méthodes statistiques disponibles dans le logiciel SODAS pour extraire de nos données des connaissances pertinentes (pépites). Enfin, on terminera notre étude par une synthèse générale de nos résultats. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 3
II Présentation du datamining II.1) Qu est ce que le datamining? Le datamining est un outil d aide à la décision utilisant des méthodes statistiques qui permettent d exploiter de manière stratégique des données pour en extraire des connaissances. L évolution des systèmes d information, le besoin de traiter des volumes gigantesques de données stockées dans un entrepôt de données (Datawarehouse) ont permis l émergence du datamining dans les entreprises. Le datamining est une démarche : on part d un ensemble de données que l on va exploiter pour en extraire de l information pertinente. Le datamining joue un rôle majeur dans la gestion de la relation client (CRM). Néanmoins, son champ d application ne se limite pas au marketing. Les méthodes du datamining peuvent également s appliquer au webmining (par exemple pour analyser la fréquentation des sites Web), au contrôle qualité, au traitement d images Les logiciels utilisés dans les milieux professionnels pour faire du datamining sont nombreux et on peut citer ceux qui sont les plus utilisés en pratique : - SPSS/Clementine, SAS Entreprise Miner, Intelligent Miner, KXEN, Statistica Data Miner, SPAD, Matlab, Oracle Datamining, TANAGRA, Amadéa, Epiphany II.2) Présentation du logiciel SODAS SODAS (Symbolic Data Analysis for Official Statistics) est un logiciel prototype public et gratuit issu du projet de EUROSTAT. Il est téléchargeable gratuitement à l adresse suivante : http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm Il utilise des objets symboliques et permet de résumer les données à l aide de concepts sous-jacents. L analyse des données symboliques permet de manipuler des données plus complexes et permet de les représenter graphiquement. L utilisation du logiciel se fait dans l ordre des étapes qui suivent : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 4
- On part d une base de données relationnelle (par exemple au format Access). - On définit ensuite des unités statistiques de premier niveau qui correspondent à nos individus ainsi que les variables permettant leur description. - On définit également nos unités statistiques de second niveau appelées des concepts qui permettent de résumer l ensemble des données des individus. - On construit alors un tableau de données symboliques dont les concepts décrivent les propriétés des unités statistiques de premier niveau qui leur sont associées. Chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, intervalles, valeurs uniques - Ensuite, on analyse ce tableau en utilisant des méthodes d analyse de données symboliques (ex : Dissimilarités, arbres de décision, analyse factorielle ) pour en extraire des connaissances exploitables. Figure 1 : Vue d ensemble du logiciel Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 5
III Présentation de l étude III.1) Objectifs et définition de la problématique Notre objectif est d établir une typologie des régions françaises en se basant sur les caractéristiques propres à ces régions et sur leur lien avec les caractéristiques des départements qui les composent. La question est de savoir quelles sont les régions qui se ressemblent ou au contraire se distinguent et sur quels critères. III.2) Construction de la base de données 1 - Définition des «concepts» et «individus» Nous disposons de données portant sur les 22 régions de France et les 96 départements français métropolitains qui correspondent respectivement à nos concepts et individus. Nos données proviennent de l INSEE et sont disponibles à l adresse suivante : http://www.insee.fr/fr/region/accueil_region.htm Nos concepts et individus sont listés plus précisément dans l annexe 1. 2 - Structure de la base Notre base de données est une base relationnelle de données Access. Celle-ci est composée de deux tables principales : - la table Départements pour les individus - la table Régions pour les concepts Le schéma relationnel de la base de données est représenté ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 6
3 - Définition des variables explicatives Les variables décrivant nos individus peuvent être réparties en 4 catégories : Les variables sur la population : o La population 1 (1999) o La part de la population des communes de montagne en % (1999) o La part de la population dans les communes de l espace à dominante urbaine en % (1999) Les variables sur les activités et catégories sociales : o Le taux d activité des hommes de 20 à 59 ans en % (1999) o Le taux d activité des femmes de 20 à 59 ans en % (1999) o Le taux de chômage en % (1999) o La part des agriculteurs dans la population active en % (1999) o La part des indépendants dans la population active en % (1999) o La part des cadres dans la population active en % (1999) o La part des professions intermédiaires dans la population active en % (1999) o La part des employés dans la population active en % (1999) 1 Il s agit d une variable qualitative (ou nominal). Les autres variables sont continues. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 7
o La part des ouvriers dans la population active en % (1999) o La part des retraités dans la population active en % (1999) Les variables sur l économie et les entreprises : o Le taux de création d entreprises en % (2000) o La part de l agriculture dans l emploi en % (2000) o La part de l industrie dans l emploi en % (2000) o La part du tertiaire dans l emploi en % (2000) Les variables sur la richesse : o Le revenu imposable net par foyer fiscal1 (moyenne France=100) (1996) o La part des foyers fiscaux non imposés en % (1999) o La part de personnes couvertes par le RMI (1999) De même, les variables décrivant nos concepts sont : Les variables sur la population : o La superficie en km 2 o La densité en habitant/ km 2 (2006) o L espérance de vie des hommes en années (2004) o La part des moins de 20 ans en % (2005) o La part des 20 à 59 ans en % (2005) o La part des plus de 60ans en % (2005) Les variables sur la richesse : o Les salaires nets annuels en euros (2005) o Le PIB par habitant en euros (2006) o Le PIB par emploi en euros (2006) Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 8
III.3) Importation des données sous DB2SO 1 - Présentation de DB2SO Avant d importer nos données sous DB2SO, nous avons du réaliser une requête nous permettant de décrire nos départements. Le code SQL de cette requête est donné ci-dessous : SELECT DISTINCT Départements.NomDépartement, [Département-Régions].NomRégion, Départements.population, Pop_groupe.pop_groupe, Départements.Densité_population, Départements.part_pop_zone_urbaine, Départements.Part_pop_communes_montagne, Départements.Taux_activité_hommes, Départements.Taux_activité_femmes, Départements.Taux_de_chômage, Départements.Part_agriculteurs_pop_active, Départements.Part_indépendants_pop_active, Départements.Part_cadres_pop_active, Départements.Part_intermédiaires_pop_active, Départements.Part_employés_pop_active, Départements.Part_ouvriers_pop_active, Départements.Part_retraités, Départements.Taux_créations_dentreprises, Départements.Revenu_net_imposable_foyer_fiscal, Départements.Part_pop_couverte_par_le_RMI, Départements.Part_foyers_fiscaux_non_imposables FROM [Département-Régions], Départements, Pop_groupe, revenu_net_groupe WHERE ((Départements.population) Between Pop_groupe.pop_min And Pop_groupe.pop_max) And Départements.[N Département]=[département-régions].[Numéro département] And ((Départements.[Revenu_net_imposable_foyer_fiscal]) Between revenu_net_groupe.revenu_net_min And revenu_net_groupe.revenu_net_max); DB2SO est un module du logiciel SODAS qui permet à l utilisateur de créer un ensemble de concepts à partir d une base de données relationnelle. On suppose qu un ensemble d individus (unités de premier niveau) est stocké dans la base et sont repartis dans plusieurs groupes. DB2SO peut alors construire un concept pour chaque groupe d individus. Les variables mère/fille et les taxonomies sur les variables pourront aussi être associées aux concepts générés par DB2SO. 2- Importation des données Tout d abord, dans Sodas file on sélectionne Import with DB2SO. Dans File, on sélectionne new puis Source de données machine et on choisit le format de notre base de données. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 9
On sélectionne ensuite la base Départements.accdb puis la requête DescriptionDépartements décrite précédemment. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 10
A la suite de ces différentes étapes, DB2SO génère une matrice de données symboliques composée de 20 variables et de 22 concepts. Il renvoie le message suivant : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 11
On sélectionne ensuite add-single dans Modify pour ajouter les variables décrivant les concepts (table Régions). Les variables qui ont été ajoutées sont : o La superficie en km2 o L espérance de vie des hommes en 2004 o L espérance de vie des femmes en 2004 o La part des moins de 20 ans en 2005 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 12
o La part des 20 à 59 ans en 2005 o La part des plus de 60ans en 2005 o Les salaires nets annuels en euros (2005) o Le PIB par habitant en euros (2006) o Le PIB par emploi en euros (2006) La matrice des données symboliques est finalement composée de 19 variables (2 qualitatives et 17 quantitatives), 22 concepts et 10 variables uniques. On sauvegarde ensuite le fichier produit par les étapes précédentes sous le nom Départements.gaj puis on l exporte au format sds. IV Méthodes statistiques utilisées SODAS est un logiciel facile d utilisation puisqu il suffit de faire glisser la méthode que l on souhaite appliquer, vérifier les paramètres de celle-ci à l aide du clique droit et enfin exécuter cette méthode: Dans cette partie, nous allons présenter les méthodes statistiques vues en cours, appliquer celles-ci dans le cadre de notre base de données et résumer les principaux résultats obtenus (les pépites) Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 13
IV.1) SOE (Symbolic Objects Editor)/VIEW selon la version de SODAS a) Présentation de la méthode La méthode VIEW (équivalente à SOE dans la première version de SODAS) récapitule dans un tableau les objets symboliques présents dans le fichier SODAS utilisé. Elle permet également de modifier les libellés des objets, des modalités et des variables. Cette méthode permet de représenter de façon graphique les concepts sous forme d étoiles où chaque branche représente une variable. La représentation des étoiles peut se faire au choix en 2 ou 3 dimensions. Enfin, cette méthode permet aussi d effectuer des histogrammes des variables (horizontaux ou verticaux). Il est bien évident que nous n allons pas ici décrire toutes les représentations graphiques effectuées mais celles qui nous paraissent les plus pertinentes et nous montrent l intérêt de cette méthode. b) Application de la méthode Le tableau que nous renvoie la méthode SOE (ou VIEW) et qui croise les concepts et variables est donné ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 14
Comparatif Ile de France - Limousin Grâce à cette étoile, on peut voir que la région Ile de France présente un taux d activité, un revenu net imposable par habitant et une part de cadres très nettement supérieurs à ceux du Limousin. En revanche, elle présente un taux de chômage plus élevé. Le Limousin est une région plutôt rurale avec une part d agriculteurs dans la population active très largement supérieure à celle de l Ile-de- France qui est quasi-nulle mais également assez âgée avec une part de retraités aussi très élevée. L étoilé précédente permet d opposer ces deux régions principalement sur des critères de richesse et de type d emploi. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 15
Comparatif Languedoc Roussillon - PACA Cette seconde étoile présente la répartition des variables pour le Languedoc-Roussillon et la région PACA. On constate que la région PACA présente un taux d activité très largement supérieur à celui du Languedoc-Roussillon essentiellement dans le tertiaire et l industrie comme en témoignent les parts d ouvriers et d employés dans la population active nettement plus élevés pour la région PACA. Ces forts taux d activité s accompagnent également d un très fort taux de chômage qui nécessairement induit une part de population couverte par le RMI très élevée. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 16
Comparatif Nord Pas de Calais - Corse Cette troisième étoile compare les résultats obtenus pour la Corse et le Nord-Pas-de-Calais. On remarque que la Corse est une région beaucoup moins peuplée que le Nord-Pas-de-Calais. De plus, on remarque que la Corse est une région essentiellement tertiaire tandis que le Nord-Pasde-Calais est plutôt une région ouvrière. Les parts d agriculteurs et de retraités sont très proches pour ces deux régions. Le taux de chômage ainsi que la part de la population couverte par le RMI sont plus élevés pour la Corse tandis que le taux d activité est plus élevé dans la région Nord-Pas-de-Calais. Ce dernier constat est assez étonnant dans la mesure où le taux de création d entreprises est plus élevé en Corse. Ce résultat pourrait peut-être s expliquer par un taux de défaillance d entreprises plus important en Corse. Finalement, ces deux régions s opposent non seulement géographiquement mais également sur des critères de population et de structure d emplois dans la population active. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 17
IV.2) STAT (Elementary Statistics on Symbolic Objects) a) Présentation de la méthode Cette méthode permet d appliquer des méthodes «classiques» à des données symboliques représentées par leurs descriptions. Cette méthode dépend du type de la variable étudiée : - les fréquences relatives pour les variables multimodales - les fréquences relatives pour les variables intervalles - les capacités et min/max/moyenne pour les variables multimodales probabilistes - biplot pour les variables intervalles Selon le choix de l utilisateur, la sortie se fait sous forme de listing ou de graphique. b) Application de la méthode La méthode construit un histogramme pour la variable choisie sur un intervalle [a,b] (où a correspond à la borne inférieure de la variable et b à la borne supérieure) de la manière suivante : - l intervalle [a,b] est découpé en k classes de longueurs identiques, où k est défini a priori par l utilisateur - le calcul de la fréquence relative associée à la classe Ck tient compte du «recouvrement» de la classe Ck par les valeurs intervalle de la variable sur chaque objet symbolique. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 18
Voici les principaux résultats graphiques de cette méthode : Ces histogrammes permettent de mettre en évidence les oppositions entre les régions rurales (Auvergne, Midi-Pyrénées) et les régions plus riches comme l Ile-de-France. En effet, on remarque que l Ile-de-France présente un revenu imposable net par foyer fiscal et une part de cadres dans la population active 3 fois supérieurs à ceux des régions Auvergne et Midi-Pyrénées plus agricoles et où la part de retraités est plus élevée. Les taux d activité de ces trois régions sont très proches mais la répartition des emplois dans la population active est très différente ce qui explique les écarts de richesse constatés. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 19
Ces deux histogrammes illustrent la répartition des deux variables continues : taux de chômage et part de retraités dans la population. Dans notre cas, ces deux variables sont découpées en 10 classes (choix arbitraire). En abscisses, figurent les valeurs de ces deux taux (en pourcentage) tandis qu en ordonnées on trouve les fréquences relatives associées aux deux variables. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 20
Sortie listing pour la variable part de la population dans les communes de montagne (en 5 classes) : ------------------------------------------------------------------------------- SODAS - STAT RELATIVE FREQUENCIES (INTERVAL) File: DEPART~1.SDS Title: departements.sds ------------------------------------------------------------------------------- Part_pop_communes_montagne limits: 0.0-99.5 class width: 19.9 class 1 0.6675 class 2 0.1676 class 3 0.0716 class 4 0.0530 class 5 0.0404 Central tendancy: 22.5101 Dispersion: 21.6023 Pour les variables multimodales, la méthode STAT construit d une part un histogramme des capacités des différentes modalités prises par une variable donnée et d autre part un histogramme présentant la probabilité minimum, la probabilité maximale et la probabilité moyenne prise par chaque modalité. Notons que dans notre base de données, nous n avions pas de variable multi modalités ; nous en avons donc construit une «artificiellement» en découpant la population en 5 classes selon des bornes que nous avons définies arbitrairement. Sortie listing pour la variable population modifiée avec un découpage en 5 classes : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 21
------------------------------------------------------------------------------- SODAS - STAT CAPACITIES File: DEPART~1.SDS Title: departements.sds ------------------------------------------------------------------------------- capa mini maxi mean pop_groupe AC01 Entre_500000-1M_dhab. 1.0000 0.0000 1.0000 0.3140 AC02 Moins_de_500000_hab. 1.0000 0.0000 1.0000 0.4879 AC03 1M-1,5M_dhab. 0.9952 0.0000 0.8750 0.1564 AC04 1,5M-2M_dhab. 0.2708 0.0000 0.1667 0.0133 AC05 Plus_de_2millions_dhab. 0.5625 0.0000 0.5000 0.0284 Sortie graphique associée: On peut donc observer que la probabilité moyenne des 5 classes est la plus élevée pour la classe population inférieure à 500 000 habitants (en réalité, c est la classe qui comporte le plus d individus). En revanche, la classe dont la probabilité moyenne est la plus faible est la classe 1,5-2 millions d habitants, dont on peut déduire que l effectif est faible. Graphiques Bi plot : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 22
Ce premier graphique Biplot croise la variable taux d activité et le taux de chômage pour 4 régions sélectionnées. Graphiquement, il est aisé de constater que : - la Corse se caractérise par un taux de chômage élevé associé à un taux d activité très faible - le Limousin, la Picardie et l Ile de France sont 3 régions où le taux d activité est assez élevé - la région Limousin a un taux de chômage plus faible que la région Picardie - l Ile de France est une région assez particulière dans le sens où il y a une forte disparité pour les deux variables étudiées puisque l aire du carré est la plus élevée des 4 régions étudiées (on peut penser que certains départements à l intérieur de la région ont des taux de chômage élevés) - la région Limousin a un taux de chômage plus faible que la région Picardie Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 23
Ce premier graphique Biplot croise la variable taux d activité et le taux de chômage pour 4 régions sélectionnées. Graphiquement, il est aisé de constater que : - la Corse se caractérise par un taux de chômage élevé associé à un taux d activité très faible - le Limousin, la Picardie et l Ile de France sont 3 régions où le taux d activité est assez élevé - la région Limousin a un taux de chômage plus faible que la région Picardie - l Ile de France est une région assez particulière dans le sens où il y a une forte disparité pour les deux variables étudiées puisque l aire du carré est la plus élevée des 4 régions étudiées (on peut penser que certains départements à l intérieur de la région ont des taux de chômage élevés) - la région Limousin a un taux de chômage plus faible que la région Picardie Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 24
De la même manière ce second graphique Biplot croise la variable taux de chômage avec la part de retraités dans la population. Ainsi, on peut remarquer que : - l Ile de France, le Nord Pas de Calais et l Alsace sont 3 régions où la part de retraités est assez faible contrairement aux régions Poitou Charentes et Limousin où celle-ci est assez élevée - il existe une forte disparité du taux de chômage en Ile de France (la hauteur du rectangle est la plus élevée de toutes les régions) - Le Nord Pas de Calais et l Alsace s opposent sur l axe taux de chômage puisque l Alsace est caractérisée par un taux de chômage plutôt faible alors que pour le Nord le taux de chômage est élevé - Le Poitou Charentes et le Limousin sont deux régions similaires en termes de taux de chômage et part de retraités dans la population Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 25
IV.3) DIV (Divisive Clustering on Symbolic Objects) a) Présentation de la méthode C est une méthode d échantillonnage hiérarchique qui permet de faire un partitionnement en un nombre de classes fixé a priori. Il est nécessaire de choisir des variables d échantillonnage soit qualitatives, soit quantitatives, mais jamais les deux simultanément. A chaque étape, une classe est subdivisée en deux sous-classes suivant une question binaire, ce qui permet d obtenir un partitionnement optimal, conformément au critère d inertie (maximisation de la variance interclasse et minimisation de la variance intraclasse). L algorithme de partitionnement se stoppe au bout de K-1 subdivisions où K est le nombre de classes fixé a priori. L application de cette méthode donne les résultats suivants : b) Application de la méthode PARTITION IN 6 CLUSTERS: -------------------------: Cluster 1 (n=2): Limousin Corse Cluster 2 (n=2) : Île-de-France Nord - Pas-de-Calais Cluster 3 (n=5) : Midi-Pyrénées Languedoc-Roussillon Aquitaine Pays de la Loire Lorraine Cluster 4 (n=2) : Rhône-Alpes PACA Cluster 5 (n=4) : Picardie Alsace Bretagne Haute-Normandie Cluster 6 (n=7) : Auvergne Champagne-Ardenne Basse-Normandie Poitou-Charentes Centre Bourgogne Franche-Comté Explicated inertia: 94.765260 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 26
DESCRIPTION OF THE CLUSTERS: -------------------------- Cluster 1: IF 5- [population <= 278713.500000] IS TRUE AND 2- [population <= 477781.750000] IS TRUE AND 1- [population <= 911255.750000] IS TRUE Cluster 2: IF 3- [Part_indépendants_pop_active <= 6.450000] IS TRUE AND 1- [population <= 911255.750000] IS FALSE Cluster 3: IF 4- [Revenu_net_imposable_foyer_fiscal <= 92.375000] IS TRUE AND 2- [population <= 477781.750000] IS FALSE AND 1- [population <= 911255.750000] IS TRUE Cluster 4: IF 3- [Part_indépendants_pop_active <= 6.450000] IS FALSE AND 1- [population <= 911255.750000] IS FALSE Cluster 5: IF 4- [Revenu_net_imposable_foyer_fiscal <= 92.375000] IS FALSE AND 2- [population <= 477781.750000] IS FALSE AND 1- [population <= 911255.750000] IS TRUE Cluster 6: IF 5- [population <= 278713.500000] IS FALSE AND 2- [population <= 477781.750000] IS TRUE AND 1- [population <= 911255.750000] IS TRUE THE CLUSTERING TREE: --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 27
+---- Classe 1 (Ng=2)!!----5- [population <= 278713.500000]!!! +---- Classe 6 (Nd=7)!!----2- [population <= 477781.750000]!!!! +---- Classe 3 (Ng=5)!!!!!----4- [Revenu_net_imposable_foyer_fiscal <= 92.375000]!!! +---- Classe 5 (Nd=4)!!----1- [population <= 911255.750000]!! +---- Classe 2 (Ng=2)!!!----3- [Part_indépendants_pop_active <= 6.450000]! +---- Classe 4 (Nd=2) NAME OF INTERNAL VT0 FILE: C:\Program Files\DECISIA\SODAS version 2.0\filieres\GJKQXG01.vt0 ------- END OF PROGRAM DIV --------- On peut donc constater que : - la classe 1 est composée de 2 régions dont le nombre d habitants est relativement faible : Limousin et Corse - la classe 2 est composée de 2 régions où le nombre d habitants est élevé et où la part d indépendants dans la population active est plutôt faible : Ile de France et Nord - la classe 3 est composée de 5 régions - la classe 4 est composée de 2 régions : Rhône Alpes et PACA où la part d indépendants est assez élevée (critères opposés de la classe 2) - les classes 5 et 6 sont respectivement constituées de 4 et 7 régions Pour avoir plus d informations sur les critères d affectation d une classe ou d une autre, il faut se reporter à la sortie listing de SODAS qui est plus détaillée. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 28
IV.4) TREE (Decision Tree) a) Présentation de la méthode Cette méthode propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en paramètre. Notons qu avant d exécuter cette méthode il est nécessaire de choisir la variable d identification des différentes classes (à l aide d Add-Single Value sous DB2SO) et de choisir les variables prédictives. En sortie, on obtient une nouvelle liste d objets symboliques qui permet d assigner de nouveaux objets à une classe de la partition déjà connue. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 29
IV.5) HYPYR (Pyramidal Clustering on Symbolic Objects) b) Présentation de la méthode Cette méthode est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intension de la classe). L intension est héritée d un prédécesseur par son successeur et nous obtenons ainsi une structure d héritage. La structure pyramidale permet l identification de concepts intermédiaires qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues, des intervalles ou bien des histogrammes. L utilisateur a également la possibilité d utiliser simultanément des variables quantitatives et qualitatives. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 30
c) Application de la méthode On remarque que la Corse et la région PACA se situent dans la même classe. Elles sont effet géographiquement proches mais présentent aussi des ressemblances dans la structure des emplois dans la population active (avec des parts d employés et des taux de chômage assez élevés). La Champagne-Ardenne et la Bourgogne qui sont des régions plutôt agricoles sont aussi situées dans la même classe. On constate également que les régions Ile-de-France et Rhône-Alpes sont dans la même classe. Ils présentent des taux d activité comparables. Dans la méthode HIPYR de SODAS, on peut également éditer le dendrogramme des régions présenté ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 31
Comme dans pour la pyramide précédente, on remarque que la Corse et la région PACA sont situées dans la même classe pour les mêmes raisons qui ont été citées précédemment. classe. Le Limousin et l Auvergne qui sont des régions plutôt agricoles sont aussi situés dans la même En revanche, contrairement au cas de la pyramide, l Ile-de-France est très éloignée des autres régions et notamment de la Haute-Normandie. Ce résultat s explique surtout par les critères de richesse économique (le revenu net imposable est maximal en l Ile-de-France). Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 32
V Résumé des résultats obtenus Les principales «pépites» que l on peut tirer de notre projet sont les suivantes : L Île-de-France présente un niveau de richesse plus élevé que dans les autres départements. Sa population est plutôt jeune, à dominante urbaine. La situation de l emploi est meilleure que dans les autres régions. Le taux d activité est très élevé même s il subsiste un taux de chômage assez élevé. Celui-ci peut certainement s expliquer par des inégalités existantes dans les départements qui composent cette région (exemple : Seine Saint Denis / Paris). La région Ile-de-France s oppose à des régions plus agricoles comme le Limousin, l Auvergne ou le Midi-Pyrénées dont la population est à dominante rurale, plutôt âgée vivant dans des communes de montagne avec un niveau de revenu plus faible. Les régions françaises se ressemblent ou s opposent sur la répartition des emplois dans la population active. Le Midi-Pyrénées et les régions du Sud-est présentent une activité agricole très importante qui est quasi nulle en Ile-de-France mais où la part de cadres est très importante. D autres régions comme la Bourgogne ou la Basse Normandie présentent une activité industrielle très importante. On peut aussi évoquer la spécificité des régions PACA et Corse qui se distinguent des autres régions. Contrairement à l Ile-de-France, la situation vis-à-vis de l emploi est très difficile dans ces régions. Elles présentent des taux de chômage et des parts de population couverte par le RMI très élevées à la différence des autres départements. De plus, leur activité économique est essentiellement tertiaire. L Ile de France et le Nord Pas de Calais sont des régions particulières puisqu elles se «ressemblent» sur des critères démographiques (population, part de retraités, de plus de 20 ans, ) mais «s opposent» sur des critères économiques (taux d activité, part de cadres dans la population active, ). Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 33
VI Conclusion Ce projet nous a permis de voir les ressemblances et différences entre les régions françaises principalement sur des critères géographiques, de richesse, de population ou encore de répartition des emplois dans la population active. La typologie que l on peut dresser à la fin de ce projet est : L Ile-de-France s oppose aux régions du Limousin, Midi-Pyrénées sur des critères de richesse et de type d emploi plus tertiaire et industrielle pour le premier et plus agricole pour les seconds. Ils s opposent aussi sur des critères démographiques et de lieu d habitat puisque la population de l Ile-de-France est plus jeune et urbaine tandis que la population du Limousin est plus âgée et rurale et les retraités représentent une part importante. Enfin, les régions PACA et Corse sont atypiques par rapport aux autres régions qui s expliquent par une situation difficile vis-à-vis de l emploi marquée par un taux d activité faible et donc un taux de chômage particulièrement élevé. L Ile-de-France présente aussi un taux de chômage élevé mais est «compensé» par un taux d activité plus élevé. Les résultats obtenus à l aide du logiciel SODAS basés sur l étude des concepts (régions) sont similaires à ceux obtenus par le logiciel SPAD sur les individus (départements). En effet, les résultats fournis par le logiciel SPAD en faisant une ACP sont : L axe 1 a permis de classer les départements métropolitains selon leur niveau de richesse. Nos analyses nous ont permis de dire que les départements les plus riches se situent dans la région parisienne. Ils s opposent aux départements les moins riches, plus agricoles avec une part de retraités importante dont font partie la Creuse, la Lozère, le Cantal et la Haute Corse. L axe 2 a permis de mettre en évidence la spécificité des départements de la Méditerranée en termes d emploi marqués par un taux de chômage et un taux de RMIstes supérieurs à la moyenne et atteignant leur maximum dans les départements des Bouches-du-Rhône et du Gard. L axe 3 a permis d opposer les départements du Nord de France marqués par une activité industrielle importante à Paris et aux Hauts de Seine présentant une part de cadres et de professions intermédiaires supérieurs aux moyennes nationales. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 34
Enfin, l axe 4 a permis d affiner l analyse des départements de L Ile-de-France. En effet, Il sépare Paris et les Hauts de Seine des autres départements de la région parisienne plutôt associés à d autres départements, qui ont aussi un niveau de richesse important mais n ont pas une structure socio-démographique plus marquée. Ce projet nous a paru très intéressant dans la mesure où il nous a permis d appliquer de manière concrète les méthodes de datamining ainsi que de connaître un nouveau logiciel d analyse de données symboliques. SODAS est un logiciel très facile à utiliser et présente une interface graphique très claire. Il donne très rapidement des résultats sous forme de listing et/ou graphiques facilement interprétables. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 35
Bibliographie SAPORTA Gilbert : Datamining : une nouvelle version façon de faire de la statistique? http://data.mining.free.fr/ http://www.ultra-fluide.com/ressources/datamining/presentation.htm FRODEAU Christine : Datamining, outil de prédiction du comportement du consommateur http://www.creg.ac-versailles.fr/spip.php?article55 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 36
Annexes Listing des concepts et individus Nos concepts sont : - Alsace - Aquitaine - Auvergne - Basse-Normandie - Bourgogne - Bretagne - Centre - Champagne-Ardenne - Corse - Franche-Comté - Haute-Normandie - Ile de France - Languedoc-Roussillon - Limousin - Lorraine - Midi-Pyrénées - Nord-Pas-de-Calais - PACA - Pays de la Loire - Picardie - Poitou-Charentes - Rhône-Alpes Nos individus sont : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 37
- 01 Ain - 02 Aisne - 03 Allier - 04 Alpes-de-Haute- Provence - 05 Hautes-Alpes - 06 Alpes-Maritimes - 07 Ardèche - 08 Ardennes - 09 Ariège - 10 Aube - 11 Aude - 12 Aveyron - 13 Bouches-du- Rhône - 14 Calvados - 15 Cantal - 16 Charente - 17 Charente- Maritime - 18 Cher - 19 Corrèze - 2A Corse-du-Sud - 2B Haute-Corse - 21 Côte-d'Or - 22 Côtes-d'Armor - 23 Creuse - 24 Dordogne - 32 Gers - 33 Gironde - 34 Hérault - 35 Ille-et-Vilaine - 36 Indre - 37 Indre-et-Loire - 38 Isère - 39 Jura - 40 Landes - 41 Loir-et-Cher - 42 Loire - 43 Haute-Loire - 44 Loire-Atlantique - 45 Loiret - 46 Lot - 47 Lot-et-Garonne - 48 Lozère - 49 Maine-et-Loire - 50 Manche - 51 Marne - 52 Haute-Marne - 53 Mayenne - 54 Meurthe-et- Moselle - 55 Meuse - 56 Morbihan - 64 Pyrénées- Atlantiques - 65 Hautes-Pyrénées - 66 Pyrénées- Orientales - 67 Bas-Rhin - 68 Haut-Rhin - 69 Rhône - 70 Haute-Saône - 71 Saône-et-Loire - 72 Sarthe - 73 Savoie - 74 Haute-Savoie - 75 Paris - 76 Seine-Maritime - 77 Seine-et-Marne - 78 Yvelines - 79 Deux-Sèvres - 80 Somme - 81 Tarn - 82 Tarn-et-Garonne - 83 Var - 84 Vaucluse - 85 Vendée - 86 Vienne - 87 Haute-Vienne - 88 Vosges - 25 Doubs - 26 Drôme - 27 Eure - 28 Eure-et-Loir - 29 Finistère - 30 Gard - 31 Haute-Garonne - 57 Moselle - 58 Nièvre - 59 Nord - 60 Oise - 61 Orne - 62 Pas-de-Calais - 63 Puy-de-Dôme - 89 Yonne - 90 Territoire de Belfort - 91 Essonne - 92 Hauts-de-Seine - 93 Seine-Saint- Denis - 94 Val-de-Marne - 95 Val-d'Oise