Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Documents pareils

LA RÉPARTITION DES SERRURIERS EN FRANCE

LA RÉPARTITION DES PROFESSIONNELS DU RACHAT DE CRÉDIT EN FRANCE

L Agence MD vous présente

La France face à la pénurie de maisons de retraite

N 13 S É N A T. 30 octobre 2014 PROJET DE LOI

Décrets, arrêtés, circulaires

ARRETE Arrêté du 21 décembre 2012 relatif au tarif annuel et aux modalités de publication des annonces judiciaires et légales

Droits d enregistrement et taxe de publicité foncière sur les mutations à titre onéreux d immeubles et de droits immobiliers.

Fonds de Dotation L observatoire Deloitte. N décembre 2011

Mutualité Fonction Publique 62 Rue Jeanne d Arc PARIS Cedex 13

Liste des laboratoires agréés pour la réalisation des analyses officielles dans le domaine de la microbiologie alimentaire

La filière de l expertise comptable

Bilan de l année 2011

CHARTE D ACCESSIBILITÉ POUR RENFORCER L EFFECTIVITÉ DU DROIT AU COMPTE. Procédure d ouverture d un compte dans le cadre du droit au compte

- Éléments de référence 2013 pour

Contenu du fichier Base Permanente des Equipements Fichier Ensemble

ANNEXE. LOI DU 28 PLUVIÔSE AN VIII (17 février 1800) Concernant la division du territoire français et l administration

CONJUGUEZ LES MÉTIERS DU BÂTIMENT AU FÉMININ! CONCOURS 2015 / e ÉDITION. Guide d accompagnement pour remplir son dossier. En partenariat avec

Demande d aide au retour à domicile après hospitalisation

SOMMAIRE. I - Synthèse de l'activité II - Secteur "Logement" métropole... 4

Contenu du fichier Base Permanente des Équipements Fichier Ensemble

Équipements à jets d eau sous haute et très haute pression

Les élèves du premier degré à la rentrée 2012 dans les écoles publiques et privées

Contenu du fichier Base Permanente des Équipements Fichier Ensemble

Contenu du fichier Base Permanente des Équipements Fichier Ensemble

Demande d aide au maintien à domicile

CAHIER DES CHARGES DE LA DECLARATION UNIQUE DE COTISATIONS SOCIALES SUR SUPPORT ECRIT ("DUCS-PAPIER") ANNEXE E

Performances Hôtelières en France

Règlement d Intervention du CONSUEL

Assurances de biens et de responsabilité. Etude Mars 2014

Soins dentaires : des dérives inacceptables

Table des Matières. Nombre d adoptions Pages 3-4. Nombre d adoptions par zone géographique Page 5. Nombre de Visas accordés en 2012 Page 6

Être le mieux placé sur le marché

LE FINANCEMENT DES AIRES D ACCUEIL DES GENS DU VOYAGE

DOSSIER DE PRESSE JANVIER 2013 GDF SUEZ S ENGAGE CONTRE LA PRÉCARITÉ ÉNERGÉTIQUE EN FRANCE ÊTRE UTILE AUX HOMMES

Établissement Français du Sang

Une nouvelle nomenclature d activités française (NAF) se substituera le 1 er 2008 à celle qui était en vigueur depuis le 1 er janvier 2003.

Z 6. COUR DE JUSTICE DU DÉPARTEMENT DE LA SEINE

Guide retraite complémentaire Agirc et Arrco L essentiel en quatre points. n o 2. Adhésion des entreprises aux institutions de retraite complémentaire

BAROMÈTRE VOLTAIRE. Les Français et l orthographe. 1 re édition juin 2015

Tarif des mutuelles santé : un écart de prix de 60% selon le département

Dépendance et rayonnement. des établissements franciliens

BILANS REGIONAUX DE L EMPLOI

RAPPORT D ACTIVITÉ FONDS DE FINANCEMENT DE LA PROTECTION COMPLÉMENTAIRE DE LA COUVERTURE UNIVERSELLE DU RISQUE MALADIE

REGLEMENT CHALLENGE LEGRAND VDI Février 2014

ANNEXE VI. Effet de la réforme sur les ressources des collectivités territoriales

DATA MINING - Analyses de données symboliques sur les restaurants

Établissement français du sang

REPÈRES & RÉFÉRENCES STATISTIQUES. enseignements formation recherche

Protocole concernant l organisation des élections des délégués territoriaux au sein d Harmonie Mutuelle prévues au cours du 1er trimestre 2013

journées techniques Pour le développement de bonnes pratiques environnementales dans l artisanat

Évaluation des risques professionnels Questions-réponses sur le document unique

Evolution de la collecte des RPU Réseau OSCOUR

REGLEMENT DU JEU «Bien-être et prévention»

Changer de département à la rentrée

Le Fonds spécial des pensions des ouvriers des établissements industriels de l Etat PRESENTATION GENERALE

RAPPORT D ACTIVITÉ 2007

Prêts bonifiés à l agriculture

BAROMÈTRE DE L EXPERTISE AUTOMOBILE

AQUITAINE. Suivi de la Demande touristique ~

AUDIT FRANCE LES FRANCAS FEDERATION NATIONALE LAIQUE DE STRUCTURES ET D ACTIVITES EDUCATIVES, SOCIALES ET CULTURELLES

Les prélèvements d eau en France en 2009 et leurs évolutions depuis dix ans

café, restaurant & salon de thé DOSSIER DE CANDIDATURE franchise

Observatoire de l Eolien

Quelles sont les banques de détail françaises les plus performantes? 110 établissements à la loupe. Octobre 2013

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars Mr E.

Liste des titulaires du droit d'usage de l'ecolabel Européen

1985 / 2009 : 25 ANS DE CONCOURS DU CREDIT-BAIL AU FINANCEMENT DE L IMMOBILIER D ENTREPRISE

Salariés JUIN Les rachats. Le versement pour la retraite. Le rachat de cotisations. La régularisation de cotisations arriérées

Externe : changement de régime de sécurité sociale et autres dispositions

ETAT DES LIEUX DE LA FORMATION INITIALE EN METALLERIE. Atelier de 14h30 16h00

La classification automatique de données quantitatives

LISTE DE POSTES DE CATEGORIE C (FILIERES TECHNIQUE ET SIC)

Le ministre de l intérieur. Mesdames et messieurs les préfets

Atlas fiscal de la France : Édition 2010

Structure tarifaire en Ambulance et Véhicule Sanitaire Léger.

Situations de travail exposant à l amiante

L EMPLOI D AIDE A DOMICILE ENJEUX ECONOMIQUES. Cécile BAZIN. Henitsoa RAHARIMANANA Alexis GUYONVARCH - Jacques MALET. et la CCMSA

Baromètre Ventes et cessions de commerces et d industries en France du 1er janvier 2008 au 31 décembre 2010

Rapport d activité. Rhône-Alpes Active Une finance solidaire au service de l emploi et des territoires

Résultats de l enquête sur les Ateliers Santé Ville au 31 décembre Le 30/04/2009

Panorama. de l économie sociale et solidaire

Présentation du Programme PHARE. Direction générale de l offre de soins - DGOS

ISF et intermédiation : Collecte 2009

Construction de logements

Établissement Français du Sang

Vérifications des machines et appareils de levage

3 e partie L OFFRE D HÉBERGEMENT

DIRECTION DES RESSOURCES HUMAINES SOUS-DIRECTION DU RECRUTEMENT ET DE LA FORMATION BUREAU DU RECRUTEMENT ET DE LA PROMOTION PROFESSIONNELLE

Assurances de biens et de responsabilité. Etude Avril 2013

La Gestion Prévisionnelle des Emplois et des Compétences dans votre entreprise

TARIFICATION BANCAIRE :

SOMMAIRE : Remarque d'ordre général Page 2. Remplir le formulaire Page 2. Identification de l'entreprise Page 2. Adresse du siège social Page 3

De nouveaux indicateurs pour suivre la construction de logements

Prévenir le risque de surcharge des véhicules utilitaires légers Les dispositifs embarqués

Recettes de fonctionnement et capacité d'épargne

LES INSUFFISANCES EN MATIERE D EQUIPEMENTS D IMAGERIE MEDICALE EN FRANCE : ETUDE SUR LES DELAIS D ATTENTE POUR UN RENDEZ-VOUS IRM EN 2013

Politique européenne de cohésion Etat d avancement des programmes européens

au 1er novembre 2013

Transcription:

Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008 - Edwin DIDAY

SOMMAIRE I Introduction p.3 II Présentation du datamining p.4 II.1) Qu est ce que le datamining? P.4 II.2) Présentation du logiciel SODAS p.5 III Présentation de l étude p.6 III.1) Objectifs et définition de la problématique p.6 III.2) Construction de la base de données p.6 1 - Définition des «concepts» et «individus» 2 - Structure de la base III.3) Importation des données sous DB2SO p.9 1 - Présentation de DB2SO 2 - Importation des données IV Méthodes statistiques utilisées p.13 IV.1) SOE (Symbolic Objects Editor)/VIEW selon la version de SODAS a) Présentation de la méthode b) Application de la méthode IV.2) STAT (Elementary Statistics on Symbolic Objects) p.18 c) Présentation de la méthode d) Application de la méthode IV.3) DIV (Divisive Clustering on Symbolic Objects) p.27 e) Présentation de la méthode f) Application de la méthode IV.4) TREE (Decision Tree) p.30 g) Présentation de la méthode IV.5) HYPYR (Pyramidal Clustering on Symbolic Objects) p.31 h) Présentation de la méthode i) Application de la méthode V Résumé des résultats obtenus p.34 VI Conclusion p.35 VII Bibliographie p.37 VIII Annexes p.38 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 2

I Introduction Le datamining consiste à extraire et à analyser par des méthodes statistiques un large volume de données provenant d une base de données ou d un Datawarehouse. Dans ce projet, nous allons nous intéresser aux régions de France. Notre objectif est d établir une typologie des régions françaises en se basant sur les caractéristiques propres à ces régions et sur leur lien avec les caractéristiques des départements qui les composent. Cette étude nous permettra également de savoir quelles sont les régions qui se ressemblent ou au contraire s opposent. Notre projet de décompose en plusieurs parties : tout d abord, nous ferons une présentation du datamining et du logiciel SODAS utilisé dans le cadre de ce projet. Puis, nous décrirons ensuite notre base de données que nous importerons dans SODAS avec DB2SO. Dans une troisième partie, nous utiliserons les méthodes statistiques disponibles dans le logiciel SODAS pour extraire de nos données des connaissances pertinentes (pépites). Enfin, on terminera notre étude par une synthèse générale de nos résultats. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 3

II Présentation du datamining II.1) Qu est ce que le datamining? Le datamining est un outil d aide à la décision utilisant des méthodes statistiques qui permettent d exploiter de manière stratégique des données pour en extraire des connaissances. L évolution des systèmes d information, le besoin de traiter des volumes gigantesques de données stockées dans un entrepôt de données (Datawarehouse) ont permis l émergence du datamining dans les entreprises. Le datamining est une démarche : on part d un ensemble de données que l on va exploiter pour en extraire de l information pertinente. Le datamining joue un rôle majeur dans la gestion de la relation client (CRM). Néanmoins, son champ d application ne se limite pas au marketing. Les méthodes du datamining peuvent également s appliquer au webmining (par exemple pour analyser la fréquentation des sites Web), au contrôle qualité, au traitement d images Les logiciels utilisés dans les milieux professionnels pour faire du datamining sont nombreux et on peut citer ceux qui sont les plus utilisés en pratique : - SPSS/Clementine, SAS Entreprise Miner, Intelligent Miner, KXEN, Statistica Data Miner, SPAD, Matlab, Oracle Datamining, TANAGRA, Amadéa, Epiphany II.2) Présentation du logiciel SODAS SODAS (Symbolic Data Analysis for Official Statistics) est un logiciel prototype public et gratuit issu du projet de EUROSTAT. Il est téléchargeable gratuitement à l adresse suivante : http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm Il utilise des objets symboliques et permet de résumer les données à l aide de concepts sous-jacents. L analyse des données symboliques permet de manipuler des données plus complexes et permet de les représenter graphiquement. L utilisation du logiciel se fait dans l ordre des étapes qui suivent : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 4

- On part d une base de données relationnelle (par exemple au format Access). - On définit ensuite des unités statistiques de premier niveau qui correspondent à nos individus ainsi que les variables permettant leur description. - On définit également nos unités statistiques de second niveau appelées des concepts qui permettent de résumer l ensemble des données des individus. - On construit alors un tableau de données symboliques dont les concepts décrivent les propriétés des unités statistiques de premier niveau qui leur sont associées. Chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, intervalles, valeurs uniques - Ensuite, on analyse ce tableau en utilisant des méthodes d analyse de données symboliques (ex : Dissimilarités, arbres de décision, analyse factorielle ) pour en extraire des connaissances exploitables. Figure 1 : Vue d ensemble du logiciel Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 5

III Présentation de l étude III.1) Objectifs et définition de la problématique Notre objectif est d établir une typologie des régions françaises en se basant sur les caractéristiques propres à ces régions et sur leur lien avec les caractéristiques des départements qui les composent. La question est de savoir quelles sont les régions qui se ressemblent ou au contraire se distinguent et sur quels critères. III.2) Construction de la base de données 1 - Définition des «concepts» et «individus» Nous disposons de données portant sur les 22 régions de France et les 96 départements français métropolitains qui correspondent respectivement à nos concepts et individus. Nos données proviennent de l INSEE et sont disponibles à l adresse suivante : http://www.insee.fr/fr/region/accueil_region.htm Nos concepts et individus sont listés plus précisément dans l annexe 1. 2 - Structure de la base Notre base de données est une base relationnelle de données Access. Celle-ci est composée de deux tables principales : - la table Départements pour les individus - la table Régions pour les concepts Le schéma relationnel de la base de données est représenté ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 6

3 - Définition des variables explicatives Les variables décrivant nos individus peuvent être réparties en 4 catégories : Les variables sur la population : o La population 1 (1999) o La part de la population des communes de montagne en % (1999) o La part de la population dans les communes de l espace à dominante urbaine en % (1999) Les variables sur les activités et catégories sociales : o Le taux d activité des hommes de 20 à 59 ans en % (1999) o Le taux d activité des femmes de 20 à 59 ans en % (1999) o Le taux de chômage en % (1999) o La part des agriculteurs dans la population active en % (1999) o La part des indépendants dans la population active en % (1999) o La part des cadres dans la population active en % (1999) o La part des professions intermédiaires dans la population active en % (1999) o La part des employés dans la population active en % (1999) 1 Il s agit d une variable qualitative (ou nominal). Les autres variables sont continues. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 7

o La part des ouvriers dans la population active en % (1999) o La part des retraités dans la population active en % (1999) Les variables sur l économie et les entreprises : o Le taux de création d entreprises en % (2000) o La part de l agriculture dans l emploi en % (2000) o La part de l industrie dans l emploi en % (2000) o La part du tertiaire dans l emploi en % (2000) Les variables sur la richesse : o Le revenu imposable net par foyer fiscal1 (moyenne France=100) (1996) o La part des foyers fiscaux non imposés en % (1999) o La part de personnes couvertes par le RMI (1999) De même, les variables décrivant nos concepts sont : Les variables sur la population : o La superficie en km 2 o La densité en habitant/ km 2 (2006) o L espérance de vie des hommes en années (2004) o La part des moins de 20 ans en % (2005) o La part des 20 à 59 ans en % (2005) o La part des plus de 60ans en % (2005) Les variables sur la richesse : o Les salaires nets annuels en euros (2005) o Le PIB par habitant en euros (2006) o Le PIB par emploi en euros (2006) Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 8

III.3) Importation des données sous DB2SO 1 - Présentation de DB2SO Avant d importer nos données sous DB2SO, nous avons du réaliser une requête nous permettant de décrire nos départements. Le code SQL de cette requête est donné ci-dessous : SELECT DISTINCT Départements.NomDépartement, [Département-Régions].NomRégion, Départements.population, Pop_groupe.pop_groupe, Départements.Densité_population, Départements.part_pop_zone_urbaine, Départements.Part_pop_communes_montagne, Départements.Taux_activité_hommes, Départements.Taux_activité_femmes, Départements.Taux_de_chômage, Départements.Part_agriculteurs_pop_active, Départements.Part_indépendants_pop_active, Départements.Part_cadres_pop_active, Départements.Part_intermédiaires_pop_active, Départements.Part_employés_pop_active, Départements.Part_ouvriers_pop_active, Départements.Part_retraités, Départements.Taux_créations_dentreprises, Départements.Revenu_net_imposable_foyer_fiscal, Départements.Part_pop_couverte_par_le_RMI, Départements.Part_foyers_fiscaux_non_imposables FROM [Département-Régions], Départements, Pop_groupe, revenu_net_groupe WHERE ((Départements.population) Between Pop_groupe.pop_min And Pop_groupe.pop_max) And Départements.[N Département]=[département-régions].[Numéro département] And ((Départements.[Revenu_net_imposable_foyer_fiscal]) Between revenu_net_groupe.revenu_net_min And revenu_net_groupe.revenu_net_max); DB2SO est un module du logiciel SODAS qui permet à l utilisateur de créer un ensemble de concepts à partir d une base de données relationnelle. On suppose qu un ensemble d individus (unités de premier niveau) est stocké dans la base et sont repartis dans plusieurs groupes. DB2SO peut alors construire un concept pour chaque groupe d individus. Les variables mère/fille et les taxonomies sur les variables pourront aussi être associées aux concepts générés par DB2SO. 2- Importation des données Tout d abord, dans Sodas file on sélectionne Import with DB2SO. Dans File, on sélectionne new puis Source de données machine et on choisit le format de notre base de données. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 9

On sélectionne ensuite la base Départements.accdb puis la requête DescriptionDépartements décrite précédemment. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 10

A la suite de ces différentes étapes, DB2SO génère une matrice de données symboliques composée de 20 variables et de 22 concepts. Il renvoie le message suivant : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 11

On sélectionne ensuite add-single dans Modify pour ajouter les variables décrivant les concepts (table Régions). Les variables qui ont été ajoutées sont : o La superficie en km2 o L espérance de vie des hommes en 2004 o L espérance de vie des femmes en 2004 o La part des moins de 20 ans en 2005 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 12

o La part des 20 à 59 ans en 2005 o La part des plus de 60ans en 2005 o Les salaires nets annuels en euros (2005) o Le PIB par habitant en euros (2006) o Le PIB par emploi en euros (2006) La matrice des données symboliques est finalement composée de 19 variables (2 qualitatives et 17 quantitatives), 22 concepts et 10 variables uniques. On sauvegarde ensuite le fichier produit par les étapes précédentes sous le nom Départements.gaj puis on l exporte au format sds. IV Méthodes statistiques utilisées SODAS est un logiciel facile d utilisation puisqu il suffit de faire glisser la méthode que l on souhaite appliquer, vérifier les paramètres de celle-ci à l aide du clique droit et enfin exécuter cette méthode: Dans cette partie, nous allons présenter les méthodes statistiques vues en cours, appliquer celles-ci dans le cadre de notre base de données et résumer les principaux résultats obtenus (les pépites) Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 13

IV.1) SOE (Symbolic Objects Editor)/VIEW selon la version de SODAS a) Présentation de la méthode La méthode VIEW (équivalente à SOE dans la première version de SODAS) récapitule dans un tableau les objets symboliques présents dans le fichier SODAS utilisé. Elle permet également de modifier les libellés des objets, des modalités et des variables. Cette méthode permet de représenter de façon graphique les concepts sous forme d étoiles où chaque branche représente une variable. La représentation des étoiles peut se faire au choix en 2 ou 3 dimensions. Enfin, cette méthode permet aussi d effectuer des histogrammes des variables (horizontaux ou verticaux). Il est bien évident que nous n allons pas ici décrire toutes les représentations graphiques effectuées mais celles qui nous paraissent les plus pertinentes et nous montrent l intérêt de cette méthode. b) Application de la méthode Le tableau que nous renvoie la méthode SOE (ou VIEW) et qui croise les concepts et variables est donné ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 14

Comparatif Ile de France - Limousin Grâce à cette étoile, on peut voir que la région Ile de France présente un taux d activité, un revenu net imposable par habitant et une part de cadres très nettement supérieurs à ceux du Limousin. En revanche, elle présente un taux de chômage plus élevé. Le Limousin est une région plutôt rurale avec une part d agriculteurs dans la population active très largement supérieure à celle de l Ile-de- France qui est quasi-nulle mais également assez âgée avec une part de retraités aussi très élevée. L étoilé précédente permet d opposer ces deux régions principalement sur des critères de richesse et de type d emploi. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 15

Comparatif Languedoc Roussillon - PACA Cette seconde étoile présente la répartition des variables pour le Languedoc-Roussillon et la région PACA. On constate que la région PACA présente un taux d activité très largement supérieur à celui du Languedoc-Roussillon essentiellement dans le tertiaire et l industrie comme en témoignent les parts d ouvriers et d employés dans la population active nettement plus élevés pour la région PACA. Ces forts taux d activité s accompagnent également d un très fort taux de chômage qui nécessairement induit une part de population couverte par le RMI très élevée. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 16

Comparatif Nord Pas de Calais - Corse Cette troisième étoile compare les résultats obtenus pour la Corse et le Nord-Pas-de-Calais. On remarque que la Corse est une région beaucoup moins peuplée que le Nord-Pas-de-Calais. De plus, on remarque que la Corse est une région essentiellement tertiaire tandis que le Nord-Pasde-Calais est plutôt une région ouvrière. Les parts d agriculteurs et de retraités sont très proches pour ces deux régions. Le taux de chômage ainsi que la part de la population couverte par le RMI sont plus élevés pour la Corse tandis que le taux d activité est plus élevé dans la région Nord-Pas-de-Calais. Ce dernier constat est assez étonnant dans la mesure où le taux de création d entreprises est plus élevé en Corse. Ce résultat pourrait peut-être s expliquer par un taux de défaillance d entreprises plus important en Corse. Finalement, ces deux régions s opposent non seulement géographiquement mais également sur des critères de population et de structure d emplois dans la population active. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 17

IV.2) STAT (Elementary Statistics on Symbolic Objects) a) Présentation de la méthode Cette méthode permet d appliquer des méthodes «classiques» à des données symboliques représentées par leurs descriptions. Cette méthode dépend du type de la variable étudiée : - les fréquences relatives pour les variables multimodales - les fréquences relatives pour les variables intervalles - les capacités et min/max/moyenne pour les variables multimodales probabilistes - biplot pour les variables intervalles Selon le choix de l utilisateur, la sortie se fait sous forme de listing ou de graphique. b) Application de la méthode La méthode construit un histogramme pour la variable choisie sur un intervalle [a,b] (où a correspond à la borne inférieure de la variable et b à la borne supérieure) de la manière suivante : - l intervalle [a,b] est découpé en k classes de longueurs identiques, où k est défini a priori par l utilisateur - le calcul de la fréquence relative associée à la classe Ck tient compte du «recouvrement» de la classe Ck par les valeurs intervalle de la variable sur chaque objet symbolique. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 18

Voici les principaux résultats graphiques de cette méthode : Ces histogrammes permettent de mettre en évidence les oppositions entre les régions rurales (Auvergne, Midi-Pyrénées) et les régions plus riches comme l Ile-de-France. En effet, on remarque que l Ile-de-France présente un revenu imposable net par foyer fiscal et une part de cadres dans la population active 3 fois supérieurs à ceux des régions Auvergne et Midi-Pyrénées plus agricoles et où la part de retraités est plus élevée. Les taux d activité de ces trois régions sont très proches mais la répartition des emplois dans la population active est très différente ce qui explique les écarts de richesse constatés. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 19

Ces deux histogrammes illustrent la répartition des deux variables continues : taux de chômage et part de retraités dans la population. Dans notre cas, ces deux variables sont découpées en 10 classes (choix arbitraire). En abscisses, figurent les valeurs de ces deux taux (en pourcentage) tandis qu en ordonnées on trouve les fréquences relatives associées aux deux variables. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 20

Sortie listing pour la variable part de la population dans les communes de montagne (en 5 classes) : ------------------------------------------------------------------------------- SODAS - STAT RELATIVE FREQUENCIES (INTERVAL) File: DEPART~1.SDS Title: departements.sds ------------------------------------------------------------------------------- Part_pop_communes_montagne limits: 0.0-99.5 class width: 19.9 class 1 0.6675 class 2 0.1676 class 3 0.0716 class 4 0.0530 class 5 0.0404 Central tendancy: 22.5101 Dispersion: 21.6023 Pour les variables multimodales, la méthode STAT construit d une part un histogramme des capacités des différentes modalités prises par une variable donnée et d autre part un histogramme présentant la probabilité minimum, la probabilité maximale et la probabilité moyenne prise par chaque modalité. Notons que dans notre base de données, nous n avions pas de variable multi modalités ; nous en avons donc construit une «artificiellement» en découpant la population en 5 classes selon des bornes que nous avons définies arbitrairement. Sortie listing pour la variable population modifiée avec un découpage en 5 classes : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 21

------------------------------------------------------------------------------- SODAS - STAT CAPACITIES File: DEPART~1.SDS Title: departements.sds ------------------------------------------------------------------------------- capa mini maxi mean pop_groupe AC01 Entre_500000-1M_dhab. 1.0000 0.0000 1.0000 0.3140 AC02 Moins_de_500000_hab. 1.0000 0.0000 1.0000 0.4879 AC03 1M-1,5M_dhab. 0.9952 0.0000 0.8750 0.1564 AC04 1,5M-2M_dhab. 0.2708 0.0000 0.1667 0.0133 AC05 Plus_de_2millions_dhab. 0.5625 0.0000 0.5000 0.0284 Sortie graphique associée: On peut donc observer que la probabilité moyenne des 5 classes est la plus élevée pour la classe population inférieure à 500 000 habitants (en réalité, c est la classe qui comporte le plus d individus). En revanche, la classe dont la probabilité moyenne est la plus faible est la classe 1,5-2 millions d habitants, dont on peut déduire que l effectif est faible. Graphiques Bi plot : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 22

Ce premier graphique Biplot croise la variable taux d activité et le taux de chômage pour 4 régions sélectionnées. Graphiquement, il est aisé de constater que : - la Corse se caractérise par un taux de chômage élevé associé à un taux d activité très faible - le Limousin, la Picardie et l Ile de France sont 3 régions où le taux d activité est assez élevé - la région Limousin a un taux de chômage plus faible que la région Picardie - l Ile de France est une région assez particulière dans le sens où il y a une forte disparité pour les deux variables étudiées puisque l aire du carré est la plus élevée des 4 régions étudiées (on peut penser que certains départements à l intérieur de la région ont des taux de chômage élevés) - la région Limousin a un taux de chômage plus faible que la région Picardie Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 23

Ce premier graphique Biplot croise la variable taux d activité et le taux de chômage pour 4 régions sélectionnées. Graphiquement, il est aisé de constater que : - la Corse se caractérise par un taux de chômage élevé associé à un taux d activité très faible - le Limousin, la Picardie et l Ile de France sont 3 régions où le taux d activité est assez élevé - la région Limousin a un taux de chômage plus faible que la région Picardie - l Ile de France est une région assez particulière dans le sens où il y a une forte disparité pour les deux variables étudiées puisque l aire du carré est la plus élevée des 4 régions étudiées (on peut penser que certains départements à l intérieur de la région ont des taux de chômage élevés) - la région Limousin a un taux de chômage plus faible que la région Picardie Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 24

De la même manière ce second graphique Biplot croise la variable taux de chômage avec la part de retraités dans la population. Ainsi, on peut remarquer que : - l Ile de France, le Nord Pas de Calais et l Alsace sont 3 régions où la part de retraités est assez faible contrairement aux régions Poitou Charentes et Limousin où celle-ci est assez élevée - il existe une forte disparité du taux de chômage en Ile de France (la hauteur du rectangle est la plus élevée de toutes les régions) - Le Nord Pas de Calais et l Alsace s opposent sur l axe taux de chômage puisque l Alsace est caractérisée par un taux de chômage plutôt faible alors que pour le Nord le taux de chômage est élevé - Le Poitou Charentes et le Limousin sont deux régions similaires en termes de taux de chômage et part de retraités dans la population Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 25

IV.3) DIV (Divisive Clustering on Symbolic Objects) a) Présentation de la méthode C est une méthode d échantillonnage hiérarchique qui permet de faire un partitionnement en un nombre de classes fixé a priori. Il est nécessaire de choisir des variables d échantillonnage soit qualitatives, soit quantitatives, mais jamais les deux simultanément. A chaque étape, une classe est subdivisée en deux sous-classes suivant une question binaire, ce qui permet d obtenir un partitionnement optimal, conformément au critère d inertie (maximisation de la variance interclasse et minimisation de la variance intraclasse). L algorithme de partitionnement se stoppe au bout de K-1 subdivisions où K est le nombre de classes fixé a priori. L application de cette méthode donne les résultats suivants : b) Application de la méthode PARTITION IN 6 CLUSTERS: -------------------------: Cluster 1 (n=2): Limousin Corse Cluster 2 (n=2) : Île-de-France Nord - Pas-de-Calais Cluster 3 (n=5) : Midi-Pyrénées Languedoc-Roussillon Aquitaine Pays de la Loire Lorraine Cluster 4 (n=2) : Rhône-Alpes PACA Cluster 5 (n=4) : Picardie Alsace Bretagne Haute-Normandie Cluster 6 (n=7) : Auvergne Champagne-Ardenne Basse-Normandie Poitou-Charentes Centre Bourgogne Franche-Comté Explicated inertia: 94.765260 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 26

DESCRIPTION OF THE CLUSTERS: -------------------------- Cluster 1: IF 5- [population <= 278713.500000] IS TRUE AND 2- [population <= 477781.750000] IS TRUE AND 1- [population <= 911255.750000] IS TRUE Cluster 2: IF 3- [Part_indépendants_pop_active <= 6.450000] IS TRUE AND 1- [population <= 911255.750000] IS FALSE Cluster 3: IF 4- [Revenu_net_imposable_foyer_fiscal <= 92.375000] IS TRUE AND 2- [population <= 477781.750000] IS FALSE AND 1- [population <= 911255.750000] IS TRUE Cluster 4: IF 3- [Part_indépendants_pop_active <= 6.450000] IS FALSE AND 1- [population <= 911255.750000] IS FALSE Cluster 5: IF 4- [Revenu_net_imposable_foyer_fiscal <= 92.375000] IS FALSE AND 2- [population <= 477781.750000] IS FALSE AND 1- [population <= 911255.750000] IS TRUE Cluster 6: IF 5- [population <= 278713.500000] IS FALSE AND 2- [population <= 477781.750000] IS TRUE AND 1- [population <= 911255.750000] IS TRUE THE CLUSTERING TREE: --------------------- - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 27

+---- Classe 1 (Ng=2)!!----5- [population <= 278713.500000]!!! +---- Classe 6 (Nd=7)!!----2- [population <= 477781.750000]!!!! +---- Classe 3 (Ng=5)!!!!!----4- [Revenu_net_imposable_foyer_fiscal <= 92.375000]!!! +---- Classe 5 (Nd=4)!!----1- [population <= 911255.750000]!! +---- Classe 2 (Ng=2)!!!----3- [Part_indépendants_pop_active <= 6.450000]! +---- Classe 4 (Nd=2) NAME OF INTERNAL VT0 FILE: C:\Program Files\DECISIA\SODAS version 2.0\filieres\GJKQXG01.vt0 ------- END OF PROGRAM DIV --------- On peut donc constater que : - la classe 1 est composée de 2 régions dont le nombre d habitants est relativement faible : Limousin et Corse - la classe 2 est composée de 2 régions où le nombre d habitants est élevé et où la part d indépendants dans la population active est plutôt faible : Ile de France et Nord - la classe 3 est composée de 5 régions - la classe 4 est composée de 2 régions : Rhône Alpes et PACA où la part d indépendants est assez élevée (critères opposés de la classe 2) - les classes 5 et 6 sont respectivement constituées de 4 et 7 régions Pour avoir plus d informations sur les critères d affectation d une classe ou d une autre, il faut se reporter à la sortie listing de SODAS qui est plus détaillée. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 28

IV.4) TREE (Decision Tree) a) Présentation de la méthode Cette méthode propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en paramètre. Notons qu avant d exécuter cette méthode il est nécessaire de choisir la variable d identification des différentes classes (à l aide d Add-Single Value sous DB2SO) et de choisir les variables prédictives. En sortie, on obtient une nouvelle liste d objets symboliques qui permet d assigner de nouveaux objets à une classe de la partition déjà connue. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 29

IV.5) HYPYR (Pyramidal Clustering on Symbolic Objects) b) Présentation de la méthode Cette méthode est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intension de la classe). L intension est héritée d un prédécesseur par son successeur et nous obtenons ainsi une structure d héritage. La structure pyramidale permet l identification de concepts intermédiaires qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues, des intervalles ou bien des histogrammes. L utilisateur a également la possibilité d utiliser simultanément des variables quantitatives et qualitatives. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 30

c) Application de la méthode On remarque que la Corse et la région PACA se situent dans la même classe. Elles sont effet géographiquement proches mais présentent aussi des ressemblances dans la structure des emplois dans la population active (avec des parts d employés et des taux de chômage assez élevés). La Champagne-Ardenne et la Bourgogne qui sont des régions plutôt agricoles sont aussi situées dans la même classe. On constate également que les régions Ile-de-France et Rhône-Alpes sont dans la même classe. Ils présentent des taux d activité comparables. Dans la méthode HIPYR de SODAS, on peut également éditer le dendrogramme des régions présenté ci-dessous : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 31

Comme dans pour la pyramide précédente, on remarque que la Corse et la région PACA sont situées dans la même classe pour les mêmes raisons qui ont été citées précédemment. classe. Le Limousin et l Auvergne qui sont des régions plutôt agricoles sont aussi situés dans la même En revanche, contrairement au cas de la pyramide, l Ile-de-France est très éloignée des autres régions et notamment de la Haute-Normandie. Ce résultat s explique surtout par les critères de richesse économique (le revenu net imposable est maximal en l Ile-de-France). Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 32

V Résumé des résultats obtenus Les principales «pépites» que l on peut tirer de notre projet sont les suivantes : L Île-de-France présente un niveau de richesse plus élevé que dans les autres départements. Sa population est plutôt jeune, à dominante urbaine. La situation de l emploi est meilleure que dans les autres régions. Le taux d activité est très élevé même s il subsiste un taux de chômage assez élevé. Celui-ci peut certainement s expliquer par des inégalités existantes dans les départements qui composent cette région (exemple : Seine Saint Denis / Paris). La région Ile-de-France s oppose à des régions plus agricoles comme le Limousin, l Auvergne ou le Midi-Pyrénées dont la population est à dominante rurale, plutôt âgée vivant dans des communes de montagne avec un niveau de revenu plus faible. Les régions françaises se ressemblent ou s opposent sur la répartition des emplois dans la population active. Le Midi-Pyrénées et les régions du Sud-est présentent une activité agricole très importante qui est quasi nulle en Ile-de-France mais où la part de cadres est très importante. D autres régions comme la Bourgogne ou la Basse Normandie présentent une activité industrielle très importante. On peut aussi évoquer la spécificité des régions PACA et Corse qui se distinguent des autres régions. Contrairement à l Ile-de-France, la situation vis-à-vis de l emploi est très difficile dans ces régions. Elles présentent des taux de chômage et des parts de population couverte par le RMI très élevées à la différence des autres départements. De plus, leur activité économique est essentiellement tertiaire. L Ile de France et le Nord Pas de Calais sont des régions particulières puisqu elles se «ressemblent» sur des critères démographiques (population, part de retraités, de plus de 20 ans, ) mais «s opposent» sur des critères économiques (taux d activité, part de cadres dans la population active, ). Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 33

VI Conclusion Ce projet nous a permis de voir les ressemblances et différences entre les régions françaises principalement sur des critères géographiques, de richesse, de population ou encore de répartition des emplois dans la population active. La typologie que l on peut dresser à la fin de ce projet est : L Ile-de-France s oppose aux régions du Limousin, Midi-Pyrénées sur des critères de richesse et de type d emploi plus tertiaire et industrielle pour le premier et plus agricole pour les seconds. Ils s opposent aussi sur des critères démographiques et de lieu d habitat puisque la population de l Ile-de-France est plus jeune et urbaine tandis que la population du Limousin est plus âgée et rurale et les retraités représentent une part importante. Enfin, les régions PACA et Corse sont atypiques par rapport aux autres régions qui s expliquent par une situation difficile vis-à-vis de l emploi marquée par un taux d activité faible et donc un taux de chômage particulièrement élevé. L Ile-de-France présente aussi un taux de chômage élevé mais est «compensé» par un taux d activité plus élevé. Les résultats obtenus à l aide du logiciel SODAS basés sur l étude des concepts (régions) sont similaires à ceux obtenus par le logiciel SPAD sur les individus (départements). En effet, les résultats fournis par le logiciel SPAD en faisant une ACP sont : L axe 1 a permis de classer les départements métropolitains selon leur niveau de richesse. Nos analyses nous ont permis de dire que les départements les plus riches se situent dans la région parisienne. Ils s opposent aux départements les moins riches, plus agricoles avec une part de retraités importante dont font partie la Creuse, la Lozère, le Cantal et la Haute Corse. L axe 2 a permis de mettre en évidence la spécificité des départements de la Méditerranée en termes d emploi marqués par un taux de chômage et un taux de RMIstes supérieurs à la moyenne et atteignant leur maximum dans les départements des Bouches-du-Rhône et du Gard. L axe 3 a permis d opposer les départements du Nord de France marqués par une activité industrielle importante à Paris et aux Hauts de Seine présentant une part de cadres et de professions intermédiaires supérieurs aux moyennes nationales. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 34

Enfin, l axe 4 a permis d affiner l analyse des départements de L Ile-de-France. En effet, Il sépare Paris et les Hauts de Seine des autres départements de la région parisienne plutôt associés à d autres départements, qui ont aussi un niveau de richesse important mais n ont pas une structure socio-démographique plus marquée. Ce projet nous a paru très intéressant dans la mesure où il nous a permis d appliquer de manière concrète les méthodes de datamining ainsi que de connaître un nouveau logiciel d analyse de données symboliques. SODAS est un logiciel très facile à utiliser et présente une interface graphique très claire. Il donne très rapidement des résultats sous forme de listing et/ou graphiques facilement interprétables. Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 35

Bibliographie SAPORTA Gilbert : Datamining : une nouvelle version façon de faire de la statistique? http://data.mining.free.fr/ http://www.ultra-fluide.com/ressources/datamining/presentation.htm FRODEAU Christine : Datamining, outil de prédiction du comportement du consommateur http://www.creg.ac-versailles.fr/spip.php?article55 Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 36

Annexes Listing des concepts et individus Nos concepts sont : - Alsace - Aquitaine - Auvergne - Basse-Normandie - Bourgogne - Bretagne - Centre - Champagne-Ardenne - Corse - Franche-Comté - Haute-Normandie - Ile de France - Languedoc-Roussillon - Limousin - Lorraine - Midi-Pyrénées - Nord-Pas-de-Calais - PACA - Pays de la Loire - Picardie - Poitou-Charentes - Rhône-Alpes Nos individus sont : Projet de Datamining Supervisé (SODAS) : Analyse des régions françaises 37

- 01 Ain - 02 Aisne - 03 Allier - 04 Alpes-de-Haute- Provence - 05 Hautes-Alpes - 06 Alpes-Maritimes - 07 Ardèche - 08 Ardennes - 09 Ariège - 10 Aube - 11 Aude - 12 Aveyron - 13 Bouches-du- Rhône - 14 Calvados - 15 Cantal - 16 Charente - 17 Charente- Maritime - 18 Cher - 19 Corrèze - 2A Corse-du-Sud - 2B Haute-Corse - 21 Côte-d'Or - 22 Côtes-d'Armor - 23 Creuse - 24 Dordogne - 32 Gers - 33 Gironde - 34 Hérault - 35 Ille-et-Vilaine - 36 Indre - 37 Indre-et-Loire - 38 Isère - 39 Jura - 40 Landes - 41 Loir-et-Cher - 42 Loire - 43 Haute-Loire - 44 Loire-Atlantique - 45 Loiret - 46 Lot - 47 Lot-et-Garonne - 48 Lozère - 49 Maine-et-Loire - 50 Manche - 51 Marne - 52 Haute-Marne - 53 Mayenne - 54 Meurthe-et- Moselle - 55 Meuse - 56 Morbihan - 64 Pyrénées- Atlantiques - 65 Hautes-Pyrénées - 66 Pyrénées- Orientales - 67 Bas-Rhin - 68 Haut-Rhin - 69 Rhône - 70 Haute-Saône - 71 Saône-et-Loire - 72 Sarthe - 73 Savoie - 74 Haute-Savoie - 75 Paris - 76 Seine-Maritime - 77 Seine-et-Marne - 78 Yvelines - 79 Deux-Sèvres - 80 Somme - 81 Tarn - 82 Tarn-et-Garonne - 83 Var - 84 Vaucluse - 85 Vendée - 86 Vienne - 87 Haute-Vienne - 88 Vosges - 25 Doubs - 26 Drôme - 27 Eure - 28 Eure-et-Loir - 29 Finistère - 30 Gard - 31 Haute-Garonne - 57 Moselle - 58 Nièvre - 59 Nord - 60 Oise - 61 Orne - 62 Pas-de-Calais - 63 Puy-de-Dôme - 89 Yonne - 90 Territoire de Belfort - 91 Essonne - 92 Hauts-de-Seine - 93 Seine-Saint- Denis - 94 Val-de-Marne - 95 Val-d'Oise