Classification de variables

Documents pareils
Annexes. Sources et concepts. Le zonage en zones d emploi 2010

La classification automatique de données quantitatives

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Les déplacements dans la Haute-Marne

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Algorithmique et structures de données I

Projet de Traitement du Signal Segmentation d images SAR

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Arbres binaires de décision

DUT Statistique et Traitement Informatique des Données (S.T.I.D.)

Statistiques Descriptives à une dimension

Les Différents types de Requêtes dans Access

Séance 11 : Typologies

Le management des risques de l entreprise Cadre de Référence. Synthèse

Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Théorie et codage de l information

UN NOUVEAU MODÈLE ÉCONOMIQUE. pour développer et pérenniser les centres de santé

Contenu du fichier Base Permanente des Equipements Fichier Ensemble

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

GARANTIES. Étudiants NOUS NOUS ENGAGEONS À ÊTRE PLUS QU UNE MUTUELLE

CH.6 Propriétés des langages non contextuels

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Dossier de presse 2013

CARTE BLANCHE, Le meilleur pour votre santé ASSURES1

La Base Permanente des Équipements

ESIEA PARIS

Le risque Idiosyncrasique

Résolution de systèmes linéaires par des méthodes directes

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

L exclusion mutuelle distribuée

1 Introduction C+ + Algorithm e. languag. Algorigramm. machine binaire. 1-1 Chaîne de développement. Séance n 4

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

ACP Voitures 1- Méthode

Principe d un test statistique

Swiss santé, les formules principales

Charte de l Evaluation des Formations par les étudiants

LOGICIELS DE PRÉVISIONS

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Bases de données documentaires et distribuées Cours NFE04

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

Épreuve collaborative

23. Interprétation clinique des mesures de l effet traitement

Jean-Philippe Préaux

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

1 Imputation par la moyenne

L'aide à la souscription d'une assurance en responsabilité civile professionnelle

Contenu du fichier Base Permanente des Équipements Fichier Ensemble

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Fiche d animation n 1 : Pêle-mêle

Programmation linéaire

DOSSIER DE PRESSE OUVERTURE DU NOUVEL HOPITAL DE CANNES. Service Communication Tel Fax a.helbert@ch-cannes.

Programmation Linéaire - Cours 1

Lire ; Compter ; Tester... avec R

Annexe 6 : Données statistiques

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

STATISTIQUES. UE Modélisation pour la biologie

Leçon 12. Le tableau de bord de la gestion des stocks

PARTENAIRES SPVIE SANTE T.N.S. Brochure

PERSONNEL RETRAITE AYANT UNE ACTIVITE BENEVOLE A L UNIVERSITE PIERRE ET MARIE CURIE

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Qu est-ce qu un outil de travail collaboratif Google Drive?

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Séries Statistiques Simples

«Cours Statistique et logiciel R»

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Cours d Informatique

INTRODUCTION AU DATA MINING

NOUVEAU DISPOSITIF REGLEMENTAIRE Les ERP

MICHEL ET AUGUSTIN DOSSIER 1 : Conquérir un nouveau secteur géographique

Business Model Generation

Algèbre binaire et Circuits logiques ( )

Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.

I La théorie de l arbitrage fiscal de la dette (8 points)

Base Permanente des Equipements Année 2007 Composition des gammes d'équipements

Conception de circuits numériques et architecture des ordinateurs

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Les pôles commerciaux et leurs magasins

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Chapitre 3. Les distributions à deux variables

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes.

Algorithmique avec Algobox

Irrigation Marketing. >1 : Un nouveau concept : l irrigation marketing

DEMANDE D INFORMATION RFI (Request for information)

GUIDE COMPLET APP STORE OPTIMIZATION. Comment bien référencer son application dans les stores?

Programme d Accueil des Etudiants Internationaux Stages Hospitaliers

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

La place de SAS dans l'informatique décisionnelle

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

DEFINTIONS ET FORMULES

Transcription:

Classification de variables Application à la Base Permanente des Équipements de 2007 Brigitte GELEIN (Ensai), Olivier SAUTORY (Cepe) 1

La classification de variables - pourquoi? Description d'un ensemble de variables Identifier des groupes de variables bien corrélées Regrouper ces variables par un algorithme automatique, et non par un procédé "visuel" = complément de l ACP Réduction du nombre de variables Représenter chaque classe par une nouvelle variable synthétique ou par celle des variables analysées qui représente le mieux les classes (sélection de variables). 2

La classification de variables - comment? Il existe des algorithmes de classification : Ascendants Descendants De partitionnement direct Toutes ces méthodes sont fondées sur la notion de corrélation Dans le cas des algorithmes ascendants, on définit une mesure de dissimilarité, par exemple : 1 r ou 1 r ou 1 r 2 en notant r le coefficient de corrélation linéaire. 3

Proc VARCLUS de SAS La méthode Caractéristiques de la méthode : Une méthode descendante, fondée sur un critère de division d'un groupe de variables en deux classes. Les variables peuvent être numériques ou binaires. Chaque classe est représentée par une combinaison linéaire des variables de la classe, appelée composante, On maximise la somme, sur l'ensemble des classes de la partition, des variances de ces composantes. 4

Proc VARCLUS de SAS La méthode Classe 1 : J variables Classe 1 pas assez homogène : division Classe 1.1 : J1 variables Classe 1.2 : J2 variables Classe 1.1 assez homogène : pas de division Classe 1.2 pas assez homogène : division L'algorithme s'arrête si aucune classe ne peut être divisée => une partition de l'ensemble des variables en un nombre K de classes disjointes. 5

Proc VARCLUS de SAS La méthode Les partitions peuvent être : emboîtées (option hierarchy) => arbre ou non (option par défaut) La méthode met en œuvre des analyses en composantes principales (ACP) sur des groupes de variables : réduites (option par défaut) ou non (option covariance) 6

Proc VARCLUS de SAS Caractéristiques d une classe Une classe composée des variables Y j est représentée par une composante notée C = combinaison linéaire des variables : C est la 1 ère composante principale des variables Y j (option par défaut), C est la moyenne arithmétique des Y j (option centroid). 7

Proc VARCLUS de SAS Division d une classe Une classe est divisée en deux si elle n est pas suffisamment homogène : si la composante représentant la classe ne "résume" pas elle seule l'ensemble des variables de la classe, au sens d'un certain critère. => Une deuxième composante est nécessaire pour représenter les variables de la classe, qui doit donc être divisée en deux. 8

Proc VARCLUS de SAS Division d une classe Premier critère possible pour décider de diviser ou non une classe : diviser la classe en deux si sa 2 ème valeur propre est supérieure à un certain seuil λ => critère λ (λ =1 par défaut Kaiser ) 9

Proc VARCLUS de SAS Division d une classe Deuxième critère possible pour décider de diviser ou non une classe : diviser la classe en deux si le ratio : variance expliquée par la composante C variance de la classe est inférieur à un certain seuil p Où la variance de la classe est égale à la somme des variances des variables => critère p (p=75% par défaut) 10

Proc VARCLUS de SAS Division d une classe Le choix de la classe à diviser dépend du critère de division utilisé : avec le critère λ, on sélectionne la classe ayant la plus forte deuxième valeur propre λ2. Si λ2 λ, l'algorithme s'arrête, sinon, la classe est divisée avec le critère p : on sélectionne la classe ayant la plus petite part de variance expliquée par sa composante. Si Var Composante / Var Classe > p l'algorithme s'arrête, sinon, la classe est divisée. 11

Proc VARCLUS de SAS Division d une classe Initialisation du processus de division de la classe : On réalise une analyse en composantes principales (ACP) sur les variables de la classe à diviser. On effectue sur les deux premières composantes principales une rotation orthoblique : => obtenir deux nouvelles composantes plus facilement interprétables en fonction des variables initiales, car mieux corrélées (en valeur absolue) avec certaines de ces variables. 12

Proc VARCLUS de SAS Affectation des variables L'affectation des variables dans les classes : 1 ère phase : NCS (nearest component sorting) 1. Chaque variable est affectée à la classe dont la composante est la plus corrélée avec la variable (au sens du carré du coefficient de corrélation linéaire r 2 ). 2. On calcule la composante de chacune des nouvelles classes ainsi constituées, et on réaffecte chaque variable à la classe dont la composante est la plus corrélée avec la variable (au sens du r 2 ). 3. Le processus est itéré jusqu'à ce que la composition des classes ne varie plus. 13

Proc VARCLUS de SAS Affectation des variables 2 ème phase : Search À l'issue de la 1 ère phase, on teste chaque variable pour voir si l'affectation de cette variable à une autre classe augmente la variance expliquée par la partition. Si c'est le cas, on change donc la variable de classe, la composante de chacune des deux classes concernées par le transfert est recalculée avant le test de la variable suivante. Avec l'option hierarchy, ces deux phases d affectation ne concernent que les variables des nouvelles classes 14

Application à la Base Permanente des Équipements L accès aux équipements et aux services constitue une problématique importante pour les acteurs locaux : l attractivité d un territoire. On peut décrire les communes avec des variables binaires de présence-absence des différents équipements. On peut décrire les communes avec des variables quantitatives représentant le temps nécessaire pour accéder aux équipements les plus proches. 15

Application à la Base Permanente des Équipements Construite à l aide de la BPE de 2007, la table utilisée comporte : en ligne les communes (36 000 environ) traitées comme unités statistiques en colonne les équipements (plus de 120 catégories d équipements) traités comme des variables qualitatives binaires (présence de l équipement modalité = 1 ou absence modalité = 0) Recours à la classification de variables pour réduire le nombre de descripteurs de nos communes, repérer des grands groupes d équipements. 16

Application à la Base Permanente des Équipements Choix d une structure hiérarchique car : en termes de variance expliquée totale les performance de l algorithme non hiérarchique étaient très proches de celles de l algorithme hiérarchique. la création de gammes d équipements s apparente à celle d une nomenclature. Or, dans le domaine des nomenclatures, on peut souhaiter disposer de plusieurs niveaux de détails. Les différents niveaux sont alors imbriqués les uns dans les autres de façon hiérarchique. Toutes les autres options de VARCLUS par défaut 17

Application à la Base Permanente des Équipements L algorithme de classification descendante hiérarchique s arrête de lui-même à 13 classes d équipements. Dans une logique de réduction de dimensions, on retiendrait ces 13 classes : chaque classe étant bien représentée par une seule variable synthétique (la première composante). Dans l optique de description, on souhaite un résumé un peu plus synthétique de la réalité avec un niveau de division moindre. On accepte donc que les classes de variables ne soient pas forcément unidimensionnelles => 4 classes 18

en 4 classes Coupure en 4 classes Cluster Members Cluster Summary for 4 Clusters Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 47 47 22.12561 0.4708 1.5126 2 30 30 16.02305 0.5341 1.1133 3 23 23 8.238803 0.3582 1.2973 4 22 22 10.838 0.4926 1.1814 ri e bri col 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0 ion of Variance Expl ai ned Proportion de variance expliquée 19

Application à la Base Permanente des Équipements Gamme «proximité» Gamme «intermédiaire» Boulangerie Ecole de conduite Bureau de poste Vétérinaire Banque caisse Blanchisserie teinturerie d épargne Supermarché Coiffure Magasin de chaussures Boucherie charcuterie Collège Médecin omnipraticien Orthophoniste Chirurgien dentiste Pédicure-podologue Masseur kiné. Laboratoire d analyses Pharmacie médicales 20

Application à la Base Permanente des Équipements Gamme «supérieure» Gamme «métropolitaine» Spécialistes en : Formation commerce Cardiologie UFR Dermatologie - vénérologie Institut universitaire Gastro-entérologie Autre enseignement Ophtalmologie supérieur Oto-rhino-laryngologie Résidence universitaire Radio Imagerie médicale Restaurant universitaire Pédiatrie Lycée d enseignement : général et/ou technologique professionnel 21

Application à la Base Permanente des Équipements Population totale 2006 Pearson Correlation Coefficients RV Coefficients Classe Classe Classe Classe Proximité Intermédiaire Supérieure Métropolitaine 0.35 0.51 0.72 0.80 0.12 0.27 0.52 0.62 Le niveau commune peut bien sûr faire l objet d une discussion. On pourrait également exclure de l analyse certains équipements trop atypiques et les traiter en éléments supplémentaires. 22

Application à la Base Permanente des Équipements L algorithme divisif de la procédure varclus pour: s affranchir des limites en capacités de calcul inhérentes aux algorithmes ascendants. avoir une aide à la décision quant au choix du nombre de classes Un grand MERCI à Suzanne Faudon (PSAR Analyse Territoriale) Christophe Barret (PSAR Analyse Territoriale) Cyrille Van Puymbroeck (PSAR Synthèses locales) 23