Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston. 2011-2012 LACHAAL Rafik

Documents pareils
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les durées d emprunts s allongent pour les plus jeunes

Marché de l occasion et exigences de rénovation énergétique. Rencontre de l Observatoire 21 mai 2015

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

LES RETOMBÉES ÉCONOMIQUES DE LA PÊCHE DE LOISIRS DANS LE SECTEUR DU LAC DU BOURGET. Restitution - 13 octobre 2014

ESIEA PARIS

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

L emploi lié au tourisme dans le Territoire de Belfort

CENSI BOUVARD. Residhome Apparthotel Paris Nanterre. Nanterre (92)

Lambotte J.-M. Géographe-Urbaniste. Chercheur au Lepur ULg. Semaine Universitaire Luxembourgeoise de l'environnement - Libramont

CAC, DAX ou DJ : lequel choisir?

Bellevue - Chantenay - Sainte-Anne

Statistique : Résumé de cours et méthodes

Construction d un cercle tangent à deux cercles donnés.

Une révolution dans les domaines de l énergie et de l emploi

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

LES CROYANCES LIMITANTES

SIGAFINANCE. Quoi de neuf et correctifs Version (20 février 2015)

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

TABLE DES MATIERES MENTIONS LEGALES QUI SUIS-JE? INTRODUCTION LES INDICATEURS DE LA STRATEGIE REGLES D ENTREE EN POSITION

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Analyse et interprétation des données

1 Complément sur la projection du nuage des individus

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Étude sur la compétitivité des administrations cantonales

Atlas géographique de l Internet fixe et mobile en Nouvelle-Calédonie Juin Réalisé par Malcolm XENIE

La classification automatique de données quantitatives

URBAIN-RURAL : DE QUOI PARLE-T-ON?

Guide sur les mutuelles de formation. Règlement sur les mutuelles de formation

UNE MEILLEURE CROISSANCE, UN MEILLEUR CLIMAT

Guide d utilisation des fichiers bonus accompagnant le guide «L Argent est une science exacte»

TP : Gestion d une image au format PGM

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Les principales méthodes d évaluation

Correo de Tarija n 6

Rosemont- La Petite-Patrie. Îlots de chaleur urbains. Tout. savoir! ce qu il faut

Relation entre deux variables : estimation de la corrélation linéaire

Extraction d informations stratégiques par Analyse en Composantes Principales

Niveau de scolarité et emploi : le Canada dans un contexte international

Présentation des termes et ratios financiers utilisés

Notice d utilisation

ETUDE COMPARATIVE INVESTISSEMENT IMMOBILIER LOGEMENTS / COMMERCES / BUREAUX

Traitement des données avec Microsoft EXCEL 2010

E - R E P U TAT I O N D E S I N D I V I D U S ( P E R S O N A L B R A N D I N G )

L endettement privé des ménages début 2010

Définition d un Template

Intervenant : Séverin Poutrel, BURGEAP

Vision stratégique du développement culturel, économique, environnemental et social du territoire

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

Portrait statistique de la population de représentant en épargne collective au Québec

jçíçêáë~íáçå=éí=ãçäáäáí =W=ÇÉë= ÅçãéçêíÉãÉåíë=éäìë=ê~íáçååÉäë=\==

CONTRAT DE PRESENCE POSTALE TERRITORIALE

L état de la pauvreté en France

Au-delà du commerce lui-même, l'urbanisme

Les Français et le chauffage. Résultats de l étude menée

Chapitre 6 La lumière des étoiles Physique

Comment participer aux ventes Online?

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

L évolution des parts modales des déplacements domicile-travail

Energie et morphologie : vers la perdurabilité de la forme urbaine? Généralités et transports. Luc Adolphe

COMMENTAIRE. Services économiques TD

Note de présentation du projet de loi n relative aux mines

Construire un tableau de bord par Marc Maisonneuve

Evolution des risques sur les crédits à l habitat

Pierre Marchand Consultant

Quelques éléments de compilation en C et makefiles

PRIORITÉS POUR LE BUDGET FÉDÉRAL DE 2012

Cours de numérisation sur Epson Perfection

Introduction des. comptes d épargne libre d impôt

MÉTHODOLOGIE POUR LE CALCUL DE L AMORTISSEMENT ET DE LA VALEUR DU STOCK NET DOMICILIAIRE DIVISION DE L INVESTISSEMENT ET DU STOCK DE CAPITAL

Interpréter correctement l évolution de la part salariale.

Analyse en Composantes Principales

GUIDE CONSO-CITOYEN : LES ESPÈCES PROFONDES

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Conseil économique et social

Les investissements internationaux

Simulation EIS. Changement et Innovation. Les Défis du Management

FICHE SIGNALETIQUE. Cœur de Flandre. 1. Profil Territoire. 2 Profil Fiscal

Maps Tableau de bord avec MindManager et Power Markers

Étude sur la localisation et la densité de 4 professions de santé : médecins généralistes libéraux infirmiers libéraux chirurgiens dentistes libéraux

Introduction à l enquête 2012 «Organisation fonctionnelle des équipes». ADBU

Circulaire du 7 juillet 2009

Quelle qualité de l air au volant? Premiers éléments de réponse en Ile-de-France

Nous sommes là pour vous aider COLLECTIVITES & ENTREPRISES DOSSIER DE DEMANDE DE SUBVENTION APPEL A PROJET

IN SYSTEM. Préconisations techniques pour Sage 100 Windows, MAC/OS, et pour Sage 100 pour SQL Server V16. Objectif :

Calcul des coûts Information aux enseignants

Les actifs financiers les plus couramment

LIVRE BLANC Décembre 2014

MANDAT DE GESTION ISF 2015

Méthodes de la gestion indicielle

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Le contexte global. La ressource. I.1 Particularités de la ressource en eau. Superficie : Km 2

Fonds d investissement Tangerine

Comprendre le financement des placements par emprunt. Prêts placement

PARC DES EXPOSITIONS de la Porte de Versailles

Utilisation de l automatisation du marketing pour augmenter le retour sur investissement du CRM

Infolettre #18 : Les graphiques avec Excel 2010

Optimisation du retour sur investissement de Microsoft Dynamics CRM grâce à l automatisation du marketing

Transcription:

Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston 2011-2012 LACHAAL Rafik

I. Introduction Les données choisis concernent les logements en banlieue de Boston. Celle-ci date de1993 et provienne de la libraire de statistique de l université de Carnegie Mellon. Le tableau de données de départ est constitué de 506 individus, qui représentent des quartiers ou des lotissements en Banlieue de Boston. Le nombre d individus est suffisamment grand pour donner lieu à une étude statistique proche de la réalité. En ce qui concerne les variables, elles sont au nombre de 14, mais l une d elle est binaire (affiche 1 si le lotissement est bordé par un coure d eau et 0 autrement). Elle n est donc pas quantitative et a était supprimé à l aide d Excel. Nous sommes donc ramenées aux 13 variables suivantes : CRIM : Taux de criminalité par ville GrdTerResSup : Proportion de zones résidentielles supérieures à 25 000 pieds 2 VenteGros : Proportion de ventes au gros en acres/villes (Cela représente les industries) AcideNit : Concentration d acide Nitrique MoyPieceLog : Nombre moyen de pièces par logement AGE : Proportion des Habitations construit avant 1940 DistEmp : Distance pondéré des 5 centres d emplois de Boston à la ville considéré AcceGRoute : Indice d accessibilités aux grandes routes Taxe : Taux de taxe de propriété pour 10 000$ RatioElèvEns : Ratio élèves enseignants Noir : Proportion de noir par ville StatInf : Proportion de la population ayant un bas statu ValMed : Valeur médiane des habitations en millier de $ 1

II. ACP de l ensemble des indicateurs On procède à une ACP de l ensemble des variables. La variable «valeur médiane des habitations» à était projeté en supplémentaire car celle-ci n apporte pas une réelle information sur l ensemble des habitations du quartier ou lotissement. En effet, la valeur d une habitation est sujette aux autres variables. Tableau des valeurs Propres Valeurs Propres Inertie Cumul comp 1 6.54584988 50.3526914 50.35269 comp 2 1.52266177 11.7127828 62.06547 comp 3 1.33579036 10.2753105 72.34078 comp 4 0.86400373 6.6461825 78.98697 comp 5 0.66675157 5.1288582 84.11583 comp 6 0.53745686 4.1342835 88.25011 comp 7 0.40363954 3.1049196 91.35503 comp 8 0.27750369 2.1346438 93.48967 comp 9 0.25344519 1.9495784 95.43925 comp 10 0.21286161 1.6373970 97.07665 comp 11 0.18326459 1.4097276 98.48638 comp 12 0.13597784 1.0459834 99.53236 comp 13 0.06079336 0.4676412 100.00000 Les valeurs 2 et 3 sont très proches. On les considère comme étant une seule et même valeur de multiplicité 2. Elles seront donc éditées ensemble et seulement ensemble. Par ailleurs la valeur 1 détient 50% de l information, on décide donc de l éditer avec la valeur 4 (détenant une très faible par d information) afin de ne pas perdre cette information. 2

Sur le plan (1,4) on constate la présence de deux axes principaux opposés. Le premier regroupe les variables Distance aux centres d emplois et grand terrain résidentiel. Cet axe est donc caractéristiques des quartiers et lotissements situés en rase campagne. On pourrait presque rajouter à cet axe les variables nombres moyens de pièces/logements et proportion de noir, néanmoins celle-ci ne sont pas assez bien représenté un peu trop éloigné. Le second axe, regroupe l indice d accessibilité aux grandes routes, le taux de taxes, la proportion de ventes aux gros (industrie), l âge des habitations, la proportion de crime, la concentration en acide nitrique et la proportion de la population ayant un statut inférieur. Toutes ces variables sont caractéristiques de l urbanisation. On peut voir que le ratio élèves-enseignant a une assez bonne corrélation avec l axe d urbanisation et est anti corrélé avec l axe de rase campagne. Le nombre d élèves par classe serait donc plus en zone rurale qu en zone urbaine. 3

En ce qui concerne les individus, on peut voir la présence de deux groupes d individus ici séparé par une ligne rouge. On pourrait supposer que l un des deux groupes représente les lotissements ruraux et l autre les quartiers urbains. Néanmoins rien ne permet de l affirmer. L idéale serait de procéder à une ACP séparé pour chacun des deux groupes, mais du fait de la grande quantité d individus il nous est impossible de déterminer quel individus appartient à quel groups. Cela mis à part, aucun individu ne parait s isoler excessivement. Quant au plan (2,3), celui-ci manque cruellement d information, la plus part des vecteurs sont très mal représenté. Mais l axe d urbanisation reste assez visible (cercle rouge). Pour les individus, même si on peut voire quelques points s écarter un peu de la masse, aucun group n est visible. Ceci est surement dû, là encore, au manque d informations. 4

III. Réalisations d ACP par thèmes On décide de classer las variables par thème et de procéder à une ACP séparée pour chacun d eux. Ceci nous permet de rentrer dans les détails en mettant en évidence les différentes variables ayant réellement un lien entre elles. Voici les trois thèmes constitué : Nature de la Population Type d environnement Nature des logements Taux de criminalité Vente au gros Grand terrain Proportion de noir (industrie) résidentiel Ratio élève-enseignant Concentration Acide Nb moyen de % de statu inférieur Nitrique pièces/logement de la population Distance au centre Age des habitations d emploie Taxes Accès aux Grandes routes Tableaux des Valeurs Propres : Nature population : Type d environnement Valeurs Propres Inertie Cumul Valeurs Propres Inertie Cumul comp 1 2.0387997 50.96999 50.96999 comp 1 2.9820950 74.552375 74.55238 comp 2 0.8353534 20.88383 71.85383 comp 2 0.5342043 13.355107 87.90748 comp 3 0.5973430 14.93358 86.78740 comp 3 0.2766686 6.916715 94.82420 comp 4 0.5285040 13.21260 100.00000 comp 4 0.2070321 5.175802 100.00000 Nature Logements : Valeurs Propres Inertie Cumul comp 1 2.1402142 53.50535 53.50535 comp 2 0.8091392 20.22848 73.73383 comp 3 0.6884226 17.21057 90.94440 comp 4 0.3622240 9.05560 100.00000 Pour chacun des trois thèmes on décide d éditer seulement les plans (1,2), car ceux-ci contiennent assez d informations (respectivement 71%, 87% et 73%) et donc les vecteurs seront très bien représentés (la norme de la projeté des vecteur sera très proche de 1). On considère que toutes valeurs propres ont une valeur assez éloigné les unes des autres et sont donc de multiplicité 1. 5

Nature de la population : On voit que le taux de criminalité et la proportion de la population ayant un statut inférieur sont fortement corrélés. Il forme un axe à eux deux que l on nommera axe de pauvreté. On constate que la proportion de noir est fortement anti corrélés avec cet axe. Quant à la variable «ratio élèves-enseignants», elle se trouve à équidistance de «noir» et de l axe de pauvreté. On en déduit donc que le ratio élèves-enseignant reste le même pour la population noire et pauvres. Quant aux individus, on voit une grande masse et une poigné d individus qui s en écarte. Certains sont assez proches entre eux pour former un groupe (cercle rouges). Type d environnement : On voit très clairement que les variables «vente aux gros» (industries) et «concentration acide nitrique» forme un axe. Autrement dit plus il y a d industrie et plus l environnement est pollué. De plus cet axe est anti corrélé avec la distance aux centres d emplois. Les emplois se trouvent donc principalement dans les industries. Quant à «l accès aux grands axes routiers», on voit que cela est assez corrélé avec l axe des industries. Pour les individus on peut voir distinctement deux groupes se détachant de la masse, ici entouré en rouge. L un d eux représentant peut être les zone industriel et un autre les zone rurale. 6

La nature des logements : Pour la nature des logements, on voit que les variables «AGE» et «Taxe» sont fortement corrélées. Cela nous laisse penser que plus un quartier est vieux et plus sont taux de taxe de propriété est élevé. Mais il faut garder à l esprit que la plus par des vielles habitations se trouve en zone urbaine (centre-ville) et que par conséquent un taux de taxe de propriété élevé serait plutôt en relation avec l emplacement de la maison plutôt que son âge. Ces deux variables sont anti corrélé avec la variable «grand terrain résidentiel». Les grandes habitations sont donc récentes et sont moins taxées. Les grands terrains résidentiels se situent en zone rural, ce qui confirme ce qui a était dit précédemment. Quant aux nombre moyen de pièces par logements, celui-ci ne parait pas affecté le taux de taxe. Il ne parait pas non plus être affecter par l âge ou par la taille du terrain. Cela nous laisse penser que le nombre de pièces dans les logements n évolue pas au fil du temps et qu il ne dépend pas de la taille du terrain. On pourrait ce dire que les grandes résidences possèdent de grand jardin et donc n ont pas forcément une plus grande surface habitable. En ce qui concerne les individus, ils forment plutôt une masse compacte sans cas particulier. On ne peut malheureusement pas développer cela. 7

IV. ACP des composantes principales des thèmes Maintenant on décide de procéder à une ACP de l ensemble des thèmes afin de chercher les corrélations principales entre eux. On décide donc de supprimer les variables répétant une information déjà apporté par une autre variable. Les variables supprimées sont les suivantes : Crime Concentration en Acides Nitrique Nombre moyen de pièces par logement (Cette variables n est surement pas affectée par les autres variables n appartenant pas à son thème) Les variables «AGE» et «Taxe» sont toute deux conservé, car elles pourraient chacune avoir un lien avec des variables différentes. Tableau des valeurs propres : Valeurs Propres Inertie Cumul comp 1 4.88222938 54.2469931 54.24699 comp 2 1.17938088 13.1042320 67.35123 comp 3 0.87026233 9.6695815 77.02081 comp 4 0.64656011 7.1840012 84.20481 comp 5 0.54935188 6.1039097 90.30872 comp 6 0.32004535 3.5560594 93.86478 comp 7 0.29460613 3.2734014 97.13818 comp 8 0.19093036 2.1214485 99.25963 comp 9 0.06663359 0.7403732 100.00000 Les trois premières valeurs propres détiennent 77% de l information. On juge qu elles sont assez distincte les unes des autres pour que chacune soit de multiplicité 1. 8

Sur le plan (1,2), on voit l axe d urbanisation se confirmer. Les variables «Age», «statinf» et «VenteGros» sont très fortement corrélées. A l exact opposé on a les grands terrains résidentiels et distance au centre d emploi. Cela confirme que les principaux emploie sont concentrer dans les industries, qui elle-même se trouve plutôt dans les vieux quartiers. Cela nous indique aussi que se sont surtout les populations de statut inférieur qui habite dans les vieux quartiers et travaille dans les industries. On voit également que les deux variables, indice d accès aux grands axes routier, et taux de taxe de propriété, forme un group. On peut penser que le positionnement des logements par rapport aux axes routiers influe le taux de taxe. Quant aux individus, il semble y avoir un group principal et deux autres qui s en détachent. Le groupe principal pourrait représenter les zones urbaines, le second se situant vers le bas pourrait être celui des zones rurales, censé être moins nombreuse. Et le plus petit des groups situé tout en haut représenterait les quartiers se trouvant entre les zones urbaines et rurales et qui aurait donc plus facilement accès aux grands axes routier. 9

Le plan (1,3), lui nous confirme la présence de l axe des zones urbaines, avec les variables Age, industrie, accès aux grands axes routiers, taxes et proportion de statut inférieur de la population. Pour les individus, on voit quatre ou cinq group, selon l appréciation, (encerclé en rouge) se détachant de la masse. 10

V. ACP d indicateur thématique On décide pour terminer de sélectionner pour chaque thème des variables qui joueront le rôle d indicateurs. On procède à l ACP de l ensemble de ces indicateurs. Mais cette fois ci, on inclut dans cette ACP la variable «Valeur médiane des logements», afin d étudier ce qui influent sur la valeur des habitations. L idéale aurait était de mener cette études avec la valeur moyenne. Les variables sélectionnés sont les suivantes : Grands terrains résidentiels Vente aux gros (industrie) Nombre moyen de pièces/logement AGE Taxe Proportion de la population ayant un statut inférieur Valeur médiane des habitations Tableau des valeurs propres : Valeurs Propres Inertie Cumul comp 1 4.0145964 57.351377 57.35138 comp 2 1.1017640 15.739485 73.09086 comp 3 0.7301187 10.430268 83.52113 comp 4 0.4440152 6.343074 89.86420 comp 5 0.3011330 4.301900 94.16610 comp 6 0.2118963 3.027090 97.19319 comp 7 0.1964764 2.806806 100.00000 A la vue des valeurs propres, on décide d éditer seulement (1,2). 11

Sur le plan (1,2), on voit que la valeur médiane est fortement corrélée avec le nombre moyen de pièces/logements. Donc plus les logements d un quartier ou d un lotissement possèdent de pièces et plus ceux-ci vont prendre de la valeur (logique). On voit également que la valeur médiane est anti corrélée avec l ensemble des variables, AGE, Taxe et Vente gros (industrie). Comme vue précédemment ces variable sont typique des zone urbaine. Les habitations âgé et dans les zones industriel ont donc une valeur plus faible. En ce qui concerne la proportion de statut inférieur de la population, on voit très clairement qu elle est anti corrélée avec la valeur médiane. Ceci est cohérent. En revanche la valeur médiane ne semble pas énormément influencée par la taille des terrains. VI. Synthèse Pour conclure cette étude statistique, on dira que les habitations en banlieue de Boston perdent fortement de leur valeur, lorsqu elle se trouve en zone urbaine à proximité des industries, qui sont responsables d une pollution en acide nitrique d après ce que nous avons vue précédemment. Ce qui donne de la valeur à une habitation ce n est pas non plus la surface du terrain, mais plutôt le nombre de pièces. Un grand terrain résidentiel n implique pas forcément un grand nombre de pièces, mais peut-être un jardin ou autre qui n joute pas forcément de la valeur à l habitation. 12