Analyse de données multidimensionnelles Projet : Les habitations en Banlieue de Boston 2011-2012 LACHAAL Rafik
I. Introduction Les données choisis concernent les logements en banlieue de Boston. Celle-ci date de1993 et provienne de la libraire de statistique de l université de Carnegie Mellon. Le tableau de données de départ est constitué de 506 individus, qui représentent des quartiers ou des lotissements en Banlieue de Boston. Le nombre d individus est suffisamment grand pour donner lieu à une étude statistique proche de la réalité. En ce qui concerne les variables, elles sont au nombre de 14, mais l une d elle est binaire (affiche 1 si le lotissement est bordé par un coure d eau et 0 autrement). Elle n est donc pas quantitative et a était supprimé à l aide d Excel. Nous sommes donc ramenées aux 13 variables suivantes : CRIM : Taux de criminalité par ville GrdTerResSup : Proportion de zones résidentielles supérieures à 25 000 pieds 2 VenteGros : Proportion de ventes au gros en acres/villes (Cela représente les industries) AcideNit : Concentration d acide Nitrique MoyPieceLog : Nombre moyen de pièces par logement AGE : Proportion des Habitations construit avant 1940 DistEmp : Distance pondéré des 5 centres d emplois de Boston à la ville considéré AcceGRoute : Indice d accessibilités aux grandes routes Taxe : Taux de taxe de propriété pour 10 000$ RatioElèvEns : Ratio élèves enseignants Noir : Proportion de noir par ville StatInf : Proportion de la population ayant un bas statu ValMed : Valeur médiane des habitations en millier de $ 1
II. ACP de l ensemble des indicateurs On procède à une ACP de l ensemble des variables. La variable «valeur médiane des habitations» à était projeté en supplémentaire car celle-ci n apporte pas une réelle information sur l ensemble des habitations du quartier ou lotissement. En effet, la valeur d une habitation est sujette aux autres variables. Tableau des valeurs Propres Valeurs Propres Inertie Cumul comp 1 6.54584988 50.3526914 50.35269 comp 2 1.52266177 11.7127828 62.06547 comp 3 1.33579036 10.2753105 72.34078 comp 4 0.86400373 6.6461825 78.98697 comp 5 0.66675157 5.1288582 84.11583 comp 6 0.53745686 4.1342835 88.25011 comp 7 0.40363954 3.1049196 91.35503 comp 8 0.27750369 2.1346438 93.48967 comp 9 0.25344519 1.9495784 95.43925 comp 10 0.21286161 1.6373970 97.07665 comp 11 0.18326459 1.4097276 98.48638 comp 12 0.13597784 1.0459834 99.53236 comp 13 0.06079336 0.4676412 100.00000 Les valeurs 2 et 3 sont très proches. On les considère comme étant une seule et même valeur de multiplicité 2. Elles seront donc éditées ensemble et seulement ensemble. Par ailleurs la valeur 1 détient 50% de l information, on décide donc de l éditer avec la valeur 4 (détenant une très faible par d information) afin de ne pas perdre cette information. 2
Sur le plan (1,4) on constate la présence de deux axes principaux opposés. Le premier regroupe les variables Distance aux centres d emplois et grand terrain résidentiel. Cet axe est donc caractéristiques des quartiers et lotissements situés en rase campagne. On pourrait presque rajouter à cet axe les variables nombres moyens de pièces/logements et proportion de noir, néanmoins celle-ci ne sont pas assez bien représenté un peu trop éloigné. Le second axe, regroupe l indice d accessibilité aux grandes routes, le taux de taxes, la proportion de ventes aux gros (industrie), l âge des habitations, la proportion de crime, la concentration en acide nitrique et la proportion de la population ayant un statut inférieur. Toutes ces variables sont caractéristiques de l urbanisation. On peut voir que le ratio élèves-enseignant a une assez bonne corrélation avec l axe d urbanisation et est anti corrélé avec l axe de rase campagne. Le nombre d élèves par classe serait donc plus en zone rurale qu en zone urbaine. 3
En ce qui concerne les individus, on peut voir la présence de deux groupes d individus ici séparé par une ligne rouge. On pourrait supposer que l un des deux groupes représente les lotissements ruraux et l autre les quartiers urbains. Néanmoins rien ne permet de l affirmer. L idéale serait de procéder à une ACP séparé pour chacun des deux groupes, mais du fait de la grande quantité d individus il nous est impossible de déterminer quel individus appartient à quel groups. Cela mis à part, aucun individu ne parait s isoler excessivement. Quant au plan (2,3), celui-ci manque cruellement d information, la plus part des vecteurs sont très mal représenté. Mais l axe d urbanisation reste assez visible (cercle rouge). Pour les individus, même si on peut voire quelques points s écarter un peu de la masse, aucun group n est visible. Ceci est surement dû, là encore, au manque d informations. 4
III. Réalisations d ACP par thèmes On décide de classer las variables par thème et de procéder à une ACP séparée pour chacun d eux. Ceci nous permet de rentrer dans les détails en mettant en évidence les différentes variables ayant réellement un lien entre elles. Voici les trois thèmes constitué : Nature de la Population Type d environnement Nature des logements Taux de criminalité Vente au gros Grand terrain Proportion de noir (industrie) résidentiel Ratio élève-enseignant Concentration Acide Nb moyen de % de statu inférieur Nitrique pièces/logement de la population Distance au centre Age des habitations d emploie Taxes Accès aux Grandes routes Tableaux des Valeurs Propres : Nature population : Type d environnement Valeurs Propres Inertie Cumul Valeurs Propres Inertie Cumul comp 1 2.0387997 50.96999 50.96999 comp 1 2.9820950 74.552375 74.55238 comp 2 0.8353534 20.88383 71.85383 comp 2 0.5342043 13.355107 87.90748 comp 3 0.5973430 14.93358 86.78740 comp 3 0.2766686 6.916715 94.82420 comp 4 0.5285040 13.21260 100.00000 comp 4 0.2070321 5.175802 100.00000 Nature Logements : Valeurs Propres Inertie Cumul comp 1 2.1402142 53.50535 53.50535 comp 2 0.8091392 20.22848 73.73383 comp 3 0.6884226 17.21057 90.94440 comp 4 0.3622240 9.05560 100.00000 Pour chacun des trois thèmes on décide d éditer seulement les plans (1,2), car ceux-ci contiennent assez d informations (respectivement 71%, 87% et 73%) et donc les vecteurs seront très bien représentés (la norme de la projeté des vecteur sera très proche de 1). On considère que toutes valeurs propres ont une valeur assez éloigné les unes des autres et sont donc de multiplicité 1. 5
Nature de la population : On voit que le taux de criminalité et la proportion de la population ayant un statut inférieur sont fortement corrélés. Il forme un axe à eux deux que l on nommera axe de pauvreté. On constate que la proportion de noir est fortement anti corrélés avec cet axe. Quant à la variable «ratio élèves-enseignants», elle se trouve à équidistance de «noir» et de l axe de pauvreté. On en déduit donc que le ratio élèves-enseignant reste le même pour la population noire et pauvres. Quant aux individus, on voit une grande masse et une poigné d individus qui s en écarte. Certains sont assez proches entre eux pour former un groupe (cercle rouges). Type d environnement : On voit très clairement que les variables «vente aux gros» (industries) et «concentration acide nitrique» forme un axe. Autrement dit plus il y a d industrie et plus l environnement est pollué. De plus cet axe est anti corrélé avec la distance aux centres d emplois. Les emplois se trouvent donc principalement dans les industries. Quant à «l accès aux grands axes routiers», on voit que cela est assez corrélé avec l axe des industries. Pour les individus on peut voir distinctement deux groupes se détachant de la masse, ici entouré en rouge. L un d eux représentant peut être les zone industriel et un autre les zone rurale. 6
La nature des logements : Pour la nature des logements, on voit que les variables «AGE» et «Taxe» sont fortement corrélées. Cela nous laisse penser que plus un quartier est vieux et plus sont taux de taxe de propriété est élevé. Mais il faut garder à l esprit que la plus par des vielles habitations se trouve en zone urbaine (centre-ville) et que par conséquent un taux de taxe de propriété élevé serait plutôt en relation avec l emplacement de la maison plutôt que son âge. Ces deux variables sont anti corrélé avec la variable «grand terrain résidentiel». Les grandes habitations sont donc récentes et sont moins taxées. Les grands terrains résidentiels se situent en zone rural, ce qui confirme ce qui a était dit précédemment. Quant aux nombre moyen de pièces par logements, celui-ci ne parait pas affecté le taux de taxe. Il ne parait pas non plus être affecter par l âge ou par la taille du terrain. Cela nous laisse penser que le nombre de pièces dans les logements n évolue pas au fil du temps et qu il ne dépend pas de la taille du terrain. On pourrait ce dire que les grandes résidences possèdent de grand jardin et donc n ont pas forcément une plus grande surface habitable. En ce qui concerne les individus, ils forment plutôt une masse compacte sans cas particulier. On ne peut malheureusement pas développer cela. 7
IV. ACP des composantes principales des thèmes Maintenant on décide de procéder à une ACP de l ensemble des thèmes afin de chercher les corrélations principales entre eux. On décide donc de supprimer les variables répétant une information déjà apporté par une autre variable. Les variables supprimées sont les suivantes : Crime Concentration en Acides Nitrique Nombre moyen de pièces par logement (Cette variables n est surement pas affectée par les autres variables n appartenant pas à son thème) Les variables «AGE» et «Taxe» sont toute deux conservé, car elles pourraient chacune avoir un lien avec des variables différentes. Tableau des valeurs propres : Valeurs Propres Inertie Cumul comp 1 4.88222938 54.2469931 54.24699 comp 2 1.17938088 13.1042320 67.35123 comp 3 0.87026233 9.6695815 77.02081 comp 4 0.64656011 7.1840012 84.20481 comp 5 0.54935188 6.1039097 90.30872 comp 6 0.32004535 3.5560594 93.86478 comp 7 0.29460613 3.2734014 97.13818 comp 8 0.19093036 2.1214485 99.25963 comp 9 0.06663359 0.7403732 100.00000 Les trois premières valeurs propres détiennent 77% de l information. On juge qu elles sont assez distincte les unes des autres pour que chacune soit de multiplicité 1. 8
Sur le plan (1,2), on voit l axe d urbanisation se confirmer. Les variables «Age», «statinf» et «VenteGros» sont très fortement corrélées. A l exact opposé on a les grands terrains résidentiels et distance au centre d emploi. Cela confirme que les principaux emploie sont concentrer dans les industries, qui elle-même se trouve plutôt dans les vieux quartiers. Cela nous indique aussi que se sont surtout les populations de statut inférieur qui habite dans les vieux quartiers et travaille dans les industries. On voit également que les deux variables, indice d accès aux grands axes routier, et taux de taxe de propriété, forme un group. On peut penser que le positionnement des logements par rapport aux axes routiers influe le taux de taxe. Quant aux individus, il semble y avoir un group principal et deux autres qui s en détachent. Le groupe principal pourrait représenter les zones urbaines, le second se situant vers le bas pourrait être celui des zones rurales, censé être moins nombreuse. Et le plus petit des groups situé tout en haut représenterait les quartiers se trouvant entre les zones urbaines et rurales et qui aurait donc plus facilement accès aux grands axes routier. 9
Le plan (1,3), lui nous confirme la présence de l axe des zones urbaines, avec les variables Age, industrie, accès aux grands axes routiers, taxes et proportion de statut inférieur de la population. Pour les individus, on voit quatre ou cinq group, selon l appréciation, (encerclé en rouge) se détachant de la masse. 10
V. ACP d indicateur thématique On décide pour terminer de sélectionner pour chaque thème des variables qui joueront le rôle d indicateurs. On procède à l ACP de l ensemble de ces indicateurs. Mais cette fois ci, on inclut dans cette ACP la variable «Valeur médiane des logements», afin d étudier ce qui influent sur la valeur des habitations. L idéale aurait était de mener cette études avec la valeur moyenne. Les variables sélectionnés sont les suivantes : Grands terrains résidentiels Vente aux gros (industrie) Nombre moyen de pièces/logement AGE Taxe Proportion de la population ayant un statut inférieur Valeur médiane des habitations Tableau des valeurs propres : Valeurs Propres Inertie Cumul comp 1 4.0145964 57.351377 57.35138 comp 2 1.1017640 15.739485 73.09086 comp 3 0.7301187 10.430268 83.52113 comp 4 0.4440152 6.343074 89.86420 comp 5 0.3011330 4.301900 94.16610 comp 6 0.2118963 3.027090 97.19319 comp 7 0.1964764 2.806806 100.00000 A la vue des valeurs propres, on décide d éditer seulement (1,2). 11
Sur le plan (1,2), on voit que la valeur médiane est fortement corrélée avec le nombre moyen de pièces/logements. Donc plus les logements d un quartier ou d un lotissement possèdent de pièces et plus ceux-ci vont prendre de la valeur (logique). On voit également que la valeur médiane est anti corrélée avec l ensemble des variables, AGE, Taxe et Vente gros (industrie). Comme vue précédemment ces variable sont typique des zone urbaine. Les habitations âgé et dans les zones industriel ont donc une valeur plus faible. En ce qui concerne la proportion de statut inférieur de la population, on voit très clairement qu elle est anti corrélée avec la valeur médiane. Ceci est cohérent. En revanche la valeur médiane ne semble pas énormément influencée par la taille des terrains. VI. Synthèse Pour conclure cette étude statistique, on dira que les habitations en banlieue de Boston perdent fortement de leur valeur, lorsqu elle se trouve en zone urbaine à proximité des industries, qui sont responsables d une pollution en acide nitrique d après ce que nous avons vue précédemment. Ce qui donne de la valeur à une habitation ce n est pas non plus la surface du terrain, mais plutôt le nombre de pièces. Un grand terrain résidentiel n implique pas forcément un grand nombre de pièces, mais peut-être un jardin ou autre qui n joute pas forcément de la valeur à l habitation. 12