Analyse exploratoire de données spatiales GeoXp et Géomarketing Christine Thomas-Agnan - Thibault Laurent Toulouse School of Economics en collaboration avec Jean-Pascal Garcia ELLIPSA 1 / 19
1 Présentation de GeoXp 2 Application Géomarketing : exploratoire 3 Application Géomarketing : modélisation 2 / 19
Le projet GeoXp Analyse descriptive interactive de données géoréférencées : explorer des bases de données en tenant compte de la position géographique des observations. Les SIG (systèmes d information géographique) tels que ArcView et Mapinfo sont très performants pour cartographier mais incorporent peu d outils de statistique spatiale Besoin d un logiciel interactif, indépendant (pas lié à un SIG), gratuit et complet. Historique : développé à UT1 Capitole depuis 2001, Splus, Matlab et finalement un package de R disponible sur CRAN en 2007, de nos jours version 1.6.0 3 / 19
Principe de GeoXp GeoXp lie de façon dynamique des graphiques statistiques avec une carte Nature des graphiques statistiques classiques : histogrammes, boîtes à moustaches, diagramme de dispersion, courbe Lorentz, etc. spécifiquement spatiaux : nuage de variogramme, diagramme de Moran Lien dynamique La sélection d un point ou d une zone sur la carte résulte en la mise en évidence des éléments correspondants du graphique statistique (changement couleur et/ou symbole) La sélection d un élément du graphique statistique résulte en la mise évidence des points ou zones correspondantes sur la carte (changement couleur et/ou symbole) La sélection peut se faire par point ou par polygone. 4 / 19
Interface de GeoXp : trois fenêtres 5 / 19
Format des données Les données ainsi que les contours géographiques doivent être importées sous R, par exemple avec maptools ou rgdal Elles doivent être ensuite mises à l un des deux formats suivants de classe Spatial (package sp), de même que pour les packages geor, gstat, spdep SpatialPointsDataFrame SpatialPolygonDataFrame en utilisant les fonctions readshapepoly (librairie maptools) ou readogr (librairie rgdal). 6 / 19
Exemple de syntaxe R> library("geoxp") R> data("mp.school") R> mp.school_coord <- cbind(mp.school$longitude,mp.school$latitude) R> mp.school_sp <- SpatialPoints(mp.school_coord) R> mp.school_spdf <- SpatialPointsDataFrame(mp.school_sp,mp.school) R> shp.file <- system.file("shapes/school.shp", package = "GeoXp")[1] R> mp_map <- readshapepoly(shp.file) R> mp.contour <- spdf2list(mp_map)$poly R> scattermap(mp.school_spdf, c("occupancy.rate","cost.per.student"), quantiles=c(0.25,0.75), carte=mp.contour, pch=15, cex=0.9, xlab=c("occupancy rate","cost per student")) 7 / 19
Exemple : histogramme Coût par élève : sites sélectionnés par clic de souris sur les barres de l histogramme et représentés en rouge sur la carte. 8 / 19
Exemple : histogramme Coût par élève : sites sélectionnés par clic de souris sur les barres de l histogramme et représentés en rouge sur la carte. 8 / 19
Exemple : histogramme Coût par élève : sites sélectionnés point par point ou par polygone sur la carte et représentés en rouge sur l histogramme. 9 / 19
Exemple : histogramme Coût par élève : sites sélectionnés point par point ou par polygone sur la carte et représentés en rouge sur l histogramme. 9 / 19
Options possibilité de sauvegarder la sélection pour analyse ultérieure possibilité de corriger une sélection en cours possibilité d afficher des labels ajout de graphiques supplémentaires (semi-interactifs) bubbles sélection non interactive 10 / 19
Objectifs analyser des tendances analyser des structures de voisinage analyser la présence d autocorrélation spatiale 11 / 19
Application Géomarketing : exploratoire Un jeu de données Régions Aquitaine et Midi-Pyrénées (6317 iris). Magasins d une enseigne de type ameublement, décoration, électroménager, TV, etc. et 29 magasins d enseignes concurrentes. Graphique des CA des magasins (enseigne et concurrence) 12 / 19
Application Géomarketing : exploratoire Concentration du potentiel cumulé Potentiel : P ij CA du magasin j provenant de l iris i. Potentiel total de l iris i : somme des potentiels sur tous les magasins (enseigne et concurrence). Produits blancs : 86 % des iris aux plus faibles potentiels concentrent 50 % du potentiel total (correspondant à des dépenses de moins de 277090.33 euros sur la période d interêt) agglomérations toulousaines et bordelaises. 13 / 19
Application Géomarketing : exploratoire Potentiel blanc par habitant Pour la magasin E085, sélection d iris ayant un fort potentiel par habitant comparé à des iris à même distance de E085. hristine Thomas-Agnan - Thibault Laurent (TOULOUSE GeoXp SCHOOL et Géomarketing OF ECONOMICS) 14 / 19
Application Géomarketing : exploratoire Zone de chalandise basée sur les distances-temps Zone de chalandise du magasin E085 basée sur les distances-temps. Une imputation des distances manquantes a été réalisée par régression linéaire. 15 / 19
Application Géomarketing : exploratoire Zone de chalandise basée sur le CA observé Zone de chalandise du magasin E085 basée sur les CA : les 29 % des iris ayant réalisé les meilleures recettes comptabilisent 90 % du chiffre d affaire total du magasin 16 / 19
Application Géomarketing : modélisation Modèle de Huff CA ij chiffre d affaire du magasin j provenant de clients de l iris i D ij distance entre magasin j et iris i P i population iris i S j surface du magasin j log(ca ij ) = α + β 1 log(1 + D ij ) + β 2 log(1 + P i ) + β 3 log(sj) + ɛ ij Selon Produit Blanc/Brun et selon Dans ou Hors agglomération toulousaine/bordelaise. Pour produit Blanc et dans agglomération toulousaine/bordelaise, on trouve β 1 = 1.43, β 2 = 0.39, β 3 = 1.45 avec un R 2 ajusté de 0.42. 17 / 19
Application Géomarketing : modélisation Zone de chalandise basée sur le CA prédit Zone de chalandise du magasin E085 basée sur les CA : les 27 % des iris ayant réalisé les meilleures recettes prédites comptabilisent 90 % du chiffre d affaire total du magasin. A droite, celle basée sur les CA observés. hristine Thomas-Agnan - Thibault Laurent (TOULOUSE GeoXp SCHOOL et Géomarketing OF ECONOMICS) 18 / 19
Application Géomarketing : modélisation Autocorrélation des résidus Notion de voisinage entre flux : CA ij est proche de CA kj si l iris i et l iris k ont une frontière commune. Avec ces voisinages, le diagramme de Moran représente la moyenne des résidus voisins en fonction des résidus : Autocorrélation spatiale positive nécéssité d utiliser des modèles d interaction intégrant l autocorrélation. 19 / 19