Statistique spatiale I- Introduction II- Autocorrélation spatiale III- Modélisation
I- Introduction
Généralités Les méthodes de statistique spatiale servent à décrire, modéliser des données géo-référencées ou localisées (décrites par des lieux) : Ø coordonnées du barycentre d une zone administrative Ø couple longitude/latitude Ø coordonnées UTM (Universal Transvers Mercator ) Domaines d application de la statistique spatiale : géologie, écologie, météorologie, épidémiologie, démographie.
Types de données 3 types de données géoréférencées : données géostatistiques, données laticielles, données ponctuelles. On note S la localisation d un site de mesure et X ( s), s S le phénomène étudié : température, densité de population, etc X est une variable aléatoire indexée par S. s { }
Types de données Données Géostatistiques (données continues, interpolables) Ø S est un sous ensemble continu de R 2 ; Ø X(s) est à valeurs réelles, mesurée en des sites choisis (s 1, s n ) de S Ex : température, altitude Questions : données (x s1, x sn ) Ø Autocorrélation spatiale Ø Prédiction de X sur tout S (krigeage, simulation) Ø Modélisation de la loi du processus continu de { X ( s), s S} Outil logiciel : packages geor, spatial de R
Types de données Exemple : Cumul de pluies dans 100 stations météo suisses le jour du passage du nuage de Tchernobyl (jeu sic.100 du package geor de R) > sic.100 $coords V2 V3 13 29.52739 80.71854 14 33.77939 99.52954 22 46.80639 102.58454 23 48.71439 121.45354... $data 13 14 22 23... Les 100 stations sont choisies au hasard dans un réseau de 367 stations Coords : Les coordonnées des lieux par rapport au centre de la suisse (distances en km). s1, s100 valeurs de S continu Data : niveaux de pluies (en mm) X(s) en chaque lieu
Types de données Données laticielles (mesurées qu en un nombre fini fixé de points) Ø S est discret et fixé. Les sites représentent en général des unités géographiques, repérées par un graphe de voisinage Ø X est observée sur S. données { x( s), s S} Ex : hauteur des arbres d une foret, pixels sur image, sex-ratios dans les districts de l inde Questions : Ø Définition d un voisinage (distance entre deux sites) Ø Etude de l autocorrélation spatiale Ø Modélisation de la loi du vecteur aléatoire discret { X ( s), s S} Outil logiciel : packages spdep, geoxp-r de R
Types de données X(s)=nombre de cas de mort subite dans le comté s S= ensemble des 100 comtés Atelier Spatial RASMA Saint Louis du Sénégal 14
Types de données Carte des sex-ratio en Inde X(s)= sex-ratio dans le district s S= districts de l Inde
Types de données Données ponctuelles : La localisation s est elle-même l objet de l étude. Ø S est un processus ponctuel (ensemble de points aléatoires) de R 2 Ø Le nombre de réalisations ponctuelles et leur localisation X sont aléatoire Ex: Etude de la répartition spatiale d une espèce d arbres dans une forêt. Question: Ø Homogénéité de la localisation des site est-elle plutôt régulière, présente-t-elle des agrégats? Ø Modélisation des processus S et X Outil logiciel : package spatstat de R
Types de données
Spécificité des méthodes statistiques Hétérogénéité : chaque localisation est spécifique Dépendance Les données analysées sont dépendantes (autocorrélation spatiale) les dépendances sont plus complexes qu en séries temporelles
Spécificité des méthodes statistiques Conséquences sur les méthodes Ø Les méthodes de statistique inférentielle (estimation, modélisation classique,...) ne sont plus valables : ex les estimateurs standard de la variance, des moindres carrés dans un modèle RLM sont généralement biaisés. Ø Comment définir la qualité d estimation : Définition de l asymptotique? Ø outils statistiques spécifiques permettant de tenir compte de l autocorrélation spatiale dans les analyses statistiques classiques et d éviter que celle-ci n introduise des biais dans l estimation des paramètres
Spécificité des méthodes statistiques Intérêt de la prise en compte de la dimension spatiale des données dans un modèle de régression : exemple du sex-ratio en Inde (Guilmoto, 2008, Populations). inde=read.csv("table2b.csv", header=t, sep=";") > reg=lm(sr0601~ldens01+tfr01+surv01+urb01+litr01_ 2+WAGRIC+SRPART+BUDDH+CHRISTIAN+JAIN+MUSLIM +SIKH+DALIT+TRIBAL, data=inde) Ø summary(reg) Ø La part de variance expliquée est seulement de 51%. Les limites de cette modélisation ne relèvent pas de la nature des données. Il est peu probable qu une variable insoupconnée explique la part de variance non expliquée. Residuals: Min 1Q Median 3Q Max -131.347-17.068 6.777 22.493 99.640 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1041.6942 68.0697 15.303 < 2e-16 *** LDENS01 2.6331 2.0524 1.283 0.200037 TFR01-14.9043 2.3684-6.293 6.17e-10 *** SURV01-29.2158 65.5596-0.446 0.656027 URB01-17.1895 12.5220-1.373 0.170364 LITR01_2-0.8817 0.1860-4.740 2.69e-06 *** WAGRIC 12.8561 13.8242 0.930 0.352775 SRPART -2.9381 1.3333-2.204 0.027944 * BUDDH 15.5567 23.9322 0.650 0.515929 CHRISTIAN 18.0589 12.0206 1.502 0.133559 JAIN -968.8219 272.3551-3.557 0.000406 *** MUSLIM 53.7249 11.5256 4.661 3.91e-06 *** SIKH -225.6399 15.0909-14.952 < 2e-16 *** DALIT 7.2310 25.1730 0.287 0.774021 TRIBAL 54.8759 10.6791 5.139 3.80e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 34.92 on 576 degrees of freedom Multiple R-squared: 0.5088, Adjusted R-squared: 0.4969 F-statistic: 42.62 on 14 and 576 DF, p-value: < 2.2e-16
Spécificité des méthodes statistiques > plot(reg$fitted, reg$residuals) Ø acf(reg$residuals, main="autocorrélation des résidus") Il existe une corrélation des résidus du modèle : les observations du sex-ratio ne sont pas indépendantes. Les hypothèses du modèle linéaire ne sont pas satisfaites Prise en compte de l autocorrélation spatiale des résidus.
Spécificité des méthodes statistiques
Spécificité des méthodes statistiques Dans la suite du cours, on étudiera des données laticielles : Ø Ø Ø on observe un phénomène X (pluviométrie, sex-ratio, ) sur n sites fixés L observation x dont on dispose (sex-ratio réel, pluviométrie réelle) peut être vue comme une réalisation de X sur les n sites, ou de façon équivalente comme une réalisation du vecteur aléatoire X= (X1, Xn). On note Px sa loi. On cherche, à partir de l observation x, à avoir des précisions sur la loi PX de ce vecteur Ø Ø Modélisation de la loi de X : Recherche d une famille de loi pour PX, éventuellement dépendante de variables explicatives Estimation des paramètres de cette loi Outils utilisés Ø Ø Tests d autocorrélation spatiale : permettent, au vu de x de tester si les composantes de X sont ou non dépendantes. Modèles d autoregression spatiale : modèles explicatifs spécifiant aussi la forme de dépendance spatiale.