Statistique spatiale. I- Introduction II- Autocorrélation spatiale III- Modélisation



Documents pareils
Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Étude des flux d individus et des modalités de recrutement chez Formica rufa

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Texte Agrégation limitée par diffusion interne

Introduction aux Statistiques et à l utilisation du logiciel R

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Données longitudinales et modèles de survie

Lois de probabilité. Anita Burgun

Un exemple de régression logistique sous

MODELE A CORRECTION D ERREUR ET APPLICATIONS

INTRODUCTION AU LOGICIEL R

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Une nouvelle génération de calculatrices avec des fonctions spécifiques, pour le grand public

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Principe d un test statistique

Baccalauréat ES Amérique du Nord 4 juin 2008

Représentation d une distribution

Projet de Traitement du Signal Segmentation d images SAR

Correction du baccalauréat ES/L Métropole 20 juin 2014

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Ordonnancement robuste et décision dans l'incertain

MCMC et approximations en champ moyen pour les modèles de Markov

Annexe commune aux séries ES, L et S : boîtes et quantiles

Analyse de la variance Comparaison de plusieurs moyennes

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Leçon N 4 : Statistiques à deux variables

Validation probabiliste d un Système de Prévision d Ensemble

Analyse en Composantes Principales

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

CAPTEURS - CHAINES DE MESURES

Cours de Tests paramétriques

Modélisation aléatoire en fiabilité des logiciels

L IRSN et la surveillance de l environnement. Etat des lieux et perspectives

Quantification Scalaire et Prédictive

Introduction au Data-Mining

Programmes des classes préparatoires aux Grandes Ecoles

Lire ; Compter ; Tester... avec R

Exercice : la frontière des portefeuilles optimaux sans actif certain

Introduction à l approche bootstrap

Introduction à la statistique non paramétrique

Séries Statistiques Simples

Développements limités, équivalents et calculs de limites

PRIME D UNE OPTION D ACHAT OU DE VENTE

Equation LIDAR : exp 2 Equation RADAR :

LIDAR LAUSANNE Nouvelles données altimétriques sur l agglomération lausannoise par technologie laser aéroporté et ses produits dérivés

F-150 xlt 4X plus gros événement de l année Carrosserie et plateau en alliage d aluminium haute densité

Estimation et tests statistiques, TD 5. Solutions

GLEIZE ENERGIE SERVICE

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

TSTI 2D CH X : Exemples de lois à densité 1

Et si l avenir de votre CFD passait par OPEN FOAM?

Chapitre 3. Les distributions à deux variables

dernier avis d imposition du foyer ; justificatifs des ressources des 3 derniers mois du foyer ; factures acquittées. Aide unique.

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d


CarrotAge, un logiciel pour la fouille de données agricoles

Statistique : Résumé de cours et méthodes

SPOT4 (Take 5) : Sentinel-2 avec deux ans d avance

Aide à l'application Chauffage et production d'eau chaude sanitaire Edition décembre 2007

Exemples d application

Aide-mémoire de statistique appliquée à la biologie

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

données en connaissance et en actions?

TP de Statistiques: Utilisation du logiciel R

INTRODUCTION AU GPS. Claude Maury. Ah! si j avais eu un GPS. Egypte Désert blanc Introduction au GPS - Claude Maury

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

De la mesure à l analyse des risques

LOGICIEL DE MODÉLISATION INTEGRÉE 1D/2D POUR LA GESTION DES EAUX PLUVIALES ET DES EAUX USÉES. drainage. Micro Drainage

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

OUTILS EN INFORMATIQUE

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Statistiques avec la graph 35+

Application des courbes ROC à l analyse des facteurs pronostiques binaires

DISQUE DUR. Figure 1 Disque dur ouvert

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistiques Descriptives à une dimension

Amphi 3: Espaces complets - Applications linéaires continues

Rallye Mathématiques de liaison 3 ème /2 nde et 3 ème /2 nde pro Epreuve finale Jeudi 21 mai 2015 Durée : 1h45

Réalité virtuelle au service de la maintenance

Notes de cours Statistique avec le logiciel R

Rayonnements dans l univers

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Carte TOTAL Business Guide d utilisation

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Modèles pour données répétées

Chapitre 2 Caractéristiques des ondes

FIMA, 7 juillet 2005

Probabilités conditionnelles Loi binomiale

MOTORISATION DIRECTDRIVE POUR NOS TELESCOPES. Par C.CAVADORE ALCOR-SYSTEM WETAL Nov

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

Transcription:

Statistique spatiale I- Introduction II- Autocorrélation spatiale III- Modélisation

I- Introduction

Généralités Les méthodes de statistique spatiale servent à décrire, modéliser des données géo-référencées ou localisées (décrites par des lieux) : Ø coordonnées du barycentre d une zone administrative Ø couple longitude/latitude Ø coordonnées UTM (Universal Transvers Mercator ) Domaines d application de la statistique spatiale : géologie, écologie, météorologie, épidémiologie, démographie.

Types de données 3 types de données géoréférencées : données géostatistiques, données laticielles, données ponctuelles. On note S la localisation d un site de mesure et X ( s), s S le phénomène étudié : température, densité de population, etc X est une variable aléatoire indexée par S. s { }

Types de données Données Géostatistiques (données continues, interpolables) Ø S est un sous ensemble continu de R 2 ; Ø X(s) est à valeurs réelles, mesurée en des sites choisis (s 1, s n ) de S Ex : température, altitude Questions : données (x s1, x sn ) Ø Autocorrélation spatiale Ø Prédiction de X sur tout S (krigeage, simulation) Ø Modélisation de la loi du processus continu de { X ( s), s S} Outil logiciel : packages geor, spatial de R

Types de données Exemple : Cumul de pluies dans 100 stations météo suisses le jour du passage du nuage de Tchernobyl (jeu sic.100 du package geor de R) > sic.100 $coords V2 V3 13 29.52739 80.71854 14 33.77939 99.52954 22 46.80639 102.58454 23 48.71439 121.45354... $data 13 14 22 23... Les 100 stations sont choisies au hasard dans un réseau de 367 stations Coords : Les coordonnées des lieux par rapport au centre de la suisse (distances en km). s1, s100 valeurs de S continu Data : niveaux de pluies (en mm) X(s) en chaque lieu

Types de données Données laticielles (mesurées qu en un nombre fini fixé de points) Ø S est discret et fixé. Les sites représentent en général des unités géographiques, repérées par un graphe de voisinage Ø X est observée sur S. données { x( s), s S} Ex : hauteur des arbres d une foret, pixels sur image, sex-ratios dans les districts de l inde Questions : Ø Définition d un voisinage (distance entre deux sites) Ø Etude de l autocorrélation spatiale Ø Modélisation de la loi du vecteur aléatoire discret { X ( s), s S} Outil logiciel : packages spdep, geoxp-r de R

Types de données X(s)=nombre de cas de mort subite dans le comté s S= ensemble des 100 comtés Atelier Spatial RASMA Saint Louis du Sénégal 14

Types de données Carte des sex-ratio en Inde X(s)= sex-ratio dans le district s S= districts de l Inde

Types de données Données ponctuelles : La localisation s est elle-même l objet de l étude. Ø S est un processus ponctuel (ensemble de points aléatoires) de R 2 Ø Le nombre de réalisations ponctuelles et leur localisation X sont aléatoire Ex: Etude de la répartition spatiale d une espèce d arbres dans une forêt. Question: Ø Homogénéité de la localisation des site est-elle plutôt régulière, présente-t-elle des agrégats? Ø Modélisation des processus S et X Outil logiciel : package spatstat de R

Types de données

Spécificité des méthodes statistiques Hétérogénéité : chaque localisation est spécifique Dépendance Les données analysées sont dépendantes (autocorrélation spatiale) les dépendances sont plus complexes qu en séries temporelles

Spécificité des méthodes statistiques Conséquences sur les méthodes Ø Les méthodes de statistique inférentielle (estimation, modélisation classique,...) ne sont plus valables : ex les estimateurs standard de la variance, des moindres carrés dans un modèle RLM sont généralement biaisés. Ø Comment définir la qualité d estimation : Définition de l asymptotique? Ø outils statistiques spécifiques permettant de tenir compte de l autocorrélation spatiale dans les analyses statistiques classiques et d éviter que celle-ci n introduise des biais dans l estimation des paramètres

Spécificité des méthodes statistiques Intérêt de la prise en compte de la dimension spatiale des données dans un modèle de régression : exemple du sex-ratio en Inde (Guilmoto, 2008, Populations). inde=read.csv("table2b.csv", header=t, sep=";") > reg=lm(sr0601~ldens01+tfr01+surv01+urb01+litr01_ 2+WAGRIC+SRPART+BUDDH+CHRISTIAN+JAIN+MUSLIM +SIKH+DALIT+TRIBAL, data=inde) Ø summary(reg) Ø La part de variance expliquée est seulement de 51%. Les limites de cette modélisation ne relèvent pas de la nature des données. Il est peu probable qu une variable insoupconnée explique la part de variance non expliquée. Residuals: Min 1Q Median 3Q Max -131.347-17.068 6.777 22.493 99.640 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1041.6942 68.0697 15.303 < 2e-16 *** LDENS01 2.6331 2.0524 1.283 0.200037 TFR01-14.9043 2.3684-6.293 6.17e-10 *** SURV01-29.2158 65.5596-0.446 0.656027 URB01-17.1895 12.5220-1.373 0.170364 LITR01_2-0.8817 0.1860-4.740 2.69e-06 *** WAGRIC 12.8561 13.8242 0.930 0.352775 SRPART -2.9381 1.3333-2.204 0.027944 * BUDDH 15.5567 23.9322 0.650 0.515929 CHRISTIAN 18.0589 12.0206 1.502 0.133559 JAIN -968.8219 272.3551-3.557 0.000406 *** MUSLIM 53.7249 11.5256 4.661 3.91e-06 *** SIKH -225.6399 15.0909-14.952 < 2e-16 *** DALIT 7.2310 25.1730 0.287 0.774021 TRIBAL 54.8759 10.6791 5.139 3.80e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 34.92 on 576 degrees of freedom Multiple R-squared: 0.5088, Adjusted R-squared: 0.4969 F-statistic: 42.62 on 14 and 576 DF, p-value: < 2.2e-16

Spécificité des méthodes statistiques > plot(reg$fitted, reg$residuals) Ø acf(reg$residuals, main="autocorrélation des résidus") Il existe une corrélation des résidus du modèle : les observations du sex-ratio ne sont pas indépendantes. Les hypothèses du modèle linéaire ne sont pas satisfaites Prise en compte de l autocorrélation spatiale des résidus.

Spécificité des méthodes statistiques

Spécificité des méthodes statistiques Dans la suite du cours, on étudiera des données laticielles : Ø Ø Ø on observe un phénomène X (pluviométrie, sex-ratio, ) sur n sites fixés L observation x dont on dispose (sex-ratio réel, pluviométrie réelle) peut être vue comme une réalisation de X sur les n sites, ou de façon équivalente comme une réalisation du vecteur aléatoire X= (X1, Xn). On note Px sa loi. On cherche, à partir de l observation x, à avoir des précisions sur la loi PX de ce vecteur Ø Ø Modélisation de la loi de X : Recherche d une famille de loi pour PX, éventuellement dépendante de variables explicatives Estimation des paramètres de cette loi Outils utilisés Ø Ø Tests d autocorrélation spatiale : permettent, au vu de x de tester si les composantes de X sont ou non dépendantes. Modèles d autoregression spatiale : modèles explicatifs spécifiant aussi la forme de dépendance spatiale.