Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.



Documents pareils
Modélisation géostatistique des débits le long des cours d eau.

Principe de symétrisation pour la construction d un test adaptatif

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

INF6304 Interfaces Intelligentes

Introduction à l approche bootstrap

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Data issues in species monitoring: where are the traps?

Réflexion sur la mise en place d'un système mobile d'aide à la navigation destiné aux services d'urgence basée sur une solution libre.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Introduction au datamining

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Exemple PLS avec SAS

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

NON-LINEARITE ET RESEAUX NEURONAUX

Ingénierie et gestion des connaissances

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Économétrie, causalité et analyse des politiques

1 Définition de la non stationnarité

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Ordonnancement temps réel

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

1 Installer des packages

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Le risque Idiosyncrasique

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

FIMA, 7 juillet 2005

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Echantillonnage Non uniforme

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

RAPID Prenez le contrôle sur vos données

Projet de Traitement du Signal Segmentation d images SAR

Forthcoming Database

Bourses d excellence pour les masters orientés vers la recherche

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

NOTIONS DE PROBABILITÉS

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Entreposage de données complexes pour la médecine d anticipation personnalisée

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

CONSTRUCTION DE COTE :

Une méthode d apprentissage pour la composition de services web

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

Un environnement de déploiement automatique pour les applications à base de composants

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

Annexe commune aux séries ES, L et S : boîtes et quantiles

Rapport d'analyse des besoins

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

IBM SPSS Forecasting. Créez des prévisions d'expert en un clin d'œil. Points clés. IBM Software Business Analytics

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Nouveaux enjeux de recherche en sécurité routière liés à l'automatisation des véhicules : conséquences sur l'activité de conduite

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Louis Laurencelle, a vol. 11 no. 1. Introduction

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

La classification automatique de données quantitatives

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Les débats sur l évolution des

WEB DATA BASES ENGINEERING BROKERS 2015

Évaluation de la régression bornée

Le géomarketing - Page 1 sur 7

Intelligence Economique - Business Intelligence

AVOB sélectionné par Ovum

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Apprentissage symbolique et statistique à l ère du mariage pour tous

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Régression linéaire. Nicolas Turenne INRA

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Classification Automatique de messages : une approche hybride

Arbres binaires de décision

Suites numériques 4. 1 Autres recettes pour calculer les limites

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

BIG DATA en Sciences et Industries de l Environnement

Représentation et analyse des systèmes linéaires

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Transcription:

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air. Michel Bobbia 1 & Michel Misiti 2 & Yves Misiti 2 & Jean-Michel Poggi 3 & Bruno Portier 4 1 Air Normand, michel.bobbia@airnormand.fr 2 Univ. Paris-Sud Orsay, michel.misiti@gmail.com, yves.misiti@math.u-psud.fr 3 Univ. Paris-Sud Orsay et Univ. Paris Descartes, jean-michel.poggi@parisdescartes.fr 4 Normandie Université, INSA Rouen, bruno.portier@insa-rouen.fr Résumé. Nous considérons les mesures horaires des concentrations de poussières PM10 de 22 stations de surveillance situées dans les régions Basse-Normandie, Haute-Normandie et dans les régions voisines. Toutes les stations de surveillance considérées sont des stations urbaines de fond ou des stations rurales. Le travail porte sur la détection statistique des concentrations de PM10 horaires d'un point de vue spatial. Deux façons de gérer la détection spatiale des valeurs aberrantes sont considérées. La première basée sur la médiane pondérée des voisins les plus proches, considère directement les concentrations tandis que la seconde est basée sur le krigeage d incréments de concentrations, au lieu des plus traditionnelles pseudo-innovations, et utilise une approche de type jackknife. Les deux méthodes sont appliquées au réseau de surveillance des PM10 en Normandie et sont pleinement mises en œuvre dans le processus de contrôle de la qualité des mesures. Quelques résultats numériques sont fournis sur des données récentes de janvier 2013 à janvier 2014 pour illustrer et comparer les deux méthodes. Mots-clés. Qualité de l'air, krigeage, plus proches voisins, PM10, détection spatiale des données aberrantes Abstract. We consider hourly PM10 measurements from 22 monitoring stations located in Basse-Normandie and Haute-Normandie regions and also in the neighboring regions. All considered monitoring stations are either urban background stations or rural ones. The paper focused on the statistical detection of the hourly PM10 concentrations from a spatial point of view. Two ways to handle spatial outlier detection are considered: the first one is based on the nearest neighbours weighted median which directly consider concentrations while the second one is based on kriging increments, instead of more traditional pseudo-innovations, and uses a jackknife type approach. The two methods are applied to the PM10 monitoring network in Normandie (France) and are fully implemented in the Measurements Quality Control process. Some numerical results are provided on recent data from January 2013 to January 2014 to illustrate and compare the two methods. Keywords. Air quality, kriging, nearest neighbors, PM10, spatial outlier detection 1

1. Introduction En France, la surveillance de la qualité de l'air est prise en charge dans chaque région par une association officielle, agréée par le Ministère de l'ecologie. En Normandie, composée de deux régions administratives, Air Normand, basée à Rouen (Haute-Normandie), et Air COM, basée à Caen (Basse-Normandie), surveillent la qualité de l'air. En plus de leurs fonctions de contrôle, leur rôle est d'informer le public sur l'air qu'il respire. Ainsi, pour accomplir leurs missions, Air Normand et Air COM mesurent la qualité de l'air avec des analyseurs disséminés dans la région, et publient ces mesures, en particulier par l'utilisation du web pour informer le public sur son exposition à la pollution de l'air. Air Normand et Air COM travaillent en étroite collaboration pour publier leurs mesures horaires sur un site Internet commun. Les mesures sont interpolées dans l'espace pour produire des cartes de qualité de l'air, cartes qui sont mises à jour toutes les heures sur le site web des associations. Le problème est alors d éviter des cartes erronées causées par des mesures aberrantes. La qualité de l'air est construite sur la base des mesures des concentrations et des cartes fournies par les sorties de modèles numériques physico-chimiques. La carte affichée est obtenue par correction, en utilisant des procédés d'assimilation, des simulations fournies par des modèles numériques par les concentrations mesurées dans les stations de réseau (voir, par exemple, de Fouquet et al. 2011). Les erreurs de mesures non diagnostiquées peuvent donc sérieusement affecter la qualité de la reconstruction spatiale des concentrations, comme on peut le voir sur la Figure 1 montrant une telle carte, qui contient une donnée aberrante à Lisieux. Figure 1: Une carte qui contient une donnée aberrante à Lisieux. Ainsi, le but de ce travail est double : construire des outils de détection en temps réel des valeurs aberrantes générant une carte incorrecte, et contribuer à la validation d'une mesure dans chaque station de mesure du réseau. Nous considérons dans ce travail effectué avec Air Normand, le problème de la détection spatiale des valeurs aberrantes dans le contexte des poussières et plus précisément celui des PM10, qui est le polluant le plus important en Normandie. On peut esquisser un panorama rapide de l abondante littérature sur les valeurs aberrantes. Par exemple, nous pouvons d'abord citer le livre classique Barnett 2004, qui contient un chapitre spécialement dédié à ce sujet, ainsi que quelques papiers de synthèse Planchon 2005, Ben-Gal 2005 ou plus récemment Chandola et al. 2009. Toutefois ces références concernent 2

principalement les valeurs aberrantes univariées ou multivariées, mais ne sont pas spécifiquement dédiées à la nature spatiale des données. Haslett et al. 1991 ainsi que Laurent et al. 2006 explorent des outils d'analyse de données spatiales et en déduisent des procédures de détection de valeurs aberrantes (voir par exemple Filzmoser et al. 2012). Dans le cas des données spatiales, une distinction classique est faite entre une valeur atypique "globale", qui consiste à raisonner à partir du comportement de la majorité des données et une valeur atypique "locale" qui consiste à raisonner à partir du comportement des observations voisines géographiquement. Ainsi, on peut définir quatre classes d'observations : typique, atypique globale uniquement (détecté par des outils standards), atypique locale seulement et la dernière : atypique locale et globale. Dans cet article, nous nous intéressons à la détection des observations atypiques locales. Notons qu'une observation atypique locale est souvent définie comme une observation qui diffère des mesures en des sites proches. Il est donc implicitement supposé que les données présentent une autocorrélation spatiale positive. Bien sûr, il est important de vérifier si cela est réaliste dans chaque application spécifique. Les travaux de Cerioli et al. 1999, basés sur le krigeage sont consacrés à la détection de valeurs aberrantes multiples tandis que Kou et al. 2006 et Lu et al. 2003, élaborent des moyens simples, intuitifs et robustes pour détecter les valeurs aberrantes spatiales. Signalons enfin la très récente référence Li 2013. Dans ce papier, l'idée de base de l'algorithme de détection est fondée sur la comparaison de la concentration mesurée avec une certaine prédiction spatiale robuste, avec et sans le site suivant une approche classique de type jackknife. Nous considérons deux méthodes de détection des valeurs aberrantes différant par la méthode de prédiction spatiale. La première, inspirée de Kou et al., 2006 et de Lu et al. 2003, est une voie spatiale non stationnaire comparant directement la concentration en un site donné avec la médiane pondérée des concentrations de ses voisins par rapport à un système de voisinage pré-spécifié. La seconde est basée sur le krigeage des innovations, à savoir la différence entre les observations actuelles et un ensemble de référence d'observations passées ou de sorties de modèles numériques, et non pas directement sur les concentrations. 2. Détection spatiale des valeurs aberrantes Le principe général de l'algorithme de détection est basé sur la comparaison de la concentration mesurée en un site à une prédiction spatiale robuste, supposée exempte de valeurs aberrantes. Cette stratégie est classique, voir par exemple Rousseeuw et al. (2005). Plus précisément, on considère les résidus définis par : R! s! = Z! s! Z!!! s!, 1 k K où Z! s! est la concentration mesurée à l'instant t et à la station de mesure s!, et Z!!! s! est une certaine prédiction spatiale basée sur les mesures des stations voisines en excluant bien sûr s!, suivant ainsi une approche de type jackknife. Ainsi, l'idée de base est, en partant de la suite des résidus R! s!, de comparer chaque!!!!! résidu R! s! à deux valeurs L s!, limite inférieure généralement négative, et U s!, limite supérieure généralement positive. Ensuite, trois cas peuvent se présenter : 3

- Tous les résidus sont à l'intérieur des limites, alors aucune valeur aberrante n est détectée ; - Un résidu unique est en dehors de ses limites, alors la mesure associée est aberrante ; - Plusieurs résidus sont en dehors de leurs limites associées. Dans ce cas, la mesure correspondant au résidu le plus éloigné de sa limite en valeur absolue, est considérée comme une valeur aberrante ; la concentration correspondante est alors considérée comme donnée manquante et l'ensemble du processus est réitéré. Une question naturelle est de savoir comment choisir les limites de rejet L s! et U s!. Tout d'abord, remarquons que, comme pour toute procédure de test, les limites de rejet sont basées sur l'hypothèse nulle, correspondant donc ici aux données validées. Deuxièmement, puisque nous considérons directement les concentrations, les résidus ne sont pas homogènes dans l'espace. Par conséquent, pour chaque station, nous définissons les seuils comme les quantiles extrêmes de la distribution empirique des résidus sur l'historique des données validées, sans procéder à une quelconque normalisation spatiale. Ces limites dépendent alors de la station. Bien entendu, la qualité et la taille de l'historique des données validées peuvent affecter les performances de la procédure de détection. Dans la suite, nous prenons pour L s! et U s! les quantiles à 0,25% et 99,75% de la distribution empirique de R! s!, T étant un sous-ensemble de données!! validées dans ce travail. Bien entendu, la procédure implique des prédictions spatiales locales calculées à partir des mesures des stations voisines. Examinons les deux approches expérimentées. 3. Médiane pondérée des plus proches voisins La première méthode de prédiction (conduisant à l algorithme noté NN dans la suite) est basée sur la médiane pondérée des concentrations des plus proches voisins. La prédiction est définie par : Z! (!"#) s! = médiane pondérée Z! s! pour s! V s! Bien entendu, étant donné que la corrélation spatiale des concentrations n est pas homogène, les ensembles de voisins ainsi que les pondérations associées dépendent du site s considéré. Deux méthodes différentes ont été utilisées pour les fixer, la première n'est pas entièrement automatique, mais une référence doit être construite et validée par des experts. La seconde est une variante entièrement automatique basée sur les indices d'importance des variables des forêts aléatoires (voir Genuer et al. 2010). La première méthode considère un sous-ensemble des données validées et procède en trois étapes pour déterminer les voisins de s!. Un modèle linéaire expliquant la concentration Z s! par les autres concentrations Z s! ; s! s! est construit, utilisant une pénalité lasso pour pousser les petits coefficients vers zéro. Puis, une élimination pas-à-pas descendante (au seuil de 5%) est réalisée sur le modèle linéaire sans terme constant. Enfin, une double interprétation experte (pollution, géographique) conduit à une liste définitive des voisins et des poids associés. Notons que cette procédure de définition des voisinages implique que le nombre de voisins dépend du site et conduit à des voisinages non nécessairement symétriques, i.e. s! V s! n implique pas que s! V s!. Ceci est cohérent avec l'absence de stationnarité spatiale du phénomène de pollution. 4

4. Krigeage des incréments La seconde méthode de prédiction est basée sur le krigeage. L'idée est d'utiliser pour prédire Z! s!, la sortie d un modèle de krigeage basé uniquement sur les autres sites Z s! ; s! s!. Rappelons que pour appliquer le krigeage, la stationnarité est une propriété clé que nous avons besoin de vérifier a priori. Cela peut être contourné en travaillant sur des pseudoinnovations au lieu des concentrations, c'est à dire la différence entre les observations réelles et des quantités reflétant la valeur moyenne des concentrations locales. Nous avons considéré deux variantes conduisant à deux algorithmes différents : - la première considère les différences avec les mesures à l instant t 1 si celles-ci sont toutes disponibles et dans le cas contraire avec les résultats d un krigeage basé sur les mesures disponibles à l instant t 1. L algorithme sera noté KK. - la seconde, conduisant à l algorithme noté KM, considère les différences avec les valeurs prédites par le modèle numérique ESMERALDA le plus récent. Pour être un peu plus explicite, en supposant que les données Z!!! s! à l instant t 1!!!!! sont disponibles et sans valeurs aberrantes, alors pour prédire Z! s!, on considère le sousensemble jackknife de mesures D s! = Z! s! Z!!! s! ; s! s!, on estime le variogramme exponentiel et on construit les poids optimaux de krigeage pour prédire D s! par D s!. Puis, en revenant aux concentrations, on en déduit une estimation Z! s! = D s! + Z!!! s!. Cette prédiction peut alors être comparée avec la mesure réelle Z! s! en calculant le résidu. Notons que l utilisation du krigeage des pseudo-innovations élimine la majeure partie du champ moyen et une partie importante des aspects non stationnaires. Il reste néanmoins une certaine adaptation au site en raison du fait que pour chaque site une procédure de krigeage différente est nécessaire pour obtenir le résidu associé au site et par suite les diagnostics des valeurs aberrantes. Ce type d'idées ouvre des perspectives : plus généralement, nous pourrions aussi penser à produire des cartes par bootstrap (au lieu du jackknife) ou par des techniques de simulation conditionnelles pour obtenir des cartes de valeurs aberrantes. Mais dans notre cas, et à cette échelle, avec un trop petit nombre de sites, nous avons préféré limiter notre stratégie au jackknife. 5. Applications Les deux méthodes sont appliquées au réseau de surveillance des PM10 en Normandie et sont pleinement mises en œuvre dans le processus de contrôle de la qualité des mesures. Quelques résultats numériques seront fournis sur des données récentes de janvier 2013 à janvier 2014 pour illustrer, comparer les deux méthodes et en montrer la complémentarité. 5

Bibliographie [1] Barnett V. Environmental Statistics: Methods and Applications. Wiley Series in Probability and Statistics, 2004 [2] Ben-Gal I., Outlier detection, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers, Kluwer Academic Publishers, 2005 [3] Cerioli A., Riani M. The Ordering of Spatial Data and the Detection of Multiple Outliers, Journal of Computational and Graphical Statistics, 8(2), 239-258, 1999 [4] Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey, ACM Computing Surveys, Vol. 41, 3, Article 15, 2009 [5] Cressie, N. Statistics for Spatial Data, Revised Edition, John Wiley and Sons, New York, 1993 [6] Filzmoser, P., Ruiz-Gazen, A., Thomas-Agnan, C. Identification of local multivariate outliers. Statistical Papers, 1-19, 2012 [7] de Fouquet, C., Malherbe, L., Ung, A. Geostatistical analysis of the temporal variability of ozone concentrations. Comparison between CHIMERE model and surface observations. Atmospheric Environment, 45(20), 3434-3446, 2011 [8] Genuer, R., Poggi, J.-M., Tuleau C., Variable selection using Random Forests. Pattern Recognition Letters, 31(14), p. 2225-2236, 2010 [9] Haslett, J., Bradley, R., Craig, P., Unwin, A., Wills, G. Dynamic graphics for exploring spatial data with applications to locating global and local anomalies. The American Statistician 45(3), 234-242, 1991 [10] Kou. Y., Lu C.-T., Chen D. Spatial Weighted Outlier Detection. In Proceedings of SIAM Conference on Data Mining, 2006 [11] Laurent, T., A. Ruiz-Gazen, Thomas-Agnan, C. GeoXp: An R Package for Exploratory Spatial Data Analysis, Journal of Statistical Software, Vol. 47, Issue 2, 2012 [12] Li Y., Nitinawarat S., Veeravalli V. V. Universal Outlier Detection. arxiv:1302.4776 (February 2013) [13] Lu C.-T., Chen D., Kou. Y. Algorithms for Spatial Outlier Detection. Proceedings of the Third IEEE International Conference on Data Mining (ICDM 03), 2003 [14] Planchon V. Traitement des valeurs aberrantes : concepts actuels et tendances générales. Biotechnol. Agron. Soc. Environ., 9(1), 19-34, 2005 [15] Rousseeuw, P. J., Leroy, A. M. Robust regression and outlier detection (Vol. 589). Wiley, 2005 6