Validation probabiliste d un Système de Prévision d Ensemble

Documents pareils

Introduction à l approche bootstrap

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Statistique : Résumé de cours et méthodes

Real-time Monitoring and forecast of IntraSeasonal Variability over Africa (MISVA)

Principe d un test statistique

Développements récents de la méthode des scores de la Banque de France

Le risque Idiosyncrasique

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

TD1 Signaux, énergie et puissance, signaux aléatoires

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Relation entre deux variables : estimation de la corrélation linéaire

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Quantification Scalaire et Prédictive

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Logiciel XLSTAT version rue Damrémont PARIS

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

1. Vocabulaire : Introduction au tableau élémentaire

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Mesure agnostique de la qualité des images.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Maintenabilité d un parc applicatif

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Expérience 3 Formats de signalisation binaire

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction aux Statistiques et à l utilisation du logiciel R

Projet de Traitement du Signal Segmentation d images SAR

Température corporelle d un castor (une petite introduction aux séries temporelles)

données en connaissance et en actions?

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

De la mesure à l analyse des risques

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

De la mesure à l analyse des risques

Cours de méthodes de scoring

Introduction au datamining

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Copyright / 2014 Éditions Stratégies et développement Siège Social 20 Rue du Béguinage Crespin

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Exercices - Polynômes : corrigé. Opérations sur les polynômes

4. Résultats et discussion

PROGRAMME (Susceptible de modifications)

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

OUTILS STATISTIQUES ET NUMÉRIQUES

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Statistiques Descriptives à une dimension

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Application des courbes ROC à l analyse des facteurs pronostiques binaires

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Projet ANR. Bruno Capra - OXAND. 04/06/2015 CEOS.fr - Journée de restitution (Paris) B. CAPRA

Intérêt du découpage en sous-bandes pour l analyse spectrale

TEPZZ A_T EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 ( ) G06K 19/077 (2006.

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

CAPTEURS - CHAINES DE MESURES

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Rôle des nuages dans l'anomalie de température de l'hiver 2007 en Europe

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Perspectives d applications de la télédétection en grandes culture à court et moyen terme dans le Sud-Ouest

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

DOCM Solutions officielles = n 2 10.

q u estions santé d économie de la résultats Repères

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Gestion obligataire passive

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

QUICK START RF Monitor 4.3-1

Le modèle de Black et Scholes

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Guide complet d inscription en ligne au Forum 2014 de l OCDE

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Leçon N 4 : Statistiques à deux variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exercice : la frontière des portefeuilles optimaux sans actif certain

La métrologie au laboratoire. vigitemp 10. centrale de surveillance et de traçabilité vigitemp kit de cartographie vigicart

Analyse de la portée des résultats du Bank Lending Survey au regard des données de crédit

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Représentation d une distribution

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Fonction inverse Fonctions homographiques

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Économie d énergie dans les centrales frigorifiques : La haute pression flottante

Mesures et incertitudes

BACCALAUREAT GENERAL MATHÉMATIQUES

M2 IAD UE MODE Notes de cours (3)

Probabilités III Introduction à l évaluation d options

IBM SPSS Direct Marketing 21

Notice de sélection pour Consultant Individuel IC-UPS/021/2013

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Transcription:

Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001)

Plan 1 Critères de validation probabiliste d un système de prévision d ensemble (EPS) 2 Mesures probabilistes 3 Comparaison objective de 2 EPS : méthodes bootstrap 4 Conclusions et perspectives

Principes probabilistes de validation d un EPS Oublier les concepts de validation déterministe 1 prévision = distribution de probabilités (PDF) vs. 1 vérification = 1 valeur numérique Validation des EPS par accumulation statistique. 2 critères : la fiabilité et la résolution. Xo

Critère d évaluation : Fiabilité Cohérence statistique entre les prévisions et les observations correspondantes. Xo f est la PDF prévue. f 1 et f 2 sont 2 distributions de x o quand f est prévue. L EPS est parfaitement fiable si et seulement si f = f. tout système peut être rendu fiable par une calibration statistique a posteriori. La fiabilité est un critère nécessaire mais non suffisant : cf. e.g. un système climatologique.

Critère d évaluation : Résolution Capacité de séparer les prévisions menant à des distributions d observations correspondantes (DOC) bien distinctes. système climatologique système déterministe Exemples DOC allant d une résolution minimale nulle pour le système climatologique à une résolution maximale pour le système déterministe. X 1 X 2 (la courbe rouge représente ici la distribution de toutes les observations : distribution climatologique)

Critères probabilististes : résumé La fiabilité et la résolution sont 2 propriétés qui déterminent la qualité et l utilité d un système de prévision probabiliste. Un EPS doit être capable de séparer a priori les prévisions en classes suffisamment variées afin que les observations correspondantes représentent des situations bien distinctes.

Continuous Ranked Probability Score (CRPS) Le CRPS mesure la qualité globale d un EPS : [ ] CRPS = E (F p (ξ) H(ξ x o )) 2 dξ Ω (1) F p est la distribution cumulative de probabilités (CDF) associée à l ensemble prévu et H est la distribution de Heaviside associée à la vérification. cas continu cas réel (discret) 1 verification CDF 1 verification CDF ε ε σ CRPS σ CRPS 0 mean ξ 0 mean ξ

Décomposition du CRPS Le CRPS se décompose en 2 composantes permettant de mesurer la fiabilité et la résolution. On utilise ici la décomposition proposée par H. Hersbach 1 : CRPS = Reli + CRPS pot (2) où Reli mesure la fiabilité et CRPS pot mesure la résolution. 1 Hersbach 2000 : Decomposition of the continuous ranked probability score for ensemble prediction systems, in Weather and Forecasting (15), pp 559 570.

Composante fiabilité du CRPS : Reli A chaque réalisation du système, on définit des valeurs pour chaque intervalle [x i, x i+1 ] selon la position de la vérification et la taille de l intervalle. 1 verification CDF = Après accumulation sur l ensemble des réalisations du système, on peut définir la CDF observée correspondante et la comparer à la moyenne des CDF prévues. 1 predicted observed Reli 0 X1 X2... X(n 1) Xn 0

Composante résolution du CRPS : CRPS pot CRPS pot serait la valeur potentielle du CRPS si l EPS était fiable, i.e. Reli = 0. CRPS pot = uncertainty Resol 1 1 class of predicted CDF CRPS pot F(σ) σ Σ uncertainty F(Σ) 0 CDF over all observations Resol F(Σ σ) Plus σ << Σ, meilleure la résolution est.

Reduced Centered Random Variable (RCRV) La RCRV permet de détailler les caractéristiques de la fiabilité en terme de biais (b) et dispersion (d). A chaque réalisation, on considère la moyenne m et la dispersion σ de l ensemble, ainsi que l observation o et l erreur d observation σ o. La RCRV se définit alors : y = o m σ 2 + σ 2 o (3) On cherche ainsi à vérifier si l observation peut être considérée comme une réalisation indépendante de la loi de probabilité définie par l ensemble la moyenne de y (b) mesure le biais pondéré de l ensemble et la variance de y (d) mesure la dispersion comparée des ensembles et des observations.

Comment améliorer la fiabilité d un EPS? Pour un EPS fiable, on a : b = 0 et d = 1 On considère un EPS non fiable sous-dispersif et 2 corrections possibles : d Var ( ɛ σ ) > 1 verification ensemble mean members plus de dispersion verification ensemble mean members moins d erreur verification ensemble mean members ε ε σ ε σ σ

Méthode de comparaison Vérifications effectuées avec des observations de radio-sondages réparties sur tout le globe (Chantal Côté). Comparaison des performances de 2 EPS mesurée par les différences en terme de CRPS et RCRV. Limitation de la validation due à la taille de l échatillon sur lequel les statistiques sont calculées estimation d intervalle de confiance par des techniques de ré-échantillonnage bootstrap 2. 2 Efron and Tibshirani, 1993 : An introduction to the bootstrap

Technique bootstrap S : score CRPS ou RCRV X : échantillon de données X 1 = (x 5, x 3,..., x 9 ) : S(X 1 ) S(X ) : X = (x 1, x 2,..., x n ) X 2 = (x 4, x n,..., x n ) : S(X 2 )......... X nb = (x 2, x 7,..., x 2 ) : S(X nb )

Intervalle de confiance : propriétés (1) Le ré-échantillonnage s effectue seulement parmi les jours de prévision et non aussi parmi les différentes stations d observations cela évite de donner trop de poids à des situations extrêmes journalières et d ainsi sous-évaluer la taille de l intervalle de confiance. CRPS 0.1 0.08 0.06 0.04 0.02 0-0.02 CRPS(A) - CRPS(B) C.I. C.I. spatial correlation 1 2 3 4 5 6 7 8 9 10 day. Température à 850 hpa pour la période du 12 septembre au 5 novembre 2005 EPS A = EPS opérationnel EPS B = EPS parallèle

Intervalle de confiance : propriétés (2) Risque de sous-évaluation de la taille des intervalles de confiance à cause de l auto-corrélation temporelle des erreurs de prévision, surtout à moyenne échéance. 0.16 autocorrelation 0.5 0.45 0.4 0.35 0.3 0.25 ρ(t,t+1) ρ(t,t+2) ρ(t,t+3) ρ(t,t+4) ρ(t,t+5) CRPS 0.14 0.12 0.1 0.08 0.06 0.04 0.02 CRPS(A) - CRPS(B) C.I. 1-day independent C.I. 2-days independent C.I. 3-days independent C.I. 4-days independent C.I. 5-days independent 0.2 0 0.15-0.02 1 2 3 4 5 6 7 8 9 10 day 1 2 3 4 5 6 7 8 9 10 day Les intervalles de confiance traduisent les incertitudes liées aux auto-corrélations des erreurs de prévision. Calcul des intervalles de confiance en ré-échantillonnant par séquences de 3 jours.

Comparaison : décomposition du CRPS Amélioration globale (CRPS) pour l EPS parallèle. Reli CRPS pot 0.1 Reli(A) - Reli(B) 0.1 CRPS pot (A) - CRPS pot (B) 0.08 0.08 0.06 0.06 Reli 0.04 CRPS pot 0.04 0.02 0.02 0 0-0.02-0.02 1 2 3 4 5 6 7 8 9 10 day 1 2 3 4 5 6 7 8 9 10 day Amélioration significative de la fiabilité. Amélioration significative de la résolution jusqu au jour 6.

Comparaison : décomposition de la fiabilité Amélioration significative de la fiabilité pour l EPS parallèle. biais dispersion 0.18 0.16 b(a) - b(b) 0.1 1-d(A) - 1-d(B) 0.14 0.08 0.12 0.1 0.06 bias 0.08 0.06 0.04 0.02 0-0.02-0.04 1 2 3 4 5 6 7 8 9 10 day dispersion 0.04 0.02 0-0.02 1 2 3 4 5 6 7 8 9 10 day Amélioration non significative du biais. Amélioration significative de la dispersion.

Comparaison : changement neutre Construction de 2 EPS thériquement équivalents : EPS A = EPS oper. jours pairs + EPS para. jours impairs EPS B = EPS oper. jours impairs + EPS para. jours pairs 0.08 CRPS(A') - CRPS(B') 0.06 CRPS 0.04 0.02 0 Pas de différence significative. -0.02-0.04 1 2 3 4 5 6 7 8 9 10 day

Résumé Développement d outils de validation probabiliste objective pour la comparaison de la performance de 2 EPS : vérification contre observations. mesure globale CRPS avec décomposition fiabilité-résolution et caractérisation de la fiabilité par la RCRV. définition d intervalle de confiance par des techniques de ré-échantillonnage bootstrap. Amélioration significative avec l EPS parallèle, surtout en terme de fiabilité, qui est devenu l EPS opérationnel le 12 décembre 2005.

La suite... Transfert des outils de validation/comparaison probabiliste en mode opérationnel inclus dans une boite à outils de vérification plus générale (Barbara Casati). Développer les techniques de ré-échantillonnage pour d autres mesures probabilistes telles que le score de Brier. Prévision déterministe et prévision d ensemble : liens entre les incertitudes de prévision déterministe et la dispersion des ensembles? liens entre la discrimination (courbe ROC, valeur économique) et la fiabilité-résolution?

Merci Questions?