Application des méthodes de décomposition en composantes principales à la climatologie



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Rôle des nuages dans l'anomalie de température de l'hiver 2007 en Europe

Extraction d informations stratégiques par Analyse en Composantes Principales

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

L'analyse des données à l usage des non mathématiciens


Introduction. Préambule. Le contexte

La classification automatique de données quantitatives

ACP Voitures 1- Méthode

Programmes des classes préparatoires aux Grandes Ecoles

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistique : Résumé de cours et méthodes

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Real-time Monitoring and forecast of IntraSeasonal Variability over Africa (MISVA)

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Introduction à l approche bootstrap

Chapitre 3. Les distributions à deux variables

Gestion obligataire passive

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Relation entre deux variables : estimation de la corrélation linéaire

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Séance 0 : Linux + Octave : le compromis idéal

3.2. Matlab/Simulink Généralités

Exercice : la frontière des portefeuilles optimaux sans actif certain

Évolution du climat et désertification

Chapitre 6 La lumière des étoiles Physique

VI.1) Description de la QBO Observation du vent zonal en moyenne zonale à l'équateur Données UARS (Swinbak et Orland)

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Résonance Magnétique Nucléaire : RMN

Nouvelle réglementation

PROJET ACCLIMATE ETUDE SIM-CLIM THEME 3 Etude bilan des possibilités d une simulation climatique régionale

L analyse de la gestion de la clientèle

Individus et informations supplémentaires

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

LE PHYSICIEN FRANCAIS SERGE HAROCHE RECOIT CONJOINTEMENT LE PRIX NOBEL DE PHYSIQUE 2012 AVEC LE PHYSICIEN AMERCAIN DAVID WINELAND

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

MODELE A CORRECTION D ERREUR ET APPLICATIONS

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Le risque Idiosyncrasique

Cours 02 : Problème général de la programmation linéaire

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Econométrie et applications

Lois de probabilité. Anita Burgun

FAITS SAILLANTS : 1. CONDITIONS CLIMATIQUES ET ENVIRONNEMENTALES EN AFRIQUE

Modèle de budget mensuel

FRnOG, 25/01/2013. Marilyn, un datacenter vertical

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

Profils verticaux de la couverture nuageuse, de ses propriétés et des aérosols: données du lidar CALIOP et du radar CLOUDSAT (DARDAR) de 2006 à 2012

Stockage ou pas stockage?

Systèmes de communications numériques 2

Aide-mémoire de statistique appliquée à la biologie

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Etude des propriétés empiriques du lasso par simulations

aux différences est appelé équation aux différences d ordre n en forme normale.

Réunion publique/téléconférence

Initiation à l analyse en composantes principales

Régression linéaire. Nicolas Turenne INRA

Bilan décennal des catastrophes naturelles en France

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

VENTILATION POUR LE CONFORT D ETE

Texte Agrégation limitée par diffusion interne

Validation probabiliste d un Système de Prévision d Ensemble

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Le point en recherche

Où sont les Hommes sur la Terre

Introduction à MATLAB R

FORMULAIRE DE STATISTIQUES

Approximations variationelles des EDP Notes du Cours de M2

Principe d un test statistique

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Correction du Baccalauréat S Amérique du Nord mai 2007

Modélisation des carrières salariales. dans Destinie

I ntroduction. Coffrets pour la régulation de la température et de l hygrométrie. Caractéristiques et avantages

Calcul différentiel sur R n Première partie

Transmission d informations sur le réseau électrique

Modèles pour données répétées

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

Statistique Descriptive Élémentaire

L inégale répartition de l énergie solaire est à l origine des courants atmosphériques

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

MODÉLISATION NUMÉRIQUE DANS LE BÂTIMENT

Python - introduction à la programmation et calcul scientifique

Projet Matlab : un logiciel de cryptage

Introduction à la Visualisation Scientifique

Interception des signaux issus de communications MIMO

Chapitre 02. La lumière des étoiles. Exercices :

Introduction au Data-Mining

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Transcription:

Application des méthodes de décomposition en composantes principales à la climatologie Etude d un exemple: les modes de variabilité de la température de surface de la mer dans l océan Atlantique tropical et la variabilité atmosphérique associée. Juliette Mignot LOCEAN/ IRD Abdou Kane LSCE/CEA Abdou Gueye LTI LOCEAN / IRD

Introduction théorique EOFs (1) Définition de la matrice des données j On analyse un signal discrétisé Z i où Z (déviation de moyenne temporelle nulle par rapport à Z ) est connu aux points Xj (j [1,P]) et aux temps ti (i [1,T]). Typiquement, Z est une succession (série temporelle) de cartes de température à la surface de la mer (SST). espace Z X11........ X1................ =........................ X T1........ X P TP temps Individu (1 carte) La base canonique de R P sur laquelle sont représentées les variables initialement est l ensemble des vecteurs de type e i = [ 0 1... 0 0 ] C est à dire que chaque vecteur correspond à 1 point d espace pris individuellement. Caractère ou variable (évolution temporelle de la variable observée en 1 point d espace) Idée générale L idée de l ACP (ou ici décomposition en EOF) est de déterminer une nouvelle base de R P qui représente le mieux les liens (les covariances) entre les différents individus. id On peut montrer que cette nouvelle base est obtenue par diagonalisation de la matrice de covariance.

Exemple d application Pé Présentation tti des données Matrice Z: Données de température à la surface de la mer (SST) issues du jeu de réanalyses NCEP/NCAR: http://www.cdc.noaa.gov/cdc/data.ncep.reanalysis.derived.surfaceflux.html / d /d t d i d fl l Résolution temporelle: Données mensuelles couvrant la période 1948/01 2007/12 (60 années) T=12x60=720 par défaut. Dans la suite, on travaillera essentiellement soit avec les moyennes mensuelles saisonnières, donc T=12 (moyenne sur les 60 années), soit avec les moyennes annuelles, donc T=60 (moyenne sur les 12 mois de chaque année) Résolution spatiale: Le jeu de données initialcouvre la Terre entière: [88.542N 88.542S, 0E 358.125E] soit 192x94 points de grille spatiaux (lonxlat) On travaille ici avec un sous ensemble couvrant le domaine spatial [40S 40N, 100W 30E] (Atlantique tropical), soit 70x42 points de grille. Donc P=70x42=2940 On dispose également des flux atmosphériques associés (chaleur, eau douce, moment)

Exemple d application Visualisation de la variabilité saisonnière iè de la SST dans l Atlantique tropical: cartes mensuelles moyennes dim(z)=[ T x P ] Ici, T=12 (nombre de mois de l année) Programme matlab fourni janvier février mars avril mai juin 1. Modifierleprogramme matlab précédent pour visualiser la variabilité interannuelle de la SST dim(z)=[ T x P ] Ici, T=60 (nombre d années) juillet aout septembre 2. Programmer le calcul de l écart type mensuel moyen et interannuel à l aide du programme matlab précédent et de la fonction «std»(voir >> help std) octobre novembre décembre K

Introduction théorique EOFs (2) Matrice de covariance On définit la matrice de covariance (ou matrice d inertie) par Ou encore C= t ZZ. C est donc une matrice de dimensions PxP La trace de la matrice de covariance est aussi appelée moment d inertie totale. C est une mesure de la dispersion du nuage des individus (mesures de SST) par rapport à son centre de gravité. La recherche de directions u k maximisant l inertie du nuage (donc tels que Max( t u kt ZZu k )) se traduit en algèbre linéaire par une recherche de vecteurs propres de la matrice de covariance C. C il = 1 P i Z j i Z l i Diagonalisation de la matrice ti de covariance C est une matrice symétrique de taille PxP définie positive, dont les valeurs propres sont réelles et positives. Les vecteurs propres associés constituent une nouvelle base de R P qui maximise la représentation de la variance/covariance entre les individus. Ils sont appelés les Fonctions Empiriques Orthogonales (EOF) pour Z. λ i

Composantes principales i Introduction théorique EOFs (3) On définit les composantes principales de Z comme la décomposition (normalisée) du signal décrit par Z sur les EOF (vecteurs propres) En: j j P P n = Zi E P n n, i n = std( P n ) i Les composantes principales p sont des vecteurs R T. Ce sont de «nouvelles variables» dont les composantes donnent les coordonnées du nuage de point (des individus) sur les nouvelles directions principales (vecteurs propres, EOF) Interprétations ti La composante principale Pn est le coefficient de l EOF En et dépend du temps (indice j) mais pas de l espace. En est une carte spatiale indépendante du temps. On a ainsi obtenu une décomposition de Z sous la forme Où les EOF En sont orthogonales entre elles et les composantes principales n Pn sont orthogonales entre elles. Z = P E n n On peut par ailleurs montrer que l on peut considérer λ m / λ n comme la part de la n variance associée à l EOF m.

Exemple d application (1) Décomposition desmoyennes mensuelles saisonnières en EOF: dim(z)=[ T x P ] Ici, T=12 (nombre de mois de l année) Programme matlab fourni Répartition des valeurs propres: le 1 er vecteur propre explique 91% de la variance saisonnière. Les suivants expliquent une proportion largement plus faible, 6% pour le second et moins de 2% pour les suivants. Au moins dans un premier temps, on limite donc l analyse l au 1 er vecteur propre.

Exemple d application (1) Décomposition desmoyennes mensuelles saisonnières en EOF: dim(z)=[ T x P ] Ici, T=12 (nombre de mois de l année) Pourcentage de variance expliquée Programme matlab fourni Les données étant géographiques et nécessitant donc déjà 2 dimensions pour la visualisation, on ne représente qu un mode à la fois. La carte illustre le poids (codé en couleur) de chacun des vecteurs de la base initiale (points d espace) sur cevecteur propre EOF1 EOF 2 ej ei e1 ep EOF 1

Exemple d application (1) Décomposition desmoyennes mensuelles saisonnières en EOF: dim(z)=[ T x P ] Ici, T=12 (nombre de mois de l année) Programme matlab fourni + Sep La série temporelle correspond à la projection des individus de la matrice Z initialesurlevecteur propre EOF 1 Juin + EOF 2 + Avr Jan Fév + + EOF 1

Exemple d application (1) Décomposition desmoyennes mensuelles saisonnières en EOF: dim(z)=[ T x P ] Ici, T=12 (nombre de mois de l année) Programme matlab fourni 91% de la variabilité saisonnière iè moyenne de la SST est expliquée par un refroidissement relatif dans l hémisphère nord associé à un réchauffement au sud La série temporelle illustre la modulation saisonnière de ce mode (sur les 12 mois de l année): ce mode est en phase positive durant l hiver boréal et négative (il fait + chaud au nord et + froid au sud) durant l hiver austral

Exemple d application (2) Décomposition des moyennes annuelles en EOF: dim(z)=[ T x P ] IiT60( Ici, T=60 (nombre d années) Modifier le programme matlab précédent ééd pour calculer l et représenter les modes de variabilité interannuelle de la SST dans l Atlantique tropical Répartition des valeurs propres: les valeurs propres sont mieux réparties qu en saisonnier. On voit néanmoins que hors mis les 2 premières valeurs propres, les autres sont assez faibles fibl et proches. Les 2 premiers vecteurs propres expliquent à eux deux les 2/3 de la variance totale de la SST interannuelle sur le bassin.

Introduction théorique EOFs (5) Remarques: Il faut se méfier d accorder une signification physique particulière à une EOF indépendemment des autres. En effet, la décomposition présentée ci dessus n est pas intrinsèque mais dépend des choix arbitraires des produits scalaires (distance). De plus, la condition d orthogonalité des EOFs contraint la structure des EOFs au delà de la 2 ème, limitant ainsi l interprétation physique. Le principal intérêt des EOF apparaît lorsque les valeurs propres m décroissent rapidement avec m, la variance étant concentrée dans un petit nombre de modes. Dans ce cas, le signal se retrouve réduit à un petit nombre de degrés de libertés, ce qui facilite grandement l analyse ultérieure. Souvent, la réduction en EOF est une étape préliminaire à une analyse statistique plus élaborée. La décomposition en EOF est bien adaptée à l etude des propriétés stationnaires de la variabilité. bl Plusieurs généralisations é existent pour l étude de modes propagatifs.

Exemple d application (2) Interprétation de la 1 ère EOF Maximum de variance expliquée situé à l équateur et au sud le longdelacôte la africaine. Même signe d anomalie dans tout le bassin. La série temporelle est caractérisée par une variabilité interanuelle relativement basse fréquence (oscillation biannuelle) superposée à une dérive positive. Calculer la régression linéaire de la série temporelle correspondant aux point d espace [2N 15W] et [20N 95W] respectivement avec la composante principale. Commenter en lien avec la structure de ce vecteur propre.

Exemple d application (2) Interprétation de la 2 ème EOF maximum de variance dans le bassin tropical Nord et dans le bassinsud avec des signes opposés. baptisé mode «méridien» ou «dipôle» (Ruiz Barradas et al., 2000). Remarque: sa réalité physique est discutable (Houghton et Tourre 1992, Nobre et Shukla 1996, Enfield et al. 1998). Série temporelle relativement basse fréquence Calculer la régression linéaire des séries temporelles correspondant aux point d espace [20N 20W] 20W] et [10S 5E] respectivement avec la composante principale. Commenter en lien avec la structure de ce vecteur propre.