Application de la méthode SIR. Frédéric Proïa (avec Bernard Bercu et Jérôme Saracco)

Documents pareils
Projet de Traitement du Signal Segmentation d images SAR

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Simulation de variables aléatoires

Intérêt du découpage en sous-bandes pour l analyse spectrale

Exercices Corrigés Premières notions sur les espaces vectoriels

Cours de méthodes de scoring

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Extraction d informations stratégiques par Analyse en Composantes Principales

Programmes des classes préparatoires aux Grandes Ecoles

Température corporelle d un castor (une petite introduction aux séries temporelles)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

FIMA, 7 juillet 2005

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

NON-LINEARITE ET RESEAUX NEURONAUX

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

1 Complément sur la projection du nuage des individus

Probabilités III Introduction à l évaluation d options

PROBABILITES ET STATISTIQUE I&II

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

TD1 Signaux, énergie et puissance, signaux aléatoires

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Algorithmes pour la planification de mouvements en robotique non-holonome

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Apprentissage Automatique

MATHS FINANCIERES. Projet OMEGA

TSTI 2D CH X : Exemples de lois à densité 1

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Quantification Scalaire et Prédictive

Programmation linéaire

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

Comment optimiser dans ImageReady?


Echantillonnage Non uniforme

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Ordonnancement robuste et décision dans l'incertain

Quelques tests de primalité

Des conditions d accueil privilégiées au lycée Couperin

données en connaissance et en actions?

Agrégation des portefeuilles de contrats d assurance vie

MODELES DE DUREE DE VIE

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Résolution d équations non linéaires

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Modélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Introduction au Data-Mining

L évaluation de la rentabilité d un investissement

Chapitre 3. Les distributions à deux variables

Optimisation, traitement d image et éclipse de Soleil

Communications numériques

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

3. Conditionnement P (B)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Le Modèle Linéaire par l exemple :

Pierre Thérond Année universitaire

Table des matières. I Mise à niveau 11. Préface

Cours 7 : Utilisation de modules sous python

Loi binomiale Lois normales

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

1. Vocabulaire : Introduction au tableau élémentaire

Licence STS mention Mathématiques Parcours Ingénieur Télécom Bretagne (ITB)

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Mesure agnostique de la qualité des images.

CAPTEURS - CHAINES DE MESURES

Logiciel XLSTAT version rue Damrémont PARIS

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Introduction au datamining

Asynchronisme : Cadres continu et discret

Chapitre 0 Introduction à la cinématique

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Statistique Descriptive Élémentaire

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Modèle GARCH Application à la prévision de la volatilité

Géométrie discrète Chapitre V

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Étudier si une famille est une base

Découverte du tableur CellSheet

Rapport d'analyse des besoins

Les Entrepôts de Données

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

Soutenance de stage Laboratoire des Signaux et Systèmes

Initiation à l algorithmique

ITIL Gestion de la capacité

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME

Transcription:

Application de la méthode SIR Modélisation et prédiction de courbes de charge individuelles Frédéric Proïa (avec Bernard Bercu et Jérôme Saracco) Université de Bordeaux (Ex-)Équipe ALEA (INRIA Bordeaux Sud-Ouest) Équipe Proba-Stat (Institut de Mathématiques de Bordeaux) Journées MAS Toulouse 27-29 août 2014 Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 1 / 28

La méthode SIR Sommaire 1 La méthode SIR Le modèle semi-paramétrique Descriptif de la méthode SIR 2 La méthode SIR pour les séries chronologiques 3 La méthode SIR sur les données EDF 4 Conclusion Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 2 / 28

La méthode SIR Le modèle semi-paramétrique La méthode SIR Le modèle semi-paramétrique Méthode introduite par Li en 1991, qui repose sur un argument géométrique. On s intéresse au modèle de régression semi-paramétrique donné, pour tout t 1, par Y t = f θ (X t) + ε t = f ( θ 1 Xt, θ 2 Xt,..., θ q X t ) + εt où (Y t ) est une suite de variables aléatoires de R à expliquer. (X t ) est une suite de vecteurs aléatoires de R p explicatifs, indépendants, de même loi, de moyenne µ et de covariance Σ, vérifiant la condition fondamentale. (ε t ) est une suite de variables aléatoires de R, iid, centrées, de variance σ 2, indépendantes de (X t ). Le paramètre inconnu θ est une matrice de M p,q(r) à estimer, avec q < p, dont les colonnes θ 1,..., θ q sont linéairement indépendantes. La fonction de lien f : R q R est inconnue et à estimer. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 3 / 28

La méthode SIR Le modèle semi-paramétrique La méthode SIR Le modèle semi-paramétrique (X t) vérifie la condition fondamentale : Il existe α, β 1,..., β q R p tels que E [ X t θ 1 Xt,..., θ q Xt ] = α + q k=1 ( θ k Xt ) βk. En particulier, la condition est vérifiée lorsque la loi de (X t ) est elliptique. C est-à-dire que la densité f X de X t est de la forme f X ( x m, Φ ) = 1 det(φ) h ( (x m) Φ 1 (x m) ). Les vecteurs de θ ne sont pas totalement identifiables. Pour A matrice carrée d ordre q et inversible, Y t = f ( θ X t ) + εt = f ( (A ) 1 (θa) X t ) + εt. Ainsi, f absorbe (A ) 1 et l algorithme estime θa. Seul le sous-espace vectoriel engendré par θ est identifiable. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 4 / 28

La méthode SIR Le modèle semi-paramétrique La méthode SIR Le modèle semi-paramétrique L espace EDR, pour Effective Dimension Reduction, est le sous-espace vectoriel E de R p engendré par θ 1,..., θ q, { q } E = Vect(θ) = γ k θ k avec γ 1,..., γ q R. k=1 Étape 1-SIR : estimation d une base de l espace EDR. Étape 2-NWR : estimation non paramétrique de la fonction de lien f. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 5 / 28

La méthode SIR Descriptif de la méthode SIR La méthode SIR Descriptif de la méthode SIR On préférera travailler avec des variables explicatives standardisées, Z t = Σ 1/2 (X t µ) et v k = Σ 1/2 θ k direction EDR standardisée (1 k q). Le découpage en H tranches du support de (Y t) permet l estimation d une matrice Γ n aisée à manipuler et possédant les mêmes propriétés que Γ = Var(E[Z t Y t]). Calcul de la moyenne X n et de la covariance Σ n empiriques de l échantillon (X n). Pour chacune des H tranches, calcul de la proportion empirique des Y t appartenant à la tranche, calcul de la moyenne empirique des Z t de la tranche. Calcul de la covariance Γ n des moyennes pondérées par tranche. La k-ème direction EDR est obtenue par Σn 1/2 v k, où v k est le vecteur propre associé à la k-ème plus grande valeur propre de Γ n. Choix de H? H = 1 et H = n n ont aucun intérêt. H > q pour ne pas faire de réduction de dimension artificielle. En pratique, H impacte peu la qualité des estimations lorsque n est grand. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 6 / 28

La méthode SIR pour les séries chronologiques Sommaire 1 La méthode SIR 2 La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique 3 La méthode SIR sur les données EDF 4 Conclusion Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 7 / 28

La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique Dans le cadre chronologique, (X t) n est pas formé de vecteurs indépendants. Il n existe aucun résultat théorique relatif à la méthode SIR dans un cadre chronologique. Observation du comportement de SIR sur des données simulées, modèle purement autorégressif, modèle semi-paramétrique autorégressif. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 8 / 28

La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique On considère un signal (Y t) de taille N, ainsi qu un couple de paramètres (p, q). p est la taille du vecteur explicatif, q est le nombre de directions EDR significatives. Le modèle semi-paramétrique autorégressif s écrit, pour p + 1 t N, Y t = f ( θ Y p t 1) + εt avec le vecteur Y p t 1 composé de la (t p)-ème colonne de X, et Y p+1 Y p Y p 1... Y 1 Y p+2 Y Y =., X = p+1 Y p... Y 2.... Y N Y N 1 Y N 2... Y N p Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 9 / 28

La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique La méthode SIR pour les séries chronologiques Le modèle semi-paramétrique dans un cadre chronologique Étape 1 : identification du paramétrage. (H, q, p) sont les paramètres de l algorithme SIR, α [1/3, 1[ est utilisé dans la fenêtre de NWR. Étape 2 : estimation du paramétrage. Déterminer l algorithme à utiliser, puis le couple (Ĥ, q) optimal sur un cube de qualité. Déterminer le couple ( p, α) optimal par validation croisée ou étude d un sous-ensemble de courbes, pour un critère lié à la prédiction (ou à la qualité de la modélisation). Étape 3 : estimation de θ et de f. θ par application de SIR(Ĥ, q, p). f par estimation fonctionnelle NWR( α). Étape 4 : prédiction à l instant N + 1, Ŷ N+1 = f ( θ Y p N). Étape 5 : éventuellement, tests de pertinence de l estimation. Test de blancheur des résidus d estimation. Test de normalité résiduelle (?). Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 10 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Génération d un signal purement autorégressif d ordre p = 10. Soit (Y 1,..., Y p) iid U([9, 11]), θ R p avec p k=1 θ k = 1, et (ε t) un bruit gaussien de moyenne nulle et de variance σ 2. Le signal est défini par Y t = θ Y p t 1 + εt. SIR-I, q = 1, Ĥ = 2. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 11 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Estimation SIR-I(Ĥ = 2, q = 1, p = 10) pour N = 1000. Tendance linéaire évidente. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 12 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Erreur MAPE d estimation lorsque p grandit. p 4. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 13 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Prédiction des 100 dernières valeurs par SIR-I(Ĥ = 2, q = 1, p = 10) pour σ2 = 0.01 puis σ 2 = 1, à horizon 1. L algorithme retrouve la tendance de la courbe. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 14 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Génération d un signal semi-paramétrique autorégressif d ordre p = 10. Soit (Y 1,..., Y p) iid U([9, 11]), θ R p avec p k=1 θ k = 1, et (ε t) un bruit gaussien de moyenne nulle et de variance σ 2. Le signal est défini par Y t = f ( θ Y p t 1) + εt où f (x) = x(1 + exp( x)). SIR-I, q = 1, Ĥ = 2. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 15 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Estimation SIR-I(Ĥ = 2, q = 1, p = 10) pour N = 1000. Tendance quasi-linéaire, légèrement incurvée par la présence de l exponentielle. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 16 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Erreur MAPE d estimation lorsque p grandit. p 8. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 17 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Prédiction des 100 dernières valeurs par SIR-I(Ĥ = 2, q = 1, p = 10) pour σ2 = 0.01 puis σ 2 = 1, à horizon 1. L algorithme retrouve la tendance de la courbe. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 18 / 28

La méthode SIR pour les séries chronologiques La méthode SIR pour les séries chronologiques Lorsque f (x) = 10 + cos(2πx), avec Ĥ = 5. Tendance trigonométrique. Nette séparation de θ et de f par l algorithme. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 19 / 28

La méthode SIR sur les données EDF Sommaire 1 La méthode SIR 2 La méthode SIR pour les séries chronologiques 3 La méthode SIR sur les données EDF Évaluation des paramètres 4 Conclusion Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 20 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Étude d un sous-ensemble de 20 courbes hétérogènes, par nécessité. Majorité de courbes très réceptives à SIR. SAVE parfois équivalent à SIR. Choix de SIR, q = 1, Ĥ = 5. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 21 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Étude d un sous-ensemble de 20 courbes hétérogènes, par nécessité. Certaines courbes moins réceptives à SIR. Courbes peu réceptives à la modélisation semi-paramétrique. Choix de SIR malgré tout, q = 1, Ĥ = 5. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 22 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Sélection de ( p, α) sur une grille bidimensionnelle, pour SIR(Ĥ = 5, q = 1). Critère évalué sur une expérience de 183 prédictions. p = 8, α = 0.52. Nécessité de faire varier ces valeurs dans leur voisinage. Attention : 2 valeurs possibles de α, selon la finalité de l étude. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 23 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Courbe très réceptive, pour SIR(Ĥ = 5, q = 1, p = 8) et α = 0.52. Tendance linéaire évidente. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 24 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Courbe peu réceptive, pour SIR(Ĥ = 5, q = 1, p = 8) et α = 0.52. Tendance floue, nuage dispersé. Courbe probablement trop bruitée. On ne peut pas faire mieux que retrouver la tendance de la courbe. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 25 / 28

La méthode SIR sur les données EDF Évaluation des paramètres La méthode SIR sur les données EDF Évaluation des paramètres Cas général, pour SIR(Ĥ = 5, q = 1, p = 8) et α = 0.52. Tendance linéaire évidente. Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 26 / 28

Conclusion Sommaire 1 La méthode SIR 2 La méthode SIR pour les séries chronologiques 3 La méthode SIR sur les données EDF 4 Conclusion Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 27 / 28

Conclusion Conclusion La stratégie semi-paramétrique donne de meilleurs résultats que la stratégie non paramétrique (NW, NWR). La stratégie paramétrique (SARIMA) donne de meilleurs résultats que la stratégie semi-paramétrique. Au pas horaire, une saisonnalité journalière évidente se dégage, ce qui rend les modèles SARIMA largement supérieurs : réduction de dimension obligatoire! Méthode SIR dans un cadre de dépendance des variables explicatives? Merci de votre attention! Frédéric Proïa (Univ. Bordeaux) Application de la méthode SIR 29/08/2014 28 / 28