Modélisation des codes de calcul dans. le cadre des processus gaussiens



Documents pareils
MCMC et approximations en champ moyen pour les modèles de Markov

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

NON-LINEARITE ET RESEAUX NEURONAUX

Méthodes de Simulation

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

PROBABILITES ET STATISTIQUE I&II

Soutenance de stage Laboratoire des Signaux et Systèmes

Simulation de variables aléatoires

de calibration Master 2: Calibration de modèles: présentation et simulation d

PROJET MODELE DE TAUX

Ordonnancement robuste et décision dans l'incertain

La fonction exponentielle

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Marc Bocquet CEREA, École des Ponts ParisTech Université Paris-Est et INRIA

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Intérêt du découpage en sous-bandes pour l analyse spectrale

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Probabilités III Introduction à l évaluation d options

Théorie de l estimation et de la décision statistique

COURS GESTION FINANCIERE A COURT TERME SEANCE 2 COUVERTURE DU BESOIN DE FINANCEMENT CHOIX DU NIVEAU DU FONDS DE ROULEMENT

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Interception des signaux issus de communications MIMO

Saisie des chauffe-eau thermodynamiques à compression électrique

TABLE DES MATIERES. C Exercices complémentaires 42

Arbres binaires de décision

Introduction au Data-Mining

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

MÉTHODE DE MONTE CARLO.

Classification non supervisée

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Algorithmique I. Algorithmique I p.1/??

Quantification Scalaire et Prédictive

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modélisation et simulation

Transmission d informations sur le réseau électrique

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

OPTIMISATION À UNE VARIABLE

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Gestion obligataire passive

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exercice : la frontière des portefeuilles optimaux sans actif certain

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

4.2 Unités d enseignement du M1

Etude des propriétés empiriques du lasso par simulations

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

LOGICIEL DE MODÉLISATION INTEGRÉE 1D/2D POUR LA GESTION DES EAUX PLUVIALES ET DES EAUX USÉES. drainage. Micro Drainage

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Modèles et Méthodes de Réservation

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Texte Agrégation limitée par diffusion interne

Apprentissage Automatique

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Expérience 3 Formats de signalisation binaire

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Gestion des stocks et des approvisionnements

Optimisation des performances d échangeurs de chaleur.

COURS GESTION FINANCIERE SEANCE 4 CHOIX DU NIVEAU DU FONDS DE ROULEMENT PLANS DE TRESORERIE FINANCEMENTS ET PLACEMENTS A COURT TERME

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Vérification audiovisuelle de l identité

1 Complément sur la projection du nuage des individus

Agrégation des portefeuilles de contrats d assurance vie

La classification automatique de données quantitatives

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Data mining II. Modélisation Statistique & Apprentissage

ESSEC Cours Wealth management

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Programmation Linéaire - Cours 1

Apprentissage par renforcement (1a/3)

TSTI 2D CH X : Exemples de lois à densité 1

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Méthodes d apprentissage statistique «Machine Learning»

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Produits de crédit en portefeuille

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

FIMA, 7 juillet 2005

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Intérêts et limites des mannequins numériques pour l évaluation des efforts et des postures

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Stages de Formation en Statistique Appliquée et Logistique

Direction Eau, Environnement & Ecotechnologies. H. Leprond et N. Chauvin

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Programmation linéaire

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Apprentissage non paramétrique en régression

Transcription:

Modélisation des codes de calcul dans le cadre des processus gaussiens Amandine Marrel Laboratoire de Modélisation des Transferts dans l Environnement CEA Cadarache Introduction (1) Fiabilité et calcul d incertitudes : Processus de modélisation - Phénomène réel représenté par des équations déterministes!#"$% - Modèle mathématique - Implémentation : obtention d un code de calcul &'( ) )('$ *!+"$),"$ ( (!$-, (."$) / ( ) )( 10." $, $3 ) 4 65 Différentes sources d incertitudes Analyse d incertitudes et de sensibilité - Étude du comportement de la réponse du modèle par rapport aux incertitudes sur les variables d entrée - Identification des variables les plus influentes 1

Introduction () Problème : Modèle souvent complexe Grand nombre de paramètres d entrée Études d incertitudes et de sensibilité nécessitent un grand nombre de simulations Coûteux en temps de calcul Solution : Construction d une surface de réponse - Remplacer le code de calcul par une fonction plus simple dans le domaine de variation des paramètres influents - Caractéristiques de cette fonction : être représentative du code avoir de bonnes capacités de prédiction nécessiter un temps de calcul négligeable Introduction (3) Quelle surface de réponse? Polynômes, splines, GLM, réseaux de neurones, arbres de régression? Limites des modèles de régression classiquement utilisés Difficulté d interprétation Nécessité de disposer d un prédicteur rapide à évaluer pour réaliser des analyses de sensibilité Codes de calcul déterministes : intérêt d une modélisation statistique permettant d interpoler exactement les données 748:96;< ;18>=?< 9$= @.A B.C$C 8:9$=ED FF BGCIHA J-KBGC$C LCMC = J-K.N>8.C =< O>LBGCQPG8GL-C C< B:96C RS A-< PGBG8>PGB.T Étude des capacités de prédiction des processus gaussiens : Mise au point d une méthodologie Application : code de transport de polluants dans les sols

Plan 1. Théorie des processus gaussiens Modèle général BLUP Estimation des paramètres. Mise en œuvre Estimation, prédiction et validation Sélection de variables Algorithme général 3. Tests sur les données Marthe Présentation des données Modélisation Résultats et analyse Conclusion et perspectives Modèle général (1) Processus stochastique gaussien : Y(X) = g(x) + Z(X) Partie régression Partie stochastique Z processus stochastique tel que : E[Z(] = 0 Cov(Z(, Z(y)) = ²R(x,y) où ² est la variance et R la fonction de corrélation Z~ (0, ²R) Partie régression : Choix d un modèle paramétrique g(x) = U.F(X), U vecteur des paramètres V"$ WX %Y' ( Z [)\] ]!^-_a` /$b: Vc /$d %] ]W % 5 Importance limitée? e*f\g'hi)h)j gklnm oqp gr!h)j sntu g'vnr+wx%g klszÿ vv{g'ys]y s]{i {%v } o~ i rj i $ s]y s kh%r#w s] ƒy s]y6j :s$kl'j g k4y m [ X, ] X =, 1 ˆ X d 3

Modèle général () Partie stochastique : Hypothèse de normalité du processus Entièrement caractérisé par la fonction de covariance Hypothèse de stationnarité R(x,y) = R(x-y) Hypothèse d isotropie : R(x,y) = R( x - y ) infondée pour les codes de calcul Différentes formes possibles pour la fonction de covariance : d Linéaire : R( x, y) = max 1 θi xi yi, 0 i= 1 d pi Exponentielle généralisée : R( x, y) = exp θi xi yi i= 1 Sphérique. ~ Effet de pépite : R( x, y) = R( x, y) +δ Modèle général (3) Exemples de processus gaussiens centrés isotropes D Fonction de covariance exponentielle de paramètre Š = 3 Fonction de covariance gaussienne de paramètre Š = 100 4

BLUP Meilleur prédicteur linéaire sans biais (BLUP) Formulation : Yˆ( = βf( + r( R Y βf Interpolateur exact t t Formulation du MSE : MSE[ Yˆ( ] = σ ² 1+ u( ( FR Caractérisé par des paramètres qualitatifs et quantitatifs: Forme de la fonction de covariance Paramètres de régression Paramètres de covariance Œ Paramètre de variance Ž: % + + ) š œ! žÿ. $ ) žÿ - žÿ Ž ) ) + #! ' + X S = ª + V )«%!! ] œ+ [ x1,..., x %ž> ] N \ % ] ž> Ÿ ±! V ) ± )! 3² š ', = R( x ) ³ '± µ. % ± )! ² š, i, x k [ ] ( ) i k = [ R( x,,..., R( x ] R, ( x ) 1 r N, t ( F) u( r( R r( ) t avec u( = FR Estimation de ces paramètres r( f ( Estimation des paramètres (1) Méthode du maximum de vraisemblance Expression de la log-vraisemblance sous l hypothèse gaussienne : N 1 1 ln L = ln ln det Rθ Y. Rθ Y. ( ) ( ) ( ) [ ] [ ] Estimateur du maximum de vraisemblance * * * (,, ) = Argmax ¹-º» ln L( ) ( ) Estimation conjointe de et : ¼ ¼ Estimation du paramètre de corrélation : * 1 * = Argmax º - [ N ln( σ ² ) + ln R θ ] Minimisation numérique de la fonction ψ = R * = [ F R ] θ F F Rθ Y 1 * * [ Y F] R [ Y F] * ² θ = N 1 N * ( ) σ ² θ 5

Estimation des paramètres () Optimisation numérique difficile : Problèmes de conditionnement de la matrice de corrélation R Ajout dans la fonction de covariance d un effet de pépite Fonction ½ (¾ ) coûteuse Problèmes de minima locaux Grand nombre de paramètres (dimension du vecteur des paramètres d entrées > 0) Utilisation d un algorithme d optimisation itératif Plan 1. Théorie des processus gaussiens Modèle général BLUP Estimation des paramètres. Mise en œuvre Estimation, prédiction et validation Sélection de variables Algorithme général 3. Tests sur les données Marthe Présentation des données Modélisation Résultats et analyse Conclusion et perspectives 6

Estimation, prédiction et validation Estimation des paramètres par minimisation de (À ) : Algorithme stochastique basé sur la toolbox matlab DACEFIT basé sur la méthode de Hookes & Jeeves Implémentation rapide du prédicteur au point x (EBLUP): t Yˆ( = βˆ F( + r x γ θˆ ( ) ˆ βˆ et γˆ indépendants de x t avec γˆ = R [ Y βˆ F] Seulement F( et ( ) à recalculer θˆ rˆ x θ Validation du modèle : Critères : - Analyse graphique des résidus - Coefficient de détermination R² R ( Y, Yˆ ) i = 1 = 1 N N ( Yi Yˆ i ) ( Y Yi ) i = 1 Méthodes : - Validation croisée : Estimation des paramètres sur la base d apprentissage Calcul du critère (R² par ex.) sur la base de test Sélection de variables Nombre de variables d entrée important ( > 10) Procédure d estimation difficile (grand nombre de paramètres) Compromis «biais-variance» : modèle simple/modèle complexe Mise en place d une procédure de sélection de variables Sélection ordonnée des variables Á ÂÃ-Ä Å'Æ%Ç Å È$É Á'ÊË1ÌÁ Í$Î Æ!Ï ÁÐ)É Å)ÊÊÏ'Á'Ê:Ñ Å'ÆÐÒ%Á-Ó%ÓÇ Ð)Ç Á Í ÎË ÁÐÒ)ÆÆÏ É ÅÎ3Ç Ò Í,ËÏÐÆÒ Ç ÊÊÅÍ Î Sélection des variables de la partie régression : Minimisation du critère AICC ( ˆ ˆ m1 + m + 1 AICC = ln L,,ˆ ) + N N m m ÔÖÕ, ØÙÚÕ,Û Ü+Ý]ÞÝzßà Üá àû$â Ý ã4ýä å â á æà)ç%á ßÝ ãþàùãzâ àzü+èéü#ýãã'á ÚÙ ÔÖÕ,ê\Ø ÙÚ ÕÛ Ü+Ý]Þ Ýzßà Üá àû$â Ýã4Ý ä$å â á æà%ç)á ßÝ ãþàùãzâ ànæú'ßà Üá àùæý Sélection de variables de la fonction de covariance Maximisation du R² calculé par validation croisée 1 7

Algorithme général Procédure de modélisation par les processus gaussiens Etape 1 : Tri des variables d entrée Etape : Boucle sur les variables dans la fonction de covariance Etape.1 : Boucle sur les variables dans la régression v Estimation des paramètres ë, ¾, ì v Calcul du critère AICC Etape.1 : Sélection du Modèle de régression optimal AICC minimal Etape. : Calcul du R² par validation croisée Etape 3 : Sélection du modèle de covariance optimal R² maximal Plan 1. Théorie des processus gaussiens Modèle général BLUP Estimation des paramètres. Mise en œuvre Estimation, prédiction et validation Sélection de variables Algorithme général 3. Tests sur les données Marthe Présentation des données Modélisation Résultats et analyse Conclusion et perspectives 8

Présentation des données Marthe (1) Issues d une collaboration Institut Kurchatov, CEA/DTN, CEA/DER Site de stockage des déchets radioactifs sur le site de l institut Kurchatov à Moscou Estimation de l impact de la contamination radioactive sur l environnement (degré de contamination de la nappe sous le site) Modélisation : développement d un scénario d écoulement et de transport généralisé de 90Sr sur le site entre 00 et 010, avec le logiciel MARTHE (BRGM) A. MARREL DTN / SMTM / LMTE 13 Dec. 005 Présentation des données Marthe () 0 paramètres d entrée : perméabilité, dispersivités longitudinales et transversales, coefficients de partage volumique, porosité, intensités d infiltration, 0 variables de sortie : concentrations aux 0 piézomètres calculées par le logiciel MARTHE en fin d année 010 300 simulations (LHS) í'î ï ð:ñ#ò ò ñ ó%ô#õ3ö+ ø!ù ö,ñ+ò%ú ò û ü ý!þ ÿ ÿ $ ÿ þ%ý ü'þ A. MARREL DTN / SMTM / LMTE 13 Dec. 005 9

Modélisation Comparaison de trois modèles : Régression linéaire simple Boosting - Agrégation d arbres de régression Processus gaussiens - Fonction de régression : polynôme de degré 1 - Fonction de covariance exponentielle généralisée Validation : Base d apprentissage de 50 données Base de test de 50 données Validation croisée à 6 échantillons Quelques résultats Sortie Régression linéaire R² Boosting R² Processus gaussien R² 1 0.31 0.59 0.84 0.48 0,64 0.76 3 0.10 0.4 0.3 9 0.19 0,57 0.83 10 0.74 0,94 0.94 1 0.55 0,8 0.81 16 0.59 0,64 0.90 18 0.67 0,96 0.96 19 0.16 0.17 0.09 Performances supérieures à la régression Capables de concurrencer et de dépasser le boosting Inadapté à certaines sorties (où le boosting échoue aussi) 10

Plan 1. Théorie des processus gaussiens Modèle général BLUP Estimation des paramètres. Mise en œuvre Estimation, prédiction et validation Sélection de variables Algorithme général 3. Tests sur les données Marthe Présentation des données Modélisation Résultats et analyse Conclusion et perspectives Conclusion Points forts de la modélisation par des processus gaussiens : Modèle souple et performant Interpolateur exact Interprétation possible : Partie régression : tendance, comportement général Fonction de covariance : traduction des hétérogénéités locales Calcul rapide de prédicteur Analyse de sensibilité facilitée Cadre gaussien : inférence sur les paramètres & estimation du MSE Points faibles : Peu robuste aux valeurs extrêmes (dépendances spatiales) Difficultés de mise en œuvre Choix de la fonction de covariance a priori? Choix de la fonction de régression a priori? 11

Perspectives Développement du modèle des processus gaussiens - Extension à d autres fonctions de régression et de covariance - Amélioration de la sélection de variables - Cokrigeage - Inférence sur les paramètres - Plan d échantillonnage Extension au cadre spatio-temporel temporel - Processus temporel en sortie - Corrélation spatiale des sorties - Champ aléatoire en entrée Objectif final : Intégration des processus gaussiens dans la procédure de modélisation du transfert de polluants dans les sols 1