Echantillonnage : Monte Carlo et hypercube latin

Documents pareils
La nouvelle planification de l échantillonnage

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Amphi 3: Espaces complets - Applications linéaires continues

FIMA, 7 juillet 2005

Plus courts chemins, programmation dynamique

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Echantillonnage Non uniforme

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Programmation linéaire

Ordonnancement robuste et décision dans l'incertain

Validation probabiliste d un Système de Prévision d Ensemble

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

La classification automatique de données quantitatives

La tarification d options

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Probabilités sur un univers fini

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

PRIME D UNE OPTION D ACHAT OU DE VENTE

Quantification Scalaire et Prédictive

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Equation LIDAR : exp 2 Equation RADAR :

TABLE DES MATIERES. C Exercices complémentaires 42

Filtrage stochastique non linéaire par la théorie de représentation des martingales

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

données en connaissance et en actions?

Mesure et gestion des risques d assurance

Principe de symétrisation pour la construction d un test adaptatif

I. Polynômes de Tchebychev

Chapitre 3 : INFERENCE

La simulation probabiliste avec Excel

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Statistiques Descriptives à une dimension

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Programmation Linéaire - Cours 1

Catalogue de formation

IFT3245. Simulation et modèles

Une plate-forme pour la quantification des incertitudes sous Matlab

Resolution limit in community detection

Soutenance de stage Laboratoire des Signaux et Systèmes

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Probabilités sur un univers fini

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Texte Agrégation limitée par diffusion interne

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Assises Européennes du Bâtiment Basse Consommations. Frédéric ric FRUSTA. Président Directeur Général. ENERGIVIE 25 Juin 2010

NON-LINEARITE ET RESEAUX NEURONAUX

Programmation linéaire

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Introduction à la statistique non paramétrique

Température corporelle d un castor (une petite introduction aux séries temporelles)

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Fonctions de plusieurs variables

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Simulation : application au système bonus-malus en responsabilité civile automobile

Introduction à MATLAB R

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Modélisation et simulation

Algorithmique des Systèmes Répartis Protocoles de Communications

TSTI 2D CH X : Exemples de lois à densité 1

MATHS FINANCIERES. Projet OMEGA


Quantification des Risques

Simulation de variables aléatoires

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Modélisation aléatoire en fiabilité des logiciels

Introduction au Data-Mining

Chapitre 3. Les distributions à deux variables

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Commun à tous les candidats

Intérêts et limites des mannequins numériques pour l évaluation des efforts et des postures

Conception de réseaux de télécommunications : optimisation et expérimentations

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

VI. Tests non paramétriques sur un échantillon

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Annexe 6. Notions d ordonnancement.

Théorie des Jeux Et ses Applications

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Intérêt du découpage en sous-bandes pour l analyse spectrale

aux différences est appelé équation aux différences d ordre n en forme normale.

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Cours 02 : Problème général de la programmation linéaire

Moments des variables aléatoires réelles

Transcription:

Echantillonnage : Monte Carlo et hypercube latin École Chercheur Mexico Thierry Faure Cemagref LISC, Aubière, France Gien, le 9 Juin 2010

Plan 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

Plan Introduction 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

Introduction Exemple d échantillonnage tirage selon une loi uniforme de n points indépendants de Ω plot(runif(1000),runif(1000))

Plan des indices basés sur la régression 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

des indices basés sur la régression Indices basés sur la régression Méthodes statistiques reliées à la régression (Venables and Ripley, 1999) Coefficients de Corrélation utilisés pour mesurer les relations entre les entrées et les sorties du modèle. Y = β 0 + p β i X i et V (Y ) = p βi 2V (X i) i=1 i=1 Standardized regression coefficients (SRC) : SRC i = β2 i V (X i ) V (Y ) Coefficient PCC : partial correlation coefficient : Cov(Y,X PCC i = i X i ) : Il permet d évaluer la sensibilité de Y à V (Y X i )V (X i X i ) X i en éliminant l effet des autres variables, toujours donc sous l hypothèse de linéarité du modèle

Conclusion des indices basés sur la régression Le modèle de régression peut être étendus pour prendre en compte les intéractions. En particulier lorsque le coefficient de determinaison est faible. Les méthodes de régression sont efficaces pour prendre en compte les effets linéaires. D autres méthodes sont à considérer pour capturer les non linéarité.

Utilisation des indices basés sur la régression library(sensitivity) pcc(x, y, rank = FALSE, nboot = 0, conf = 0.95) src(x, y, rank = FALSE, nboot = 0, conf = 0.95) plot(x, ylim = c(-1,1),...)

des indices basés sur la régression Objectifs et enjeux Lorsque l objectif est de modéliser le code en phase exploratoire (quand aucune simulation n a encore été réalisée), on recherche souvent à satisfaire les deux contraintes suivantes : D une part, répartir les points dans l espace le plus possible de façon à capter les non-linéarités. D autre part, faire en sorte que ce remplissage de l espace subsiste par réduction de la dimension. On cherche à réaliser des expérimentations en remplissant l espace des paramètres au mieux Comment définir ce au mieux? Minimum de points, représentativité La qualité de la répartition spatiale est mesurée soit à l aide de critères déterministes comme les distances minimax ou maximin (Johnson et al., 1990), soit à l aide de critères probabilistes comme la discrépance

Plan Critères de remplissage de l espace 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

Critères de remplissage de l espace Quelques critères DIFFÉRENTS TYPES DE CRITÈRES Critères associés aux distances entre les points de l ensemble de données x(n) = x1,..., xn (ex : critères faisant intervenir une «moyenne», une variabilité, une comparaison entre min et max des espacements), Critères de régularité des espacements. Critères associés aux distances entre les points de x(n) = x1,..., xn et des points de l espace X (ex : critère minimax), Critères de «remplissage» de l espace. Critères associés à une comparaison entre nombre de points contenus dans des pavés et volume de ces pavés ex : les critères de discrépance Critères de «remplissage» de l espace. Nous supposerons que X = [0, 1] d.

Critères de remplissage de l espace Maximin et Minimax Maximin et Minimax Utilisation des critères minimax ou maximin (Johnson et al., 1990) pour disperser les points au mieux. Maximin Distance minimum : C est la plus petite distance entre deux points de l échantillon : min i j d(x i, x j ), avec d la distance euclidienne d(x i, x j ) = kl=1 (x il x jl ) 2 Plan maximin : Un plan maximin est un plan qui maximise la distance minimale entre deux points de l échantillon. Minimax Critère de distance maximum :C est la plus grande distance entre un point du domaine d étude et un point de l échantillon. Plan minimax : Un plan minimax est un plan qui minimise la distance maximale entre un point du domaine et un point de l échantillon.

L inégalité de Koksma-Hlawka montre que la discrépance intervient dans l erreur de calcul d une intégrale pour des fonctions à variation bornée. Discrépance Critères de remplissage de l espace Discrépance Discrépance : D (X) = sup P I s #(P,(x(n))) n λ(p) Mesure l écart maximal de la distribution des points de la suite à la répartition uniforme.

Discrépance Critères de remplissage de l espace Discrépance Interprétation géométrique de la discrépance généralisée Comparaison entre le nombre de points de la suite x(n) compris dans un pavé de X, et le volume de ce pavé. Discrépance modifiée ; (en rouge, pavé ancré à l origine)

Discrépance Critères de remplissage de l espace Discrépance Interprétation géométrique de la discrépance généralisée Comparaison entre le nombre de points de la suite x(n) compris dans un pavé de X, et le volume de ce pavé. Discrépance «centrée» ; (en rouge, pavé dont une extrémité est le sommet de X le plus proche du point x = (0.7, 0.6))

Discrépance Critères de remplissage de l espace Discrépance Interprétation géométrique de la discrépance généralisée Comparaison entre le nombre de points de la suite x(n) compris dans un pavé de X, et le volume de ce pavé. Discrépance «symétrique» ; (en rouge, pavé «symétrique» : union des 2 pavés rouges, dont les extrémités sont des sommets «pairs», i.e. la somme de leurs composantes est paire)

Dispersion Critères de remplissage de l espace Dispersion Dispersion : δ(x n ) = max y I s min i=1,...,n d(y, x i ) Regular Grid (25 points) Halton sequence (25 points) Sukharev grid (25 points) Pour les discrépances : Grille réguliére (avec n points) ( ) O n 1 Sequence à faible discrepance ) O ( log d (n) n

Plan Echantillonnage par méthode de Monte carlo 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

Echantillonnage par méthode de Monte carlo méthode de Monte carlo Le plan classique dans les méthodes de monte-carlo consiste à générer des suites de points pseudo-aléatoires dans l espace des facteurs. L erreur d estimation découle du théorème central limite. Elle est en 1/ n, n étant la taille de l échantillon. On distingue : nombres pseudo-aléatoires nombres quasi-aléatoires

Echantillonnage par méthode de Monte carlo nombres pseudo-aléatoires tirage selon une loi uniforme de n points indépendants de Ω erreur probable d estimation en O( (n)) la vitesse de convergence ne dépend pas de la dimension d de Ω

Echantillonnage par méthode de Monte carlo Nombres quasi-aléatoires Utilisation de suite à faible discrépance exemples : Niederreiter, Halton, Sobol library(randtoolbox halton(1000,2) sobol(1000, scramb = 3) Figure: Niederreiter et Sobol

Echantillonnage par méthode de Monte carlo Figure: Comparaison des méthodes d échantillonnages

Plan Les hypercubes latins 1 Introduction 2 des indices basés sur la régression 3 Critères de remplissage de l espace Quelques critères Maximin et Minimax Discrépance Dispersion 4 Echantillonnage par méthode de Monte carlo 5 Les hypercubes latins

Hypercube latin Les hypercubes latins Méthode la plus populaire des méthodes de remplissage de l espace Définition :Un plan hypercube latin (LHD) avec n runs et K facteurs d entrées (noté LHD(n,K) est une matrice n K, dans laquelle chaque colonne est une permunation aléatoire de { 1, 2,, K }. Propriétés :

Les hypercubes latins Quelques méthodes de construction Méthode standard : distribution Méthode de construction : Algorithm LHSA Itérative maximin L

Les hypercubes latins Méthode standard Chaque dimension de Ω est découpée en L classes de même amplitude, découpage de Ω en L d strates, Tirages de L strates telles que toutes les classes du découpage des facteurs soient présentes une fois et une seule, Tirage d un point dans chacune des L strates. Répétition du processus.

Bibliographie Les hypercubes latins G. E.P. Box, et al., 2005, Statistics for experimenters, 2nd edition, Wiley. B. Gandar, G. Loosli, and G. Deffuant. Sample dispersion has a greater impact on classification error than sample discrepancy. submitted to JMLR. B. Gandar, Loosli, G., Deffuant, G., (2010) How to generate the best samples for learning in classification?, AISTATS Conference B. Husslage et al., 2008, Space-filling Latin hypercube designs for computer experiments, SSRN-id895464 Report No. 2008 104 M. E. Johnson et al., 1990, Moore L.M., Ylvisaker D. Minimax and maximin distance designs. J. of Statis. Planning and Inference, 26, 131-148. A. Saltelli, K. Chan and E. M. Scott eds, 2000, Sensitivity Analysis, Wiley. A. Saltelli et al. 2008, Global sensitivity analysis - The primer, Wiley. Thomas J.Santner, et al., 2003, The design and analysis of computer experiments, Springer. Venables, W.N., Ripley, B.D., 1999. Modern Applied Statistics with S-PLUS. Springer, Berlin.