Introduction aux Méthodes de Monte Carlo



Documents pareils
Méthodes de Simulation

Moments des variables aléatoires réelles

Raisonnement probabiliste

MCMC et approximations en champ moyen pour les modèles de Markov

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Modélisation aléatoire en fiabilité des logiciels

Table des matières. I Mise à niveau 11. Préface

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modélisation et simulation

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Intérêt du découpage en sous-bandes pour l analyse spectrale

Echantillonnage Non uniforme

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Au-delà du coalescent : quels modèles pour expliquer la di

Processus aléatoires avec application en finance

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Texte Agrégation limitée par diffusion interne

IFT3245. Simulation et modèles

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

La classification automatique de données quantitatives

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Simulation de variables aléatoires

Équations non linéaires

de calibration Master 2: Calibration de modèles: présentation et simulation d

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Soutenance de stage Laboratoire des Signaux et Systèmes

TABLE DES MATIERES. C Exercices complémentaires 42

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Correction du baccalauréat ES/L Métropole 20 juin 2014

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

MÉTHODE DE MONTE CARLO.

La fonction exponentielle

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

I. Polynômes de Tchebychev

Chapitre 3 : INFERENCE


Gènes Diffusion - EPIC 2010

Projet de Traitement du Signal Segmentation d images SAR

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

NON-LINEARITE ET RESEAUX NEURONAUX

Annexe commune aux séries ES, L et S : boîtes et quantiles

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Coup de Projecteur sur les Réseaux de Neurones

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Différentiabilité ; Fonctions de plusieurs variables réelles

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Probabilités III Introduction à l évaluation d options

Méthode de Monte Carlo pour le calcul d'options

Statistiques Descriptives à une dimension

Introduction à l approche bootstrap

INF6304 Interfaces Intelligentes

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Quantification Scalaire et Prédictive

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

4 Distributions particulières de probabilités

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Module 7: Chaînes de Markov à temps continu

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Lagrange, où λ 1 est pour la contrainte sur µ p ).

La nouvelle planification de l échantillonnage

14. Introduction aux files d attente

Rappels sur les suites - Algorithme

Introduction au Data-Mining

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Equation LIDAR : exp 2 Equation RADAR :

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Inférence d un réseau bayésien augmenté visant à confronter :

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercices de génétique classique partie II

Dunod, Paris, 2014 ISBN

I - Quelques propriétés des étoiles à neutrons

Programmes des classes préparatoires aux Grandes Ecoles

Chapitre 2 Le problème de l unicité des solutions

FIMA, 7 juillet 2005

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Résumé des communications des Intervenants

Résolution d équations non linéaires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

données en connaissance et en actions?

Traitement bas-niveau

Relation entre deux variables : estimation de la corrélation linéaire

Continuité et dérivabilité d une fonction

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Algorithmes pour la planification de mouvements en robotique non-holonome

Calculs et Certificats de Quantités d Intérêts Non Linéaires d un Mousqueton Cédric Bellis

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Espérance conditionnelle

Lois de probabilité. Anita Burgun

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Introduction à la Statistique Inférentielle

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Transcription:

Méthodes de Monte Carlo pour la Modélisation et le Calcul Intensif Applications à la Physique Numérique et à la Biologie Séminaire CIMENT GRID Introduction aux Méthodes de Monte Carlo Olivier François 1

Introduction Monte Carlo 2 Que proposent les méthodes de Monte Carlo? Solutions approchées (et aléatoires) pour de nombreux problèmes Méthodes fondées sur la simulation informatique de variables aléatoires Applications en physique, en optimisation, en chimie, en imagerie, en statistique, en génétique, etc

Introduction Monte Carlo 3 Exemple : Calcul de volumes Calcul d intégrales en grandes dimensions I = f(x)dx 1 n n f(x i ) i=1 Erreur en O(1/ n) contre O(n 1/d ) pour les méthodes fondées sur n points Calcul de π avec n = 10000 tirages π 3.146

Introduction Monte Carlo 4 Avez vous vu Monte Carlo? G. Leclerc (Buffon) écrit l un des premiers traité de calcul des probabilités en liaison avec le calcul différentiel et intégral (1733). Expérience de l aiguille Proba(L aiguille coupe une ligne horizontale) = 2L πd W. Gosset : tests statistiques (Student) Monte Carlo : Metropolis, Fermi et Ulam pour la simulation de la diffusion des neutrons dans un materiau fissible (Manhattan Project).

Introduction Monte Carlo 5 Principe Tirages de loi uniforme U 1,..., U n I[f] 1 n f(u i ) i Erreur = (I[f 2 ] I 2 )/n

Introduction Monte Carlo 6 Tirages dans le rectangle (0, 1) (0, c) (U 1, cv 1 )..., (U n, cv n ) Erreur = (I(c I))/n I c n {Nombre de t.q. cv i < f(u i )}

Introduction Monte Carlo 7 Améliorations Tirages non uniformes : X 1,..., X n I 1 n Echantillonnage selon l importance i f(x i ) q(x i ), X i q I = f(x) q(x) q(x)dx

Introduction Monte Carlo 8 Fonction de partition En mécanique statistique, l espace des configurations d un système peut être exponentiellement croissant (ex : aimants) x { 1, +1} S et une configuration est typiquement distribuée selon la loi de Boltzmann. on souhaite calculer par exemple la moyenne d une variable observable ϕ E[ϕ(X)] = x ϕ(x) exp( βh(x)) Z β

Introduction Monte Carlo 9 Mais Z β = x exp( βh(x)) est en général incalculable. L algorithme de Metropolis permet la simulation sans calculer Z β H(x) = ij x i x j + h i x i

Introduction Monte Carlo 10 La dynamique de Metropolis : une méthode de simulation approchée Chaîne de Markov dont le régime stationnaire correspond à la loi souhaitée π β (x) = exp( βh(x)) Z β dont les probabilités de transitions ne dépendent pas de Z β 1 si π β (y) π β (x) p(x, y) = sinon. Equations de bilan détaillé π β (y) π β (x) π β (x)p(x, y) = π β (y)p(y, x)

Introduction Monte Carlo 11 Qualité de l approximation : INCONNUE en général Temps d atteinte de l équilibre exp(βh c )

Introduction Monte Carlo 12 Méthode de Monte Carlo en statistique Pour un jeu de données D, le calcul de la vraisemblance permet d estimer le paramètre θ. L(θ) = p(d/θ) En statistique bayésienne, on introduit souvent une variable latente H de sorte que p(d/h) est calculable et p(h/θ) connu Chaînes de Markov cachées, filtrage (Kalman) non linéaire, reconstruction d images, etc Difficulté : le calcul direct de la vraisemblance est infaisable L(θ) = H p(d/h)p(h/θ)dh

Introduction Monte Carlo 13 Principe de la méthode de Monte Carlo Calcul approché de la vraisemblance : Echantillonnage selon l importance L(θ) 1 n n t=1 p(h (i) /θ) p(h (i) /θ 0 ) où θ 0 est une valeur de référence (estimation grossière). p(h/θ) doit être calculée de manière exacte Les variables latentes H (i) sont simulées selon la loi d importance q(h) = p(h/d; θ 0 ) p(d/h)p(h/θ 0 ).

Introduction Monte Carlo 14 Simulation de la loi d importance Méthode de Métropolis-Hastings : Markov chain Monte Carlo (McMC) On fait évoluer H de manière itérative en ne modifiant en général qu une seule de ses composantes (transitions locales) conditionnellement aux autres : Echantillonnage de Gibbs. Méthode de rejet fondée sur le calcul de p(d/h). Il est extrèmement difficile de contrôler la vitesse de convergence de cette méthode.

Introduction Monte Carlo 15 Un exemple en biologie de la conservation Collaboration avec S. Manel, E. Bellemain (LECA), J. Swenson (NLH, Norvège) Espèce Ursus arctos (Ours brun de Scandinavie) : 516 individus séquencés, 19 marqueurs génétiques neutres de type STR (Short Tandem Repeats) Population décimée jusqu en 1930, protégée depuis, et reconstituée à partir de 4 foyers maternels originels bien connus géographiquement. Objectif : Estimer l évolution de la structure de la population et la dispersion spatiale des individus et des gènes de génération en génération.

Introduction Monte Carlo 16 Modélisation statistique Modèle aléatoire de généalogie décrivant les relations de parenté entre individus : le coalescent (Kingman, 1982). Événements structurants : mutations (µ), migrations (m) décrits par des paramètres scalaires θ = 4Nµ et M = 4Nm La véritable généalogie n est pas connue : Modèle à données manquantes

Introduction Monte Carlo 17 Arbre de coalescence Modèle de généalogie de Kingman p(g/θ) = 1 n θ n 1 exp( t k λ k θ ), λ k = k(k 1)/2 k=2

Introduction Monte Carlo 18 Estimation par une méthode de maximum de vraisemblance Calcul de la vraisemblance L(θ) = p(d/θ) D représente l ensemble des observations moléculaires. Difficulté : le calcul direct de la vraisemblance est infaisable L(θ) = G p(d/g)p(g/θ)dg Nécessité d intégrer sur l ensemble de toutes les généalogies G.

Introduction Monte Carlo 19 Échantillon d arbres tirés selon le modèle du coalescent Lors d un échantillonnage aléatoire des généalogies, certaines (rares) vont contribuer à la vraisemblance, mais un grand nombre risque d être improbable. Cela justifie de diriger la méthode MC vers les généalogies qui ont le plus de chance d être réalisées.

Introduction Monte Carlo 20 Simulation de la loi d importance Les généalogies G sont simulées selon la loi d importance par McMC q(g) = p(g/d; θ 0 ) p(d/g)p(g/θ 0 ). On fait évoluer de manière itérative un arbre initial en ne modifiant qu un noeud interne à chaque transition et en recalculant les temps de coalescence conditionnels. Méthode de rejet fondée sur le calcul de p(d/g) (programmation dynamique).

Introduction Monte Carlo 21 Coalescent Structuré Généalogie avec des flux de gènes entre populations isolées

Introduction Monte Carlo 22 Structure génétique de la population Méthode de phylogénie fondée sur le modèle de mutation IAM (infinité d allèles)

Introduction Monte Carlo 23 Structure génétique de la population Estimation MCMC des flux de gènes : migrate (Beerli et al., PNAS 2001)

Introduction Monte Carlo 24 Structure génétique de la population Validation du modèle : Trois populations isolées par la distance et dont les flux de gènes sont véhiculés par les mâles. Bonne compatibilité avec le modèle de mutation IAM.

Introduction Monte Carlo 25 Estimation de la dispersion spatiale chez Ursus arctos Développement d une méthode de pseudovraisemblance (calcul rapide) Utilisation de grappes de PCs pour la correction du biais de la méthode (simulations) Estimation du paramètre de dispersion mère/fille σ 8 11 km

Introduction Monte Carlo 26 Conclusions Méthodes destinées aux problèmes de calcul en grandes dimensions pour consommateurs voraces en ressources informatiques mais nécessaires devant la complexité de certains modèles et assez faciles à programmer...