1 Simulation de la loi normale centrée réduite

Documents pareils
Simulation de variables aléatoires

Fonctions de plusieurs variables

Exercices Corrigés Premières notions sur les espaces vectoriels

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Programmes des classes préparatoires aux Grandes Ecoles

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Annexe commune aux séries ES, L et S : boîtes et quantiles

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Simulation : application au système bonus-malus en responsabilité civile automobile

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

données en connaissance et en actions?

Chapitre 3. Les distributions à deux variables

IFT3245. Simulation et modèles

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Cours 7 : Utilisation de modules sous python

3. Conditionnement P (B)

Moments des variables aléatoires réelles

Représentation géométrique d un nombre complexe

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Limitations of the Playstation 3 for High Performance Cluster Computing

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Rappels sur les suites - Algorithme

Limites finies en un point

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Résolution de systèmes linéaires par des méthodes directes

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Python - introduction à la programmation et calcul scientifique

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Calcul intégral élémentaire en plusieurs variables

Rappels et compléments, première partie : Nombres complexes et applications à la géométrie

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Programmation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Algorithmes pour la planification de mouvements en robotique non-holonome

CHAPITRE 10. Jacobien, changement de coordonnées.

Probabilités III Introduction à l évaluation d options

VI. Tests non paramétriques sur un échantillon

PROBABILITES ET STATISTIQUE I&II

Cours d Analyse. Fonctions de plusieurs variables

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Méthodes de Simulation

Correction du baccalauréat ES/L Métropole 20 juin 2014

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

4. Exercices et corrigés

TSTI 2D CH X : Exemples de lois à densité 1

MIS 102 Initiation à l Informatique

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Continuité d une fonction de plusieurs variables

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Initiation à l algorithmique

TD1 Signaux, énergie et puissance, signaux aléatoires

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Intérêt du découpage en sous-bandes pour l analyse spectrale

Planche n o 22. Fonctions de plusieurs variables. Corrigé

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

FIMA, 7 juillet 2005

Conception de réseaux de télécommunications : optimisation et expérimentations

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2. Matrices

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Évaluation de la régression bornée

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Que faire lorsqu on considère plusieurs variables en même temps?

Soutenance de stage Laboratoire des Signaux et Systèmes

Corrigé des TD 1 à 5

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

1 Recherche en table par balayage

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

INF6304 Interfaces Intelligentes

M2 IAD UE MODE Notes de cours (3)

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Fonction inverse Fonctions homographiques

Chaînes de Markov au lycée

Processus d Informatisation

Résolution d équations non linéaires

3. Caractéristiques et fonctions d une v.a.

Parallélisme et Répartition

NOMBRES COMPLEXES. Exercice 1 :

Loi binomiale Lois normales

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Exercice 1 Trouver l équation du plan tangent pour chaque surface ci-dessous, au point (x 0,y 0,z 0 ) donné :

Sujet 4: Programmation stochastique propriétés de fonction de recours

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Transcription:

TP 11. Vecteurs gaussiens Description : Manipulation de vecteurs gaussiens dans différentes situations. Objectifs : Savoir simuler des lois normales Savoir simuler des vecteurs gaussiens 1 Simulation de la loi normale centrée réduite On veut simuler des variables aléatoires indépendantes suivant la loi gaussienne centrée réduite N(0, 1). Il est possible de trouver une méthode de décomposition, adaptée non seulement à la densité de la loi N(0, 1) mais aussi aux qualités du générateur et du compilateur, qui soit plus rapide que celles qui suivent. Les méthodes que nous donnons ici sont faciles à programmer. 1.1 Algorithme polaire Il repose sur le résultat suivant. Théorème 1.1 Soit (X,Y ) un couple de variables aléatoires, de loi uniforme sur le disque unité D = {(x,y) ; x + y < 1}. Écrivons ces variables aléatoires en coordonnées polaires : On pose: Alors X = R cos(θ) ; Y = R sin(θ). R = 4 log(r). U = R cos(θ)etv = R sin(θ). sont deux variables aléatoires indépendantes, de même loi N(0, 1). La preuve de ce résultat repose sur le changement de variable en polaire qui permet d obtenir que les variables R et Θ sont indépendantes. Il permet aussi d obtenir que R suit une loi bêta de paramètre et 1 (aussi appelée loi triangulaire sur [0, 1]) et que Θ suit une loi uniforme sur [0, π]. On en déduit ensuite aisément la densité de la loi du couple (U,V ) par un second changement de variable en polaire. Interprétation géométrique : on pourra faire un dessin pour représenter la position du vecteur (U,V ) par rapport à celle du point initial (X,Y ). Ces deux points forment le même angle avec l axe des abcisses. Seule leur norme diffère. On déduit de ce résultat et de son interprétration géométrique, l algorithme polaire : 1

Repeter X<-*runif(1,0,1)-1 Y<-*runif(1,0,1)-1 R<-X*X+Y*Y Jusqu a (R<1) # (X,Y) est de loi uniforme sur le disque unite (methode de rejet) Z<- Sqrt(-*log(R)/R) #facteur mutiplicatif modifiant uniquement la norme de (X,Y) U<-Z*X V<-Z*Y # U et V sont independants de loi N(0,1) Utiliser cet algorithme pour simuler un grand nombre de réalisations indépendantes de la loi gaussienne centrée réduite. Vérifier le bon fonctionnement de votre algorithme en traçant les deux graphiques suivant. Pour commencer, sur le même graphique, l histogramme de vos points avec la densité de la loi gaussienne centrée réduite. Ensuite, sur un autre graphique, la fonction de répartition empirique de vos points avec la fonction de répartition de la loi gaussienne centrée réduite. 1. Algorithme de Box-Muller Fréquemment proposé dans les manuels, cet algorithme est basé sur la même méthodologie polaire, mais programmée différemment. Il repose sur la proposition suivante. Proposition 1.1 Soient U 1 et U deux variables aléatoires indépendantes de loi uniforme sur [0, 1]. On pose: X 1 = log U 1 cos(πu ), X = log U 1 sin(πu ). Alors X 1 et X sont indépendantes et de même loi N(0, 1). La preuve directe de cette proposition repose sur le fait que la variable aléatoire log U 1 suit la loi exponentielle de paramètre 1/ et est indépendante de la variable aléatoire πu qui, elle, suit une loi uniforme sur [0, π]. Pour prouver ce résultat, on peut également calquer la preuve du théorème précédent en remarquant que la variable aléatoire log U 1 a la même densité que R. Utiliser cet algorithme pour simuler un grand nombre de réalisations indépendantes de la loi gaussienne centrée réduite. Vérifier le bon fonctionnement de votre algorithme en traçant les deux graphiques suivant. Pour commencer, sur le même graphique, l histogramme de vos points avec la densité de la loi gaussienne centrée réduite. Ensuite, sur un autre graphique, la fonction de répartition empirique de vos points avec la fonction de répartition de la loi gaussienne centrée réduite. 1.3 Comparaison des algorithmes Selon les compilateurs, un des deux algorithmes (polaire ou de Box-Muller) est le plus rapide. Simulation de lois normales multidimensionnelles De la simulation de la loi N(0, 1), on déduit celle de la loi normale d espérance µ et de variance σ quelconques par une transformation affine. Si X suit la loi N(0, 1), alors Y = µ + σx suit la loi

N(µ,σ ). La situation est analogue en dimension k quelconque. Tout d abord, si X 1,,X k sont indépendantes et de même loi N(0, 1), alors le vecteur (X 1,,X k ) suit la loi normale dans R k, d esperance nulle et de matrice de covariance identité : N k (0,I). On en déduit la simulation d une loi normale d-dimensionnelle quelconque par la proposition suivante : Proposition.1 Soit µ un vecteur de R k et Σ une matrice carrée de taille k symétrique positive. Soit X = (X 1,,X k ) un vecteur aléatoire de loi N k (0,I) dans R k. Soit A une matrice carrée d ordre k telle que AA T = Σ. Alors le vecteur Y = AX + µ est un vecteur gaussien de moyenne µ et de matrice de covariance Σ. La preuve est une conséquence directe de la définition d un vecteur gaussien et de la matrice de covariance d un vecteur aléatoire. D un point de vue pratique, il faut donc trouver une matrice A telle que AA T = Σ. C est un problème très classique. Une des réponses est implémentée dans la plupart des librairies d algèbre linéaire. C est la décomposition de Cholesky. Dans le cas où Σ est définie positive, cette méthode calcule colonne par colonne une matrice A, triangulaire inférieure telle que AA T = Σ. Dans le cas particulier où k =, la décomposition de Cholesky est explicite. En effet, soit Y = (Y 1,Y ) un vecteur gaussien de R. On note µ = (µ 1,µ ) son esperance et ( ) σ Σ = 1 σ 1 σ ρ σ 1 σ ρ σ sa matrice de variance-covariance. Dans cette notation, σ1 représente la variance de Y 1 tandis que ρ est la corrélation entre Y 1 et Y : ρ = Corr(Y 1,Y ) = Cov(Y 1,Y ) σ 1 σ. On a donc ρ 1. Si on pose ( ) σ1 0 A = σ ρ σ 1 ρ alors on vérifie aisément que A est triangulaire inférieure et que AA T = Σ. En appliquant la proposition précédente, on constate qu on peut simuler des réalisations indépendantes de Y en utilisant la représentation en loi suivante dans laquelle X 1 et X sont deux variables aléatoires indépendantes de loi N(0, 1) : Y 1 = µ 1 + σ 1 X 1. ( Y = µ + σ ρx 1 + ) 1 ρ X. Utilisons cette procédure pour simuler n = 10000 réalisations de Y suivant N (0, Σ) où ( ) 1 ρ Σ =. ρ 1 Cela signifie qu on se place dans le cas où µ = 0 et σ 1 = σ = 1. On prendra soin de travailler vectoriellement (éviter autant que possible les boucles for) pour améliorer les temps de calcul. La procédure est écrite dans le fichier SimulationVecteurGaussienD.r. On l executera par la commande > source( SimulationVecteurGaussienD.r ) 3

Dans cette fonction, on pourra faire varier la valeur de ρ. Quelle difference observer vous entre les representations graphique obtenues pour ρ = 0.75 et ρ = 0.75? Comment pouvez-vous interpreter physiquement cette observation? (pensez a l interprétation physique de la corrélation). Que se passe-t-il pour ρ = 0? Observer ce qui se passe pour ρ = 1 et ρ = 1 : le fait que toutes les réalisations soient sur une droite implique que le vecteur aléatoire simulé ne possede pas de densité : la matrice Σ est alors non-inversible. On pourra également vérifier que la matrice A proposée ci-dessus est bien la décomposition de Cholesky de Σ par les commandes suivantes : > rho=0.75 > Sigma=rbind(c(1,rho),c(rho,1)) > A=rbind(c(1,0),c(rho,sqrt(1-rho^))) > t(a) > chol(sigma) Que se passe-t-il si on prend ρ = ±1? > rho=1 > Sigma=rbind(c(1,rho),c(rho,1)) > chol(sigma) Pourtant, on a bien AA T = Σ : > rho=1 > Sigma=rbind(c(1,rho),c(rho,1)) > A=rbind(c(1,0),c(rho,sqrt(1-rho^))) > A%*%t(A) > Sigma La fonction chol de R ne fonctionne que pour des matrices symétrique définie-positive. 3 Une situation concrète issue de la guerre des boutons : à vous de jouer. 3.1 Il était une fois... Dans le centre de la France peu après la deuxime guerre mondiale, deux villages respiraient la tranquilité... D un coté, il y avait Longeverne et de l autre Velrans. Comme tous les jours, les enfants de chaque village se rendaient à leur école respective. Or, un matin où Grand Gibus et P tit Gibus allaient à l cole de leur village Longeverne, les enfants de Velrans les ont maltraités. C est ainsi que les enfants de Longeverne dirigés par Lebrac et ceux de Velrans dirigés par l Aztec organisèrent une grande bataille où il tait convenu que les prisonniers subiraient le lourd tribu de se voir oter la totalité de leurs boutons. 4

3. Le problème de P tit Gibus Afin de récupérer le plus grand nombre de boutons possible, P tit Gibus s est confectionné un sac en toile. Malheureusement, il n a pas eu tout à fait assez de tissu pour le finir entièrement. Enfin, ce n est pas un gros problème car seulement les boutons de diamètre inférieur à 5mm tombent du sac. On suppose que le diamètre des boutons suit une loi normale de moyenne 8mm et d écart-type mm. 3..1 Simulation Simuler n = 10000 valeurs indépendantes de même loi N(8, 4). On utilisera ici l algorithme de Box-Muller. Calculer la moyenne empirique de ces n observations. Commenter. Calculer la variance empirique de ces n observations. Commenter. Représenter à l aide d un histogramme des fréquences la distribution empirique de ces n observations. 3.. Comment aider P tit Gibus Lors de la dernière bataille, P tit Gibus a récupérer 40 boutons dans son sac. Déterminer la loi de la variable aléatoire comptant le nombre de boutons perdus. Quelle est la probabilité que P tit Gibus perde plus de 5 boutons? Vérifier par la simulation. Pensez-vous que le sac de P tit Gibus soit efficace? 3.3 Le bilan des gains... On note Y 1 le poids des boutons de bretelles détenus par la bande de Lebrac à la fin d une bataille (en dag).(positif si a correspond un gain, négatif si ça correspond une perte) Y le poids des boutons de pantalons détenus par la bande de Lebrac à la fin d une bataille (en dag).(positif si a correspond un gain, négatif si ça correspond une perte) On suppose que (Y 1,Y ) est un couple gaussien centré et de matrice de covariance : ( ) 3 Σ =. 3 5 On sait que les deux bandes concluent à la fin des batailles des arrangements par rapport par exemple aux conditions de libération des prisonniers qui sont modélisés par la combinaison suivante: X 1 = Y 1 Y, X = Y Y 1. 5

1. En utilisant les résultats de la section sur les vecteurs gaussiens bi-dimensionnels, montrer que X 1 et X sont indépendantes et de même loi N(0, 1).. Simuler n couples indépendants et de même loi que (Y 1,Y ). Vérifier votre simulation. 3. Lebrac n est pas très assidu à l école et son père menace de l envoyer en pension si la bande gagne moins de 0.4 dag de boutons de bretelles, et si elle perd plus de 3 dag de boutons de pantalons. Calculer à l aide d une simulation la probabilité que Lebrac soit envoyé en pension à la prochaine bataille. De façon facultative, on pourra calculer la valeur théorique de cette probabilité et comparer. 4. En fait, après la mise en place d une tactique particulière, les lois des variables Y 1 et Y ont été un peu modifiée. (Y 1,Y ) est maintenant un couple gaussien de moyenne ( 0.4, ) et de matrice de covariance Σ. Simuler n couples gaussiens suivant cette loi. Cette tactique est-elle avantageuse pour Lebrac? Quelle sorte de boutons (bretelles ou pantalons) conseillerez-vous à Lebrac de prendre ou de ne pas perdre en priorité? 4 Vers les statistiques 4.1 Intuition sur le signe de la corrélation Simuler un échantillon x de taille n = 10000 la loi normale N(1, 4) et un échantillon y de la loi normale N(0, 1) par l algorithme de Box-Muller. Calculer z = x + y. Représenter dans le plan les couples de points (x i,z i ). La corrélation entre x et z est-elle positive ou negative? Vérifier cela par un calcul théorique. 4. Loi du chi-deux et illustration du théorème de Cochran 1. Pour m =, puis m = 4, simuler m échantillons de taille n = 10000 de la loi normale N(0, 1). Ces échantillons seront placés dans une matrice X à n lignes et m colonnes. Calculer l échantillon y obtenu en calculant la somme des carrés de chaque ligne de cette matrice. Représenter un histogramme des valeurs de y. Superposer sur le même graphique la densité de la loi du chi-deux à m degrés de liberté (fonction dchisq). Représenter la fonction de répartition empirique de y. Superposer sur le même graphique la fonction de répartition de la loi du chideux à m degrés de liberté (fonction pchisq). On pourra utiliser les commandes suivantes : n<-10000 # dimension du vecteur m<- X <- matrix(rnorm(m*n),n,m) # matrice d echantillons en colonnes y <- rowsums(x^) # echantillon des normes carrees hist(y,probability=t,col="blue",main ="Histogramme de y") curve(dchisq(x,m), col="red", add=t) # Histogramme et densite theorique de y puis 6

ytri <- sort(y) # tri par ordre croissant ord <- (1:n)/n # ordonnees plot(ytri, ord, type="s", col="blue") curve(pchisq(x,m), col="red", add=t) # fonction de repartition empirique et theorique de y. Calculer la moyenne empiriques M de chacune des lignes de X, retrancher M a chacune des colonnes de X et calculer l échantillon z obtenu en prenant la somme des carrés de chaque ligne. Représenter un histogramme des valeurs de z. Superposer sur le même graphique la densité de la loi du chi-deux à m 1 degrés de liberté. Représenter la fonction de répartition empirique de z. Superposer sur le même graphique la fonction de répartition de la loi du chi-deux à m 1 degrés de liberté. M <- rowmeans(x) # moyennes empiriques par lignes z <-rowsums((x-cbind(m,m))^) # echantillon des variances empiriques hist(z,probability=t,col="blue",main ="Histogramme de z") curve(dchisq(x,(m-1)), col="red", add=t) # Histogramme et densite theorique de z Justifier que le vecteur z de la deuxième ligne peut également être obtenu par la commande z= y-m*m^ puis on pourra tracer ztri <- sort(z) # tri par ordre croissant ord <- (1:n)/n # ordonnees plot(ztri, ord, type="s", col="blue") curve(pchisq(x,(m-1)), col="red", add=t) # Fonction de repartition empirique et theorique de z 7