Statistique Bayésienne Notes de cours

Dimension: px
Commencer à balayer dès la page:

Download "Statistique Bayésienne Notes de cours"

Transcription

1 Troisième année Statistique Bayésienne Notes de cours Judith Rousseau 1 rousseau@ceremade.dauphine.fr 1. Ce support de cours a été rédigé par Mathias André et Alexis Eidelman, élèves en puis relu et corrigé par Julyan Arbel, correspondant de statistiques. Il s appuie notamment sur l ouvrage de référence de la statistique bayésienne, disponible dans toute bonne bibliothèque : Le Choix Bayésien - Principes et pratique de Christian P. Robert [2].

2

3 Table des matières 1 Introduction : Les principes bayésiens L inférence bayésienne Extension aux lois impropres Extension aux modèles non dominés Une introduction à la théorie de la décision Fonction de perte et risque Exemples Fonction de perte intrinsèque Admissibilité et minimaxité Admissibilité Minimaxité Estimation ponctuelle Estimateur du maximum a posteriori Importance de la statistique exhaustive Prédiction Modèle Gaussien Mesure d erreur Tests et régions de confiance Région de confiance Définitions Calcul de région hpd Test Approche par la fonction de perte de type Facteur de Bayes Variations autour du facteur de Bayes Propriétés asymptotiques des facteurs de Bayes Calcul du facteur de Bayes Propriétés asymptotiques des approches bayésiennes Théorie générale Normalité asymptotique de la loi a posteriori

4 ii TABLE DES MATIÈRES 6 Détermination de lois a priori Lois subjectives Approche partiellement informative Maximum d entropie Familles conjuguées Approche non informative Lois de Jeffreys et Bernardo Loi a priori de concordance (matching priors) Méthodes numériques Approches indépendantes Méthodes mcmc Algorithme Hasting-Metropolis Algorithme de type Gibbs Conclusion 50 Bibliographie 50

5 Chapitre 1 Introduction : Les principes bayésiens 1.1 L inférence bayésienne Définition Modèle classique On se place dans un espace probabilisé paramétrique classique : X (X, B, {P θ, θ Θ}) X désigne l espace des données, Θ celui des paramètres θ. Le but de l analyse statistique est de faire de l inférence sur θ, c est-à-dire décrire un phénomène passé ou à venir dans un cadre probabiliste. L idée centrale de l analyse bayésienne est de considérer le paramètre inconnu θ comme aléatoire : l espace des paramètres Θ est muni d une probabilité π tel que (Θ, A, π) est un espace probabilisé. Nous noterons θ π. π est appelée loi a priori. Intuitivement et en termes informationnels, elle détermine ce qu on sait et ce qu on ne sait pas avant d observer X. Définition Modèle dominé Le modèle est dit dominé s il existe une mesure commune dominante µ, c està-dire pour tout θ, P θ admet une densité par rapport à µ : 1 f(x θ) = dp θ dµ Cette fonction l(θ) = f(x θ), vue comme une fonction de θ une fois qu on a observé un tirage de X, est appelée vraisemblance du modèle. C est la loi de X conditionnellement à θ. 1. Pour des mesures σ-finies et en vertu du théorème de Radon-Nikodym, ceci est équivalent à être absolument continue par rapport à µ.

6 2 Introduction : Les principes bayésiens Définition Loi jointe et loi a posteriori Dans le cas d un modèle dominé, la loi jointe de (X, θ) s écrit λ π (X, θ) = f(x θ)dπ(θ) = f(x θ)π(θ)dν(θ), la dernière égalité étant valable dans le cas absolument continu par rapport à ν, la mesure de Lebesgue 2. La loi a posteriori est définie par sa densité : dπ(θ X) = f(x θ)dπ(θ) Θ f(x θ)dπ(θ) (1.1) La quantité m π (X) = Θ f(x θ)dπ(θ) est la loi marginale de X et est une constante de normalisation de la loi a posteriori, indépendante de θ. Nous travaillerons donc très régulièrement à une constante multiplicative près : π(x θ) f(x θ)π(θ). Nous ajoutons que par construction la loi a posteriori est absolument continue par rapport à la loi a priori π. Exemple 1.1 Dans le cas gaussien, à variance connue : X N(µ, σ 2 ) et θ = µ (σ 2 connnu) : (µ µ 0 ) 2 π(µ) = e 2τ 2 τ 2π Ainsi π(µ X) e (X µ)2 2σ 2 e (µ µ 0 )2 2τ 2 π(µ X) exp ( 1 2 ( 1 σ τ 2 ) ( µ ( X σ 2 + µ 0 τ 2 )( 1 σ ) τ 2 ) 1 ) π(µ X) N(X τ 2 σ 2 + τ 2 + µ σ 2 0 σ 2 + τ 2, σ 2 τ 2 σ 2 + τ 2 ) On remarque sur cet exemple que la loi a posteriori est plus resserrée (pointée) que la loi a priori. Cela s avère être intuitif : la loi a posteriori est la loi de θ en ayant une information supplémentaire à savoir la donnée de X, l incertitude sur θ ne peut donc que diminuer, en d autres termes la variance diminue. En considérant X n = 1 n n i=1 X i dans le cas indépendant et identiquement distribué, la loi a posteriori se centre sur X n avec un nombre d observations qui augmente. Dans ce cas, elle se rapproche du maximum de vraisemblance. 1.2 Extension aux lois impropres Nous généralisons l approche précédente aux lois a priori impropres, ce qui est notamment utile dans les modèles non-informatifs. 2. B est la tribu borélienne dans R p.

7 1.2 Extension aux lois impropres 3 Définition Loi impropre Une loi impropre est une mesure σ-finie 3 qui vérifie Θ π(θ)dν(θ) = +. L utilisation d une loi a priori impropre peut sembler saugrenue mais cela peut s avérer particulièrement intéressant. Il est ainsi envisageable de travailler avec une loi normale centrée à grande variance pour approcher une «loi uniforme sur R» ; avec de bonnes propriétés, il est judicieux (et préconisé!) de travailler alors avec une loi impropre, la mesure de Lebesgue par exemple. Cependant une telle loi est utile du moins tant que la loi a posteriori existe. Aussi, on se limite aux lois impropres telles que : m π (X) = f(x θ)dπ(θ) < µ-pp Exemple 1.2 Loi uniforme généralisée Loi a priori uniforme 4 Θ dπ(µ) = dµ X N(µ, σ 2 ) X m π (X) = e (X µ)2 2σ 2 dµ = σ 2π < La mesure de Lebesgue sur R est donc une loi impropre qui peut être utilisée. Dans le cas suivant : X 1,..., X n N(µ, σ 2 ) π(µ, σ) = 1 σ et Θ = R R + L intégrale de la loi a priori s écrit : R + 0 e ( Xn µ) 2 ni=1 (X i X) 2 dσdµ + ni=1 2σ 2 e 2σ 2 σ n+1 = (X 1 i X) 2 dσ e 2σ 2 0 2π σ n Pour que l expression converge, il faut avoir n > 1 et la propriété suivante vérifiée : ( i, j; i j, tqx i X j ). Lorsque n > 1 l ensemble des vecteurs qui ne vérifient pas cette propriété est de mesure nulle et donc n affecte pas la finitude de l intégrale définie ci-dessus. Il est possible de donner une interprétation intuitive du résultat précédent. Pour estimer la dispersion (variance), au moins deux observations sont nécessaires. L interprétation est peut-être un peu moins évidente en ce qui concerne la deuxième remarque mais elle reste cohérente si toutes les observations sont égales. L inférence sur σ conduit alors à considérer ce paramètre comme nul ; dans un tel cas, la distribution a 3. Cela peut être défini dans un cas général sans σ-finitude mais, comme nous allons le voir, sans grand intérêt Dans ce cas, π est la mesure de Lebesgue.

8 4 Introduction : Les principes bayésiens priori π(µ, σ 2 ) = 1 n est pas définie, il n est donc pas classique de la choisir σ 2 de cette forme. Dans le cas où π est une mesure impropre σ-finie, on considère π = c π, cette constante arbitraire doit être sans influence pour être cohérent. C est bien le cas car c se simplifie haut et bas dans l équation (1.1) définissant la loi a posteriori de telle sorte que dπ (θ X) = dπ(θ X). En conclusion, l usage de lois impropres a priori est justifié si la loi a posteriori est propre (non impropre 5 ) car elle ne dépend pas de constante multiplicative de la loi a priori. Ceci est à rapprocher du principe de vraisemblance indiqué par Christian Robert. D une manière plus générale, l inférence bayésienne se base sur π(θ X). 1.3 Extension aux modèles non dominés Le paramètre a jusqu à présent été choisi parmi les éléments de R d avec d fini dans un modèle dominé. Il est envisageable de choisir Θ = [0, 1] R, l ensemble des distributions sur [0, 1] ou encore l ensemble des probabilités sur R (qui est non dominé). Dans ce dernier cas, si P π une probabilité sur Θ, par exemple un processus de Dirichlet, on définit la loi a posteriori comme une version de la loi conditionnelle. Sur (R, B) et (Θ, A), pour (A, B) A B : P (X B)dπ(P ) = m π (X)dπ(P X) A La loi de Dirichlet, notée D(α 1,, α p ), est définie sur le simplexe S p = {(x 1,, x p ), p i=1 x i = 1, x i 0 pour 0 i p} par : dπ α (x) = x α Γ( i α i) xαp p i Γ(α i) Pour une mesure α sur R, le processus de Dirichlet se note D(α(.)). En utilisant la topologie faible, on peut montrer pour toute partition de R (B 1,, B p ), si P D(α(.)) alors. (P (B 1 ),, P (B p )) D(α(B 1 ),, α(b p )) B A 5. C est-à-dire une loi de probabilité qui mesure les informations une fois les données observées.

9 Chapitre 2 Une introduction à la théorie de la décision 2.1 Fonction de perte et risque Pour le modèle X (X, B, {P θ, θ Θ}), on définit D l ensemble des décisions possibles. C est-à-dire l ensemble des fonctions de Θ dans g(θ) où g dépend du contexte : si le but est d estimer θ alors D = Θ pour un test, D = {0, 1} La fonction de perte est une fonction mesurable de (Θ D) à valeurs réelles positives : L : Θ D R +. Elle est définie selon le problème étudié et constitue l armature du problème statistique 1. Définition Risque fréquentiste Pour (θ, δ) Θ D, le risque fréquentiste 2 est défini par : R(θ, δ) = E θ [L(θ, δ(x)))] = L(θ, δ(x)))f(x θ)dµ(x) X C est une fonction de θ et ne définit donc par un ordre total sur D et ne permet donc pas de comparer toutes décisions et estimateurs. Il n existe donc pas de meilleur estimateur dans un sens absolu. Ainsi, l approche fréquentiste restreint l espace d estimation en préférant la classe des estimateurs sans biais dans laquelle il existe des estimateurs de risque uniformément minimal ; l école bayésienne ne perd pas en généralité en définissant un risque a posteriori. L idée est d intégrer sur l espace des paramètres pour pallier cette difficulté. 1. cf 2.2 pour des exemples. 2. Dans le cas d une fonction de perte quadratique, il est appelé risque quadratique.

10 6 Une introduction à la théorie de la décision Définition Risque a posteriori Une fois données la loi a priori sur le paramètre et la fonction de perte, le risque a posteriori est défini par : ρ(π, δ X) = E π (L(θ, δ(x))) X) = L(θ, δ(x)))dπ(θ X) Θ Ainsi, le problème change selon les données ; ceci est dû à la non existence d un ordre total sur les estimateurs. Définition Risque intégré A fonction de perte donnée, le risque intégré est défini par : r(π, δ) = R(θ, δ)dπ(θ) Définition Estimateur bayésien Un estimateur bayésien est un estimateur vérifiant : Θ r(π, δ π ) = inf r(π, δ) < δ D Pour obtenir la valeur de l infimum du risque intégré il faut donc en théorie minimiser une intégrale double δ. L introduction du risque intégré se justifie par le théorème suivant. Il suffira de minimiser une grandeur qui ne dépend plus que des données, ceci permet donc d arriver à des estimateur satisfaisants. Théorème 2.1 Méthode de calcul Si δ D, r(π, δ) < et X X δ π (X) = Argmin δ ρ(π, δ X), alors δ π (X) est un estimateur bayésien. Démonstration : r(π, δ) = R(θ, δ)dπ(θ) Θ = L(θ, δ(x)))f(x θ)dµ(x)dπ(θ) = = = Θ X X X X Θ Θ L(θ, δ(x))) f(x θ))dπ(θ) m π (X)dµ(X) m π (X) L(θ, δ(x)))dπ(θ X)m π (X)dµ(X) ρ(π, δ X)m π (X)dµ(X) (Fubini) Ainsi, pour δ D, ρ(π, δ π X) ρ(π, δ X) r(π, δ π ) r(π, δ). Ce qui permet de conclure.

11 2.2 Exemples Exemples Exemple 2.1 Perte quadratique D = Θ R d 3 et L(θ, δ) = θ δ 2 Comme la norme au carré est une fonction convexe deux fois dérivable sur Θ, pour trouver δ π estimateur bayésien, il suffit de déterminer les points critiques du risque a posteriori 4. Donc ρ(π, δ X) = E π ( θ δ 2 X) ρ(π, δ X) = 2 (π δ(x))dπ(θ, X) δ Θ ρ(π, δ X) = 0 δ(x) = E π (θ X) δ D après l inégalité de Jensen, δ ρ(π, δ X) est aussi convexe. L estimateur bayésien vaut donc δ π (X) = E π (θ X) µ-pp. Dans le cas gaussien de l exemple 1.1 X N(µ, σ 2 ) et µ N(µ 0, τ), l estimateur bayésien s exprime : δ π (X) = τ 2 τ 2 + σ 2 X + σ2 τ 2 + σ 2 µ 0 Exemple 2.2 Perte L 1 D = Θ R et L(θ, δ) = d i=1 θ i δ i Dans le cas simple où d = 1 : ρ(π, δ X) = = Θ δ θ δ dπ(θ X) (δ θ)π(θ X)dθ + δ (θ δ)π(θ X)dθ Comme δ ρ(π, δ X) est convexe et dérivable µ-presque partout, il suffit là encore de déterminer les points critiques : Donc δ ρ(π, δ X) = π(θ X)dθ π(θ X)dθ δ δ ρ(π, δ X) = 0 P π (θ δ X) = P π (θ δ X) δ C est-à-dire δ π (X) est la médiane de π(θ X) Ceci peut facilement être généralisé au cas d un Hilbert. 4. En s appuyant sur le théorème 2.1 et pour des solutions intérieures évidemment Nous soulignons la robustesse vis à vis des valeurs extrêmes en comparaison de la moyenne, ceci s explique par les fonctions de perte correspondantes qui accordent plus ou moins d importance aux valeurs élevées.

12 8 Une introduction à la théorie de la décision Exemple 2.3 Perte 0 1 Cette fonction de perte est utilisée dans le contexte des tests. Un test est la donnée d une partition de Θ en Θ 0 et Θ 6 1. θ Θ i correspond à l hypothèse H i, H 0 est appelée l l hypothèse nulle. Le principe du test (décisions) δ est défini comme suit : { 0 si θ Θ1 δ = 1 si θ Θ 0 La fonction de perte correspondant au test est définie par : L(θ, δ) = 1 θ Θ1 1 δ=0 + 1 θ Θ0 1 δ=1 Le risque a posteriori est alors le suivant : Ainsi : ρ(π, δ X) = 1 δ=0 P π (Θ 1 X) + 1 δ=1 P π (Θ 0 X) δ π (X) = 1 P π (Θ 0 X) P π (Θ 1 X) C est-à-dire que l estimation permet d accepter H 0 si c est l hypothèse la plus probable a posteriori, ce qui est une réponse naturelle. Une variante du test 0 1 est le test de Neymann Person qui permet de distinguer risques de première et de deuxième espèce : 0 si δ = 1 θ Θ1 L(θ, δ) = a 0 si δ = 1 θ Θ0 a 1 si δ = 0, θ Θ 1 Le risque a posteriori est donné par : Ainsi : ρ(π, δ X) = a 0 δp π (Θ 1 X) + a 1 (1 δ)p π (Θ 0 X) δ π (X) = 1 a 0 P π (Θ 0 X) a 1 P π (Θ 1 X) Ceci permet de modéliser des raisonnements de la forme «j ai plus ou moins tort» en jouant sur le rapport a 1 a 7 0 et accorder plus ou moins d importance relative à Θ 0 selon des arguments a priori. 2.3 Fonction de perte intrinsèque Nous nous plaçons dans le cas où X θ f(x θ) et L(θ, δ) = d(f θ, f δ ) avec d une distance entre densités. Avant de voir la définition de fonction de perte intrinsèque, nous commençons par des exemples de distances classiques entre densités. 6. Θ 0 Θ 1 = Θ et Θ 0 Θ 1 =. 7. a 1 = a 0 correspond au cas précédent de test 0 1.

13 2.3 Fonction de perte intrinsèque 9 Exemple 2.4 Distances usuelles entre densités (f θ, f θ ) de fonctions de répartition (F θ, F θ ) : 1. Distance de Kolmogoroff-Smirnoff : 2. Distance L 1 : d KS (f θ, f θ ) = sup F θ (x) F θ (x) x d 1 (f θ, f θ ) = 3. Distance de Hellinger : ( d H (f θ, f θ ) = f θ (x) f θ (x) dx (2.1) = 2 sup P θ (A) P θ (A) (2.2) A ( f θ (x) ) 1 f θ (x)) 2 2 dx 4. Pseudo-distance 8 de Kullback-Liebler : K(f θ, f θ ) = f θ (x) log f θ(x) f θ (x) dx Avec l inégalité de Jensen, on prouve l inégalité K(f θ, f δ ) 0. De plus, K(f θ, f δ ) = 0 si et seulement si f θ = f θ µ-presque sûrement. 5. Distance L 2 : d 2 (f θ, f θ ) = (f θ (x) f θ (x)) 2 dx Ceci peut s utiliser si les densités sont de carré intégrable. La notion de perte intrinsèque provient de l exigence d invariance par transformation monotone inversible sur les données : les distances et donc les fonctions de perte, utilisées doivent donc être inchangées par l action d un C 1 -difféomorphisme sur X. Ainsi, pour y = g(x) et X f θ où g est un C 1 -difféomorphisme, on note y g θ (y) = f θ (g 1 (y)) dx dy. Pour une perte intrinsèque, la distance entre f θ et f θ est la même que celle entre g θ et g θ pour un g donné ; ceci correspond à une distance entre distributions (et non plus entre densités). L invariance par C 1 -difféomorphisme est vérifiée pour les distances précédentes à l exception de la norme L 2. Nous donnons à titre d exemple la démonstration pour la norme L 1. Les autres cas sont laissés aux lecteurs et lectrices : fθ d 1 (g θ, g θ ) = (g 1 (y)) f θ (g 1 (y)) dx dy dy = f θ (x) f θ (x) dx 8. Car non symétrique. = d 1 (f θ, f θ )

14 10 Une introduction à la théorie de la décision Définition Fonction de perte intrinsèque En s appuyant sur ce qui précède, une fonction de perte intrinsèque est une fonction de perte définie à partir d une distance entre distributions, c est-àdire invariante par transformation monotone inversible. Nous terminons cette section par un exemple où nous calculons la distance de Hellinger entre deux gaussiennes. Exemple 2.5 Distance d Hellinger de lois normales En notant Φ µ,σ 2 la densité de la loi N (µ, σ 2 ) et θ = (µ, σ 2 ), nous avons : d 2 H(Φ θ, Φ θ ) = ( Φ θ Φ θ ) 2 dx R = 2 2 Φθ Φ θ dx R 2 (x µ)2 = 2 exp( 2πσσ R 4σ 2 (x µ ) 2 4σ 2 )dx } {{ } =I ( I = exp 1 4Σ 2 {x ( µ σ 2 + µ σ 2 )Σ2 } 2 Σ2 4 ( µ σ 2 + µ ) σ 2 )2 + µ2 4σ 2 + µ 2 4σ 2 dx R en notant Σ 2 = ( 1 ) 1. D où, en reconnaissant une intégrale gaussienne σ 2 de variance 2Σ 2 et en factorisant le facteur exponentiel : σ I = Σ 2πe (µ µ ) 2 4(σ 2 +σ 2 ) Ainsi, nous arrivons à : 1 2σσ 2 d2 H(Φ θ, Φ θ ) = 1 = 1 σ 2 exp + σ 2 2(u + 1) (u + 1) ( (µ µ ) 2 ( 1 4(σ 2 + σ 2 ) ) h 2 4(σ 2 + σ 2 ) ) + o(h 2 ) en notant h = µ µ et u = σ 1(développement limité en (h,u)) σ C est la somme de deux termes du second ordre : 2(u + 1) 1 (u + 1) = u 2 ((u + 1) 2 + 1) + 2(u + 1)((u + 1) 2 + 1) u2 4 d où et 2(u + 1) h 2 (u + 1) σ 2 (1 + (u + 1) 2 ) h2 8σ 2 d 2 H(Φ θ, Φ θ ) = 2(σ σ ) 2 + (µ µ ) 2 4σ 2 + o( h, u 2 )

15 2.4 Admissibilité et minimaxité 11 La partie régulière de ce développement limité s écrit (θ θ ) I(θ) 2 (θ θ ) où I(θ) est l information de Fisher du paramètre θ = (µ, σ) ; ceci est l expression d une forme quadratique au voisinage de θ. L information de Fisher s interprète donc comme la courbure (locale) du modèle 9. Intuitivement, cela s explique par le fait que si l information est grande, elle permet de distinguer deux paramètres distincts (et réciproquement), c est une quantité intrinsèque au modèle et explique en partie la récurrence avec laquelle elle apparaît dans les cours de statistique. 2.4 Admissibilité et minimaxité Admissibilité Définition Estimateur admissible Soit X (X, B, {P θ, θ Θ}) un modèle paramétrique et L une fonction de perte sur Θ D où D est l ensemble des décisions (fonctions des données vers une transformation de l ensemble des paramètres). On dit que δ Θ est inadmissible si et seulement si ( δ 0 D, θ ΘR(θ, δ) R(θ, δ 0 ) et θ 0 Θ, R(θ 0, δ) > R(θ 0, δ 0 )). Un estimateur est dit admissible si et seulement si il n est pas inadmissible. Même si les estimateurs admissibles apparaissent comme ceux qu il faut rechercher en priorité, le gain de l admissibilité peut s avérer réduit et coûteux. Ainsi, dans le cas gaussien X N (θ, Id) et (X, θ) (R p ) 2, on peut montrer que le maximum de vraisemblance est admissible si et seulement si p 2 pour la fonction de perte quadratique. En outre, le gain à être admissible augmente avec p, la dimension de l espace. Théorème 2.2 Estimateurs bayésiens admissibles Si l estimateur bayésien δ π associé à une fonction de perte L et une loi a priori π est unique, alors il est admissible. Démonstration : Supposons δ π estimateur bayésien non admissible : δ 0 D, θ Θ, R(θ, δ) R(θ, δ 0 ) et θ 0 Θ, R(θ 0, δ) > R(θ 0, δ 0 ). En intégrant la première inégalité : R(θ, δ 0 )dπ(θ) R(θ, δ π )dπ(θ) = r(π) Θ Θ donc δ 0 est aussi un estimateur bayésien associé à L et π et δ 0 δ π d après la seconde inégalité. Le théorème se déduit par contraposée. Ce théorème s applique notamment dans le cas d un risque fini et d une fonction de coût convexe. En outre, l unicité de l estimateur bayésien implique la finitude du risque : r(π) = R(θ, δ π )dπ(θ) < (sinon, tout estimateur minimise le risque). 9. Il est nécessaire de se placer dans le cadre de la géométrie différentielle et d étudier la variété de Riemann de géométrie l information de Fisher.

16 12 Une introduction à la théorie de la décision Définition π-admissibilité Un estimateur δ 0 est π-admissible si et seulement si (δ, θ), R(θ, δ) R(θ, δ 0 ) π({θ Θ, R(θ, δ) < R(θ, δ 0 )}) = 0 Cette notion est utile pour démontrer le théorème important de cette section par le biais de la proposition suivante. Proposition 2.3 Tout estimateur bayésien tel que r(π) < est π-admissible Démonstration : Soit δ π un estimateur bayésien à risque fini. Pour δ 0 tel que θr(θ, δ) R(θ, δ 0 ), on note A = {θ Θ, R(θ, δ) < R(θ, δ 0 )}. Nous avons alors : R(θ, δ 0 )dπ(θ) R(θ, δ π )dπ(θ) = (R(θ, δ) R(θ, δ 0 ))dπ(θ) 0 Θ Θ avec égalité si et seulement si π(a) = 0. Or, comme δ π est bayésien et le risque fini, r(θ, δ 0 ) r(θ, δ π ) donc l intégrale est nulle (positive et négative!), d où π(a) = 0 : δ π est π-admissible. Nous pouvons maintenant énoncer une condition suffisante d admissibilité des estimateurs bayésiens. Théorème 2.4 Continuité et π-admissibilité Si π > 0 sur Θ, r(π) < pour une fonction de perte L donnée, si δ π estimateur bayésien correspondant existe et si θ R(θ, δ) est continu, alors δ π est admissible. Démonstration : Supposons que δ π est non admissible. D après la proposition précédent, δ π est π-admissible. Ainsi, il existe δ 0 tel que pour tout θ, R(θ, δ 0 ) R(θ, δ π ) et θ 0 Θ, R(θ 0, δ 0 ) < R(θ 0, δ π ). La fonction définie sur Θ par θ R(θ, δ 0 ) R(θ, δ π ) est continue. Donc il existe un voisinage (ouvert) de θ 0, V 0 Θ tel que θ V 0, R(θ, δ 0 ) < R(θ, δ π ). En considérant A la même région que dans la proposition précédente, A = {θ Θ, R(θ, δ) < R(θ, δ 0 )}, π(a) π(v 0 ). Or π est supposée strictement positive que Θ donc en prenant un modèle dominé par une mesure qui charge positivement les ouverts (la mesure de Lebesgue par exemple) π(v 0 ) > 0, A est donc non négligeable (de mesure non nulle), ce qui n est pas conforme avec la π-admissibilité. En conclusion, δ π est admissible. Exemple 2.6 Discussion sur l hypothèse de risque fini L hypothèse r(π) < est cruciale, comme le montre l exemple suivant. Dans le cas gaussien, X N (θ, I d ) et (X, θ) R p2, pour une fonction de perte L(θ, δ) = ( θ 2 δ) 2 et pour la mesure de Lebesgue (π(θ) = 1), on montre que δ π (X) = E π [ θ 2 X] = X 2 +p. En prenant une loi a posteriori gaussienne π(θ X) N (X, I d ), π(θ X) exp( X θ 2 2 ) et on peut montrer que pour δ 0 (X) = X 2 p, θ Θ, R(θ, δ 0 ) R(θ, δ π ) avec inégalité stricte pour θ = 0. Ici, r(π) = met en défaut le théorème précédent. A

17 2.4 Admissibilité et minimaxité Minimaxité Définition Estimateur randomisé Pour le modèle X (X, B, {P θ, θ Θ}), un ensemble de décisions D, on définit D comme l ensemble des probabilités sur D. δ D est appelé estimateur randomisé. L idée à l origine de cette notion est de rendre D convexe pour pouvoir maximiser facilement. L estimateur de Neyman-Pearson introduit dans la section 2.2 s appuie sur ce principe. On définit de même des fonctions de perte et risque randomisés par : L (δ, θ) = L(θ, a)dδ (a) et R(θ, δ ) = E θ [L (δ, θ)] D Définition Risque minimax et estimateur minimax Le risque minimax est défini par R = inf δ D sup R(θ, δ ). On dit que δ 0 est un θ Θ estimateur minimax si et seulement si R = supr(θ, δ 0 ). θ Θ L estimateur minimax correspond au point de vue (conservateur!) de faire le mieux dans le pire des cas, c est-à-dire à s assurer contre le pire. Il est utile dans des cadres complexes 10 mais trop conservateur dans certains cas où le pire est très peu probable. Il peut être judicieux de voir l estimation comme un jeu entre le statisticien (choix de δ) et la Nature (choix de θ), l estimation minimax rejoint alors celle de la Théorie des Jeux. Théorème 2.5 Valeur et risque minimax En se plaçant dans le cadre précédent pour Θ R et Θ compact, on note R = r(π) ; si pour π 0 tel que r(π 0 ) = R, δ π 0 est un estimateur bayésien, sup π proba alors, en notant f = θ R(θ, δ π 0 ) : (f analytique) (f constante ou supp(π) 11 fini) Démonstration : Vérifions dans un premier temps le résultat général : R R. r(π) = inf r(π, δ) r(π, δ) R(θ, δ)dπ(θ) maxr(θ, δ) si δ D δ D Θ θ Θ Donc pour tout δ D, r(π) max θ Θ R(θ, δ). Par combinaison convexe 12 sur D, on passe à l infimum sur D. D où r(π) R, et pour conclure on passe au sup sur π une probabilité. 10. Par exemple, dans le cas non paramétrique ; il est alors utile de regarder la vitesse de convergence de cet estimateur avec le nombre d observations. 11. support de la loi π, i.e. l ensemble des estimateurs θ tels que π(θ) > argument un peu rapide mais clair dans le cas fini et s étend par densité dans le cas continu.

18 14 Une introduction à la théorie de la décision Plaçons nous maintenant dans le cadre du théorème et considérons δ π 0 l estimateur minimax bayésien : r(π) = r(π, δ π 0 ). Supposons le risque non constant : il existe (θ 1, θ 2 ) tel que R(θ 1, δ 0 ) < R(θ 2, δ 0 ). Comme Θ compact, le maximum est atteint : il existe θ 0 tel que R(θ 0, δ 0 ) = max R(θ, δ 0), on θ Θ définit A = {θ Θ, R(θ, δ 0 ) < R(θ 0, δ 0 )}. En sachant que r(π 0, δ π 0 ) R et δ 0 estimateur minimax, on écrit : r(π 0, δ π 0 ) = R(θ, δ π 0 )π 0 (θ)dθ + R(θ, δ π 0 )π 0 (θ)dθ A A c Si π 0 (A) > 0, r(π 0, δ π 0 ) < R ; ce qui est impossible donc π 0 (A) = π 0 ({θ Θ, R(θ, δ 0 ) < R(θ 0, δ 0 )}) = 0. En utilisant une conséquence du théorème de Picard en analyse complexe, f analytique implique que le support de π 0 est fini.

19 Chapitre 3 Estimation ponctuelle Contrairement à l estimation ensembliste, le but de ce chapitre est d estimer une fonction du paramètre g(θ), par exemple g(θ) = θ ou g(θ) = θ 2. Nous nous plaçons à L et π donnés de telle sorte que nous disposons d un estimateur bayésien δ π correspondant. 3.1 Estimateur du maximum a posteriori Définition estimateur du maximum a posteriori ( map) On appelle estimateur map tout estimateur δ π (X) Argmax θ π(θ X). Cette notion est le pendant bayésien du maximum de vraisemblance fréquentiste. Il a le grand avantage de ne pas dépendre d une fonction de perte et est utile pour les approches théoriques. Ses inconvénients sont les mêmes que l estimateur du maximum de vraisemblance : non unicité, instabilité (dus aux calculs d optimisation) et dépendance vis-à-vis de la mesure de référence (dominant Θ). En outre, il ne vérifie pas la non invariance par reparamétrisation qui peut apparaître importante intuitivement. Le dernier point se formalise ainsi : pour g un C 1 -difféomorphisme et η = g(θ), θ Θ, Argmaxπ (η X) Argmaxπ(θ X) avec π (η X) π(θ(η), X) dθ Exemple 3.1 Modèles de mélange Ceci a pour but de modéliser des populations hétérogènes non distinguées. Dans ce cas, la loi conditionnelle s écrit comme suit : dη k f(x θ k ) = p j g(x γ j ) j=1 où k p j = 1 et pour tout j p j 0 j=1 En outre, le nombre de composantes k n est pas forcément connu. Les paramètres sont donc (k, (p j, γ j ) 0 j k ) et la loi a priori se met sous la forme dπ(θ) = p(k)π k (p 1,, p k, γ 1,, γ k ). Un estimateur naturel maxi-

20 16 Estimation ponctuelle mise la loi a posteriori : ˆk π = Argmax π(k X) = p(k) Θ k f(x θ k )dπ k (θ k ) k kmax k=1 p(k) Θ k f(x θ k )dπ k (θ k ). 3.2 Importance de la statistique exhaustive Définition Statistique exhaustive On appelle statistique exhaustive une statistique 1 S(X) telle que la loi conditionnelle se décompose sous la forme : f(x θ) = h(x S(X)) f(s(x) θ) Ceci se récrit π(θ X) = π(θ S(X)). En termes informationnels, ceci signifie que S résume l information a priori. Lorsqu on utilise des lois impropres, le comportement d une statistique peut être capricieux. Par exemple, si on considère un paramètre de la forme suivante θ = (θ 1, θ 2 ) avec π(θ) une loi impropre et pour S une statistique exhaustive pour θ 1, nous pouvons écrire : f(x θ 1, θ 2 ) = g(x θ 2 ) f(s X) Dans ce cas, il peut arriver que π(θ 1 X) = π(θ 1 δ) mais sans qu il n existe f(s X)π de π 1 (θ 1 ) tel que π(θ 2, S) = 1 (θ 1 ). Ceci est dû au fait que la loi Θ f(s θ 1 )π 1 (θ 1 )dθ 1 1 a priori est impropre et s appelle le paradoxe de marginalisation qui nous illustrons dans l exemple qui suit. Exemple 3.2 Paradoxe de marginalisation Si X 1,, X n indépendants tels que X i exp(η) et X j exp(cη) pour 0 i ξ < j n avec c connu. Le paramètre est θ = (η, ξ) où ξ {1, 2,..., n 1} et nous supposons que la loi a priori vérifie π(η, ξ) = π(ξ), cela implique notamment que la fonction a priori est impropre en η. On peut montrer que π(ξ X) = π(ξ Z) en posant Z = ( X 2 X 1,..., Xn X 1 ) et f(z ξ, η) = f(z η) et pourtant il n existe pas de π(ξ) telle que π(ξ Z) f(z ξ)π(ξ). χ2 (p) p Dans le cas où U 1 N(µ 1, σ 2 ), U 2 N(µ 2, σ 2 ) et S2 avec σ 2 U 1, U 2, S 2 indépendants, en prenant comme paramètre une transformation de (µ 1, µ 2, σ 2 ), (ξ = µ 1 µ 2 σ, µ 1, σ 2 ), pour π(µ 1, µ 2, σ 2 ) = 1 σ 2 et en posant Z = U 1 U 2 S on montre que f(z µ 1, µ 2, σ 2 ) = f(z, ξ) et 1. C est-à-dire une fonction des données.

21 3.3 Prédiction 17 π(ξ U 1, U 2, S) = π(ξ Z) mais π(ξ Z) f(z ξ)π(ξ). Pour poursuivre cet exemple, les lecteurs-trices peuvent se référer à l exercice 3.47 (David et Ziteck) du Choix Bayésien. 3.3 Prédiction Le contexte du problème de la prédiction est le suivant : les observations X sont identiquement distribuées selon P θ, absolument continue par rapport à une mesure dominante µ et donc qu il existe une fonction de densité conditionnelle f( θ). Par ailleurs on suppose que θ suit une loi a priori π. Il s agit alors à partir de n tirages X 1,, X n de déterminer le plus précisément possible ce que pourrait être le tirage suivant X n+1. Dans l approche fréquentiste, on calcule f(x n+1 X 1,, X n, ˆθ). Comme le révèle la notation ˆθ, on ne connaît pas exactement θ. On doit donc l estimer dans un premier temps et de ce fait, on utilise deux fois les données : une fois pour l estimation du paramètre et une nouvelle fois pour la prédiction dans la fonction f. En général, ceci amène à sous-estimer les intervalles de confiance. La stratégie du paradigme bayésien, désormais bien comprise par la lectrice et peut-être un peu assimilé par le lecteur, consiste à intégrer la prévision suivant une loi a priori sur θ et ce, afin d avoir la meilleure prédiction compte tenu à la fois de notre savoir et de notre ignorance sur le paramètre. La loi prédictive s écrit ainsi : f π (X n+1 X 1,, X n ) = f(x n+1 X 1,, X n, θ)π(θ X 1,, X n )dθ Θ Dans le cas des tirages indépendants et identiquement distribués, ceci devient : f π (X n+1 X 1,, X n ) = f(x n+1 θ)π(θ X 1,, X n )dθ Θ En considérant le coût quadratique L(θ, δ) = θ δ 2, on peut proposer le prédicteur : ˆX n+1 π = E π (X n+1 X 1,, X n ) = X n+1 f(x n+1 X 1,, X n )dx n Modèle Gaussien i.i.d Nous supposons Y 1,, Y n N (µ, σ), π(µ, σ) = 1 σ (la mesure de Haar) et π(µ, σ 2 ) = N (µ 0, (τσ) 2 ) IG(a, b) (loi Inverse Gamma). On considère le modèle linéaire Y = Xβ + ε, où ε N (0, Σ) avec Σ = σ 2 I d. Le paramètre est θ = (β, σ 2 ). Si σ 2 est connu, alors on peut écrire π(β) = N (µ, A) où A est un hyperparamètre et π(β Y, X) = N ((ˆΣ 1 + A 1 ) 1 (ˆΣ 1 ˆβ +

22 18 Estimation ponctuelle A 1 µ), (ˆΣ 1 + A 1 ) 1 ). La regression linéaire bayésienne retrouve les formules ˆβ = (X X) 1 X Y et ˆΣ = σ 2 (X X) 1. Les modèles hétéroscédastiques peuvent aussi être étudiés. Liens entre les modèles à effets aléatoires et le paradigme bayésien Considérons le modèle suivant : Y une variable d intérêt quelconque, X = 1 si un individu est un hommme X = 0 si c est une femme, avec (Y X) N(βX, σ 2 ). L hétérogénéité de gendres se traduit par : Y = u 1 + ε six = 1 Y = u 2 + ε six = 0 Y = Xu 1 + (1 X)u 2 + ε On suppose que u 1 N (0, τ1 2) et que u 2 N (0, τ2 2 ). Les effets aléatoires signifient que β est aléatoire : β N (β 0, A) La variabilité est plus grande que ce que le modèle aléatoire propose, les effets aléatoires augmentent la variance sans changer le modèle. La limite entre le modèle bayésien hiérarchique et modèle à effet aléatoire est fine. 3.5 Mesure d erreur Pour mesurer une erreur, il est nécessaire d introduire une fonction de perte, nous l appellerons ici traditionnellement L = L(θ, δ). On définit ensuite le risque fréquentiste R(θ, δ) et le risque a posteriori ρ(π, δ X). Le but est d estimer la fonction de perte pour δ donné mais l utilisation double des données tend à sous-estimer les erreurs, ce qui limite cette démarche. On a évidement L(δ, δ) = 0 donc estimer une erreur en un point n a pas de sens. L idée est d introduire une fonction de perte sur les fonctions de perte et d estimer l = L(θ, δ) Λ R + : L : Θ Λ D R (θ, l, δ) L(θ, l, δ) En appliquant dans ce contexte, le principe bayésien, maintenant maîtrisé par les lecteurs-trices et qui consiste à intégrer sur les paramètres, on définit le risque : ρ(π, δ, l X) = E π [ˆL(θ, l, δ X) ]. On cherche alors à calculer ˆl = arg min l ρ(π, δ, l X). Exemple 3.3 Perte quadratique Si ˆL(θ, l, δ X) = (l L(θ, δ)) 2, alors ˆρ π = E π [L(θ, δ X)]. Si de plus, L(θ, δ) = θ δ 2, alors ˆρ π = E π [ (θ δ) 2 X ] et puisqu en toute logique, on choisit δ = δ = E π [θ X], on a : ˆρ π = V π [θ X]

23 3.5 Mesure d erreur 19

24 20 Estimation ponctuelle

25 Chapitre 4 Tests et régions de confiance 4.1 Région de confiance Définitions Définition Région α-crédible Une région C de Θ est dite α-crédible si et seulement si P π (θ C X) > 1 α. Notons que le paradigme bayésien permet une nouvelle fois de s affranchir d un inconvénient de l approche fréquentiste. En effet, au sens fréquentiste, une région de confiance C est définie par θ, P θ (θ C) 1 α et correspond à l interprétation suivante. En refaisant l expérience un grand nombre de fois, la probabilité que θ soit dans C est plus grand que 1 α. Une région de confiance n a donc de sens que pour un très grand nombre d expériences tandis que la définition bayésienne exprime que la probabilité que θ soit dans C au vue des celles déjà réalisées est plus grande que 1 α. Il n y a donc pas besoin ici d avoir recours à un nombre infini d expériences pour définir une région α-crédible, seule compte l expérience effectivement réalisée. Il y a une infinité de régions α-crédibles, il est donc logique de s intéresser à la région qui a le volume minimal. Le volume étant défini par vol(c) = C dν(θ), si π(θ X) est absolument continue par rapport à une mesure de référence ν. Définition Région hpd (highest posteriori density) C π α est une région hpd si et seulement si C π α = {θ, π(θ X) h α } où h α est défini par h α = sup {h, P π ({θ, π(θ X) h} X) 1 α}. C π α est parmi les régions qui ont une probabilité supérieure à 1 α de contenir θ (et qui sont donc α-crédibles) et sur lesquelles la densité a posteriori ne descend pas sous un certain niveau (restant au dessus de la valeur la plus élevée possible). Théorème 4.1 Régions hpd C π α est parmi les régions α-crédibles celle de volume minimal si et seulement

26 22 Tests et régions de confiance si elle est hpd. Démonstration : On considère le problème dual. min vol(c) max P π (C X) C, P π (C X) 1 α C, vol(c)=v où V constante Il suffit alors de montrer que pour tout C telle que π(c C π α) > 0 (en notant C C π α l ensemble tel que C C π α = C π α C c C π α c C), si vol(c) = vol(c π α) alors P π (C X) < P π (C π α X). C π(θ X)dν(θ) π(θ X)dν(θ) = C π α π(θ X)dν(θ) C C π α π(θ X)dν(θ) C π α Cc Or, comme C et C π α ont même volume, C C π α dν(θ) = C π α C c dν(θ). Comme π est dominé par ν, ces volumes sont strictement positifs. En outre : C C π α π(θ X)dν(θ) < h α vol(c C π α) C π α C c π(θ X)dν(θ) h α vol(c π α C c ) d où finalement P π (C X) < P π (C π α X). Exemple 4.1 Par les calculs Si X 1,, X n i.i.d N (µ, σ 2 ) et π(µ, σ) = 1 σ, alors où X n = 1 n π(µ, σ 2 X 1,, X n ) e n(xn µ)2 2σ 2 e S2 n 2σ 2 n i=1 X i et S 2 n = n i=1 (X i X n ) 2. On a alors : π(µ σ 2, X 1,, X n ) = N (X n, σ2 ) de densité : n π(σ 2 X 1,, X n ) e Sn 2σ 2 σ n+1 n σ 2π e n(xn µ) 2σ 2 Il est important de remarquer qu on a ici une formule explicite en µ, c est ce qui va nous permettre de poursuivre le calcul dans ce cas exceptionnel. Notons que la calculabilité repose parfois sur la notion de loi conjuguée. Ici on est dans un cas limite, la famille conjuguée de la loi normale est la famille des lois normales ; la loi a priori π(µ, σ 2 ) = 1 est en fait une loi normale σ 2 dégénérée (la variance est infinie). Des lois précédentes, on déduit : π(µ X 1,, X n ) σ n+2 e 1 1 σ e n(xn µ) 2σ 2 2 e Sn 2σ 2 dσ2 σn+1 2σ 2 (n(xn µ)2 +S n) dσ 2 2

27 4.1 Région de confiance 23 On reconnaît une loi inverse gamma 1 : ( σ 2 (n(xn µ) 2 + S n ) IG, n ) 2 2 (1 + n(x n µ) 2 ) n 2 S n 2 Ainsi µ Xn Sn St(n) 2. n On peut désormais calculer Cα,µ π = {µ, π(µ X 1,, X n ) 1 α} et Cα,σ π = {σ, π(σ X 1,, X n ) 1 α}. π(µ X 1,, X n ) k α = (1 + n(x n µ) 2 S n 2 n(x n µ) 2 S n 2 kα ) n 2 kα n( Xn µ) kα kα S n Comme n(xn µ) S n suit un Student à n 2 degré de liberté, on connaît la valeur de kα qui est le carré du quantile d ordre α 2. On peut ensuite remonter à k α puisque kα est une transformation bijective de k α. Résumons : k α est tel que P (St( n 2 ) kα ) = 1 α Ainsi : C π α,µ = [ X n t n 2 (1 α 2 ) S 2 n n ; X n + t n (1 α S 2 2 ) 2 n n ] Pour comparer, nous rappelons la région de confiance fréquentiste bien connue n est autre que σ ˆ n 2 du lecteur une fois que l on a pris conscience que (au maximum de vraisemblance) 3 : Cα,µ π = X n t (n 1) (1 α ˆ 2 ) S 2 n n σ 2 n n ; X n + t (n 1) (1 α 2 ) σˆ n 2 n On s interesse maintenant au calcul de la région de confiance relative à σ 2 : C π α,σ 2 = { σ 2 ; π(σ 2 X 1,, X n ) g α } 1. La densité de IG(a, b) est g a,b (x) = x (a+1) e b x ba Γ(a). 2. On rappelle que u suit une loi de Student à p degré de liberté si g p(u) (1 + u 2 ) p. 3. La différence est dans l ordre du quantile de Student, il y a donc équivalence asymptotique.

28 24 Tests et régions de confiance Comme on a montré que π(σ 2 X 1,, X n ) e Sn 2σ 2 σ n+1 : π(σ 2 X 1,, X n ) g α e Sn 2σ 2 σ n+1 g α On ne reconnaît pas là de loi connue. Il faut donc établir une table de valeur pour déterminer g α. Remarquons que le mode de la loi a posteriori est unique et vaut, il est alors assez simple de déterminer une procédure numérique S 2 n n+1 calculant g α. Pour un k donné, les deux solutions de e Sn 2u u n+1 2 = k 4 permettent de calculer l aire sous la courbe et délimitée par ces deux solutions : si cette aire est plus grande que 1 α on baisse k et on l augmente sinon ; ensuite cette démarche est renouvelée en fonction de la précision souhaitée. Pour prolonger cet exemple, il est envisageable d étudier les régions de confiance liées au paramètre θ = (µ, σ 2 ) Calcul de région hpd Pour calculer les régions hpd, il y a plusieurs méthodes : 1. Méthode analytique et numérique : c est ce qui a été fait lors de l exemple précédent. Précisons une nouvelle fois que cette méthode ne peut s appliquer que dans des cas assez rares. 2. Méthode par approximation : cette méthode peut être appliquée si le modèle est régulier : log(π) est C 2 et ˆθ tend vers θ pour P θ. 3. Méthode de simulation que nous développons ci-après. Méthode par approximation Considérons l estimateur map θ π = Arg max θ log(θ) + log π(θ) avec log(θ) = log f(x n θ) pour un échantillon X n = (X 1,, X n ). On peut montrer que : π(θ X 1,, X n ) = e n(θ θ) Ĩn 2 (θ θ) Ĩn 12 (2π) k 2 où Ĩn = I( θ π ) est l information de Fisher pour une observation prise en la valeur du map et k est tel que Θ R k. Ainsi, les propriétés asymptotiques bayésiennes ressemblent à celles de l estimateur du maximum de vraisemblance. L idée est d appliquer ce résultat aux régions hpd : π(θ X 1,, X n ) k α n(θ θ Ĩ n (θ θ)) g α. On trouve alors des ellipses de taille 1 n telles que g α proche du quantile d ordre 1 α d un chi-deux χ 2 k. Méthode de simulation Le principe repose sur la méthode mcmc qui seront développées plus loin 5. Si θ 1,, θ T iid π(θ X 1,, X n ) alors lorsque θ R, on s intéresse 4. Il peut être judicieux de faire un dessin. 5. Méthodes de Monte-Carlo par Chaînes de Markov ; voir notamment? ].

29 4.1 Région de confiance 25 aux intervalles (quantiles empiriques) de la forme P π (θ [ θ ( α 2 ), θ ( 1 α 2 )] tels que [θ ( α 2 ), θ ( 1 α 2 )] X 1,, X n ) T + 1 α Pour T grand, θ α 2 s approche du quantile d ordre α 2 de la loi a posteriori π(θ X 1,, X n ). Cette région n est pas nécessairement hpd mais reste α- crédible. Cette méthode est particulièrement adaptée lorsque la loi a priori est unimodale. Il est toujours utile de représenter graphiquement les sorties pour fixer les idées. Enfin, il est aussi envisageable d avoir recours à une estimation non paramétrique par noyaux. Remarques sur les régions hpd Non-invariance par reparamétrisation Considérons Cα π = {θ; π(θ X) h α } une région hpd et un C 1 -difféomorphisme η = g(θ) alors on peut définir : C α π = {θ; π(η X) k } α. En général, C α π g(cα) π 6. En effet, π(η X) = π(θ(η) X) dθ dη donc {θ; π(η X) k } { α = θ; π(θ(η) X) dθ k α }. Exemple 4.2 N (θ, 1) Supposons π(θ) = 1 et π(θ X) = N (X, 1), posons η = e θ. Comme π(θ X) h (θ X) 2 (φ 1 (1 α)) 2, C π α,θ = [ X φ 1 (1 α); X + φ 1 (1 α) ]. D un autre côté, π(η X) 1 (X log(η))2 η e 2. Ainsi : dη π(η X) g α (X log(η))2 + log(η) g α 2 (2X log(η))2 X2 2 2 g α (2X log(η)) 2 g α log(η) [2X φ 1 ( α 2 ); 2X + φ 1 ( α ] 2 ) On vérifie sur cet exemple que le lien entre C π α,θ et Cπ α,η ne correspond pas à la transformation initiale (exponentielle). Nous pouvons comprendre pourquoi une région de confiance n est pas invariante par reparamétrisation. En effet, cette région se définit comme une solution du problème de minimisation suivant : C π α = 6. Toujours à cause du jacobien... argmin vol(c) C, P π (C X) 1 α

30 26 Tests et régions de confiance où V ol(c) = C dθ. C est là que le bât blesse : la mesure de Lebesgue n est pas invariante par reparamétrisation. Une idée pour lever cette difficulté est donc logiquement d abandonner la mesure de Lebesgue et de considérer pour une mesure s : Cα,s π = ds(θ) argmin C, P π (C X) 1 α Lien avec la théorie de la décision En revenant à la notion de région de confiance, il est judicieux de remarquer qu il s agit d un problème de minimisation sous contrainte. L idée est alors que la région de confiance minimise un fonction de perte. En particulier, on peut penser à la forme suivante : L(C, θ) = V ol(c) + k(1 1 θ C ) qui correspond au risque a posteriori : ρ π (C X) = vol(c) + k(1 P π (C X)) Nous pouvons observer un problème dans l expression suivante, le second terme varie entre 0 et k, tandis que le volume peut prendre des valeurs dans R +. Pour résoudre ce problème, une idée est de définir une probabilité sur C (avec évidemment l épineuse question du choix de cette probabilité), une vol(c) 1+vol(C) autre idée étudiée est de prendre dans la fonction de perte à la place de vol(c) mais le comportement qui s en déduit ne suit pas le maximum de vraisemblance, qualité pourtant recherchée. 4.2 Test Comme nous l avons vu précédemment, un test se formalise de la manière suivante : on définit une hypothèse nulle H 0 : θ Θ 0 et une hypothèse alternative H 1 : θ Θ 1 de telle sorte que Θ 0 Θ 1 = et Θ 0 Θ 1 Θ. Pour le modèle paramétrique X (X, B, {P θ, θ Θ}), Θ 0 Θ 1 Θ. Le cas propre correspond au cas où la loi a priori est telle que si θ suit la loi π alors π(θ 0 ) + π(θ 1 ) = 1 = π(θ) 7. Cette dernière condition peut s exprimer aussi sous la forme suivante : π(θ \ (Θ 0 Θ 1 )) = Approche par la fonction de perte de type 0 1 Dans cette partie, l espace des décisions est D = {0, 1}, la décision i correspondant à accepter H i, i = 0, 1. La fonction de perte est alors la suivante : 7. c est-à-dire π(θ \ Θ 1 Θ 0) = 0. L(θ, δ) = { 0 si δ = 1θ=θ1 1 si δ = 1 θ=θ0

31 4.2 Test 27 Comme cela a été montré précédemment, l estimateur bayésien associé à cette fonction de perte est : { δ π 1 si P (X) = π (Θ 1 X) P π (Θ 0 X) 0 sinon Exemple 4.3 Loi binomiale Exemple 4.4 Loi normale X N (θ, σ 2 ) avec σ 2 connu, θ N (µ, τ 2 ) et pour : Alors : 0 si δ = 1 θ Θ1 L(θ, δ) = a 0 si δ = 1 θ Θ0 a 1 si δ = 0, θ Θ 1 δ π (X) = 1 a 0 P π (Θ 0 ) < a 1 P π (Θ 1 X) Ainsi, δ π (X) = 1 P π (Θ 1 X) > a 0 a 0 +a 1. Pour tester l hypothèse H 0 : θ < 0 contre H 1 : θ 0, on calcule π(θ X) e (X θ)2 2σ 2 e (θ µ)2 2τ 2 e (θ µ(x))2 2V 2 = N (µ(x), V ) où µ(x) = Xτ 2 σ 2 + τ 2 + µσ2 σ 2 + τ 2 et V = σ2 τ 2 σ 2 + τ 2 Notons une dualité entre la fonction de perte µ et la loi a priori (a 0, a 1 ). On peut prendre à l une pour donner à l autre comme l illustre l exemple précédent. La détermination d une fonction de risque ne peut se dissocier de celle de la loi a priori puisqu elle correspond à une façon de sanctionner l erreur. Ceci s explique par le fait que le statisticien a une idée a priori sur la répartition de l erreur et donc sur la loi a priori du paramètre. Prendre µ >> 0 équivaut à a 0 << a 1. Ce dernier point se retrouve dans le cas des fonctions de perte quadratiques de la forme L(θ, δ) = ω(θ)(θ δ) 2 où seul le produit ω π compte dans l estimateur bayésien associé δ π (X) = Θ θω(θ)f(x θ)dπ(θ) Θ ω(θ)f(x θ)dπ(θ). Afin de rendre absolue la fonction de perte et qu elle ne dépende plus de la loi a priori, nous introduisons dans la partie suivante le facteur de Bayes.

32 28 Tests et régions de confiance Facteur de Bayes L idée à l origine de cette notion est de limiter l importance du choix a priori de a 0 et a 0 introduits ci-dessus. Définition Facteur de Bayes Le facteur de Bayes est défini par B 0/1 = P π (Θ 0 X) P π (Θ 1 X) π(θ 1) π(θ 0 ) dès que π(θ 0) > 0 et π(θ 1 ) > 0. Le problème de définition relatif au Θ i n est en réalité que peu gênant puisque si π(θ i ) > 0, i = 0, 1 alors cela signifie que l hypothèse i ne peut être acceptée a priori et donc, le risque correspondant ne peut pas être correctement défini. Cependant, même s il peut être naturel de ne pas prendre en compte le cas de probabilité nulle pour Θ 0, le cas où Θ 0 est de mesure nulle sans être vide peut s avérer être problématique. A ce moment là, toute loi a priori est nulle sur Θ 0 sans qu il soit absurde de considérer des tests. C est le cas notamment pour l estimation ponctuelle : Θ 0 = {θ 0 } ou les tests de significativité dans les modèles de régression. Pour une loi a priori absolument continue par rapport à la mesure de Lebesgue, π(θ 0 ) = 0. Il faut donc veiller à ne pas se placer dans un tel cas. En écrivant un modèle linéaire sous la forme : y = x 1 β x p β p + ε, le test de significativité de x p s écrit : H 0 : β p = 0 et H 1 : β p 0. A seuil de significativité (et p-value correspondante) fixé, l augmentation du nombre d observations mène à refuser plus souvent H 0, hypothèse ponctuelle. En réalité, le problème peut se reformuler en précisant que le statisticien 8 veut en réalité tester β p < ε, mais reste la difficulté majeure que ε est inconnu et dépend du contexte de l étude. L idée est d introduire une masse de Dirac en 0 et de considérer à ε fixé, ρ ε = π(θ, θ θ 0 < ε) et de choisir comme loi : π(θ) = ρ ε δ θ0 + (1 ρ ε )π 1 (θ) où δ θ0 mesure de Dirac en θ 0 et π 1 (θ) absolument continue par rapport à la mesure de Lebesgue. Le facteur de Bayes permet de s affranchir du choix de ρ et de limiter l influence du choix de ε 9. En effet, dans ce cas Θ 1 = Θ\Θ 0 et le facteur de Bayes s écrit (les termes en ρ se simplifient) : f(x θ 0 ) B 0/1 = Θ f(x θ)π 1(θ)dθ Ainsi, le facteur de Bayes peut s interpréter comme le rapport de la vraisemblance sous H 0 par celle sous H 1. Il peut s utiliser comme une p-value : pour 8. ou économètre Noter la correspondance entre choisir ρ et ε.

33 4.2 Test 29 B 0/1 grand par rapport à 1, on accepte H 0 10, et H 1 pour des petites valeurs, autour de 1 il n est pas possible de conclure, c est une zone floue. Plus généralement, pour dπ(θ) = ρdπ 0 (θ)1 θ Θ0 + (1 ρ)dπ 1 (θ)1 θ Θ1 avec dπ 0 (θ)dθ = Θ 0 dπ 1 (θ)dθ = 1 Θ 1 le facteur de Bayes s exprime : B 0/1 = ρ Θ 0 f(x θ)dπ 0 (θ) (1 ρ) Θ 1 f(x θ)dπ 1 (θ) 1 ρ = m 0(X) ρ m 1 (X) où m i (X) = Θ i f(x θ)dπ i (θ) est la vraisemblance intégrée sous H i. Une remarque importante concerne le cas où dπ 0 ou dπ 1 n est pas propre : B 0/1 n est alors pas défini de manière unique 11. En effet, si une loi est impropre (par exemple dπ 0 ) alors elle est définie à une constante multiplicative près. Pour dπ 0 (θ) = c dπ 0(θ) alors le facteur de Bayes est lui aussi multiplié par c : B 0/1 = B 0/1 et par conséquent les ordres de grandeur de B 0/1 n ont plus de sens : il n est plus possible de comparer ses valeurs à 1 comme le précise l exemple qui suit. Exemple 4.5 Cas impropre Pour X N (θ, 1) et π(θ) = c, on considère le test suivant : H 0 : θ = 0 et H 1 : θ 0. Dans ce cas, le facteur de Bayes est : B 0/1 = 1 Θ 1 e (x θ)2 2 dθ = 1 C Le facteur de Bayes est donc une constante et n a pas d interprétation. Pour remédier à ce problème, on envisage de réduire l intervalle des paramètres de R à [ M; M], mais de la même façon que le choix de ε plus haut était influent, celui de M n est pas sans conséquence sur l expression du facteur de Bayes. On peut aussi jouer sur la variance ; en adaptant l exemple précédent avec X N (θ, 1) et θ N (0, V ), le choix d une grande variance V permet de jouer sur le facteur de Bayes. Ainsi, cette stratégie n est pas satisfaisante. En conclusion, retenons que les tests requièrent des lois a priori propres et bien justifiées. C est un problème parce qu une loi non informative est en général impropre. Notons que ces défauts proviennent en partie du choix de la fonction de perte. La section suivante a pour but de généraliser le facteur de Bayes aux lois impropres. 10. par exemple, pour une valeur proche de 12, H 0 est 12 fois plus vraisemblable que H Et n a donc pas beaucoup de sens...

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Dualité dans les espaces de Lebesgue et mesures de Radon finies Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Calcul différentiel. Chapitre 1. 1.1 Différentiabilité

Calcul différentiel. Chapitre 1. 1.1 Différentiabilité Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème. I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 & UE LM365 Intégration 2 Année 2010 11 Théorie de la Mesure et Intégration Responsable des cours : Amaury LAMBERT

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Intégrale de Lebesgue

Intégrale de Lebesgue Intégrale de Lebesgue L3 Mathématiques Jean-Christophe Breton Université de Rennes 1 Septembre Décembre 2014 version du 2/12/14 Table des matières 1 Tribus (σ-algèbres) et mesures 1 1.1 Rappels ensemblistes..............................

Plus en détail

Approximations variationelles des EDP Notes du Cours de M2

Approximations variationelles des EDP Notes du Cours de M2 Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Théorie de la mesure. S. Nicolay

Théorie de la mesure. S. Nicolay Théorie de la mesure S. Nicolay Année académique 2011 2012 ii Table des matières Introduction v 1 Mesures 1 1.1 Sigma-algèbres................................. 1 1.2 Mesures.....................................

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

PRIME D UNE OPTION D ACHAT OU DE VENTE

PRIME D UNE OPTION D ACHAT OU DE VENTE Université Paris VII - Agrégation de Mathématiques François Delarue) PRIME D UNE OPTION D ACHAT OU DE VENTE Ce texte vise à modéliser de façon simple l évolution d un actif financier à risque, et à introduire,

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Ecole Nationale de la Statistique et de l Administration Economique Théorie de la Mesure et Intégration Xavier MARY 2 Table des matières I Théorie de la mesure 11 1 Algèbres et tribus de parties d un ensemble

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Mesures gaussiennes et espaces de Fock

Mesures gaussiennes et espaces de Fock Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

Théorie de l estimation et de la décision statistique

Théorie de l estimation et de la décision statistique Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014 Quelques références Decision and estimation theory

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Calcul fonctionnel holomorphe dans les algèbres de Banach

Calcul fonctionnel holomorphe dans les algèbres de Banach Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

LES MÉTHODES DE POINT INTÉRIEUR 1

LES MÉTHODES DE POINT INTÉRIEUR 1 Chapitre XIII LES MÉTHODES DE POINT INTÉRIEUR 1 XIII.1 Introduction Nous débutons par un rappel de la formulation standard d un problème d optimisation 2 linéaire et donnons un bref aperçu des différences

Plus en détail

Cours d introduction à la théorie de la détection

Cours d introduction à la théorie de la détection Olivier J.J. MICHEL Département EEA, UNSA v1.mars 06 olivier.michel@unice.fr Laboratoire LUAN UMR6525-CNRS Cours d introduction à la théorie de la détection L ensemble du document s appuie très largement

Plus en détail

Soutenance de stage Laboratoire des Signaux et Systèmes

Soutenance de stage Laboratoire des Signaux et Systèmes Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud

Plus en détail

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal

Plus en détail

CHAPITRE 5. Stratégies Mixtes

CHAPITRE 5. Stratégies Mixtes CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Capes 2002 - Première épreuve

Capes 2002 - Première épreuve Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série

Plus en détail

Intégration et probabilités TD1 Espaces mesurés

Intégration et probabilités TD1 Espaces mesurés Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire et Optimisation. Didier Smets Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des

Plus en détail

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument Formes algébriques et trigonométriques, module et argument Exercice - - L/Math Sup - On multiplie le dénominateur par sa quantité conjuguée, et on obtient : Z = 4 i 3 + i 3 i 3 = 4 i 3 + 3 = + i 3. Pour

Plus en détail

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Correction du Baccalauréat S Amérique du Nord mai 2007

Correction du Baccalauréat S Amérique du Nord mai 2007 Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

Intégration sur des espaces produits

Intégration sur des espaces produits Chapitre 5 Intégration sur des espaces produits 5.1 Produit de deux mesures Étant donnés deux espaces mesurés (Ω 1, F 1, µ 1 ) et (Ω 2, F 1, µ 2 ), le but de cette section est de construire une mesure

Plus en détail

Représentation géométrique d un nombre complexe

Représentation géométrique d un nombre complexe CHAPITRE 1 NOMBRES COMPLEXES 1 Représentation géométrique d un nombre complexe 1. Ensemble des nombres complexes Soit i le nombre tel que i = 1 L ensemble des nombres complexes est l ensemble des nombres

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail