Projet TER - Master 1 SITN La statistique Bayésienne



Documents pareils
Méthodes de Simulation

Moments des variables aléatoires réelles

Simulation de variables aléatoires

Chapitre 2 Le problème de l unicité des solutions

Probabilités sur un univers fini

Espérance conditionnelle

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Probabilités sur un univers fini

Programmes des classes préparatoires aux Grandes Ecoles

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

PROBABILITES ET STATISTIQUE I&II

Loi binomiale Lois normales

Travaux dirigés d introduction aux Probabilités

Pierre Thérond Année universitaire

Probabilités III Introduction à l évaluation d options

Annexe commune aux séries ES, L et S : boîtes et quantiles

Estimation et tests statistiques, TD 5. Solutions

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

3. Caractéristiques et fonctions d une v.a.

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Intégration et probabilités TD1 Espaces mesurés Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

M2 IAD UE MODE Notes de cours (3)

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

TABLE DES MATIERES. C Exercices complémentaires 42

Statistiques Descriptives à une dimension

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

TSTI 2D CH X : Exemples de lois à densité 1

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Image d un intervalle par une fonction continue

La fonction exponentielle

Intégration et probabilités TD1 Espaces mesurés

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

4 Distributions particulières de probabilités

Modélisation aléatoire en fiabilité des logiciels

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

3 Approximation de solutions d équations

Qu est-ce qu une probabilité?

FIMA, 7 juillet 2005

Résolution d équations non linéaires

Théorie de l estimation et de la décision statistique

Chapitre 3 : INFERENCE

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Commun à tous les candidats

Correction du Baccalauréat S Amérique du Nord mai 2007

Chapitre 2. Eléments pour comprendre un énoncé

Couples de variables aléatoires discrètes

MA6.06 : Mesure et Probabilités

Cours Fonctions de deux variables

Le modèle de Black et Scholes

Que faire lorsqu on considère plusieurs variables en même temps?

Probabilités. C. Charignon. I Cours 3

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Probabilités et statistique. Benjamin JOURDAIN

Introduction à la Statistique Inférentielle

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Université Paris-Dauphine DUMI2E 1ère année, Applications

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Suites numériques 3. 1 Convergence et limite d une suite

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Texte Agrégation limitée par diffusion interne

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

CHAPITRE 5. Stratégies Mixtes

Correction du baccalauréat S Liban juin 2007

I. Polynômes de Tchebychev

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Variables Aléatoires. Chapitre 2

MÉTHODE DE MONTE CARLO.

Programmation linéaire

Correction du baccalauréat ES/L Métropole 20 juin 2014

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Calculs de probabilités

Cours d Analyse. Fonctions de plusieurs variables

I. Ensemble de définition d'une fonction

Introduction à la théorie des files d'attente. Claude Chaudet

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Cours de méthodes de scoring

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Correction de l examen de la première session

Lois de probabilité. Anita Burgun

Probabilités conditionnelles Loi binomiale

Principe d un test statistique

3. Conditionnement P (B)

Limites finies en un point

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Transcription:

Projet TER - Master 1 SITN La statistique Bayésienne Artemis TOUMAZI Encadré par Mme Anne Perrut 0.0 0.5 1.0 1.5.0.5 0.0 0. 0.4 0.6 0.8 1.0 1. 7 juin 013

À ma mère et mon père.

Table des matières Introduction 4 1 Préliminaires 5 1.1 Probabilités...................................... 5 1.1.1 Notation.................................... 5 1.1. Indépendance................................. 6 1.1.3 Variables aléatoires indépendantes...................... 6 1. Théorème de Bayes.................................. 7 1.3 Espérances....................................... 9 1.3.1 Variances................................... 9 1.3. Espérance conditionnelle........................... 9 1.4 Distributions..................................... 10 1.4.1 Distribution Beta............................... 10 1.4. Distribution Gamma............................. 11 1.4.3 Loi de Pareto................................. 1 1.4.4 Loi binomiale négative............................ 13 Statistique inférentielle 14.1 Principe d exhaustivité................................ 14. Principe de vraisemblance.............................. 16.3 Approche bayésienne................................. 16.4 Le paradigme bayésien................................ 18.5 Famille exponentielle................................. 7.5.1 Extensions - Plusieurs paramètres...................... 8.5. Familles fermées sous échantillonnage.................... 9.6 Loi Normale...................................... 34.6.1 A posteriori d un a priori et d une vraisemblance normale......... 34.6. Variance connue................................ 34.6.3 Moyenne connue............................... 43.6.4 Moyenne et Variance inconnue........................ 44.7 Mélange des a priori conjugués............................ 45.8 Le lois de Jeffreys................................... 47.8.1 L information de Fisher........................... 47.8. L information issue de plusieurs observations................ 48.8.3 A priori de Jeffreys.............................. 48.9 Distributions prédictive............................... 50 Conclusion 55 Annexe 56 Bibliographie 58 3

Introduction Actuellement étudiante à l université Claude Bernard Lyon1 en première année de Master Statistiques, Informatique et Techniques Numériques, j ai été amené à effectuer un travail d étude. Désireux d enrichir mes connaissances dans le domaine de Statistiques, j ai choisi un projet sur la Statistique Bayésienne encadré par Mme Perrut Anne. La Statistique Bayésienne est un moyen alternatif de construire des tests hypothèse et des estimations par intervalles de confiance. Son nom provient de M. Thomas Bayes, mort en 1761. Une publication de Bayes en 1763, avec Richard Price, contient une version d un théorème, basé sur la théorie des probabilités, qu il est connu aujourd hui comme le théorème de Bayes. L Inférence Statistique consiste à entrainer des conclusions sur des populations à partir d un échantillon. Comme l échantillon nous fournit des informations partielles concernant son population, les conclusions ont besoin d un degré de crédibilité. C est sans surprise qu on observe plusieurs approches sur ce problème, vu qu il peut introduire un raisonnement par déduction ainsi que par induction. Dans ce projet on considérera l approche Bayésienne. Ce qui le différencie des autres approches est que les paramètres θ sont considérés comme des variables aléatoires même s ils ont des valeurs fixes. Dans ce cas la probabilité est interprétée dans le sens d une croyance. Concernant l approche bayésienne la seule base pour l inférence est la loi de probabilité de θ sachant tout l ensemble des données. Ce projet est organisé en 3 parties. Dans une première partie, je procéderai à une étude préliminaire qui nous servira pour la suite. Ensuite, dans une seconde partie, je présenterai la statistique Bayésienne inferentielle et enfin la dernière partie sera une conclusion concernant le projet. 4

Chapitre 1 Préliminaires 1.1 Probabilités 1.1.1 Notation La notation restera aussi simple que possible, par contre il est nécessaire de l exprimer dans le langage de la théorie des ensembles. x A ssi x est membre de A ; x / A ssi x n est pas membre de A ; A={x, y, z} ssi A est un ensemble défini par les membres x,y et z (idem pour les ensembles plus petits ou plus grands) ; A={x; S(x)} ssi A est un ensemble d éléments dont l assertion S(x) est vraie ; =x; x x pour l ensemble nulle, un ensemble sans éléments ; x / pour tout x ; A B (i.e. A est un sous-ensemble de B) ssi x A implique x B ; A B (i.e. A est un sur-ensemble B) ssi x A est impliqué par x B ; A, A A et A A pour tous A ; A B = {x; x A ou x B} (référencée comme l union A et B ou comme A union B) ; AB=A B = {x; x A et x B} (référencée comme l intersection de A et B ou comme A intersecte B) ; A et B sont disjoints ssi AB = ; A \ B = {x ;x A, mais x B} (référencée comme l ensemble de différence ou A moins B) 5

1.1. PROBABILITÉS CHAPITRE 1. PRÉLIMINAIRES 1.1. Indépendance Définition 1.1. Deux événements E et F sont indépendants sachant H si P (EF H)=P (E H)P (F H). À partir de l axiome de probabilité : P (E F H)P (F H)=P (EF H), c est-à-dire si P (F H) 0 cette condition est équivalente à P (E F H)=P (E H) donc si E est indépendant de F sachant H alors l information que F est vraie ne change pas la probabilité de E sachant H seulement. Cependant la restriction de cette interprétation dans le cas de P (F H) 0 rend l équation original plus générale. Définition 1.. En général, la suite (E n ) d événements est considérée comme indépendante par paires sachant H si P (E m E n H)=P (E m H)P (E n H) pour m n. et il consiste des événements mutuellement indépendant sachant H si pour tous les sousensembles propres P (E n1 E n... E nk H) = P (E n1 H)P (E n H)... P (E nk H) Remarque 1.3. Notons que l indépendance par paires n implique pas l indépendance mutuelle et que P (E 1 E... E n H) = P (E 1 H)P (E H)... P (E n H) il ne suffit pas de s assurer que la suite finie E 1,E,...,E n consiste des événements mutuellement indépendant sachant H. 1.1.3 Variables aléatoires indépendantes L idée d indépendance s étend à partir de l indépendance d événements à l indépendance des variables aléatoires. L idée est que Y est indépendant de X si sachant les valeurs de X n affecte pas notre espérance pour les valeurs de Y. En raison des complications avec des événements avec probabilité nulle, il est préférable d utiliser la forme suivante. Définition 1.4. X and Y sont indépendants si p(x,y) = p(x)p(y) x y Remarque 1.5. Cette définition est valable dans le cas d une étude discrète aussi bien qu une étude continue. (En plus on peut l utiliser dans le cas d une variable aléatoire discrète et d une autre continue). 6

CHAPITRE 1. PRÉLIMINAIRES 1.. THÉORÈME DE BAYES 1. Théorème de Bayes Ce théorème, dû à M. Thomas Bayes ("Un essai pour résoudre un problème dans la théorie des risques, 1763") est exprimé de la façon suivante : Définition 1.6. Soit ω un espace et B 1,B,... B k des événements à in compatibles et k exhaustifs dans Ω (i.e. B i B j =, i j, B i = Ω ; B i forme une partition de Ω.) Soit A i=1 un événement quelconque tel que P [A] > 0. Alors P [B A] = P [B i]p [A B i ] (1.1) P [A] P [B i ]P [A B i ] = (1.) k P [B j ]P [A B j La preuve est basée sur le loi de multiplication et la simplification ; j=1 Remarque 1.7. Notons que pour donner une solution on a besoin aussi de P [B i ] la probabilité a priori de B i (avant l observation de A). Les P [B i A] sont appelées probabilités a posteriori. Exemple 1.8. On a trois différentes communautés, que l on peut imaginer comme les populations B1, B et B3 et on aimerait trouver la population qui a généré notre échantillon. Dans B1, 30% de gens sont catholiques, dans B 50% sont catholiques et dans B3 70%. On choisit aléatoirement une communauté en lançant un dé. On choisit B1 si le dé prends la valeur de 1 ou, B si le dé prend la valeur de 3 ou 4 et B3 si le dé prends la valeur de 5 ou 6. En utilisant la communauté qu on vient de choisir on prend un échantillon aléatoire d une personne. Supposons que cette personne est catholique, donc notre échantillon A contient un catholique. On ne sait pas la communauté choisie ; juste l échantillon. Par la suite on est intéressé de trouver les probabilités respectives pour que la personne choisie provient d une des trois communautés. Solution. La probabilité de chaque communauté est de un tiers car le choix initial est fait d une façon aléatoire avec la même probabilité. Donc, P(B1) = P(B) = P(B3)= 1 = 0.333. Ces probabilités sont les probabilités a priori, 3 comme ils donnent les probabilités des trois populations sans savoir l échantillon. Il nous reste à calculer les probabilités P(A B i ) i = 1,, 3 pour pouvoir utiliser le théorème de Bayes. Si la personne provient de B1, où il y a 30% catholiques, la probabilité P(catholique communauté 1) égale à 0.3. Si la personne provient de B, où il y a 50% catholiques, la probabilité P(catholique communauté ) égale à 0.5. Si la personne provient de B3, où il y a 70% catholiques, la probabilité P(catholique communauté 3) égale à 0.7. Alors, on a les trois probabilités : P(A B1)=0.3 P(A B)=0.5 P(A B3)=0.7 7

1.. THÉORÈME DE BAYES CHAPITRE 1. PRÉLIMINAIRES Selon le théorème de Bayes on obtient P (B1 A) = P (B A) = P (B3 A) = 0.3(0.333) 0.3(0.333) + 0.5(0.333) + 0.7(0.333) = 0.0999 0.4995 = 0.0 0.5(0.333) 0.3(0.333) + 0.5(0.333) + 0.7(0.333) = 0.1665 0.4995 = 0.33 0.7(0.333) 0.3(0.333) + 0.5(0.333) + 0.7(0.333) = 0.331 0.4995 = 0.47 Ces probabilités probabilités a posteriori. Elles expriment la probabilité qu une personne catholique provient par la communauté B1 est 0., la probabilité qu une personne catholique provient par la communauté B est 0.33, et la probabilité qu une personne catholique provient par la communauté 31 est 0.47. 8

CHAPITRE 1. PRÉLIMINAIRES 1.3. ESPÉRANCES 1.3 Espérances Définition 1.9. Espérance d une variable discrète aléatoire Si g(x) est une fonction de la variable aléatoire et g(x)p(x) est absolument convergent, alors sa somme est l espérance de g(x). E[g(X)] = g(x)p(x) Remarque 1.10. De la même manière, si h(x,y) est la fonction de deux variables aléatoires x et y et la serie h(x, y)p(x, y) est absolument convergent, alors sa somme est l espérance de h(x,y). Définition 1.11. Espérance d une variable aléatoire continue Dans le cas d une étude continue, on définie l espérance d une variable x par E[X] = xp(x)dx sous la contrainte que l intégrale est absolument convergent, et plus généralement on définie l espérance d une fonction g(x) de x par E[g(X)] = g(x)p(x)dx sous la contrainte que l intégral est absolument convergent. 1.3.1 Variances Définition 1.1. Plusieurs fois on est amené dans le besoin de caractériser le loi de notre distribution, et pour la plupart de cas on utilise la Variance Var(x) de x, définie par Il est utile aussi que 1.3. Espérance conditionnelle Var(x) = E[x E[x]] V ar(x) = E[x E[x]] = E[x (E[x])x + (E[x]) ] = E[x ] (E[x]) Définition 1.13. L espérance conditionnelle de y sachant x est définie par E[y x] = yp(y x)dy dans le cas continue et par la somme correspondante pour le cas discrète En général, l espérance conditionnelle de la fonction g(y) de y sachant x est E[g(y) x] = g(y)p(y x)dy Définition 1.14. La variance conditionnelle est définie par V ar(y x) = E[y E[y x] x] = E[y x] E[y x]. 9

1.4. DISTRIBUTIONS CHAPITRE 1. PRÉLIMINAIRES 1.4 Distributions 1.4.1 Distribution Beta Dans le domaine de la probabilité et de statistiques, la distribution Beta est une famille de distributions de probabilités continues définies sur l intervalle [0, 1] avec deux paramètres positives α et β, qui apparaissent comme exposants lors d une variable aléatoire et ils influencent l allure de la distribution. Quant à l inférence bayésienne, la distribution Beta est la distribution a priori conjugué pour les distributions binomial, géométrique et de Bernoulli. Par exemple, la distribution Beta est utile dans l analyse bayesienne quand on décrit la connaissance initiale concernant une probabilité de succès comme une probabilité d un vaisseau spatial d amener avec succès une mission spécifique. La distribution Beta est un modèle convenable des comportements aléatoires pour de pourcentages et de proportions. 1. Densité de probabilité La densité de probabilité d une distribution Beta, pour 0 x 1, ayant comme paramètres α > 0 et β > 0, est en fonction de la variable x et de sa réflexion (1 x) présenté ci dessous : f(x) = = Γ(α + β) Γ(a)Γ(β) xα 1 (1 x) β 1 1 B(α, β) xα 1 (1 x) β 1 où Γ(z) la fonction Gamma. Dans les equations ci dessus x est une valeur observée qui est survenue lors d une processus aléatoire X.. Moyenne L espérance (écrite comme µ) d une variable aléatoire de la distribution Beta X avec deux paramètres α et β est E(X) = = = 1 0 1 0 xf(x; α, β)dx x xα 1 (1 x) β 1 dx B(α, β) α α + β 3. Variance La variance d une variable aleatoire d une distribution Beta X ayant comme paramètres α et β est : V ar(x) = E[(X µ) αβ ] = (α + β) (α + β + 1) 4. Formes spéciales La densité de la loi bêta peut prendre différentes formes selon les valeurs des deux paramètres : (a) α < 1 & β < 1 est une forme de U(graphe blue) ; (b) α < 1 & β 1 ou α = 1 & β > 1 est strictement décroissant (graphe rouge) ; (c) α = 1 & β = 1 est la loi uniforme continue ; (d) α = 1 & β < 1 ou α > 1 & β 1 est strictement croissant (graphe vert) ; 10

CHAPITRE 1. PRÉLIMINAIRES 1.4. DISTRIBUTIONS (e) α > 1 & β > 1 est uni-modal (graphes noir et violet). Remarque 1.15. En plus, si α = β alors la densité est symétrique autour de 1/ (graphes blue et violet). Le graphique de densite pour la loi Beta(alpha,beta) Densite 0.0 0.5 1.0 1.5.0.5 _ alpha=beta=0.5 alpha=5,beta=1 alpha=1,beta=3 alpha=beta= alpha=,beta=5 0.0 0. 0.4 0.6 0.8 1.0 x 1.4. Distribution Gamma Dans le domaine de la probabilité et de statistiques, la distribution Gamma est une famille de distributions de probabilités continues. La paramétrisation avec α et β est plus connue dans la statistique bayésienne,o u la distribution gamma est utilisée comme une distribution a priori conjuguée pour des différents types comme la distribution exponentielle ou bien de Poisson. 1. Densité de probabilité La densité de probabilité de la distribution Gamma (α, β) est définie par f(x) = βα x α 1 e βx, x > 0, α > 0, β > 0 Γ(α). Moyenne La moyenne (écrite µ) d une variable aléatoire d une distribution Gamma X avec deux paramètres α et β est E[X] = α β 3. Variance La variance d une variable aléatoire d une distribution Gamma X ayant comme paramètres α et β est : V ar(x) = α β 11

1.4. DISTRIBUTIONS CHAPITRE 1. PRÉLIMINAIRES 4. Cas spéciales (a) Si X Gamma(α = 1, β = λ 1), alors X a une distribution exponentielle avec la paramètre λ. (b) Si X Gamma(α = ν/, β = ) donc X est identique à χ (ν), la distribution khi-deux avec ν degrés de liberté. Le graphique de densite pour la loi Gamma(alpha,beta) Densite 0.0 0. 0.4 0.6 0.8 _ alpha=1,beta= alpha=,beta= alpha=3,beta= alpha=5,beta=1 alpha=9,beta=0.5 0 5 10 15 0 5 30 x 1.4.3 Loi de Pareto La distribution de Pareto est un type particulier de loi de puissance qui a des applications en sciences physiques et sociales. 1. Densité de probabilité La densité de probabilité de la loi de Pareto avec les paramètres α > 0 et β > 0 est : f(x) = α β ( 1 + x β ). Fonction de distribution La fonction de distribution est la suivante : F (x) = 1 ( 1 + x β ) α 3. Moyenne La moyenne(notée µ) d une variable aléatoire X d une distribution Pareto(α, β) est 4. Variance La variance(notée par σ ) est σ = µ = β α 1 for α > 1 αβ {(α 1) (α )} for α > 1

CHAPITRE 1. PRÉLIMINAIRES 1.4. DISTRIBUTIONS 1.4.4 Loi binomiale négative 1. Densité de probabilité La densité de probabilité de la loi binomiale négative avec les paramètres n et p est : f(k; n, p) = P(X = k) = ( k + n 1 n 1 ) (1 p) n p k k = 0, 1,,.... Moyenne La moyenne(notée µ) d une variable aléatoire X d une distribution binomiale négative (n, p) est µ = pn 1 p 3. Variance La variance(notée σ ) est σ = µ = pn (1 p) 13

Chapitre Statistique inférentielle Dans ce chapitre, un cadre général de statistique bayésienne inférentielle sera fourni. Dans les grandes lignes, on prend des croyances antérieures pour plusieurs hypothèses et ensuite on les modifie par rapport aux échantillons recueillis pour arriver finalement aux croyances postérieures..1 Principe d exhaustivité La statistique classique peut être décrite comme étant guidée par des principes souvent justifiées par le "bon sens" ou par des axiomes supplémentaires. L approche bayésienne permet d incorporer naturellement une majorité de ces principes sans imposer de restrictions supplémentaires sur les procédures de décision, et d en rejeter d autres de façon tout aussi systématique, comme la notion d estimation sans biais. Définition.1. Soit (X, (p θ ) θ Θ) un modèle statistique et soit g une fonction de Θ dans une partie G de R p.soit T n un estimateur de g(θ) dont l espérance E θ [T n ] existe, pour tout θ Θ. On appelle biais l estimateur T n, la quantité : B(T n, θ) = E(T n ) - g(θ). Un estimateur T n est dit sans biais si B(T n, θ) = 0 E θ [T n ] = g(θ) Un estimateur T n est dit asymptotiquement sans biais si lim E θ[t n ] = g(θ) n Deux principes fondamentaux sont respectés par le paradigme bayésien : 1. Le principe d exhaustivité. Le principe de vraisemblance Définition.. Quand X f(x θ), une fonction (statistique) T de X est exhaustive si la distribution de X conditionnellement à T (X) ne dépend pas de θ Théorème.3. Théorème de factorisation Considérons une statistique T (X), contient toute l information apportée par X sur θ. Selon le théorème de factorisation, sous certaines conditions de régularité la densité de X s écrit alors f(x θ) = g(t (x) θ)h(x T (x)) (.1) si g est la densité de T (X). Le concept d exhaustivité a été développé par M. Fisher et conduit au principe suivant. 14

CHAPITRE. STATISTIQUE INFÉRENTIELLE.1. PRINCIPE D EXHAUSTIVITÉ Définition.4. Principe d exhaustivité Deux observations x et y donnant la même valeur d une statistique exhaustive T, c est-à-dire telles que T(x)=T(y), doivent conduire à la même inférence sur θ Exemple.5. Supposons disposer d un échantillon i.i.d. de taille n de la loi gaussienne N (θ, σ ) où seule la moyenne θ est inconnue.utilisons le critère du rapport de vraisemblance pour monter que la statistique moyenne empirique X : (x 1,..., x n ) x = 1 n x i est exhaustive. n i=1 Une vraisemblance f de ce modèle peut s écrire, pour tout x = (x 1,..., x n ) R n et tout θ R. ( n 1 f(x, θ) = exp (x i θ) ) i=1 πσ σ ( = (πσ ) n/ exp 1 ) n (x σ i θ) i=1 ( = (πσ ) n/ exp 1 ) n (x i x + x θ) σ = (πσ ) n/ exp ( 1 σ i=1 ( n )) (x i x) + n( x θ) i=1 puisque le terme croisé n i=1 (x i x)( x θ) s écrit ( x θ) n i=1 (x i x) et que n i=1 (x i x) = 0. Or la moyenne empirique X suit la loi gaussienne N (θ, σ /n).ainsi une vraisemblance g du modèle image est donnée, pour tout (y, θ) R R, par g(y, θ) = Donc le rapport de vraisemblance s écrit f(x, θ) g(x, θ) ( 1 exp n ) (y θ) π n σ σ = (πσ ) n/ exp ( 1 ( n σ i=1 (x i x) + n( x θ) ) ) ( ) π σ 1/ ( ) n exp n ( x θ) σ ( = n 1/ (πσ ) (n 1)/ exp 1 ) n (x σ i x) Comme il ne dépend pas de θ, X est une statistique exhaustive. Exemple.6. Soient X 1 B(n 1, p), X B(n, p) et X 3 B(n 3, p), trois observations binomiales indépendantes où et leur tailles n 1, n, n 3 connues. Alors la fonction de vraisemblance est ) et les statistiques f(x 1, x, x 3 ) = ( )( )( n1 n n3 x 1 x x 3 i=1 p x 1+x +x 3 (1 p) n 1+n +n 3 x 1 x x 3 T 1 (x 1, x, x 3 ) = x 1 + x + x 3 ou T (x 1, x, x 3 ) = n 1 + n + n 3 x 1 x x 3 sont exhaustives. 15

.. PRINCIPE DE VRAISEMBLANCE CHAPITRE. STATISTIQUE INFÉRENTIELLE. Principe de vraisemblance Le deuxième principe est en effet une conséquence du principe d exhaustivité. Il peut être attribué à M. Fisher(1959) ou même à M. Barnard (1949), mais il a été formalise par M. Birnbaum (196). Il est fortement défendu par Berger et Wolpert (1988) qui ont fourni une étude approfondie du sujet. Définition.7. Soit X P θ et f θ sa fonction de densité si X est continue, sinon sa fonction de fréquence, si X est discrète. L information de Fisher pour la variable aléatoire X est définie par : I(θ) = E[ log f θ θ(x)] Soit (X 1, X,..., X n ) un échantillon de loi P θ. La vraisemblance de (X 1, X,..., X n ) est : n L n (θ; x 1,..., x n ) = f θ (x i ) i=1 Définition.8. Principe de vraisemblance L information obtenue suite à une observation de X sur θ est entièrement contenue dans la fonction de vraisemblance L n (θ x). En plus si x 1 etx sont deux observations qui dépendent du même paramètre θ, et telles qu il existe une constante c satisfaisant le suivant : L 1 (θ x 1 ) = cl (θ x ) pour tout θ, elles apportent la même information sur θ et elles doivent conduire à la même inférence. Le principe de vraisemblance est lui-même distinct de l approche de l estimation par maximum de vraisemblance, qui est une manière parmi d autres de mettre en œuvre ce principe. Lorsqu on observe x f(x θ), l approche par maximum de vraisemblance considère l estimateur suivant de θ, ˆθ = arg sup L(θ x) (.) θ qui corresponde à la valeur de θ qui maximise la densité en x, f(x θ). La maximisation n est pas toujours possible ou bien elle peut mener à plusieurs maxima globaux équivalents..3 Approche bayésienne Supposons qu on est intéressé par les valeurs de k quantités inconnues θ=(θ 1, θ,..., θ k ) et qu on a quelques croyances a priori concernant ces valeurs que l on peut exprimer en fonction de densité de probabilité p(θ) Maintenant on suppose qu on obtiendra des données en lien avec ses valeurs. Plus précisément on suppose qu on a n observations X = (X 1, X,..., X n ) qui ont une probabilité de distribution qui dépende de ces k quantités inconnues, d une manière que la fonction de densité de probabilité (continue ou bien discrète) du vecteur X dépende du vecteur θ d une façon connue. Ordinairement les composantes de θ et X seront des entiers ou des nombres réels, d une manière que X sont des variables aléatoires, et que la dépendance de X peux s exprimer en termes de la fonction de densité de probabilité p(x θ) 16

CHAPITRE. STATISTIQUE INFÉRENTIELLE.3. APPROCHE BAYÉSIENNE Définition.9. Quand on pense p(x θ) comme une fonction de θ, on appelle ceci fonction de Vraisemblance définie par n p(x θ) = p(x i θ) (.3) i=1 Ensuite on doit chercher une façon pour exprimer les croyances concernant θ prenant en mesure les croyances a priori et les données. L outil dont on a besoin est le théorème de Bayes pour les variables aléatoires. D après le théorème (.1) on connait que p(θ)p(x θ) p(θ X) = (.4) p(x) Or traitons X comme une constante, p(θ X) p(θ)p(x θ). D après la définition de p(x θ) comme la fonction de vraisemblance, la définition de p(θ) comme la fonction de densité de probabilité a priori et p(θ X) comme la fonction de densité de probabilité a posteriori pour θ sachant X, on peut imaginer le théorème de Bayes sous la forme : A posteriori A priori Vraisemblance 17

.4. LE PARADIGME BAYÉSIEN CHAPITRE. STATISTIQUE INFÉRENTIELLE.4 Le paradigme bayésien Classique : Supposons qu on lance une pièce 1 fois et on obtient 9 fois pile et 3 fois face. Notons pile par P et face par F. Est-il cette pièce sans biais. Normalement on aurait tester H 0 : p = 1 contre H 1 : p > 1 où p = P [pile]. La probabilité du résultat obtenu, si H 0 est vraie, est A = X 9 = {(9P, 3F ), (10P, F ), (11P, 1F ), (1P )} La distribution est une distribution Binomiale avec les probabilités respectives ( ) (1 ( ) ( ) 1 1 3 (1 ( ) ( ) 1 1 (1 ( ) 1 1 1 P [A] = P [X 9] = + + + 3 )9 )10 1 )11 = 99 4096 7.3% ( ) (1 ( ) 1 1 0 0 )1 Or, comme la valeur de p = 99 = 0.073 dépasse 0.05, (i.e, 5% risque) on ne peux pas rejeter 4096 l hypothèse nulle au niveau de confiance 95%. Qu est ce qui va se passer si on décide de lancer la pièce jusque l obtention de 3 F? La probabilité du résultat si H 0 est vraie est P [Y 1] = P (9P, 3F ) + P (10P, 3F ) + P (11P, 3F ) + P (1P, 3F ) +... On peut trouver cette probabilité en utilisant la probabilité du complement par : P [Y 1] = 1 P [Y 11] Comment calculer la probabilité du complement? P [Y 11] = P (8P, 3F ) + P (7P, 3F ) +... + P (0P, 3F ) ( ) (1 ) ( ) 10 11 (1 ) ( ) 9 10 (1 = + +... + = 1981 048 Il conduit que la valeur de p est P [Y 1] = 1 P [Y 11] = 67 048 3.7% Résultat : Comme la valeur de p < 0.05, on peut rejeter H 0 avec 95% niveau de confiance. Afin de simuler un test de confiance il est nécessaire de spécifier l espace de l échantillon i.e l espace de tous résultats possibles. Les possibilités de la pièce sont : 1. {(P, F ) : P + F = 1}. {(P, F ) : F = 3} ) 3 18

CHAPITRE. STATISTIQUE INFÉRENTIELLE.4. LE PARADIGME BAYÉSIEN Intervalle de confiance au niveau de confiance 95% Puisqu on a un échantillon d une distribution Binomiale, l intervalle de confiance est le suivante : IC = 1.96 < n p(1 θ p p) < 1.96 = 0.95 = = = 1.96 < 1 θ 1 1 < 1.96 = 0.95 1 [ 1.96 1 < 1(θ 1 ) < 1.96 1 ] = 0.95 [ 0.98 < θ 1 1 < 0.98 ] = 0.95 1 [ 1 = 0.98 < θ < 1 1 + 0.98 ] = 0.95 1 = [0.171 < θ < 0.789] = 0.95 Alors ayant cet intervalle de confiance classique, on peut dire que la valeur de θ se trouve entre 0.171 et 0.789. L approche bayésienne : L analyse Bayésienne de ce problème est différente. Soit θ la chance que la pièce sera de face P. Ainsi θ est la "fréquence" de P. Ceci est propriété objective de la pièce. Il ne dépende pas de nous. On a des croyances pour θ que l on exprime dans la forme d une fonction de densité de probabilité p(θ). En utilisant le théorème de Bayes on peut mettre à jour nos croyances p(θ data) p(data θ)p(θ) (.5) θ 9 (1 θ) 3 p(θ) (.6) On a besoin de la distribution a priori pour θ. Supposons prendre une distribution Beta avec la moyenne a p(θ) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1 a, b > 0 (.7) a + b et la variance a b 1 (a + b) (a + b) (a + b + 1) Ils existent deux méthodes que l on peut utiliser pour trouver cette a priori distribution Beta, afin de trouver les deux constants α et β qui détermine cette distribution. La première est celle par tâtonnements, en préférence à l aide d un ordinateur, en traçant la distribution Beta pour différents valeurs de α et β et en choisissant celle qui approche le plus a celle de la connaissance a priori. Les courbes pour les valeurs proches de α et β ne seront pas si différentes, et il est possible d avoir d autres courbes qui approche notre connaissance aussi proche que l autre. 1. Le chois a = b = 1 nous donne un a priori uniform, i.e on estime que toutes valeurs de θ est aussi probable. 19

.4. LE PARADIGME BAYÉSIEN CHAPITRE. STATISTIQUE INFÉRENTIELLE Le graphique de densite pour la loi beta avec a = b = 1 Densite 0.0 0. 0.4 0.6 0.8 1.0 0.0 0. 0.4 0.6 0.8 1.0 theta Figure.1 Distribution Beta avec a = b = 1. De façon plus réaliste pour une pièce on pourra prendre a = b =, qui montre notre croyance que θ est plus probable qui soit proche de 0.5 au lieu de 0 ou 1 mais sans être très sure. Le graphique de densite pour la loi beta avec a = b = Densite 0. 0.4 0.6 0.8 1.0 1. 1.4 0.0 0. 0.4 0.6 0.8 1.0 theta Figure. Distribution Beta avec a = b = 0

CHAPITRE. STATISTIQUE INFÉRENTIELLE.4. LE PARADIGME BAYÉSIEN Par conséquent on choisit a = et b =. La deuxième méthode consiste premièrement par spécifier l espérance et l écart type pour la variable aléatoire θ.l espérance de θ est le centre de gravite de la distribution, et on peut se mettre d accord que la distribution se balance quand θ = 0.5. Puisque la plus de probabilité est entre 0.15 et 0.95, il parait raisonnable que il existe des écarts types de la moyenne entre 0.50 et 0.95, donc d une distance de 0.45. Si on a deux ecarts types alors chacun est égale à 0.5. Une propriété de la distribution Beta est que la moyenne et la variance sont facilement trouvables à partir de a et b. Soit la moyenne de θ notée comme µ et l écart type noté par σ. Quand la distribution de θ est une distribution Beta de paramètres a et b, on a les relations suivantes entre la moyenne la variance et les constantes a et b, On résout pour trouver a et b a = µ µ = a a + b [ ] µ(1 µ) 1 σ et σ = µ(1 µ) (a + b + 1) et b = [1 µ] [ ] µ(1 µ) 1 σ Sachant la moyenne et la variance, ces deux expressions pourront être utiliser pour trouver a et b. Comme on a déjà déterminé que µ = 0.50 et σ = 0.5, on obtient [ ] 0.5 a = 0.5 0.5 1 [ ] 0.5 b = 0.5 0.5 1 Ces valeurs donnent l expression de l équation (.7),et cette fonction peut s utiliser pour tracer la courbe de la Figure 3.. La distribution a priori est maintenant présenté complètement, comme une courbe et comme expression mathématique, et il faut utiliser l autre source d information pour la variable θ, nos données. Par conséquent on peut écrire la distribution (.7) comme Be(, ). Il suit alors p(θ) = Donc la distribution a posteriori de θ deviens : Γ(4) θ(1 θ) Γ()Γ() p(θ data) θ 9+a 1 (1 θ) 3+b 1 θ 10 (1 θ) 4 (.8) Conclusion : La distribution de (.8) est Be(11,5) et alors si on prends un beta a priori pour θ on obtiendra un beta a posteriori. Car la distribution a posteriori de θ est une distribution beta, on peut trouver la moyenne a posteriori de θ ainsi que la variance a posteriori qui sont égales à : moyenne a posteriori = 11 16 = 0.6875 et variance a posteriori = 55 435 0.016 Le graphe de la distribution a posteriori est présente sur le prochain figure. 1

.4. LE PARADIGME BAYÉSIEN CHAPITRE. STATISTIQUE INFÉRENTIELLE Le graphique de densite pour la loi a posteriori avec a=11 et b=5 Densite 0.0 0.5 1.0 1.5.0.5 3.0 3.5 0.0 0. 0.4 0.6 0.8 1.0 theta Figure.3 Distribution a posteriori La plupart de la probabilité totale est maintenant concentrée entre 0.50 et 0.90 et par conséquent on est sûrs que θ est entre ces deux valeurs. Plus spécifiquement, même si la courbe du Figure.3 représente une distribution beta, elle est assez symétrique pour faire l approximation par une distribution normale. Comme l écart type de θ égale à 0.11, 1.96 d écart type égale à 0.199. Ajoutons et soustrairons Additionnant et soustrayant de nombre de la moyenne on obtient 0.9074 et 0.4676 respectivement. La probabilité égale à : P (0.4676 < θ < 0.9074) = 0.95 La probabilité 0.95 proviens de la distribution normale, ou la probabilité vaut 0.95 et la variable standard Z est entre -1.96 et 1.96. Cette probabilité nous dit que nous sommes 95% certain que θ est entre 0.4676 et 0.9074. Pour comparer la distribution a priori et la distribution a posteriori est plus facile de tracer les deux courbes sur une même graphique, illustrer ci dessous : La moyenne a posteriori de θ et les courbes de la Figure.4 nous donne la connaissance de l influence de la distribution a priori. La distribution a posteriori peut se mettre sous la forme 11 16 = 9 + 1 + 4 Nbr de pile + Constant de priori(α) = Nbr d observations + Constant de priori(α + β) La valeur estimée de θ d un échantillon est égale la proportion 9 = 0.75. Si on prend la 1 moyenne a posteriori de θ comme l estimateur de θ de l analyse bayésienne, on peut observer que le numérateur augmente par et le dénominateur augmente par 4 en comparaison avec la proportion de l échantillon. L effet de la distribution a priori peut donc s observer comme une augmentation de la taille de l échantillon par 4, dont sont piles.

CHAPITRE. STATISTIQUE INFÉRENTIELLE.4. LE PARADIGME BAYÉSIEN Densite 0.0 0.5 1.0 1.5.0.5 3.0 3.5 a posteriori a priori 0.0 0. 0.4 0.6 0.8 1.0 theta Figure.4 Distribution a posteriori et distribution a priori Conclusion : Quand est ce qu on utilise comme estimateur de θ l échantillon et quand la moyenne a posteriori? Si on veut comparer les deux estimateurs ( celui de l échantillon et l estimateur bayésienne) on doit regarder les variances respectives. En général le meilleur estimateur est celui avec la variance inférieure. Dans ce cas la variance de l estimateur classique est V ar(f ) = 1 4 1 0.0 (.9) et la variance a posteriori est 0.016. En comparant ces valeurs on peut voir que la variance a posteriori est. Alors on peut conclure que le meilleur estimateur est la moyenne a posteriori, i.e 11 16 = 0.6875. Que est-ce qui va se passer si on change le a priori? Supposons avoir dans ce cas, un a priori θ Be(4, 6) donc on a p(θ) = θ 3 (1 θ) 5 Alors la distribution a posteriori est définit par p(θ x) θ 9 (1 θ) 3 θ 3 (1 θ) 5 θ 1 (1 θ) 8 (.10) De l équation (.10) on trouve que la distribution a posteriori est maintenant Be(13,9) avec et Moyenne = 13 13 + 9 = 13 0.5909 V ariance = 117 1113 0.0105 Verrons maintenant graphiquement la distribution a posteriori 3

.4. LE PARADIGME BAYÉSIEN CHAPITRE. STATISTIQUE INFÉRENTIELLE _ a posteriori Densite 0 1 3 0.0 0. 0.4 0.6 0.8 1.0 theta Figure.5 Distribution a posteriori avec a priori Beta(4,6) A partir du graphe on trouve approximativement l intervalle de θ. Plus précisément c est l intervalle de confiance. Intervalle de confiance au niveau de confiance 0.95 IC = = = [ 1.96 < 1.96 < θ 13 117 1.96 ] θ moyenne a posteriori < 1.96 variance a posteriori 1113 = [0.3900 < θ < 0.7918] < 1.96 117 1113 < θ 13 < 1.96 Donc on peut trouver que θ est entre 0.3900 et 0.7918. 117 1113 4

CHAPITRE. STATISTIQUE INFÉRENTIELLE.4. LE PARADIGME BAYÉSIEN Il est plus facile de comparer le a priori et le a posteriori si on fait un graph. a posteriori a priori Densite 0 1 3 0.0 0. 0.4 0.6 0.8 1.0 theta Figure.6 Distribution a posteriori et distribution a priori Beta(4,6) Valeur estimée de θ : L estimateur de l échantillon est le même comme dans l exemple précédent, i.e 9 = 0.75. Mais 1 l estimateur bayésien de θ n est plus le même comme la moyenne a posteriori a changé. Donc le estimateur bayésien est 13 = 0.5909. Comparaison de deux approche bayésienne : Suite aux deux exemples on peut se demander quelle est la meilleure approche. Afin de répondre cette question il faut comparer les deux intervalle de confiance de deux estimateurs de θ. En les comparant on peut dire que l intervalle de confiance pour le a priori Be(, ) est plus grand que l intervalle de confiance de θ avec un a priori Be(4, 6). En plus on peut voir que la valeur de l estimateur dans le premier exemple est 11 = 0.6875 qui est de nouveau plus grand 16 du deuxième estimateur qui est 13 = 0.5909. Alors on peut conclure que l approche bayésienne avec un a priori Be(4, 6) est meilleure et elle nous donne un θ plus fiable. 5

.4. LE PARADIGME BAYÉSIEN CHAPITRE. STATISTIQUE INFÉRENTIELLE Comparaison des différentes méthodes : Valeur estimée de θ Intervalle de confiance Classique 0.75 [0.171 < θ < 0.789] Bayésienne avec a priori Be(,) 0.6875 [0.4676 < θ < 0.9074] Bayésienne avec a priori Be(4,6) 0.5909 [0.3900 < θ < 0.7918] Table.1 Tableau Comparatif des différentes méthodes et valeurs estimée de θ Conclusion : D après le tableau ci dessus on peut voir que toutes les méthodes nous donne une valeur estimée de θ dans l intervalle de confiance. Afin de trouver la meilleure méthode on va comparer les intervalles de confiance et on choisira l intervalle le plus petit. Alors dans ce cas la meilleure méthode est la Bayésienne avec a priori Be(4,6), qui nous donnera la meilleure valeur estimée de θ. 6

CHAPITRE. STATISTIQUE INFÉRENTIELLE.5. FAMILLE EXPONENTIELLE.5 Famille exponentielle Considérons les données x et la vraisemblance p(x θ). Soit t(x) une fonction avec des valeurs réels de x, appelée statistique et soit p(t(x) θ) la densité de t(x). Alors p(x θ) = p (x, t(x θ)) = p (t(x) θ)) p (x t(x), θ) (.11) Supposons que le terme final de (.11) ne dépende pas de θ i.e. p(x θ) = p (t(x) θ)) p (x t(x)) (.1) alors t(x) est exhaustive pour θ,(ou exhaustive pour la famille p(x θ)). L idée est que, sachant t, le reste d informations des nos données ne peut pas donner plus d informations concernant θ. Théorème.10. Si t(x) est exhaustive pour la famille p(x θ) alors toutes distributions a priori les distributions a posteriori sachant, x et t(x) sont identiques. Preuve. p(θ x) p(θ)p(x θ) p(θ)p(t(x) θ)p(x t(x)) par exhaustivité θ p(θ)p(t(x) θ) θ p(θ t(x)) par le théorème de Bayes Définition.11. Si p(x θ) dépende de θ = (θ 1, θ,..., θ s ) et t(x) = (t 1 (x), t (x),..., t r (x)) est un ensemble r des fonctions à valeurs réels tel que p(x θ) = p (t(x) θ)) p (x t(x)) donc t 1 (x), t (x),..., t r (x) sont exhaustives pour la famille p(x θ) Remarque.1. Il existe un famille spéciale, appelée famille exponentielle, qui comprend plusieurs distributions communs comme membres. Définition.13. Considérons une densité p(x θ) s écrit sous la forme oú p(x θ) = exp{t(x)ψ(θ)}g(θ)h(x) (.13) G(θ) 1 = X exp{t(x)ψ(θ)}h(x)dx p(x θ) est appelé famille exponentielle. La fonction ψ(θ) est appelée paramètre naturelle. Cette famille comprends plusieurs distributions standards(e.g normale, binomiale, Poisson, exponentielle, Gamma). On observe que la forme de la vraisemblance devient n n p(x 1,..., x n θ) = exp{ψ(θ) t(x i )}G(θ) n H(x i ) } 1 {{ 1 } } {{ } f(t,θ) g(x) 7

.5. FAMILLE EXPONENTIELLE CHAPITRE. STATISTIQUE INFÉRENTIELLE donc t(x 1,..., x n ) = t(x i ) est exhaustive pour θ. Donc une famille exponentielle a une exhaustivité unidimensionnelle pour θ toutes valeurs de n. Exemple.14. 1. Épreuve de Bernoulli : x=0,1 ; p(x=1 θ)=θ ; p(x=0 θ)=1-θ, so p(x θ) = θ x (i θ) 1 x ( ) x θ = (1 θ) 1 θ } {{ } } {{ } terme contenant juste θ terme contenant x and θ { ( )} θ = exp x log (1 θ) 1 θ En comparant la définition de la famille exponentielle on obtient t(x)=x, ψ(θ)=log ( ) θ 1 θ, G(θ) = 1 θ, H(x) = 1 avec n x i = nombre de succès est exhaustive. i=1. Supposons avoir la loi Normale avec la moyenne θ,variance 1, écrit x N (θ, 1) p(x θ) = 1 exp { 1 } π (x θ) { 1 = exp 1 } π (x xθ + θ ) = exp {xθ} exp { 1 } { θ exp 1 } 1 x (.14) π Si on compare l équation (.14) avec la définition d une famille exponentielle on peut conclure que : t(x)=x, ψ(θ) = θ, G(θ) = exp { 1 θ} et H(x) = exp { 1 x}. t(xi ) = x i est exhaustive. Remarque.15. Toutes fonctions injectives exhaustives est aussi exhaustive tel que X = ni=1 X i est exhaustive. 1 n.5.1 Extensions - Plusieurs paramètres Supposons avoir p(x θ) dépendant de θ = (θ 1, θ,..., θ s ) et t(x) = (t 1 (x), t(x ),..., t r (x)) est tel que p(x θ) = p( t(x) θ)p(x t(x) alors t 1 (x),..., t r (x) ils sont exhaustives pour θ. Forme de famille exponentielle : alors t 1 (x),..., t r (x) sont exhaustives pour θ. k p(x θ) = exp t j (x)ψ(θ) G(θ)H(x) (.15) j=1 8

CHAPITRE. STATISTIQUE INFÉRENTIELLE.5. FAMILLE EXPONENTIELLE Exemple.16. Soit x N (µ, σ ) et θ = (µ, σ ) donc : p(x θ) = = = Donc de (3.9) et (3.10) on a : { 1 exp 1 } (x µ) πσ σ { 1 exp 1 } πσ σ (x xµ + µ ) 1 π 1 σ exp { µ σ } exp t 1 (x) = x, ψ 1 (θ) = 1 σ t (x) = x, ψ (θ) = µ σ { 1 ( x σ xµ )} σ (.16) ( n ) n x i, x i exhaustives pour θ = (µ, σ ) i=1 i=1.5. Familles fermées sous échantillonnage Prenons l exemple des épreuves de Bernoulli, les pertinentes informations a priori pourront se représenter par une a priori distribution plus inclinée. Il est mathématiquement plus intéressant de choisir une a priori de la même famille que la fonction de vraisemblance généré par nos données. Considérons un échantillon aléatoire d une densité fixe p(x θ). La famille F de distributions de θ est dite fermée sous échantillonnage en lien avec p(x θ) si et seulement si pour tous échantillonnages. p(θ) F p(θ x) F Exemple.17. Épreuve de Bernoulli : x=0,1 ; p(x=1 θ)=θ ; p(x=0 θ)=1-θ, donc qui est la vraisemblance et où r= x i p(x θ) = θ r (i θ) n r Famille F : p(θ) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1 a, b > 0 est fermée sous échantillonnage. p(θ x) θ r (1 θ) n r θ a 1 (1 θ) b 1 θ r+a 1 (1 θ) n-r+b 1 (.17) De (.17) on en déduit que c est un lois Beta avec paramètres r+a et n-r+b, écrit Be(r+a,n-r+b) Remarque.18. Une famille de a priori distributions fermée sous échantillonnage peut être appelée aussi famille conjuguée de distributions. Alors, en se basant sur l exemple de dessus, on peut dire que le lois Beta est une a priori famille conjuguée d épreuves de Bernoulli. En général, comment peut-on trouver des a priori familles conjuguées? 9

.5. FAMILLE EXPONENTIELLE CHAPITRE. STATISTIQUE INFÉRENTIELLE Définition.19. Supposons que p(x θ) est une famille exponentielle p(x θ) = exp {t(x)ψ(θ)} G(θ)H(x) Pour un échantillon aléatoire x = x 1, x,..., x n la vraisemblance prends la forme suivante : p(x 1, x,..., x n θ) = exp { t(xi )ψ(θ) } G(θ) n H(x i ) (.18) Alors si D après les equations (3.14) & (3.15) p(θ) exp {aψ(θ)} G(θ) b (.19) p(θ x 1,..., x n ) p(x 1, x,..., x n θ) p(θ) exp { ψ(θ) t(x i ) } G(θ) n H(x i ) exp {aψ(θ)} G(θ) b exp { ψ(θ) ( t(xi ) + a )} G(θ) n+b a t(x i ) + a et b n + b Donc c est une famille fermée sous échantillonnage. Par conséquent on peut trouver un a priori conjugué pour tout famille exponentielles. Définition.0. Un a priori conjugué p(θ) d une famille exponentielle est donné par p(θ) exp {aψ(θ)} G(θ) b (.0) Exemple.1. Supposons avoir des données d un loi de Poisson, que serait-il un a priori conjugué? Pour le trouver on doit premièrement prouver que la vraisemblance peut se mettre sous la forme d une famille exponentielle. Or, la vraisemblance est p(x θ) = e θ θ x x = 0, 1,,... x! = exp (x log θ) e θ 1 x = 0, 1,,... x! Alors, t(x) = x, ψ(θ) = log θ, G(θ) = e θ, H(x) = 1 x! On peut observer que la vraisemblance est une famille exponentielle donc on peut avancer dans la recherche d un a priori conjugué en s aidant de la définition 0. A priori conjugué : p(θ) exp {aψ(θ)} G(θ) b exp {a log θ} xe bθ θ a e bθ Loi Gamma Remarque.. On n utilisera pas Ga(a+1,b). D après l a priori conjugue on peut trouver juste le nom du lois. Donc on utilise dans ce cas Gamma(a,β). 30

CHAPITRE. STATISTIQUE INFÉRENTIELLE.5. FAMILLE EXPONENTIELLE Donc l a priori est définie par p(θ) = βa θ a 1 e βθ Γ(a) On utilise une vraisemblance avec un échantillon aléatoire x = x 1, x,..., x n Alors l a posteriori est donné par x θ) = = n p(x i θ) i=1 ( n e θ θ x ) i i=1 x i! = e nθ θ n i=1 x i ni=1 x i! p(θ x 1, x..., x n ) p(x 1, x,..., x n θ) p(θ) θ θ exp { nθ} θ x i } {{ } vraisemblance proportionnelle à θ θ (a+ x i 1) e θ(n+β) θ a 1 e βθ } {{ } a priori proportionnelle à θ Conclusion : θ x Ga(a + x i, n + β) et a priori Gamma est un a priori conjugué! Exemple.3. 1. Montrer que la distribution exponentielle est membre d une famille exponentielle. Quelle est le paramètre naturelle?. En déduire que la distribution Gamma est le a priori conjuguée. 3. 5 machines font des tests pour plus de 100 heures. Parmi les 5, 3 machines ont arrêté pendant les 65,89 et 95 heures. Les deux autres ont travaillé pendant 100 heures. Supposons que la durée de vie des machines suit une distribution exponentielle avec une moyenne de θ 1, trouvez la fonction de vraisemblance. 4. Si la distribution a priori de θ est une distribution Gamma distribution trouvez la distribution a posteriori de θ. p(θ) = Ga(, 180) 5. Trouvez la moyenne a posteriori et la variance de θ. Solution : 1. La distribution exponentielle a comme fonction de densité p(x θ) = θ exp( θx) (.1) En comparant cette equation avec celle de la définition de la famille exponentielle (.13) on peut conclure que la distribution exponentielle est une famille exponentielle avec Et la paramètre naturelle est ψ(x) = θ. (x) = x, ψ(x) = θ, G(θ) = θ, H(x) = 1 31

.5. FAMILLE EXPONENTIELLE CHAPITRE. STATISTIQUE INFÉRENTIELLE. Le a priori conjugué est donné par p(θ) exp {aψ(θ)} G(θ) b Donc on a p(θ) exp( aθ)θ b qui est une distribution Gamma. Alors la distribution Gamma est le a priori conjugué. 3. La fonction de vraisemblance est donnée par 3 p(x θ) = +P [x 4 > 100] + P [x 5 > 100] (.) i=1 La probabilité qu une machine travaille pour 100 heures est P [x j > 100] = 100 θ exp( θx)dθ = exp( 100θ) Donc la fonction de vraisemblance (.), se transforme p(x θ) = θexp( 65θ) θexp( 89θ) θexp( 95θ) exp( 100θ) exp( 100θ) = θ 3 exp( 449θ) 4. Comme la distribution a priori de θ est Ga(, 180) alors on a La distribution a posteriori est p(θ) θ exp( 180θ) p(θ x) p(x θ) p(θ) θ 3 exp( 449θ) exp( 180θ) θ 4 exp( 69θ) Ga(5, 69) 5. La moyenne a posteriori est 1.638 10 5. 5 69 0.007949 et la variance a posteriori est 5 (69) 3

CHAPITRE. STATISTIQUE INFÉRENTIELLE.5. FAMILLE EXPONENTIELLE Solution Graphique : Densite 0 0 40 60 80 100 10 a posteriori _ a priori vraisemblance 0.00 0.01 0.0 0.03 0.04 0.05 theta Figure.7 Distribution a posteriori, Distribution a priori et distribution de vraisemblance Remarque.4. D après le graphe on peut trouver que approximativement, l intervalle où θ se situe qui est 0 et 0.0. 33

.6. LOI NORMALE CHAPITRE. STATISTIQUE INFÉRENTIELLE.6 Loi Normale.6.1 A posteriori d un a priori et d une vraisemblance normale Dans cette section on utilisera les lois normales et on va déterminer les a priori conjugués dans les trois cas suivants : A. Moyenne inconnue et Variance connue B. Moyenne connue et Variance inconnue C. Moyenne et variance inconnues.6. Variance connue Soit x N (θ, σ ). Il est plus simple d utiliser la precision h = 1 au lieu de la variance σ. σ Notons qu un lois normale avec une moyenne θ et une precision h est donné par N 0 (θ, h) Preuve : On va prouver que h = 1. σ Pour faire cela on doit comparer le lois normale ayant comme paramètres µ et σ avec N 0 (θ, h). Alors, la vraisemblance de N 0 (θ, h) est : p(x θ) = h1/ exp { 1 } π h(x θ) et la vraisemblance de N (µ, σ ) est : p(x θ) = 1 { exp 1 } (x µ) πσ σ Or, en comparant ces deux equations on peut conclure que h 1/ = 1 σ h = 1 σ Théorème.5. Si x N 0 (θ, h) et θ N 0 (µ 0, h 0 ) donc ( ) hx + h0 µ 0 θ x N 0, h + h 0 h + h 0 On peut dire que l a posteriori precision égale à precision de données plus l a priori precision En outre, l a posteriori moyenne est la moyenne pondérée de l a priori moyenne et de la moyenne de données avec une pondération égale aux précisions pour h h + h 0 x + h 0 h + h 0 µ 0 = wx + (1 + w)µ 0 oú w = h h + h 0 Preuve : La vraisemblance est : p(x θ) = θ { 1 exp 1 } (x µ) πσ σ exp {hxθ} exp { 1 } hθ 34

CHAPITRE. STATISTIQUE INFÉRENTIELLE.6. LOI NORMALE On peut voir que c est une famille exponentielle ψ(θ) = θ, G(θ) = e θ /, t(x) = x. Alors on peut trouver l a priori distribution en utilisant l a priori conjugué. p(θ) exp {aψ(θ)} G(θ) β { } exp {aθ} exp βθ La conclusion est que l a priori est une loi Normale donc on peut utiliser la forme générale du lois Normale avec les paramètres µ 0 et h 0. Donc θ N 0 (µ 0, h 0 ) Au final on trouve l a posteriori { p(θ) = h1/ 0 exp h } 0 π (θ µ 0) { } θ exp {h 0 θµ 0 } exp θ h 0 p(θ x) p(x θ) p(θ) θ ( ) hx + h0 µ 0 Donc, θ x N 0, h + h 0 h + h 0 exp {θ(hx + h 0 µ 0 )} exp et on peut voir que l a posteriori precision est donnée par { } θ (h + h 0) }{{} h + h }{{} 0 P recision de données A priori precision Exemple Numérique.1. Un scientifique utilise un appareil d une precision connue h = 69.444 pour faire neuf mesures indépendants d une quantité. Les mesures sont supposées de suivre le loi normale avec une moyenne inconnue θ et l écart type 1. La moyenne de l échantillon h obtenue est x = 17.653. 1. Si le scientifique est prêt de prendre une vague distribution a priori sur θ calculer la distribution a posteriori de θ.. Trouver les 99% et 95% intervalles HPD pour θ. Conclure. 3. Si la distribution a priori du scientifique de θ suit le loi normale avec une moyenne de 17.5 et une precision de 100, trouver la distribution a posteriori de θ. 4. Trouver les 99% et 95% intervalles HPD pour θ d un a posteriori avec un a priori informative. Conclure. 5. Comparer les deux a posteriori, qui est le meilleur? 6. Si la distribution a priori de θ suit la loi normale avec une moyenne de 0 et une precision de 5,trouver la distribution a posteriori de θ. 7. Trouver le 95% intervalle HPD pour θ d un a posteriori avec le précédent a priori. 8. Comparer les deux 95% intervalles HPD pour θ de deux approches bayésiennes. 9. Comparer le 95% intervalle HPD classique avec les deux bayésiennes. 35

.6. LOI NORMALE CHAPITRE. STATISTIQUE INFÉRENTIELLE Solution : 1. Soit x = {x i, i = 1,..., 9} la neuvième mesure indépendant, alors x i θ N o (θ, h ) La vraisemblance est donnée par : p(x θ) = = = 9 p(x i θ) i=1 { } 9 h exp h i=1 π (x i θ) h 9 { } exp h 9 (x (π) 9/ i θ) i=1 (.3) Comme on n a pas des informations sur le a priori on suppose que p(θ) constante. Donc le a posteriori p(θ x) p(x θ)p(θ) { } exp h (xi θ) constante { exp h ( x i x i θ + nθ )} { exp h ( x i n xθ + nθ )} { θ exp h ( )} n xθ + nθ { } θ exp h n (θ x) (.4) Alors on obtient θ x N o ( x, nh )puisque x = 17.653 et nh = 9(69.444) = 64.996 alors θ x N o (17.653, 64.996) 36

CHAPITRE. STATISTIQUE INFÉRENTIELLE.6. LOI NORMALE Solution graphique : Sur le graphe ci dessous, on peut voir la distribution a posteriori normale avec un a priori constant. On peut supposer que θ aura des valeurs entre 17.5 et 17.8, mais jusqu à présent on n est pas sur. On peut le vérifier en utilisant les intervalles HPD. Distribution a posteriori Normale avec constante a priori Densite 0 4 6 8 10 _ a posteriori 17.0 17. 17.4 17.6 17.8 18.0 theta Figure.8 Distribution a posteriori avec une constante a priori Rappel HPD intervalles : En utilisant les intervalles HPD on peut trouver un intervalle de confiance pour les valeurs de θ. En plus en comparant les deux intervalles HPD on peut trouver lequel il est le meilleur en choisissant le plus petit. L objectif des intervalles HPD est de comparer l approche classique avec l approche bayésienne, ou bien deux approches bayésiennes. Dans ce projet on s intéresse plutôt de la comparaison de la classique avec la bayésienne.. Intervalles classiques Dans ce cas on on prend un a posteriori avec un a priori constant. Alors on a θ x N ( x, σ ) avec une moyenne x = 17.653 and variance σ = 1 64.996 (a) 99% intervalle HPD veut dire que b a p(θ X)dθ = 0.99. Dans l analyse Bayésienne on peut trouver l intervalle en faisant : IC= [ Moyenne a posteriori ± Z 0.005 Variance a posteriori ] où Z 0.005 est le quartile d ordre 0.005 de la loi Normale(0,1). 37

.6. LOI NORMALE CHAPITRE. STATISTIQUE INFÉRENTIELLE Comme P(Z <.5758) = 0.995 [ ] θ moyenne a posteriori P.5758 < <.5758 = 0.99 variance a posteriori P [.5758 < ] θ moyenne a posteriori variance a posteriori <.5758 = 0.99 [ ] P 17.653.5758 (9 69.444) 1 < θ < 17.653 +.5758 (9 69.444) 1 = 0.99 P [17.55 < θ < 17.7560] = 0.99 Cet intervalle nous dit que on est 99% sur que la valeur de θ se trouve entre 17.55 et 17.7560. (b) 95% HPD intervalle Dans ce cas on a : IC= [ Moyenne a posteriori ± Z 0.05 Variance a posteriori ] où Z 0.05 est le quartile d ordre 0.05 de la loi Normale(0,1). Comme P(Z < 1.96) = 0.975 alors : [ ] θ moyenne a posteriori P 1.96 < < 1.96 = 0.95 variance a posteriori P [ 1.96 < ] θ moyenne a posteriori variance a posteriori < 1.96 = 0.975 [ ] P 17.653 1.96( (9 69.444) 1 )) < θ < 17.653 + 1.96( (9 69.444) 1 ) = 0.95 P [17.5746 < θ < 17.7314] = 0.95 Cet intervalle nous exprime qu on est 95% sur que la valeur de θ est entre 17.5746 et 17.7314. Comparaison : Lequel de deux classiques intervalles est le meilleur? En comparant les intervalles on peut dire que le meilleur est le deuxième, avec 95% car il nous donne l intervalle le plus petit et crédible pour les valeurs de θ. Puisque on a un intervalle plus petit on serait plus proche de notre solution de θ. 3. Approche bayésienne Maintenant on connait que le a priori suit le loi normale avec une moyenne de 17.5 et une precision de 100 alors, θ N o (17.5, 100). p(θ) = ( 100 exp π 100 (θ 17.5) Donc le a posteriori est donné par : ( ) p(θ x) θ exp h ( (xi θ) exp 100 ) (θ 17.5) ( θ exp 1 ( h n xθ + nθ h + 100θ 35 100θ )) ( θ exp 1 [( nh + 100 ) θ (nh x + 17.5 100) θ ]) θ exp 1 ( nh + 100 ) ( ) θ (n xh + 17.5 100) nh + 100 38 ) (.5)