Statistiques - Notes de cours - M1. Elisabeth Gassiat

Dimension: px
Commencer à balayer dès la page:

Download "Statistiques - Notes de cours - M1. Elisabeth Gassiat"

Transcription

1 Statistiques - Notes de cours - M1 Elisabeth Gassiat

2

3 Table des matières 1 Introduction Estimation et régions de confiance Tests Construction d estimateurs Généralités Méthode des moments. Estimation empirique Maximum de vraisemblance Fonction de répartition et théorème de Glivenko-Cantelli 21 4 Construction de tests Test du rapport de vraisemblance Généralités Optimalité dans le cas de deux hypothèses simples Test de Kolmogorov-Smirnov Test du chi-deux d ajustement Lien entre tests et régions de confiance Vecteurs gaussiens 31 6 Modèle linéaire gaussien Définition et exemples Estimation des paramètres Estimation de m et σ Estimation de β et σ Tests d hypothèses linéaires Régions de confiance Région de confiance pour m Région de confiance pour β Région de confiance pour σ Eléments de théorie de la décision introduction Affinité de test et minoration du risque maximum Distance et affinité de Hellinger Vitesse de séparation pour le test de deux hypothèses simples

4 7.5 Divergence de Kullback Estimation bayésienne Estimateurs admissibles et estimateurs bayésiens Notion de loi conditionnelle Calcul d estimateurs bayésiens Tests du rapport de vraisemblance et théorie de Neyman-Pearson Extension de la notion de test Cas de deux hypothèses simples Tests d hypothèses multiples Etude des estimateurs sans biais Exhaustivité et estimateurs UVMB Exemple du modèle de Bernoulli Exhaustivité Estimateurs UVMB Modèle exponentiel Efficacité Score et information de Fisher Inégalité de Cramer-Rao Cas des modèles produit Modèles exponentiels Limites des estimateurs sans biais et de l efficacité Eléments de statistique asymptotique Etude asymptotique de l estimateur du maximum de vraisemblance Amélioration d un estimateur n-consistant Consistance de l estimateur du maximum de vraisemblance Asymptotique du test du rapport de vraisemblance Généralisations multidimensionnelles Constructions de régions de confiance asymptotiques Retour sur le test du chi-deux d ajustement

5 1 Introduction En probabilité, on étudie les propriétés de variables aléatoires connaissant leur loi. En statistique, on cherche à trouver de l information sur la loi connaissant les variables aléatoires. Voici une idée de la démarche sur un exemple simple, celui du sondage. On souhaite avoir une idée de la proportion p de personnes qui préfèrent l option A à l option B dans une population de N individus deux options possibles). Pour cela, on interroge n personnes. On se dit que considérer, parmi ces n personnes, la proportion p de personnes qui préfèrent l option A à l option B donne une idée de p. Bon, mais si on refait un sondage, on ne va pas retrouver la même valeur pour p : c est une variable aléatoire, l aléa vient du choix des n parmi les N. Ah oui, mais si on choisit ces n au hasard, on se dit qu on va trouver une valeur proche. Mais alors : tout le temps? Non ce n est pas possible, même au hasard, on peut tomber sur un mauvais échantillon. Et une valeur proche comment? Cela dépend de si on veut que ce résultat arrive souvent. Essayons de formaliser tout cela. On va noter X i = 1 si la i-ème personne interrogée répond A et X i = 0 si la i-ème personne interrogée répond B. On note alors Z n le nombre de personnes qui ont répondu A parmi les n, soit Z n = n X i. La proportion observée est donc p = 1 n Z n. Dire que l on choisit n personnes au hasard parmi N, c est dire que le tirage de l ensemble de ces n personnes suit la loi uniforme sur tous les sous-ensembles à n éléments parmi les N possibles, et Z n suit alors la loi hypergéométrique de paramètre n, p, N). On sait que si N est très grand par rapport à n, cette loi est approximativement la loi binomiale Bn; p), qui est celle que l on obtient avec un tirage avec remise les X i sont alors des variables aléatoires indépendantes de même loi de Bernoulli de paramètre p). Du coup, le fait que p soit proche de p, et avec quelle probabilité, va pouvoir être quantifié. Dans cette démarche, il y a une part de modélisation qui consiste à dire quelque chose sur la loi possible de la variable aléatoire considérée. Ici, la modélisation porte sur la loi de Z n par l intermédiaire de au hasard et l approximation N >> n. On a X variable aléatoire de loi P inconnue, et la modélisation fixe P, ensemble de lois possibles pour P, autrement dit, on a une information a priori qui est : P P. 1.1 Estimation et régions de confiance Reprenons la situation où l on dispose de X 1,..., X n indépendantes de loi de Bernoulli Bθ), et que l on cherche à estimer θ par 1 n n X i. On dit que X 1,..., X n est 5

6 1 Introduction l observation et que 1 n n X i est un estimateur de θ. Ce vocabulaire dit seulement que c est une quantité qui ne dépend que de l observation. C est une variable aléatoire. Comment savoir si cette variable aléatoire est proche de θ? Rappels : LFGN On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi P, telle que E X 1 ) est finie. Alors la suite de variables aléatoires 1 n n X i) n 1 converge presque sûrement vers EX 1 ). LGN On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi, telle que E X 1 ) est finie. Alors la suite de variables aléatoires 1 n n X i) n 1 converge en probabilité vers EX 1 ). Reprendre les définitions de convergence p.s. et en probabilité qui permettent de voir que, en ce qui concerne la question de quantifier les probabilités des écarts, la LFGN est seulement qualitative, et que ce qui nous intéresse est la LGN. Souvent on note X n = 1 n n X i la moyenne empirique. Dans notre exemple, on a EX 1 ) = θ, donc X n semble être un bon estimateur de θ. Pour évaluer ses performances, il faut noter qu il y a deux types d erreurs, si on utilise X n : X n θ l écart entre l estimateur X n et la valeur cible θ), et, si l on veut préciser cette erreur pour avoir X n θ ɛ la probabilité que cette affirmation soit fausse. On voit que ces deux erreurs varient de manière inverse : si l on augmente la précision si l on diminue ɛ), on diminue la probabilité que l affirmation soit vraie. On va donc construire des fourchettes que l on associe à des niveaux de confiance, c est ce que l on appelle un intervalle de confiance : on va chercher à évaluer P X n θ ɛ), et si c est inférieur ou égal à α, on dira que [X n ɛ, X n + ɛ] est un intervalle de confiance pour θ de niveau de confiance 1 α. Il y a plusieurs choses à remarquer. D abord, la loi P des X i est inconnue. Elle dépend de θ, on va donc la noter P θ. Ensuite, l intervalle de confiance est un intervalle aléatoire. Si on renouvelle l expérience, il change. Et ce que l on veut contrôler, on souhaite que cela soit valide bien que l on ne connaisse pas la loi, puisque justement c est l objectif, donc que ce soit vrai quel que soit θ. Définition Soit α [0, 1]. On dit que I est un intervalle de confiance pour θ Θ de niveau de confiance 1 α si et seulement si I est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction de l observation θ Θ, P θ θ I) 1 α. Dans l exemple, Θ = [0, 1]. Noter que dans l événement θ I c est I qui est aléatoire, pas θ qui est une quantité fixe mais inconnue). Reprendre l exemple pour lire la définition. 6

7 1.1 Estimation et régions de confiance On veut donc évaluer P θ X n θ ɛ). Outils? Rappels : Inégalité de Markov Si Z est une variable aléatoire réelle positive ou nulle, alors t > 0, P Z t) EZ). t Ceci n a un intérêt que si EZ) est finie). Inégalité de BT Si Z est une variable aléatoire réelle admettant une espérance et une variance, alors t > 0, P Z EZ) t) V arz) t 2. Se rappeler les preuves. Sur l exemple : V arx n ) = θ1 θ) n bien détailler pourquoi), et donc θ [0, 1], P θ X n θ ɛ) θ1 θ). Par ailleurs, par l étude de la fonction θ θ1 θ), on nɛ 2 voit que θ [0, 1], θ1 θ) 1/4. On a donc ceci se réécrit en détailler les étapes) θ [0, 1], P θ Xn θ ɛ ) 1 4nɛ 2. θ [0, 1], P θ Xn ɛ < θ < X n + ɛ ) 1 1 4nɛ 2, ce qui montre que l intervalle I =]X n ɛ; X n + ɛ[ est un intervalle de confiance pour θ Θ de niveau de confiance 1 1. Si l on fixe α et que l on veut un intervalle de 4nɛ 2 niveau de confiance 1 α, il faut choisir ɛ = 1/2 nα. En ce qui concerne n, on voit que la probabilité d erreur décroit en 1/n. Dans ce cas, on peut utiliser une inégalité plus performante, qui donne une décroissance exponentielle en n. Proposition Inégalité de Cramer-Chernoff.). Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P telle que pour tout λ > 0, ψλ) soit fini en posant ) ψλ) = log E e λx 1 EX 1 )). Alors ɛ > 0, λ > 0, P X n EX 1 ) ɛ ) e nλɛ ψλ)). Preuve : On a pour tout λ > 0 1 Xn EX 1 ) ɛ = 1 λxn EX 1 )) λɛ exp [ λx n EX 1 )) λɛ ] 7

8 1 Introduction donc en prenant l espérance P X n EX 1 ) ɛ ) E { exp [ λx n EX 1 )) λɛ ]} n = e λɛ E[e λ n X i EX 1 )) ] car les X i sont indépendants. Puis comme ils ont même loi, pour tout i = 1,..., n, log E[e λ n X i EX 1 )) ] = ψ λ n ), donc pour tout λ > 0 P X n EX 1 ) ɛ ) e λɛ+nψ λ n ) et l on obtient la proposition en posant λ = λ/n. Lemme Lemme de Hoeffding.). Soit Y une variable aléatoire réelle de loi P telle que, pour des réels a et b, a Y b, et telle que EY ) = 0. Alors Preuve : On a λ R, log E [e ] λy λ2 b a) 2. 8 b a 2 Y a + b 2 donc Y a + b ) 2 2 b a 2 b a)2. 4 Du coup, si Q est une probabilité sur [a, b], on a dire pourquoi!) V ar Q Y ) b a)2. 4 Prenons maintenant pour tout réel λ, dq λ y) = e λy φλ) dp y), en posant φλ) = log E P e λy dire pourquoi ça existe). Maintenant, on obtient facilement que φ est deux fois dérivable dire pourquoi et faire les calculs!) et que pour tout λ, φ λ) = V ar Qλ Y ). Donc En intégrant entre 0 et λ, λ R, φ λ) b a)2. 4 λ R, φ λ) φ 0) λb a)2, 4 8

9 1.1 Estimation et régions de confiance mais φ 0) = E P Y ), donc en intégrant de nouveau entre 0 et λ, et enfin φ0) = 1. λ R, φλ) φ0) λ2 b a) 2, 8 Conséquence pour notre exemple : Proposition Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P θ = Bθ). Alors ɛ > 0, θ [0, 1], P θ Xn θ ɛ ) 2e 2nɛ2. Preuve : On fixe ɛ > 0 et θ [0, 1]. En appliquant le lemme de Hoeffding à chaque X i avec a = θ et b = 1 θ, donc b a = 1) puis l inégalité de Cramer-Chernoff, on obtient pour tout λ > 0 P θ Xn θ ɛ ) λ2 nλɛ e 8 ). Donc P θ Xn θ ɛ ) e n sup λ2 λ>0 λɛ 8 ). Mais sup λ>0 λɛ λ2 8 ) = 2ɛ2, donc P θ Xn θ ɛ ) e 2nɛ2. Par ailleurs, les θ X i, i = 1,..., n sont aussi des variables aléatoires indépendantes centrées de même loi et telles que θ 1 θ X i θ donc le même raisonnement donne P θ θ Xn ɛ ) e 2nɛ2 et l on termine par P θ Xn θ ɛ ) = P θ Xn θ ɛ ) + P θ θ Xn ɛ ). On peut aussi penser, pour contrôler P θ Xn θ ɛ ) à des résultats asymptotiques. Rappel TLC : On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi, admettant une espérance et une variance. Alors la suite )) n X n EX 1 ) V arx1 ) converge en loi vers U, variable aléatoire réelle de loi N 0, 1). Se rappeler la définition de convergence en loi et les différents critères équivalents de convergence en loi. n 1 9

10 1 Introduction Retour à l exemple : lorsque X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi P θ = Bθ), on a par le TLC ) n θ [0, 1], ɛ > 0, lim P X n θ + 1 θ ɛ = 2 e u2 2 du n + θ1 θ) ɛ 2π par parité de la densité de la loi N 0, 1), soit écrire les détails) θ [0, 1], ɛ > 0, lim n + P θ en notant F la fonction de répartition de la loi N 0, 1). Comme pour tout θ, θ1 θ) 1 2, θ [0, 1], ɛ > 0, P θ et on a θ [0, 1], ɛ > 0, lim inf n + P θ X n ɛ θ1 θ) n θ X n + ɛ θ1 θ) n ) = 2F ɛ) 1 ) X n ɛ θ1 θ) θ X n + ɛ θ1 θ) n n X n On obtient ainsi que [ X n ɛ 2 n ; X n + ɛ ] 2 n P θ X n ɛ 2 n θ X n + ɛ ) 2 n ɛ 2 n θ X n + ɛ ) 2 2F ɛ) 1. n est un intervalle de confiance pour θ Θ asymptotiquement de niveau de confiance 1 α, si l on a choisi ɛ de sorte que F ɛ) = 1 α/2. On note u 1 α/2 un tel ɛ. Par exemple, pour α = 0.05, on obtient u 1 α/2 1.96, donc pour avoir une préxcision de 0.01 largeur de l intervalle de confiance) il faut n Définition Soit α [0, 1]. Soit X k ) k 1 une suite de variables aléatoires réelles indépendantes et de même loi P θ. On dit que I n est un intervalle de confiance pour θ Θ asymptotiquement de niveau de confiance 1 α si et seulement si I n est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction de l observation X 1,..., X n θ Θ, lim inf n + P θ θ I n ) 1 α. 1.2 Tests Imaginons que le sondage soit fait dans un contexte de contrôle de qualité, et que θ soit la proportion de pièces défectueuses dans la production. 10

11 1.2 Tests La question à laquelle le statisticien s intéresse ici est de savoir si cette proportion est, par exemple, bien inférieure à 5%. Autrement dit, étant donné une valeur θ 0 fixée, il s agit de décider si θ θ 0 au vu du résultat du sondage. Une approche naïve pourrait être de décider que oui, en effet, θ θ 0 si l observation est telle que X n θ 0 et non, ce n est pas le cas, si l observation est telle que X n > θ 0. En réfléchissant un peu, on voit que ce n est pas la bonne méthode, car alors, si en fait θ = θ 0, et que l on devrait décider que oui, en effet, θ θ 0 et bien la probabilité de se tromper en décidant que ce n est pas le cas, est proche de 1/2 pour n grand. Par contre, il semble que décider que oui, en effet, θ θ 0 si l observation est telle que X n t et non, ce n est pas le cas, si l observation est telle que X n > t soit une bonne procédure. Toute la question est de choisir le seuil de décision t. Pour cela, on va quantifier les erreurs de décision. Il y a deux erreurs de décision possible : décider que θ θ 0 alors qu en fait θ > θ 0, et décider que θ > θ 0 alors qu en fait θ θ 0. Notons α = sup θ θ 0 P θ Xn > t ). α est appelée erreur de première espèce, elle quantifie la probabilité maximum de l erreur que l on fait en décidant que θ > θ 0 alors qu en fait θ θ 0. Si l on note maintenant β = sup θ>θ 0 P θ Xn t ), β est appelée erreur de deuxième espèce, elle quantifie la probabilité maximum de l erreur que l on fait en décidant que θ θ 0 alors qu en fait θ > θ 0. On souhaite choisir le seuil t de sorte que ces deux erreurs soient petites. Proposition Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P θ = Bθ). Alors, pour t fixé, la fonction θ P θ Xn > t ) est croissante, et pour toute valeur θ 0, pour tout t, sup θ θ0 P θ Xn > t ) + sup θ>θ0 P θ Xn t ) = 1. Preuve : Soient U 1,..., U n des variables aléatoires réelles indépendantes et de même loi uniforme sur [0, 1]. Pour tout θ [0, 1], 1 U1 θ est de loi Bθ), et donc P θ Xn > t ) ) 1 n = P 1 Ui θ > t. n Mais θ 1 Ui θ est une fonction croissante, donc θ P 1 n n 1 U i θ > t ) est aussi une fonction croissante. Donc son maximum pour θ [0, θ 0 ] est atteint en θ 0. De même, P θ Xn t ) = 1 P 1 n n 1 U i θ > t ) est une fonction décroissante de θ, c est une fonction continue de θ car polynomiale ; l écrire!) donc son maximum pour θ ]θ 0, 1] est en θ 0. On a donc sup θ θ0 P θ Xn > t ) + sup θ>θ0 P θ Xn t ) = P θ0 Xn > t ) + P θ0 Xn t ) = 1. Comment choisir t? Si l on cherche à rendre α petit, il faut choisir t assez grand, mais alors β = 1 α ne sera pas petit. Si l on choisit t = θ 0, alors pour n grand α et β sont proches de 1/2, ce qui n est pas 11

12 1 Introduction satisfaisant dans un contexte de contrôle de qualité. Ce que l on peut faire, c est choisir t de sorte que α soit petit, et que, lorsque θ 1 > θ 0, pour θ 1 pas trop proche de θ 0 on ait sup θ>θ1 P θ Xn t ) petit. Introduisons maintenant la notion de test statistique. Définition Soient Θ 0 et Θ 1 deux sous-ensembles disjoints de Θ. Un test statistique de l hypothèse H 0 : θ Θ 0 contre l alternative H 1 : θ Θ 1 est une variable aléatoire φ fonction mesurable de l observation et à valeur dans {0, 1}. On appelle région de rejet l ensemble des valeurs de l observation pour lesquelles φ = 1. La taille du test est sup θ Θ0 E θ φ. On appelle puissance du test la fonction θ E θ φ. On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la fonction puissance, pour θ Θ 0, est majorée par α. Un test est une procédure de décision : si φ = 1, on décide H 1, on dit aussi que l on rejette H 0. Si φ = 0, on décide H 0, on dit aussi que l on accepte H 0. Reprenons l exemple. Allure de la fonction puissance, qui croit de 0 à 1 sur [0, 1]. De même que pour les intervalles de confiance, on peut parler de test asymptotiquement de niveau α si φ n ) est une suite de tests de H 0 : θ Θ 0 contre H 1 : θ Θ 1 tel que θ Θ 0, lim sup E θ φ n α. n + En utilisant le théorème de limite centrale, on voit que si l on choisit comme seuil, dans l exemple, t n = θ 0 + u 1 α θ0 1 θ 0 ) n alors le test φ n = 1 Xn tn est asymptotiquement de niveau α pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0. Aussi, en prenant θ 1 = θ u 1 α θ0 1 θ 0 ) n, on obtient θ θ 1, lim sup E θ φ n 1 α, n + soit ) θ θ 1, lim sup P θ Xn t n α. n + 12

13 2 Construction d estimateurs 2.1 Généralités On considère le modèle statistique avec l observation X, à valeurs dans X muni d une tribu A, et une famille de probabilités P θ ) θ Θ sur X, A). Si Θ R k pour un entier k, on dit que le modèle est paramétrique. Si Θ est une partie d un espace de dimension infinie par exemple : l ensemble des probabilités ayant une densité sur R), on dit que le modèle est non paramétrique. Soit g une fonction de Θ dans un ensemble Y muni d une tribu B. Un estimateur de gθ) est une variable aléatoire T X), où T est une fonction mesurable de X dans Y. On appelle biais la quantité gθ) E θ [T X)]. Rappel : on note E θ l espérance prise sour la probabilité P θ, c est à dire pour X de loi P θ ). Noter que le biais est une fonction de θ. On dit que T X) est un estimateur sans biais de gθ) si et seulement si θ Θ, E θ [T X)] = gθ). Pour évaluer la qualité d un estimateur, on introduit une fonction de perte : L : Y Y R + vérifiant : y Y, Ly, y) = 0, de sorte que Lgθ), T X)) évalue un écart entre l estimateur et la valeur cible. Parfois on suppose aussi que L est symétrique : y, y ) Y 2, Ly, y ) = Ly, y)). On appelle risque de l estimateur T X) la fonction θ E θ [Lgθ), T X))]. On cherche alors des estimateurs qui rendent ce risque petit. C est une fonction, donc il faut choisir le sens de petit, on y reviendra!). Exemples : Risque quadratique : lorsque Y = R, et Ly, y ) = y y ) 2, le risque est E θ [gθ) T X)) 2 ]. On a la décomposition biais-variance : risque quadratique=carré du biais + variance Ecrire la preuve. E θ [gθ) T X)) 2 ] = gθ) E θ [T X)]) 2 + V ar θ [T X)]. 13

14 2 Construction d estimateurs Risque de test/ de classification : lorque Ly, y ) = 1 y y, le risque est E θ [1 T X) gθ) ] = P θ T X) gθ)). Lorsque l on considère une suite d expériences statistiques, de sorte que pour tout entier n, on dispose d une observation X 1,..., X n ) et d une famille de probabilités P θ,n ) θ Θ sur X n, A n ) par exemple, à partir d une suite de variables i.i.d., de sorte que P θ,n = P n θ ), si T n X 1,..., X n )) n 1 est une suite d estimateurs de gθ), on dira que : T n est un estimateur fortement consistant de gθ) si et seulement si θ Θ, lim T nx 1,..., X n ) = gθ) P θ p.s.. n + On a alors pu définir, pour tout θ, P θ probabilité sur X N de sorte que si la suite X n ) n 1 est de loi P θ, X 1,..., X n ) est de loi P θ,n ). T n est un estimateur consistant de gθ) si et seulement si θ Θ, T n X 1,..., X n ) n + gθ) en P θ probabilité, autrement dit, si Y R m et si est une norme par exemple la norme euclidienne) sur R m, θ Θ, ɛ > 0, lim P θ,n T n X 1,..., X n ) gθ) ɛ) = 0. n + Remarque : par abus de notation, j utiliserai T n pour T n X 1,..., X n ) comme fait ci-dessus). 2.2 Méthode des moments. Estimation empirique On considère X n ) n 1 une suite de variable aléatoires indépendantes identiquement distribuées sur X. Soit φ : X R une fonction telle que pour tout θ Θ, φ L 1 P θ ). Soit g : Θ R donnée par θ Θ, gθ) = E θ [φx)]. L estimateur de gθ) obtenu par la méthode des moments est T n = 1 n n φx i ). Alors, T n est un estimateur sans biais et consistant de gθ). Exemple : le sondage vu au premier chapitre. 14

15 2.3 Maximum de vraisemblance Plus généralement, on parle de méthode des moments lorsque l on construit un estimateur avec des moyennes empiriques. Exemple du modèle gaussien : Soit X n ) n 1 une suite de variable aléatoires indépendantes identiquement distribuées sur R, de loi N m, σ 2 ). Le modèle est alors, pour la loi de X 1, P θ ) θ Θ avec θ = m, σ 2 ) et Θ = R R +,. Un estimateur de θ obtenu par la méthode des moments est θ n = m n, σ 2 n) avec m n = 1 n n X i, σ 2 n = 1 n n Xi 2 1 n ) 2 n X i. Il est consistant dire pourquoi). Est-il sans biais? calculer le biais). La méthode des moments est une méthode qui utilise donc des moments calculés avec la mesure empirique P n, qui est une mesure de probabilité aléatoire qui met en chaque X i la masse 1/n : P n = 1 n δ Xi. n Dans l exemple précédent, m n = xdp n x), σ 2 n = x 2 dp n x) xdp n x)) 2. Tous les moments empiriques sont des estimateurs consistants de l espérance de la fonction, la méthode fonctionne car P n est un bon estimateur de P θ. En quel sens? Au moins en ce qui concerne la fonction de répartition, c est ce que l on verra au prochain chapitre voir Théorème de Glivenko-Cantelli). 2.3 Maximum de vraisemblance On dit que le modèle statistique est un modèle dominé si il existe une mesure positive µ su X, A) telle que : pour tout θ Θ, P θ est absolument continue par rapport à µ. Se rappeler la définition de absolument continue. En ce cas, pour tout θ Θ, il existe une fonction mesurable f θ de X dans R telle que P θ = f θ µ, c est la densité de P θ par rapport à µ. On appelle alors vraisemblance la variable aléatoire fonction de θ : Lθ) = f θ X), et log-vraisemblance la variable aléatoire fonction de θ : lθ) = log f θ X). 15

16 2 Construction d estimateurs Pour estimer θ, on peut choisir la valeur de θ qui rend la densité maximale en la valeur de l observation, c est ce que l on appelle l estimateur du maximum de vraisemblance : θ = argmax θ Θ Lθ) = argmax θ Θ lθ). Se posent alors les questions d existence et d unicité. Lorsque le modèle statistique est celui de n variables aléatoires indépendantes X 1,..., X n de loi P θ, θ Θ, si le modèle est dominé par la mesure µ), alors le modèle P n θ ) θ Θ est dominé par µ n. Si pour tout θ Θ, P θ = f θ µ, alors la vraisemblance est et la log-vraisemblance est : L n θ) = l n θ) = n f θ X i ), n log f θ X i ). Exemples Modèle de Bernoulli. Soit X 1,..., X n ) i.i.d. de loi de Bernoulli Bθ), θ [0, 1]. La loi de Bernoulli est absolument continue par rapport à µ = δ 0 + δ 1. Une façon pratique d écrire la vraisemblance est Lθ) = θ X 1 θ) 1 X. On a alors en notant S n = n X i : l n θ) = S n log θ + n S n ) log1 θ). Le maximum de vraisemblance est θ n = S n /n. Le démontrer). Modèle Gaussien. Soit X 1,..., X n ) i.i.d. de loi N m, σ 2 ), m R, σ 2 R +,. La loi gaussienne N m, σ 2 ) est absolument continue par rapport à Lebesgue, de densité 1 σ 2π e x m)2 /2σ 2, donc l n m, σ 2 ) = n X i m) 2 2σ 2 n 2 log2πσ2 ). Le maximum de vraisemblance est m n = 1 n n X i, σ 2 n = 1 n n Xi 2 1 n ) 2 n X i. Le démontrer). Il est clair que si l on change de mesure dominante, la vraisemblance change le voir sur les deux exemples). Que se passe-t-il alors pour l estimateur du maximum de vraisemblance? On peut voir sur les deux exemples que, en changeant de mesure dominante, on ne change pas l estimateur du maximum de vraisemblance Le faire! Et voir ce qui change et ce qui ne change pas!). En fait, c est un résultat général, qui justifie la notion intrinsèque) d estimateur du maximum de vraisemblance. 16

17 2.3 Maximum de vraisemblance Proposition Si un modèle X, A, P θ ) θ Θ ) est dominé, alors il existe une probabilité Q qui domine le modèle et qui vérifie A A, QA) = 0 θ Θ, P θ A) = 0. On dit alors que Q est une dominante privilégiée du modèle. Remarque : il n y a pas unicité de la dominante privilégiée, toute autre mesure de probabilité équivalente à Q est une dominante privilégiée. Preuve : Soit µ une mesure dominante. On commence par construire une probabilité P équivalente à µ et qui domine le modèle. La mesure µ est sigma-finie, donc il existe une collection au plus dénombrable d ensembles mesurables A n, n N, qui forme une partition de X et tels que pour tout n, µa n ) < +. On choisit λ n ) n N des réels tels que n N λ n = 1 et tels que n N, µa n ) > 0 λ n > 0. On pose P telle que dp dµ x) = λ n µa n ) 1 A n x). n N On a pour tout ensemble mesurable A, P A) = n N λ n µa A n ) µa n ) ce qui montre que P est une probabilité absolument continue par rapport à µ, et que si P A) = 0, alors pour tout n N, µa A n ) = 0, donc µa) = 0 et µ est absolument continue par rapport à P. Du coup aussi, pour tout θ Θ, P θ est absolument continue par rapport à P. Notons maintenant F θ = dp θ /dp. L ensemble A θ = {F θ > 0} est mesurable. Soit C la collection des réunions au plus dénombrables d ensembles A θ, et posons M = sup P C). C C On a M 1. Soit C n une suite d éléments de C tels que P C n ) M 1/n. Soit C = n 1 C n. C C, et P C ) M, donc P C ) = M. Comme C C, il existe une collection au plus dénombrable θ j ) j J d éléments de Θ tels que C = j J A θj. Soit ensuite λ j ) j J des réels strictement positifs tels que j J λ j = 1, et soit Q la mesure telle que dq dp x) = λ j F θj x). j J On a pour tout ensemble mesurable A, QA) = j J λ jp θj A), donc Q est une probabilité telle que si A est tel que, pour tout θ Θ, P θ A) = 0, alors QA) = 0. Il s agit 17

18 2 Construction d estimateurs maintenant de montrer la réciproque. Démontrons tout d abord que θ Θ, P A θ ) = P A θ C ). En effet, si ce n était pas le cas, pour un θ de Θ, on aurait P A θ C ) c ) > 0, donc P A θ C ) > M : contradiction. Soit maintenant A tel que QA) = 0. Pour tout θ Θ, on a P A θ C ) c ) = 0, et donc par domination P θ A θ C ) c ) = 0, et donc P θ A) = P θ A C ) = F θ dp = A C F θ dp. A A θ C On en déduit que P θ A) = F θ dp F θ dp = A A θ j J A θj ) j J A A θ A θj j J A A θ A θj Mais comme QA) = 0, on a pour tout j J, P θj A) = 0, donc A A θ A θj et donc P θ A) = 0. F θ F θj dp θj. F θ F θj dp θj = 0, Corollaire L estimateur du maximum de vraisemblance ne dépend pas du choix de mesure dominante. Preuve : Soient µ une mesure dominante. Notons Lθ) la vraisemblance obtenue avec µ. Soit Q une dominante privilégiée. Alors Q est absolument continue par rapport à µ, et l on a, en notant L Q θ) = dp θ dq X) : Lθ) = L Q θ) dq dµ X). Donc θ maximise Lθ) si et seulement si θ maximise L Q θ), qui est une quantité qui ne dépend pas de µ. On va maintenant justifier l usage du maximum de vraisemblance dans une situation très simple et en considérant le risque de test. On se place dans la situation où Θ est réduit à deux points, que l on peut noter Θ = {0, 1}. Le modèle est alors réduit à deux probabilités P 0 et P 1, et c est donc un modèle dominé. Une dominante privilégiée est µ = P 0+P 1 2. Alors : Proposition L estimateur du maximum de vraisemblance minimise la moyenne du risque de test en 0 et en 1. Preuve : On considère donc la fonction de perte 1 t θ, et pour tout estimateur T le risque RT, θ) = P θ T θ). Soit alors ST ) la moyenne 1 2 RT, 0) + RT, 1)). On a, 18

19 2.3 Maximum de vraisemblance comme T X) {0, 1}, ST ) = 1 2 { T x)f 0 x)dµx) + } 1 T x))f 1 x)dµx) = T x)f 0 x) f 1 x))dµx). 2 Soit θ l estimateur du maximum de vraisemblance. On a alors ST ) S θ) = 1 T x) 2 θx))f 0 x) f 1 x))dµx). Mais si f 0 x) f 1 x) < 0, alors θx) = 1, et T x) θx) 0. Et si f 0 x) f 1 x) > 0, alors θx) = 0, et T x) θx) 0. Donc dans tous les cas, T x) θx))f 0 x) f 1 x)) 0, et donc ST ) S θ) 0. On va calculer la moyenne du risque pour l estimateur du maximum de vraisemblance, et pour cela introduire la distance en variation. Définition Si P et Q sont deux probabilités sur X, A), la distance en variation totale entre P et Q est définie par d P ; Q) = sup P A) QA). A A Ceci définit une distance sur l ensemble des probabilités sur X, A) En effet, on vérifie la symétrie, le fait que si d P ; Q) = 0, alors P = Q, et l inégalité triangulaire. On a alors Proposition Si µ domine P et Q, alors la distance en variation totale entre P et Q vérifie d P ; Q) = 1 dp 2 dµ dq dµ = P A) QA) L 1 µ) où A = {x : dp dq dµ x) dµ x)}. La distance en variation totale entre P et Q est alors notée P Q V T. Remarque : au passage, on a montré que est une quantité qui ne dépend pas de la mesure dominante choisie. Preuve : Tout d abord, en posant dp dµ dq dµ L 1 µ) A = {x : dp dq x) dµ dµ x)}, 19

20 2 Construction d estimateurs on a Par ailleurs, donc dp dµ dq dµ = L 1 µ) A A dp dµ dq ) dp dµ dµ A c dµ dq ) dµ. dµ dp dµ dq ) dp dµ + dµ A c dµ dq ) dµ = 0, dµ dp dµ dq dµ = 2 L 1 µ) A dp dµ dq ) dµ. dµ Puis on a par définition P A) QA) d P ; Q). Maintenant, si B A, P B) QB) = P B A) + P B A c ) QB A) QB A c ) dp = A B dµ dq ) dp dµ + dµ A c B dµ dq ) dµ dµ dp A B dµ dq ) dµ dµ dp dµ dq ) dµ = P A) QA), dµ et de la même manière P B) QB) donc pour tout B A, A A c dp dµ dq ) dµ = [P A) QA)], dµ P B) QB) P A) QA), et en prenant le supremum en B A on obtient dp, Q) = P A) QA). On obtient maintenant, dans le cadre précédent : Proposition Si Θ = {0, 1}, la valeur minimale de la moyenne du risque de test en 0 et en 1, atteinte par le maximum de vraisemblance, vaut P 0 P 1 V T ). 20

21 3 Fonction de répartition et théorème de Glivenko-Cantelli Soit X une variable aléatoire réelle. Définition La fonction de répartition F X de X est la fonction de R dans [0, 1] donnée par t R, F X t) = P X t). On a les propriétés suivantes. Rappeler les preuves). F X est une fonction croissante, continue à droite, telle que et lim F Xt) = 0 t lim F Xt) = 1; t + Si on note F X t ) la limite à gauche de F X au point t dire pourquoi elle existe), F X t ) = P X < t) et F X t) F X t ) = P X = t). La fonction de répartition caractérise la loi. Autrement dit, si deux variables aléatoires ont même fonction de répartition, alors elles ont même loi. Par ailleurs, la première propriété est caractéristique des fonctions de répartition. Proposition Si F est une fonction de R dans [0, 1] qui est croissante, continue à droite, telle que lim t F t) = 0 et lim t + F t) = 1, alors il existe une variable aléatoire réelle X telle que F est la fonction de répartition de X. Rappeler la preuve) Définition Toute fonction de répartition F admet une inverse généralisée ou pseudo-inverse) définie par : u ]0, 1[, F u) = inf {x R : F x) u}. On dit aussi que F est la fonction quantile et que F u) est le quantile de u. On a alors : Proposition Pour tout x R et tout u ]0, 1[, u F x) F u) x. 21

22 3 Fonction de répartition et théorème de Glivenko-Cantelli F est une fonction croissante qui vérifie et u ]0, 1[, F F u)) u, x R, si F x) ]0, 1[, F F x)) x. Preuve :Commencer par regarder des exemples de cas F discontinue et F avec un plateau. Soit u ]0, 1[, on note I = {x R : F x) u}. Comme u < 1, I est non vide. Sinon on aurait pour tout réel x, P X x) < u < 1). Par ailleurs comme F est croissante, si x I et si y x, alors y I. Donc I est un intervalle semi-infini à droite, notons x 0 sa borne inférieure. I = x 0, + [. Montrons alors que x 0 I. En effet, pour tout t > 0, x 0 + t I, donc F x 0 + t) u et comme F est continue à droite, F x 0 ) u. Donc I = [x 0, + [ et donc F u) = x 0. L équivalence de la proposition s en déduit. La croissance de F en découle. Puis en prenant x = F u) on obtient la première inégalité, et en prenant u = F x) on obtient la deuxième inégalité. La fonction quantile permet de simuler une variable aléatoire de fonction de répartition connue à partir d une variable aléatoire de loi uniforme sur [0, 1]. Théorème Si U est une variable aléatoire de loi uniforme sur [0, 1], alors F U) est une variable aléatoire de fonction de répartition F. Preuve : En effet, pour tout réel x, en utilisant la proposition précédente on a P F U) x ) = P U F x)) = F x). Soit maintenant X n ) n 1 une suite de variables aléatoires indépendantes de même loi que X. On note P n la mesure empirique et F n la fonction de répartition empirique donnée par : t R, F n t) = 1 n 1 Xi t = 1 x t dp n x). n On a alors : Théorème Théorème de Glivenko-Cantelli). La fonction de répartition empirique converge P-presque sûrement uniformément vers la fonction de répartition, i.e. P p.s., lim sup F n t) F t) = 0 n + t R Preuve : Soit N un entier strictement positif. ) Notons pour 1 j N 1, x j,n = F j N, et x 0,N = et x N,N = +. On convient F n x 0,N ) = 0, F x 0,N ) = 0, F n x N,N ) = 1 et F x N,N ) = 1. On a alors pour tout j tel que 0 j N 1, t [x j,n ; x j+1,n [, F n x j,n ) F n t) F n x j+1,n ) et F x j,n ) F t) F x j+1,n ). 22

23 Donc t [x j,n ; x j+1,n [, F n x j,n ) F x j+1,n ) F n t) F t) F n x j+1,n ) F x j,n ). ) Comme x j,n = F j N, on a F x j,n ) j N F x j,n) pour tout j vérifier que aussi pour j = 0 et j = N), de sorte que t [x j,n ; x j+1,n [, F n x j,n ) F x j,n ) 1 N F nt) F t) F n x j+1,n ) F x j+1,n )+ 1 N. Donc sup F n t) F t) 1 t R N + max { F nx j,n ) F x j,n ) ; F n x j,n ) F x j,n ) }. 1 j N 1 Par la loi forte des grands nombres, pour tout j, F n x j,n ) F x j,n ) tend vers 0 P -p.s. et F n x j,n ) F x j,n ) tend vers 0 P -p.s. Si pour tout N on note A N l événement A N = lim sup sup F n t) F t) 1 ) n + t R N on a donc P A N ) = 1 préciser comment cela découle des LFGN citées précédemment). Alors, P N 1 A N ) = 1, et ) A N lim F n t) F t) = 0. N 1 sup n + t R On va maintenant s intéresser au cas où la fonction de répartition F est continue. Proposition Si F est continue, pour tout u ]0, 1[, F F u)) = u. Si X est de fonction de répartition F continue, alors F X) est de loi uniforme sur [0, 1]. Preuve : Reste à voir qu alors F F u)) u. Pour tout δ > 0, on a F u) δ < F u), donc, par contraposition de l équivalence de la proposition 3.0.6, F F u) δ) < u. Comme F est continue, on peut passer à la limite quand δ tend vers 0 et obtenir F F u)) u. Si maintenant X est de fonction de répartition F continue, X a même loi que F U) où U est de loi uniforme sur [0, 1], donc F X) a même loi que F F U)) = U. On a aussi : Théorème Si F est une fonction de répartition continue, si X 1,..., X n sont n variables aléatoires indépendantes de fonction de répartition F et si F n est la fonction de répartition empirique, alors la loi de ne dépend pas de F. D n = sup F n t) F t) t R 23

24 3 Fonction de répartition et théorème de Glivenko-Cantelli Preuve : Soit U 1,..., U n des variables aléatoires indépendantes de loi uniforme sur [0, 1]. Alors X 1,..., X n ) a même loi que F U 1 ),..., F U n )), et donc D n a même loi que D 0 n = sup t R n 1 F U i ) t F t). Mais on a alors, comme l événement F U i ) t) est égal à l événement F t) U i ) Dn 0 n = sup 1 t R Ui F t) F t) et comme F est continue croissante sur R, avec limite 0 en et limite 1 en +, F R) = 0, 1) l intervalle est ouvert ou semi-ouvert ou fermé), donc en posant u = F t), Dn 0 n = sup 1 Ui u u. u ]0,1[ Application : construction de bandes de confiance pour F : La loi de D 0 n peut être tabulée, donc si d n,α est tel que P D 0 n d n,1 α ) α, alors si F c désigne l ensemble des fonctions de répartition continues, on a, en utilisant le théorème précédent, F F c, P F F n F d n,1 α ) 1 α et l ensemble des fonctions comprises, pour tout t, entre F n t) d n,1 α et F n t) + d n,1 α est une bande de confiance pour F de niveau de confiance 1 α. 24

25 4 Construction de tests Se rappeler la notion de test, avec la définition La méthode indiquée par l exemple du sondage est : choisir une statistique de test, c est-à-dire une variable aléatoire, dont la loi est différente selon que l hypothèse nulle H 0 est vraie ou selon que c est l hypothèse alternative H 1 qui est vraie, choisir une région de rejet qui est conforme à ce changement qualitatif, et la calibrer en fonction du niveau souhaité revoir cela avec l exemple du sondage). 4.1 Test du rapport de vraisemblance Généralités Soit un modèle statistique dominé X, A, P θ ) θ Θ ). Soient Θ 0 et Θ 1 deux sous-ensembles disjoints de Θ. On veut tester H 0 : θ Θ 0 contre H 1 : θ Θ 1. Le test du rapport de vraisemblance consiste à prendre la décision en fonction de la valeur de la vraisemblance sur chacun des ensembles définissant l hypothèse nulle Θ 0 ) et l hypothèse alternative Θ 1 ). Soit donc µ une mesure dominante, et pour tout θ Θ, f θ la densité de P θ par rapport à µ. On note Lθ) la vraisemblance. Soit T X) = sup θ Θ 1 Lθ) sup θ Θ0 Lθ). Le test du rapport de vraisemblance est de la forme φx) = 1 T >s pour un seuil s fixé. Si on se fixe un niveau α ]0, 1[, alors on définit { } C α = inf C > 0 : sup P θ T > C) α. θ Θ 0 On a : Proposition Pour tout α ]0, 1[, si l ensemble { C > 0 : sup θ Θ0 P θ T > C) α } est non vide, alors le test du rapport de vraisemblance 1 T >Cα est de niveau α. Preuve : Soit θ Θ 0. Pour tout C > C α, on a P θ T > C) α. Comme la fonction C P θ T > C) est continue à droite, on a en faisant tendre C vers C α à droite, P θ T > C α ) α. Comme ceci est vrai pour tout θ Θ 0, on en déduit que le test du 25

26 4 Construction de tests rapport de vraisemblance 1 T >Cα est de niveau α. Exemple : modèle binomial et test de H 0 : θ θ 0 contre H 1 : θ > θ 0. Montrer que le test du rapport de vraisemblance prend la forme 1 Sn s n,α pour un s n,α bien choisi Optimalité dans le cas de deux hypothèses simples On considère le cas où Θ 0 = {θ 0 } et Θ 1 = {θ 1 }, θ 0 θ 1. On note f 0 resp. f 1 ) la densité de P θ0 resp. P θ1 ) par rapport à la mesure dominante. Le test du rapport de vraisemblance est de la forme φx) = 1 f1 X)>sf 0 X) et le seuil s est choisi en fonction du niveau souhaité α du test. La taille du test est P θ0 f 1 X) > sf 0 X)), sa puissance est P θ1 f 1 X) > sf 0 X)). On a le résultat d optimalité suivant. Proposition Si le test du rapport de vraisemblance est de taille α alors il est plus puissant que n importe quel test de niveau α de H 0 : θ = θ 0 contre H 1 : θ = θ 1. Preuve : Soient s et α tels que P θ0 f 1 X) > sf 0 X)) = α. Posons φx) = 1 f1 X)>sf 0 X). Soit ψ un test de niveau α de θ = θ 0 contre H 1 : θ = θ 1. On a E θ1 [φ ψ] se θ0 [φ ψ] = f 1 x) sf 0 x)) φx) ψx)) dµx) 0 car la fonction f 1 x) sf 0 x)) φx) ψx)) est toujours positive ou nulle le voir en distinguant les différents cas de signe possibles pour f 1 x) sf 0 x)). Donc E θ1 [φ] E θ1 [ψ] s E θ0 [φ] E θ0 [ψ]) 0 s α E θ0 [ψ]) car φ est de taille α donc E θ0 [φ] = α) et ψ est de niveau α donc E θ0 [ψ] α). Reprendre le cas du test de rapport de vraisemblance pour le modèle binomial. 4.2 Test de Kolmogorov-Smirnov On considère le modèle statistique R n, BR n ), P n F ) F F), où F est l ensemble des fonctions de répartition sur R. Si F 0 est une fonction de répartition fixée, on veut tester H 0 : F = F 0 contre H 1 : F F 0. L idée est de se baser sur la fontion de répartition empirique F n. On a alors : 26

27 4.2 Test de Kolmogorov-Smirnov Théorème Si F 0 est continue, le test est de niveau α. φ = 1 Fn F 0 d n,1 α On a déjà vu que si F 0 est continue, la loi de F n F 0 sous P n F 0 ne dépend pas de F 0. La preuve du théorème est alors immédiate. On appelle ce test test de Kolmogorov- Smirnov et D n = F n F 0 statistique de Kolmogorov. Le calcul de D n est simple. On a le démontrer) : { } i 1 D n = max 2 i n n F 0X i 1) ) ; i 1 n F 0X i) ) F 0 X 1) ) 1 F 0 X n) ) en notant X i) ) 1 i n la statistique de rang de X i ) 1 i n c est-à- dire X 1) X 2) X n). La loi de D n sous P n F 0 est continue. Le démontrer en l écrivant avec la loi uniforme). Si F F 0, on a pour tout t, F n t) F 0 t) = F n t) F t) + F t) F 0 t), donc F n F 0 F F 0 F n F et donc, si F est continue et F F 0 2d n,1 α 1 E F [φ] P F F n F F F 0 d n,1 α ) α, c est-à-dire que si F est continue et F F 0 2d n,1 α, la puissance en F est 1 α. On peut montrer que d n,1 α est d ordre 1/ n quand n tend vers l infini en montrant que sous F 0 continue, n F n F 0 converge en loi). On peut chercher à comparer la loi inconnue à F 0 en précisant sa position par rapport à F 0. Par exemple, si l on veut tester H 0 : t, F t) F 0 t) contre H 1 : t, F t) > F 0 t), on utilisera la statistique de Smirnov D n + = sup F n t) F 0 t)). t R On peut montrer que si F 0 est continue, sa loi ne dépend pas de F 0, et peut donc être tabulée. On peut donc choisir d + n,1 α tel que le test 1 D n + d + soit de niveau α. n,1 α Démontrer tout cela, et comment calculer D n + avec la statistique de rang). Noter que lorsque pour tout t, F t) F 0 t), l observation a tendance à être plus grande sous P F que sous P F0. 27

28 4 Construction de tests 4.3 Test du chi-deux d ajustement On vient de voir un test d ajustement pour décider si une loi est une loi donnée continue. Il s agit d un test non paramétrique. Que faire pour tester la même chose pour des lois discrètes? On va y répondre dans le cas paramétrique. On se place dans le cas où X = {1,..., k}. On note P l ensemble des probabilités p = p1),..., pk)) sur X, et P p la loi sur X induite par p. Le modèle statistique est alors X n, A, P n p ) p P ). On se donne p 0 P tel que p 0 j) > 0, j = 1,..., k, et on veut tester H 0 : p = p 0 contre H 1 : p p 0. On dispose de X 1,..., X n. Pour tout j = 1,..., k, on note N j = n 1 Xi =j la statistique de comptage remarquer qu elle dépend de n et X 1,..., X n même si la notation ne l indique pas). On se dit que N j n est un bon estimateur de pj), donc que pour tester p = p 0 contre p p 0 on pourrait se baser sur les différences N j n p 0j). On pose : k N j np 0 j)) 2 Z n =. np 0 j) j=1 On va avoir besoin de lois du Chi-deux. Définition Soit m un entier. La loi du Chi-deux à m degrés de liberté est la loi de la somme des carrés de m variables aléatoires indépendantes de loi N 0, 1). On note cette loi χ 2 m). On a alors : Théorème Sous P p0, Z n converge en loi quand n tend vers + vers une variable aléatoire de loi χ 2 k 1) loi du Chi-deux à k 1 degrés de liberté). On démontrera ce théorème au chapitre suivant. A partir de ce théorème, on peut construire un test qui soit asymptotiquement de niveau α et de puissance 1 Le faire! Démontrer les résultats de niveau et puissance!). 4.4 Lien entre tests et régions de confiance Lorsqu on a construit des tests, on est souvent parti du même point de départ que lorsqu on a construit des régions de confiance ; on est parti d un estimateur de ce qui est testé ou estimé, et fait ensuite des calculs analogues. Y a-t-il quelque chose de général 28

29 4.4 Lien entre tests et régions de confiance qui relie les deux procédures statistiques? Dire la définition d une région de confiance RX) pour θ, pas forcément un intervalle de R. Proposition Soit RX) une région de confiance pour θ de niveau de confiance 1 α. Alors, pour tout θ 0 Θ, φx) = 1 θ0 / RX) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0 Preuve : Fixons θ 0 Θ. On a alors P θ0 θ 0 RX)) 1 α puisque RX) une région de confiance pour θ de niveau de confiance 1 α, et donc E θ0 [φx)] = P θ0 θ 0 / RX)) = 1 P θ0 θ 0 RX)) α. Proposition On suppose que pour tout θ 0 Θ, φ θ0 X) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0, et que la fonction de Θ X dans R qui, à tout θ, X) associe φ θ X) est mesurable. Alors RX) = {θ Θ : φ θ X) = 0} est une région de confiance pour θ de niveau de confiance 1 α. Preuve : Soit θ 0 quelconque fixé dans Θ. Puisque φ θ0 X) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0, on a E θ0 [φx)] α, soit P θ0 φ θ0 X) = 0) 1 α. Autrement dit, P θ0 θ 0 RX)) 1 α. Ceci étant vrai pour tout θ 0 Θ cela prouve que RX) est une région de confiance pour θ de niveau de confiance 1 α. Exemples : Modèle binomial : construire un test de H 0 : θ = θ 0 contre H 1 : θ θ 0 à partir de la région de confiance vue en introduction. Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de répartition. A partir du test du chi-deux d ajustement, construire une région de confiance pour la probabilité p 1,..., p k ) dans le modèle multinomial. 29

30

31 5 Vecteurs gaussiens Ce qui suit sont surtout des rappels! Définition La loi gaussienne N m, σ 2 ), où m R et σ 2 R + est la probabilité de densité par rapport à Lebesgue ) 1 σ 2π exp x m)2 2σ 2. Un vecteur aléatoire X à valeurs dans R k est un vecteur gaussien si et seulement si toute combinaison linéaire de ses coordonnées est une variable aléatoire rélle gaussienne, autrement dit, si et seulement si, pour tout U R k, il existe m R et σ 2 R + tels que U T X soit de loi N m, σ 2 ). Si X est un vecteur gaussien, on peut alors définir EX) le vecteur des espérances des coordonnées de X, et V arx) la matrice k k de variance de X. Rappeler sa définition). La fonction caractéristique φ du vecteur gaussien d espérance m R k et de matrice de variance Σ est donnée par [ t R k, φ t) = exp im T t 1 ] 2 tt Σt. Rappeler la preuve.) En particulier, la loi d un vecteur gaussien est complètement déterminée par son espérance m R k et sa matrice de variance Σ, on note alors la loi N k m; Σ). Si Σ est inversible, la densité par rapport à Lebesgue sur R k est 1 2π) k/2 detσ) exp 1 ) 2 x m)t Σ 1 x m). Proposition Si X est un vecteur gaussien de loi N k m; Σ) et si A est une matrice p k, alors AX est un vecteur gaussien de loi N p Am; AΣA T ). Rappeler la preuve.) Proposition Si X est un vecteur gaussien et si sa variance est diagonale par blocs, alors les blocs de coordonnées correspondants forment des vecteurs gaussiens indépendants. 31

32 5 Vecteurs gaussiens Rappeler la preuve.) Définition Un n-échantillon gaussien est un vecteur gaussien de loi N n 0; Id), c est-à-dire un vecteur dont les n composantes sont des variables aléatoires indépendantes de loi gaussienne centrée réduite. Proposition Lorsqu on fait un changement de base orthonormée, un n-échantillon gaussien reste un n-échantillon gaussien. Rappeler la preuve.) Théorème Théorème de Cochran). Soit X un n-échantillon gaussien, et soient E 1,..., E p des sous-espaces vectoriels de R n orthogonaux, dont la somme est égale à R n. Notons Π j la projection orthogonale de R n sur E j, j = 1,..., p et k j = dime j ), j = 1,..., p. Alors les vecteurs Π j X), j = 1,..., p, sont des vecteurs gaussiens indépendants, et pour j = 1,..., p, Π j X) 2 suit la loi χ 2 k j ). Preuve : Soit e i,j ) 1 i p,1 j ki la base orthonormée de R n telle que, pour tout i = 1,..., p, e i,j ) 1 j ki est une base orthonormée de E i. Soit A la matrice de changement de base associée, de sorte que si Y = AX, Y 1,..., Y n sont les coordonnées de X dans la nouvelle base. Par les deux propositions qui précèdent, Y est un n-échantillon gaussien. Par ailleurs, pour tout i = 1,..., p, en notant k 0 = 0 : k i Π i X) = Y k k i 1 +je i,j. j=1 Donc k i Π i X) 2 = j=1 Y 2 k k i 1 +j et Π i X) 2 suit donc la loi χ 2 k i ). Par ailleurs, Π i X)) 1 i p est un vecteur gaussien de matrice de variance diagonale, donc les Π j X), j = 1,..., p, sont des vecteurs gaussiens indépendants Théorème Théorème de limite centrale multidimensionnel). Soit X n ) n 1 une suite de variables aléatoires à valeurs dans R k, indépendantes et de même loi de variance finie. Alors ) 1 n n X i EX 1 ) n converge en loi vers une variable U de loi N k EX 1 ), V arx 1 )). 32

33 Rappeler la preuve à partir du TLC unidimensionnel.) Preuve du Théorème : On a X 1,..., X n i.i.d. de loi P p0 sur {1,..., k}. Pour j = 1,..., k, on note n N j = et Z n = 1 Xi =j k N j np 0 j)) 2. np 0 j) j=1 Soit W n le vecteur de R k de j-ième coordonnée ) 1 N j np 0 j). n p0 j) Notons D le vecteur de R k de j-ième coordonnée p 0 j). Par le TLC multidimensionnel, le vecteur W n converge en loi sous P p0 vers une variable U de loi N k 0, Id DD T ). Donc, par image continue, Z n = W n 2 converge en loi sous P p0 vers U 2. Maintenant, A = Id DD T est la matrice de projection orthogonale sur l orthogonal de la droite engendrée par D. Donc AA T = A, et U a même loi que AV, où V est de loi N k 0, Id). Donc U 2 a même loi que AV 2, qui est de loi χ 2 k 1) d après le Théorème de Cochran. 33

34

35 6 Modèle linéaire gaussien 6.1 Définition et exemples Le modèle linéaire gaussien est R n, BR n ), P θ ) θ Θ ), où θ = m, σ 2 ), P θ = N n m, σ 2 Id), et Θ = V R +, V étant un sous-espace vectoriel de R n. Si l observation est Y, on peut écrire ou encore Y = m + ε, m V, ε N n 0, σ 2 Id), Y i = m i + ε i, i = 1,..., n, ε i, i = 1,..., n, i.i.d. de loi N 0, σ 2 ). Remarquer qu ici, les ε i ne sont pas observés, et que les Y i n ont pas même loi. Dans ce modèle, il y a deux parties : La modélisation de la variance : ε N n 0, σ 2 Id), les ε i ont même variance, ils sont indépendants, ils sont gaussiens. La modélisation de l espérance : choix du sous-espace vectoriel V tel que m V modèle linéaire). Une façon d écrire la modélisation de l espérance est d écrire que V est l image de X pour une matrice X n p, et donc qu il existe β R p tel que m = Xβ. Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l on écrit le modèle Y = Xβ + ε, β R p, ε N n 0, σ 2 Id). Ici, X est connu car V est connu), et l on pose θ = β, σ 2 ), P θ Θ = R p R +. = N n Xβ, σ 2 Id), Exemples : Pour chaque exemple, expliciter le modèle sous ses deux formes, avec V et avec X. 1. Régression : On a des mesures Y i, on veut les expliquer par des variables connues. Par exemple : par le temps, si les mesures sont faites à des temps t i, on peut chercher à ajuster une parabole : Y i = a + bt i + ct 2 i + ε i, i = 1,..., n. 35

36 6 Modèle linéaire gaussien Ou bien par des données socio-culturelles : Y i = a 0 + a 1 X 1) i voir en quoi le modèle est linéaire) a k X k) i + ε i, i = 1,..., n. 2. Analyse de la variance à un facteur : n individus, p traitements, n i individus soumis au traitement i, n = n n p, Y i,j : efficacité du traitement i sur le j-ième individu traité par i : Y i,j = µ i + ε i,j, i = 1,..., p, j = 1,..., n i. Etude statistique : Ce que l on va étudier : Les questions statistiques concernent θ, c est à dire m ou β et σ 2. On va donc s intéresser à l estimation des paramètres, et à des tests sur ces paramètres. Ce que l on ne va pas étudier : En choisissant pour analyser le problème posé le modèle linéraire gaussien, il convient de vérifier que l on n a pas eu tort de choisir ce modèle. Il s agit de construire des tests de validation du modèle, par exemple pour tester que : Les ɛ i ont même variance Les ɛ i sont indépendants Les ɛ i sont gaussiens. Il faut noter que si le modèle est validé, cela ne signifie pas qu il est vrai : un modèle est toujours faux!, cela signifie que la variabilité de l expérience est correctement prise en compte. En statistique, une question centrale est celle du choix de modèle : si on choisit un modèle trop compliqué, on a beaucoup de paramètres à estimer, et on cumule beaucoup d erreurs d estimation, si on choisit un modèle trop simple, on reflète mal l expérience. Le choix de modèle est un véritable sujet de mathématique! 6.2 Estimation des paramètres Estimation de m et σ 2 Le modèle est dominé. On peut écrire la vraisemblance et démontrer que l estimateur du maximum de vraisemblance est donné par le démontrer!) : m = Π V Y ), σ2 = 1 n Y Π V Y ) 2, où Π V est la projection orthogonale sur V. Par Cochran, on obtient facilement les lois, et que E [ Y Π V Y ) 2] = n p, avec p = dimv ), donc on préfère choisir l estimateur sans biais σ 2 = 1 n p Y Π V Y ) 2 On a 36

37 6.2 Estimation des paramètres Théorème L estimateur du maximum de vraisemblance m suit la loi N n m, σ 2 Π V ), il est indépendant de σ 2, et n p) σ 2 /σ 2 suit la loi χ 2 n p). Preuve : par le théorème de Cochran écrire la preuve.) Estimation de β et σ 2 Pour obtenir l estimateur du maximum de vraisemblance, on cherche β R p qui minimise Y Xβ 2. On peut faire le calcul par calcul différentiel, et obtenir le faire) qu un tel β vérifie X T X)β = X T Y. On a Lemme Si X est injective, alors X T X est inversible, et la projection orthogonale sur V, image de X, est Π V = XX T X) 1 X T. Preuve : XX T X) 1 X T est symétrique, idempotente, et si Y V, XX T X) 1 X T Y = Y. Théorème L estimateur du maximum de vraisemblance est β = X T X) 1 X T Y, sa loi est N p β, σ 2 X T X) 1 ), et il est indépendant de σ 2. Retour sur les exemples 1, 2. Analyse de la variance : On obtient faire le calcul!) : µ i = 1 n i Y i,j, i = 1,..., p n i j=1 et σ 2 = 1 n p p n i Y i,j µ i ) 2. j=1 Régression affine : il s agit du modèle Ecrire X et β, et calculer â et b. Y i = a + bt i + ε i, i = 1,..., n. 37

38 6 Modèle linéaire gaussien 6.3 Tests d hypothèses linéaires Dans les exemples de modèles linéaires vus en introduction, on peut se poser des questions comme : Si l on ajuste une parabole exemple 1), passe-t-elle par l origine? C est-à-dire : a-t-on a = 0? Ou bien, la courbe est-elle en fait une droite? C est-à- dire : a-t-on b = 0? Parmi les variables explicatives, certaines n interviennent pas? C est-à-dire : a-ton, pour certains i, a i = 0? Y a-t-il une différence entre les traitements? C est-à-dire : a-t-on µ 1 =... = µ p? Ces questions là se formulent sous forme d hypothèses linéaires, c est-à-dire sous la forme m W pour un sous-espace vectoriel W de V Le faire sur les 3 exemples indiqués!) Soit donc W un sous-espace vectoriel de V. Notons p = dimv ) et q = dimw ), q < p sinon W = V et il n y a rien à tester). On souhaite tester contre H 0 : m W H 1 : m V \ W. La statistique du test du rapport de vraisemblance est, si l on note Lm, σ 2 ) la vraisemblance : T = sup m V \W,σ 2 >0 Lm, σ 2 ) sup m W,σ 2 >0 Lm, σ 2 ) Et l on obtient le calculer!) : T = ) Y ΠW Y ) n. Y Π V Y ) Pour cela, on utilise le fait que, comme W est un sous-espace de dimension q < p, pour tout m V et σ 2 > 0, P m,σ 2 ) Π V Y ) W ) = 0. Le démontrer, en utilisant que sous P m,σ 2 ), Π V Y ) suit la loi N n m, Π V )). Par Pythagore, Y Π V Y ) 2 + Π V Y ) Π W Y ) 2 = Y Π W Y ) 2, et donc T = 1 + Π V Y ) Π W Y ) 2 ) n/2 Y Π V Y ) 2. Le test du rapport de vraisemblance est donc celui qui décide H 0 si Π V Y ) Π W Y ) Y Π V Y ) plus grand qu un seuil. Reste à fixer ce seuil pour avoir un test de niveau α. est 38

39 6.4 Régions de confiance Définition Soit Z une variable aléatoire. On dit que Z suit la loi de Fisher à m et l degrés de liberté si Z a même loi que U 1 /m U 2 /l où U 1 et U 2 sont des variables aléatoires indépendantes, U 1 de loi χ 2 m) et U 2 de loi χ 2 l). On note F m, l) cette loi. On appelle test de Fisher de H 0 : m W contre H 1 : m V \ W le test qui rejette H 0 lorsque Π V Y ) Π W Y ) 2 /p q) Y Π V Y ) 2 /n p) f p q,n p,1 α en notant f p q,n p,1 α le 1 α-quantile de la loi F p q, n p). Théorème Le test du rapport de vraisemblance de H 0 : m W contre H 1 : m V \ W est le test de Fisher, et il est de niveau α. Ecrire la preuve!) Retour sur les exemples. Analyse de la variance : Le test du rapport de vraisemblance de H 0 : µ 1 =... = µ p contre H 1 : i, j : µ i µ j est le test qui rejette H 0 lorsque p i n iy 1 ni n i j=1 Y i,j) 2 /p 1) p ni j=1 Y i,j 1 ni n i j=1 Y i,j) 2 /n p) f p 1,n p,1 α en notant Le démontrer!) Y = 1 n p n i Y i,j. j=1 Régression affine : Ecrire le test de H 0 : a = 0 contre H 1 : a Régions de confiance Région de confiance pour m L idée est de partir de Π V Y ) qui est un estimateur de m, de loi N n m, σ 2 Π V ). ) Y m Π V Y ) m = σπ V σ 39

40 6 Modèle linéaire gaussien et donc par le théorème de Cochran, Π V Y ) m 2 /σ 2 suit la loi χ 2 p). Si l on connait σ 2, cela permet de construire une région de confiance pour m le faire!). Que faire si on ne connait pas σ 2? L idée est de le remplacer par un estimateur, et de considérer On écrit Π V Y ) m 2 /p Y Π V Y ) 2 /n p) = Π V Y ) m 2 Y Π V Y ) 2 /n p). σ 2 Y m σ σ 2 Π V Y m σ ) ΠV Y m σ ) 2 /p ) 2 /n p), qui, en utilisant le théorème de Cochran, suit la loi F p, n p). L écrire!). On a donc m V, σ 2 ΠV Y ) m 2 ) /p > 0, P m,σ 2 ) Y Π V Y ) 2 /n p) f p,n p,1 α 1 α. Donc { m V : ΠV Y ) m 2 pf p,n p,1 α Y Π V Y ) 2 /n p) } est une région de confiance pour m de niveau de confiance 1 α. C est, dans V, une sphère centrée en Π V Y ) et de rayon Y Π V Y ) pf p,n p,1 α /n p). Remarque : si m 0 est un vecteur fixé de V, on peut donc maintenant écrire un test de H 0 : m = m 0 contre H 1 : m m 0. Le faire!) Région de confiance pour β On part de l estimateur de β : On a alors et donc β = X T X) 1 X T Y N p β, σ 2 X T X) 1). ) β β X T X) 1/2 N p 0, Id), σ 1 ) T ) β β X T σ 2 X) β β χ 2 p). Comme β est indépendant de σ 2, on a que β β ) T X T X) β β ) /p σ 2 = ) T β β σ X T X) n p) σ 2 σ 2 /n p) ) β β σ /p suit la loi F p, n p). Donc, si f p,n p,1 α est le quantile d ordre 1 α et F p, n p) : ) T ) β R p, σ 2 β β X T X) β β /p > 0, P β,σ 2 ) f p,n p,1 α = 1 α σ 2 40

41 6.4 Régions de confiance et donc { β R p, β β ) T X T X) β β ) p σ 2 f p,n p,1 α } est une région de confiance pour β de niveau de confiance 1 α Région de confiance pour σ 2 On part de l estimateur σ 2 = 1 n p Y Π V Y 2 pour lequel on sait que n p) σ2 suit la loi χ 2 n p). On a donc : σ 2 ) m V, σ 2 2n p,α/2 σ2 > 0, P m,σ 2 ) χ n p) σ 2 χ2 n p,1 α/2 1 α. Donc [ n p) σ 2 χ 2 ; n p,1 α/2 ] n p) σ2 χ 2 n p,α/2 est un intervalle de confiance pour σ 2 de niveau de confiance 1 α. 41

42

43 7 Eléments de théorie de la décision 7.1 introduction Soit X, A, P θ ) θ Θ ) un modèle statistique, et X l observation. Soit g : Θ R d, et L une fonction de perte, c est-à-dire une fonction de R d R d dans R +. Si T X) est un estimateur de gθ), la fonction de risque est θ E θ [L gθ), T X))] := Rθ, T ). Pour comparer des estimateurs, on va comparer les risques. On peut penser à deux façons de faire : Comparer la valeur maximale du risque, c est l approche minimax Comparer une valeur moyenne du risque, ce sera l approche bayésienne. Dans l approche minimax, on cherche un estimateur T X) qui soit proche voire réalise) la valeur minimale, parmi tous les estimateurs possibles, du risque maximal. On appelle risque minimax la quantité inf T sup Rθ, T ). θ Θ On va voir qu il y a des limitations intrinsèques liées au modèle statistique et au choix de fonction de perte. 7.2 Affinité de test et minoration du risque maximum Revoir la distance en variation totale, définition et propriétés. Définition Soient P et Q deux probabilités définies sur un même espace. On appelle affinité de test entre P et Q la quantité πp, Q) = 1 P Q V T. Proposition Si µ domine P et Q, et si dp = fdµ et dq = gdµ, alors πp, Q) = f g)dµ. 43

44 7 Eléments de théorie de la décision Preuve : On a πp, Q) = 1 f g) dµ f g = fdµ f g) dµ f g = fdµ + gdµ f<g f g = f g)dµ. Sous l hypothèse que la fonction de perte vérifie une inégalité de type triangulaire, on va voir une minoration du risque minimax. Théorème Théorème de Le Cam). On suppose qu il existe C > 0 tel que, pour tous u, v, w dans R d, Lu, v) C [Lu, w) + Lv, w)]. Alors pour tout estimateur T X), sup E θ [L gθ), T X))] 1 sup [L gθ 1 ), gθ 2 )) π P θ1, P θ2 )]. θ Θ 2C θ 1,θ 2 ) Θ 2 Preuve : Soient θ 1 et θ 2 de Θ. Posons µ = P θ1 + P θ2, dp θ1 = f θ1 dµ et dp θ2 = f θ2 dµ. On a par l hypothèse sur L L gθ 1 ), gθ 2 )) C [L gθ 1 ), T X)) + L gθ 2 ), T X))] et donc L gθ 1 ), gθ 2 )) f θ1 x) f θ2 x))dµx) C [L gθ 1 ), T x)) + L gθ 2 ), T x))] f θ1 x) f θ2 x))dµx). Mais L gθ 1 ), T x)) f θ1 x) f θ2 x))dµx) L gθ 1 ), T x)) f θ1 x)dµx) et L gθ 2 ), T x)) f θ1 x) f θ2 x))dµx) L gθ 2 ), T x)) f θ2 x)dµx) ce qui donne L gθ 1 ), gθ 2 )) f θ1 x) f θ2 x))dµx) [ C L gθ 1 ), T x)) f θ1 x)dµx) + ] L gθ 2 ), T x)) f θ2 x)dµx). 44

45 7.2 Affinité de test et minoration du risque maximum Autrement dit : pour tout θ 1, θ 2 ) Θ 2, L gθ 1 ), gθ 2 )) π P θ1, P θ2 ) C {E θ1 [L gθ 1 ), T X))] + E θ2 [L gθ 2 ), T X))]}. Le deuxième membre de l inégalité est majoré par 2C sup E θ [L gθ), T X))], θ Θ et il suffit alors de prendre le supremum en θ 1, θ 2 ) Θ 2 pour obtenir le théorème. Proposition Si d, ) est une distance et si p 1, alors Lu, v) = du, v)) p vérifie l hypothèse du théorème de Le Cam avec C = 2 p 1. Preuve : On a pour tous u, v, w, par l inégalité triangulaire du, v) p du, w) + dv, w)) p. Mais si p 1, la fonction x x p est convexe, donc pour tous x et y, et donc du, w) + dv, w)) p = 2 p du, w) + dv, w) 2 ) x + y p xp + y p, 2 2 ) p du, w) 2 p p + dv, w) p ) = 2 p 1 du, w)+dv, w)). 2 En particulier, avec p = 2, on a la minoration du risque quadratique : pour tout estimateur T X), [ sup E θ gθ) T X) 2 ] 1 [ sup gθ1 ) gθ 2 ) 2 π P θ1, P θ2 ) ]. θ Θ 4 θ 1,θ 2 ) Θ 2 Ce qui nous intéressera en particulier, c est de comprendre comment évolue le minorant en fonction de n dans une expérience statistique de variables i.i.d. Lorsque le modèle est X n, A n, P n θ ) θ Θ ), et que la fonction de perte L vérifie l hypothèse du théorème de Le Cam, on a : pour tout estimateur T n X 1,..., X n ), sup E θ [L gθ), T n X 1,..., X n ))] 1 θ Θ 2C Il s agit alors de comprendre comment évolue π [ sup L gθ 1 ), gθ 2 )) π θ 1,θ 2 ) Θ 2 P n θ 1, P n θ 2 ) P n θ 1 en fonction de n. )], P n θ ) 45

46 7 Eléments de théorie de la décision 7.3 Distance et affinité de Hellinger On va définir une distance entre deux probabilités à partir de leurs densités par rapport à une mesure dominante. On commence par voir que cette quantité ne dépend pas de la mesure dominante choisie comme on a vu pour la distance en variation. Soient P et Q deux probabilités sur un espace probabilisable Ω, A). Soit µ une mesure sur Ω qui domine P et Q. On note f la densité de P par rapport à µ et g la densité de Q par rapport à µ. Si maintenant on pose ν = P +Q 2, p la densité de P par rapport à ν et q la densité de Q par rapport à ν, on a On a donc p = f dµ dν f g ) 2 dµ = et q = g dµ dν. p q) 2 dν et cette quantité ne dépend donc pas de la mesure dominante choisie. Définition On appelle distance de Hellinger la quantité hp, Q) telle que h 2 P, Q) = 1 2 f g ) 2 dµ. On appelle affinité de Hellinger la quantité ρp, Q) telle que ρp, Q) = f gdµ. Il est clair que la distance de Hellinger est une distance. Par ailleurs, f g ) 2 dµ = f + g 2 f g) dµ = 2 2 f gdµ et donc Ceci a pour conséquence que h 2 P, Q) = 1 ρp, Q). 0 h 2 P, Q) 1 et 0 ρp, Q) 1. On va maintenant relier distance de Hellinger et distance en variation. Commençons par comparer affinté de test et affinité de Hellinger. On a Proposition Pour toutes probabilités P et Q, πp, Q) ρp, Q) et 1 πp, Q)) 2 1 ρ 2 P, Q). 46

47 7.3 Distance et affinité de Hellinger Preuve : On a πp, Q) = f g dµ = = f g ) 2 dµ ) ) f g f g dµ f g dµ = ρp, Q). Par ailleurs, par Cauchy-Schwarz ρ 2 P, Q) f g) dµ f g) dµ. Mais f + g = f g + f g, ce qui donne f g) dµ f g) dµ = f g) dµ f + g f g) dµ donc = πp, Q) 2 πp, Q)) = 1 1 πp, Q)) 2 1 πp, Q)) 2 1 ρ 2 P, Q). On déduit de cette proposition le fait que ces deux distances sont comparables, mais ne sont pas équivalentes. Théorème Pour toutes probabilités P et Q, P Q V T 2hP, Q) et h 2 P, Q) P Q V T. Preuve : La première inégalité découle du fait que P Q 2 V T = 1 πp, Q)) ρp, Q)) 1 ρp, Q)) 2 1 ρp, Q)). La deuxième inégalité découle de h 2 P, Q) = 1 ρp, Q) 1 πp, Q) = P Q V T. On s intéresse maintenant à la distance entre P n et Q n, n un entier. La densité de P n par rapport à µ n est n fx i), celle de Q n est n gx i). On a par Fubini n fx i ) n n fxi gx i )dµ n = ) gx i )dµ, 47

48 7 Eléments de théorie de la décision et donc On en déduit ρp n, Q n ) = ρp, Q)) n. Proposition Pour toutes probabilités P et Q, Preuve : On a h 2 P n, Q n ) nh 2 P, Q). h 2 P n, Q n ) = 1 1 h 2 P, Q) ) n. Par ailleurs, pour tout entier n 1 et tout u [0, 1], par le théorème des accroissements finis, il existe ũ [0, u] tel que 1 1 u) n = n1 ũ) n 1 u, donc pour tout u [0, 1], 1 1 u) n nu. On peut maintenant obtenir le comportement de πp n, Q n ) en fonction de n. Théorème Pour toutes probabilités P et Q, 1 2nhP, Q) πp n, Q n ) e nh2 P,Q). Preuve : Montrons la majoration. On a πp n, Q n ) ρp n, Q n ) = exp[n log1 h 2 P, Q))]. Mais pour tout u > 0, log1 + u) u, donc exp[n log1 h 2 P, Q))] exp[ nh 2 P, Q))]. Montrons maintenant la minoration. On a 1 πp n, Q n ) ) 2 1 ρ 2 P n, Q n ) = 1 ρp, Q)) 2n. Mais pour tout u [0, 1], 1 u 2n 2n1 u). Donc 1 πp n, Q n ) ) 2 2n 1 ρp, Q)) = 2nh 2 P, Q). Dans la minoration du risque maximum du théorème de Le-Cam avec n observations i.i.d., on doit avoir un minorant > 0 de πp n θ 1, P n θ 2 ). On voit que cela nécessite d avoir hp θ1, P θ2 ) c/ n pour un c < 1/ 2. Par ailleurs, le théorème montre que si hp θ1, P θ2 ) c/ n, alors πp n θ 1, P n θ 2 ) exp c 2 ). On va maintenant s intéresser au risque maximum lorsque la fonction de perte est une puissance de la distance de Hellinger. On se donne p 1. On se place dans le modèle X n, A n, P n θ ) θ Θ ). pour tout estimateur T n X 1,..., X n ), Théorème On suppose qu il existe c < 1/ 2 tel que pour tout entier n, il existe θ 1 et θ 2 dans Θ tels que hp θ1, P θ2 ) = c/ n. Alors il existe γp) > 0 tel que pour tout estimateur T n X 1,..., X n ), pour tout entier n, [ sup E θ h p P θ, P TnX1,...,X n))] γp)n p/2. θ Θ 48

49 7.3 Distance et affinité de Hellinger En vitesse de Hellinger, la vitesse de convergence la meilleure possible est 1/ n. Preuve : On applique l inégalité 7.1) avec la fonction de perte lu, v) = hp u, P v ) p, et l on obtient [ sup E θ h p )] 1 [ P θ, P TnX1,...,X n) θ Θ 2 p sup h p P θ1, P θ2 ) 1 )] 2nhP θ1, P θ2 ), θ 1,θ 2 ) Θ 2 puis on choisit θ 1 et θ 2 dans Θ tels que hp θ1, P θ2 ) = c/ n pour obtenir [ sup E θ h p [ ) )] 1 c p P θ, P TnX1,...,X n) θ Θ 2 p 1 2c) ], n et l on obtient le résultat avec γp) = 1 2 p c p 1 2c). Sinon de manière générale, l inégalité 7.1) se réécrit sup E θ [L gθ), T n X 1,..., X n ))] 1 [ sup L gθ 1 ), gθ 2 )) 1 )] 2nhP θ1, P θ2 ). θ Θ 2C θ 1,θ 2 ) Θ 2 7.2) En particulier, le risque quadratique vérifie : [ sup E θ T n X 1,..., X n ) θ) 2] 1 [ sup θ 1 θ 2 ) 2 1 )] 2nhP θ1, P θ2 ). 7.3) θ Θ 4 θ 1,θ 2 ) Θ 2 Exemple 1 : modèle gaussien de moyenne inconnue et de variance 1. Θ = R, P θ = N θ, 1). On a faire le calcul!) : ρ P θ1, P θ2 ) = exp [ θ 1 θ 2 ) 2 ], 8 donc, comme pour tout u 0, 1 exp u) u, h 2 P θ1, P θ2 ) θ 1 θ 2 ) 2. 8 L inégalité 7.3) donne alors : pour tout estimateur T n X 1,..., X n ), [ sup E θ T n X 1,..., X n ) θ) 2] 1 sup [θ 1 θ 2 ) 2 1 n θ )] 1 θ 2. θ R 4 θ 1,θ 2 ) R 2 2 En prenant par exemple θ 1 θ 2 = 1/ n on obtient : pour tout estimateur T n X 1,..., X n ), [ sup E θ T n X 1,..., X n ) θ) 2] 1 θ R 8n. 49

50 7 Eléments de théorie de la décision Par ailleurs, l estimateur T n X 1,..., X n ) = 1 n n X i = X vérifie que pour tout θ R, E θ [X θ) 2 ] = 1/n, donc sup E θ θ R 1 n ) 2 n X i θ = 1 n. Exemple 2 : modèle uniforme. Θ = R +, P θ est la loi uniforme sur [0, θ]. On a faire le calcul!) : ρ P θ1, P θ2 ) = 1 θ ) 1 θ 2 1/2. θ 1 θ 2 Si x [0, 1], 1 x 1 x, on a h 2 P θ1, P θ2 ) θ 1 θ 2 θ 1 θ 2. L inégalité 7.3) donne alors : pour tout estimateur T n X 1,..., X n ), [ sup E θ T n X 1,..., X n ) θ) 2] 1 θ ]0,1] 4 sup θ 1,θ 2 ) ]0,1] 2 θ 1 θ 2 ) 2 1 2n θ 1 θ 2 θ 1 θ 2. En prenant par exemple θ 1 θ 2 = c/2n et θ 1 = 1 on obtient : pour tout estimateur T n X 1,..., X n ), [ sup E θ T n X 1,..., X n ) θ) 2] c2 1 c) θ R 16n 2. Si l on pose T n X 1,..., X n ) = max{x 1,..., X n }, on a faire le calcul!) : lorsque θ ]0, 1]. E θ [T n X 1,..., X n ) θ) 2] = 2θ 2 n + 1)n + 2) 2 n Vitesse de séparation pour le test de deux hypothèses simples Etant donné un n-échantillon X 1,..., X n de loi P, on considère le test du rapport de vraisemblance pour tester P = P 0 contre P = P 1. Comme pour l estimation, le test s améliore si n augmente : à niveau fixé la puissance augmente. Une autre façon de voir l apport d information lorsque n augmente est de se demander jusqu à quel point P 0 et P 1 peuvent être proches pour avoir malgré tout les deux erreurs de première et de deuxième espèce) majorées par α. 50

51 7.4 Vitesse de séparation pour le test de deux hypothèses simples Soit donc µ une mesure dominant P 0 et P 1, f 0 resp. f 1 ) la densité de P 0 resp. P 1 ) par rapport à µ. Le test du rapport de vraisemblance s écrit φ = 1 n log f 1 X i ) f 0 X i ) ncn pour un seuil nc n à fixer en fonction du niveau souhaité. Evaluons maintenant les erreurs de première et de deuxième espèce. On a pour tout λ > 0 le démontrer) [ ]) n E P0 [φ] e λncn E P0 e λ log f 1 X 1 ) f 0 X 1 ). En prenant λ = 1/2 on obtient [ ] E P0 e λ log f 1 X 1 ) f 0 X 1 ) = ρ P 0, P 1 ) = 1 h 2 P 0, P 1 ), ce qui donne et donc Par ailleurs E P0 [φ] e ncn/2 e n log1 h2 P 0,P 1 )), E P0 [φ] e n[cn/2+h2 P 0,P 1 )]. E P1 [1 φ] = P 1 n = P 1 n ) log f 1X i ) f 0 X i ) nc n log f 0X i ) f 1 X i ) nc n ) et donc, comme par la même méthode que précédemment, E P1 [1 φ] e n[ cn/2+h2 P 0,P 1 )]. Pour avoir il suffit de choisir On a alors E P0 [φ] α, c n = 2h 2 P 0, P 1 ) + 2 n log 1 α E P1 [1 φ] 1 α e 2nh2 P 0,P 1 )], ). et donc on a E P1 [1 φ] α dès que nh 2 P 0, P 1 ) log ) 1. α En distance de Hellinger, la vitesse de séparation de deux hypothèses simples pour obtenir un test du rapport de vraisemblance dont les deux erreurs sont majorées par α est 1/ n. 51

52 7 Eléments de théorie de la décision 7.5 Divergence de Kullback On va définir une quantité qui va être comparable à la distance de Hellinger entre deux probabilités. Soient donc P et Q deux probabilités sur un espace probabilisable Ω, A). Soit µ une mesure sur Ω qui domine P et Q. On note f la densité de P par rapport à µ et g la densité de Q par rapport à µ. Si P est absolument continue par rapport à Q, on a f = g dp dq On a en ce cas ) dp dp log dq = dq dq et si f > 0 alors g > 0 µ-p.s. c est-à-dire µ{x : fx) > 0 et gx) = 0} = 0). ) log g f = f>0,g>0 f>g>0 log f ) dp g log f g Montrons que g>f>0 dp est finie, de sorte que dp dq quitte à valoir + si ) f>g>0 log f g dp = + ). log g f Si P {g > f > 0}) = 0, alors g>f>0 l inégalité de Jensen, 1 P {g > f > 0}) g>f>0 On peut donc introduire la définition suivante. ) dp log g ) dp. g>f>0 f log dp dq ) dq est bien défini ) dp = 0. Si P {g > f > 0}) > 0, par log g ) Q{g > f > 0}) dp log f P {g > f > 0}) < +. Définition On appelle divergence de Kullback entre P et Q la quantité { ) dp dp K P, Q) = dq log dq dq si P Q + sinon. Remarque : la divergence de Kullback n est pas une distance car elle n est pas symétrique : en général, KP, Q) KQ, P ). Par contre, elle est bien positive ou nulle, et nulle si et seulement si les probabilités sont égales, c est une conséquence de l inégalité qui suit. Proposition On a K P, Q) 2h 2 P, Q). Preuve : Supposons P Q, sinon l inégalité est immédiate. On a K P, Q) = log f ) dp g f>0,g>0 = 2 2 f>0,g>0 f>0,g>0 log ) g dp f ) g f 1 dp 52

53 7.5 Divergence de Kullback car pour tout x > 1, log1 + x) x. Puis, comme µ-p.s., {f > 0} = {f > 0, g > 0}, on a f>0,g>0 dp = 1, et donc ) g f 1 dp = fgdµ 1 f>0,g>0 f>0,g>0 = ρ P, Q) 1 = h 2 P, Q). Cette proposition permet un nouveau minorant dans le théorème de Le Cam : si la fonction de perte vérifie les hypothèses du théorème de Le Cam, pour tout estimateur T X), sup E θ [L gθ), T X))] 1 θ Θ 2C [ )] sup θ 1,θ 2 ) Θ 2 L gθ 1 ), gθ 2 )) 1 KP θ1, P θ2 ). 7.4) Pour utiliser ce résultat avec n observations indépendantes, on a un calcul simple de la divergence de Kullback entre produits tensoriels. Proposition Soient, pour i = 1,..., n, P i et Q i deux probabilités sur un espace probabilisable Ω i, A i ). Alors En particulier : Preuve : l écrire!. K n P i, n Q i ) = n K P i, Q i ) K P n, Q n) = nk P, Q). Application au modèle linéaire gaussien. Considérons le modèle Y = Xβ + ɛ avec X = x 1,..., x n ) T R n, β R, ɛ N n 0, σ 2 Id) et θ = β, σ 2 ). On s intéresse au risque quadratique minimax pour estimer β. On a en appliquant 7.4), pour tout estimateur T Y ), sup E θ [T Y ) β) 2] 1 )] [β θ R {σ 2 } 4 sup 1 β 2 ) 2 1 KP θ1, P θ2 ) θ 1,θ 2 ) avec P θ = n N x iβ, σ 2 ). On a donc Puis faire le calcul!) : KP θ1, P θ2 ) = n K N x i β 1, σ 2 ), N x i β 2, σ 2 ) ). K N x i β 1, σ 2 ), N x i β 2, σ 2 ) ) = x2 i 2σ 2 β 1 β 2 ) 2 53

54 7 Eléments de théorie de la décision et donc sup E θ [T Y ) β) 2] 1 θ R {σ 2 } 4 sup β 1 β 2 ) 2 θ 1,θ 2 ) 1 β 1 β 2 ) 2 2σ 2 n x 2 i. En prenant pour un c ]0, 1], β 1 β 2 ) 2 = 2cσ2 n x2 i on obtient [ sup E θ T Y ) β) 2] σ2 c1 c) θ R {σ 2 } 2 n. L estimateur du maximum de vraisemblance est β = n x iy i n x2 i x2 i pour lequel, pour tout θ R {σ 2 }, E θ [ β β ) 2 ] = σ 2 n, x2 i et β est un estimateur minimax à constante près. 7.6 Estimation bayésienne Estimateurs admissibles et estimateurs bayésiens On veut estimer gθ), et on se fixe une fonction de perte L. Les définitions qui suivent s entendent relativement à la fonction de perte fixée. Soient T X) et T X) deux estimateurs. Définition On dit que T est aussi bon que T si θ Θ, Rθ, T ) Rθ, T ). On dit que T est meilleur que T si T est aussi bon que T et que en outre, θ 0 Θ, Rθ 0, T ) < Rθ 0, T ). On dit que T est admissible si il n existe pas d estimateur T meilleur que T. Théorème Un estimateur admissible et de risque constant est minimax. 54

55 7.6 Estimation bayésienne Preuve : Soit T un estimateur admissible et tel que pour une constante C, pour tout θ Θ, Rθ, T ) = C. Alors sup θ Θ Rθ, T ) = C. Si T est un autre estimateur, il n est pas meilleur que T. Donc ou bien T est aussi bon que T, auquel cas sup θ Θ Rθ, T ) sup θ Θ Rθ, T ), ou bien il existe θ tel que Rθ, T ) < Rθ, T ), mais alors il existe θ tel que Rθ, T ) > Rθ, T ) = C, auquel cas Donc T est bien minimax. sup θ Θ Rθ, T ) > C = sup Rθ, T ). θ Θ On suppose maintenant Θ mesurable, et on munit alors Θ d une probabilité ν, appelée alors loi a priori. Les définitions qui suivent s entendent relativement à la fonction de perte fixée et à la loi a priori fixée. Définition On appelle risque de Bayes de l estimateur T la quantité R ν T ) = On dit que T est un estimateur bayésien si Pour tout θ Θ, Rθ, T ) est fini. Pour tout estimateur T, R ν T ) R ν T ). Θ Rθ, T )dνθ). Autrement dit, un estimateur bayésien minimise le risque bayésien. On va voir que sous certaines conditions, pour trouver des estimateurs admissibles, il suffit de trouver des estimateurs bayésiens. Si en outre leur risque est constant, ils sont minimax. Théorème Soit T un estimateur bayésien. Supposons que l une des conditions suivantes est réalisée : 1. T est unique au sens suivant : si T est un estimateur bayésien, alors pour tout θ Θ, T = T P θ -p.s. 2. Θ est dénombrable et ν charge tous les points de Θ. 3. Θ est une partie de R k, ν charge tous les ouverts de Θ, et si T est tel que Rθ, T ) est fini pour tout θ Θ, alors θ Rθ, T ) est continue. Alors T est admissible. Preuve : On va raisonner par l absurde. Soit T un estimateur bayésien, et supposons qu il n est pas admissible. Alors il existe un estimateur T meilleur que T, donc tel que θ Θ, Rθ, T ) Rθ, T ) et θ 0 Θ, Rθ 0, T ) < Rθ, T ). 55

56 7 Eléments de théorie de la décision Supposons 1. Alors R ν T ) = R ν T ), car T est bayésien. Donc pour tout θ Θ, T = T P θ -p.s. et donc pour tout θ Θ, Rθ, T ) = Rθ, T ) : contradiction. Supposons 2. Alors R ν T ) R ν T ) = θ Θ Rθ, T ) Rθ, T ) ) ν{θ}) Rθ 0, T ) Rθ 0, T ) ) ν{θ 0 }) > 0 : contradiction. Supposons 3. Alors la fonction θ Rθ, T ) Rθ, T ) est continue. Soit ε = Rθ 0, T ) Rθ 0, T ). Par continuité, il existe un ouvert U contenant θ 0 tel que θ U, Rθ, T ) Rθ, T ) ε ε 2, et donc tel que On a alors θ U, Rθ, T ) Rθ, T ) ε 2. R ν T ) R ν T ) = Rθ, T ) Rθ, T ) ) dνθ) Θ U Rθ, T ) Rθ, T ) ) dνθ) ε 2 νu) > 0 : contradiction Notion de loi conditionnelle La formule R ν T ) = θ X ) Lgθ), T x))dp θ x) dνθ) = Lgθ), T x))dp θ x)dνθ) θ X peut être lue en considérant que le couple τ, X) paramètre et observation) est une variable aléatoire, de loi jointe dνθ)dp θ x). Le point de vue bayésien est de munir l ensemble des paramètres d une loi a priori ν, et de considérer que, conditionnellement au fait que le paramètre τ soit θ, l observation est de loi P θ. A condition que ce que l on vient de dire ait un sens, c est à dire que l on puisse effectivement parler de loi conditionnelle. C est ce que l on va étudier ici. Si X, Y ) est un couple de variables aléatoires dans X Y, de loi P X,Y, on sait que si X et Y sont des variables indépendantes, on peut écrire, par Fubini : pour toute fonction φ mesurable 0, [ ] [ ] E [φx, Y )] = φx, y)dp Y y) dp X x) = φx, y)dp X x) dp Y y). X Y Y X 56

57 7.6 Estimation bayésienne On souhaite écrire une formule analogue lorsque X et Y ne sont pas des variables indépendantes, en faisant intervenir une loi conditionnelle : [ ] E [φx, Y )] = φx, y)dp Y y X = x) dp X x) 7.5) X Y On va montrer que c est possible sous certaines conditions. On suppose ici que X R k et Y R p. Proposition Soit µ resp. ν) une mesure positive sur X resp. Y). On suppose que P X,Y ) est absolument continue par rapport à µ ν de densité fx, y). Alors 7.5) est vraie si l on définit avec dp Y y X = x) = fy X = x)dνy), fy X = x) = fx, y) gx) 1 gx)>0 où gx) est la densité par rapport à µ de la loi de X gx) = Y fx, y)dνy)). dp Y y X = x) est une version de la loi conditionnelle de Y sachant X = x. Noter l analogie avec la formule définissant les probabilités conditionnelles. Preuve : Soit φ une fonction mesurable 0. On a [ ] [ ] fx, y) φx, y)fy X = x)dνy) dp X x) = φx, y) X Y X Y gx) 1 gx)>0dνy) gx)dµx) [ ] = φx, y)fx, y)dνy) dµx) car si gx) = 0, alors fx, y) = 0 ν-p.p. Puis par Fubini [ ] φx, y)fx, y)dνy) dµx) = φx, y)fx, y)dνy)dµx) X Y X Y X Y = E [φx, Y )]. Cette loi conditionnelle permet-elle alors de calculer les espérances conditionnelles comme les espérances? Quelques rappels sur les espérances conditionnelles par rapport à une tribu ; par rapport à une variable aléatoire ; la notation espérance conditionnelle à X = x. Proposition Si 7.5) est vraie, alors pour toute fonction ψ L 1 P Y ), E [ψy ) X = x] = ψy)dp Y y X = x). Y 57

58 7 Eléments de théorie de la décision Preuve : Notons ρx) = Y ψy)dp Y y X = x). On veut montrer que pour toute fonction h mesurable bornée, Soit donc h mesurable bornée. On a E [ρx)hx)] = X = car 7.5). E [ψy )hx)] = E [ρx)hx)]. X Y Y = E [ψy )hx)] Calcul d estimateurs bayésiens ) ψy)dp Y y X = x) hx)dp X x) ) ψy)hx)dp Y y X = x) dp X x) On suppose que le modèle X, A, P θ ) θ Θ ) est dominé. Soit µ une mesure dominante, et pour tout θ Θ, f θ la densité de P θ par rapport à µ. On suppose aussi que la loi a priori a une densité ρ par rapport à une mesure π sur Θ : dνθ) = ρθ)dπθ). On a alors R ν T ) = Lgθ), T x))f θ x)ρθ)dµx)dπθ). Θ X Autrement dit, si τ, X) est une variable aléatoire sur Θ X de loi de densité hθ, x) = f θ x)ρθ) par rapport à π µ, on a R ν T ) = E [Lgτ), T X))]. On peut donc appliquer les résultats précédents sur les lois conditionnelles, et l on a ) R ν T ) = Lgθ), T x))ρθ X = x)dπθ) hx)dµx), X Θ où h est la densité de la loi marginale de X, c est-à-dire hx) = Θ f θx)ρθ)dπθ), et où ρθ X = x) est la densité de la loi conditionnelle de τ sachant X = x, donnée par ρθ X = x) = f θx)ρθ) 1 hx) hx)>0. On appelle ρθ X)dπθ) loi a posteriori. Il est clair qu alors, pour minimiser R ν T ), il suffit pour tout x de choisir T x) qui minimise Θ Lgθ), T x))ρθ X = x)dπθ). On va voir deux exemples typiques dans le cas où ce que l on cherche à estimer est à valeurs rélles, c est-à-dire quand g : Θ R. 58

59 7.6 Estimation bayésienne Cas de la perte quadratique On considère Lu, v) = u v) 2. Alors un estimateur bayésien est l espérance a posteriori T X) donnée par T x) = Θ gθ)ρθ X = x)dπθ), et T est unique hdµ-p.s. Démontrer ces deux affirmations). Si tout ensemble négligeable pour hdµ l est pour P θ pour tout θ, alors T est admissible. Ecrire ce que cela signifie, indiquer des conditions suffisantes pour obtenir ce résultat). Exemple : modèle de Bernoulli avec a priori Beta. Le modèle est {0, 1} n, P{0, 1} n ), Bθ) n ) θ [0,1] ). L observation est X 1,..., X n. On choisit la loi a priori Beta Ba, b), avec a > 0 et b > 0, de densité par rapport à Lebesgue Γa + b) Γa)Γb) θa 1 1 θ) b 1 1 0<θ<1. Rappel : Γz) = + 0 x z 1 e x dx). La loi a posteriori est alors la loi Beta Ba + n X i; b + n n X i). Le démontrer). L espérance a posteriori est T X 1,..., X n ) = a + n X i a + b + n, et T est admissible. Démontrer ces deux affirmations). Exemple : modèle gaussien avec a priori gaussien. Le modèle est R n, B{R n ), N θ, 1) n ) θ R ). L observation est X 1,..., X n. On choisit la loi a priori N 0, σ 2 ). La loi a posteriori est alors la loi Le démontrer). L espérance a posteriori est σ 2 N 1 + nσ 2 ) n σ 2 X i ; 1 + nσ 2. T X 1,..., X n ) = σ2 1 + nσ 2 et T est admissible. Démontrer ces deux affirmations). n X i, 59

60 7 Eléments de théorie de la décision Cas de la perte valeur absolue On considère Lu, v) = u v. Alors un estimateur bayésien est T X) où T x) minimise pour tout x θ T x) dνθ X = x). Θ On va voir qu un estimateur bayésien est la médiane a posteriori T X) qui vérifie ν τ T X) X) 1 2 et ν τ T X) X) 1 2. Pour cela, nous allons définir, pour α ]0, 1[, le quantile d ordre α d une loi de probabilité, et appliquer cela au quantile d ordre 1/2 appelé médiane. Soit Z une variable aléatoire de loi P. Définition On dit que q est un quantile d ordre α de Z ou de la loi de Z) si et seulement si P Z q) α et P Z q) 1 α. Proposition Si F est la fonction de répartition de Z, alors F α) est un quantile d ordre α de Z. Remarque : il peut y avoir plusieurs quantiles d ordre α. Preuve : rappeler la définition de la fonction quantile et ses propriétés, voir que la proposition en est une conséquence. Proposition q est un quantile d ordre α de Z si et seulement si q minimise la fonction u αe [Z u) + ] + 1 α)e [Z u) ]. Preuve : Notons Remarquons que l on a aussi hu) = αe [Z u) + ] + 1 α)e [Z u) ]. hu) = E [Z u) + ] + 1 α)e [u Z)] = E [Z u) ] + αe [Z u)]. On a alors, si u v, hu) hv) = E [Z u)1 u Z<v ] + v u) [P Z v) 1 α)] en utilisant la première formulation) et hv) hu) = E [v Z)1 u<z v ] + v u) [P Z U) α] 60

61 7.6 Estimation bayésienne en utilisant la deuxième formulation). Si q minimise h, alors pour tout v > q on a hq) hv) 0, donc P Z v) 1 α, soit P Z < v) α, donc P Z q) α en faisant tendre v vers q. Aussi, pour tout u < q, hq) hu) 0, donc P Z u) α, soit P Z > u) 1 α, donc P Z q) 1 α en faisant tendre u vers q. Réciproquement, si P Z q) α, alors pour tout v > q on a hq) hv) 0, et si P Z q) 1 α, pour tout u < q, hq) hu) 0. Exemple : dans le cas du modèle gaussien avec a priori gaussien, la médiane a posteriori est égale à l espérance a posteriori 61

62

63 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 8.1 Extension de la notion de test On considère le modèle statistique X, A, P θ ) θ Θ ), Θ 0 et Θ 1 deux parties de Θ telles que Θ 0 Θ 1 =. On veut tester H 0 : θ Θ 0 contre H 1 : θ Θ 1. Se rappeler ce qu est un test φx), et toutes les notions liées. On va étendre la notion de test, en particulier de façon à obtenir des tests de taille α dans tous les cas. Définition Un test statistique de l hypothèse H 0 : θ Θ 0 contre l alternative H 1 : θ Θ 1 est une variable aléatoire φ fonction mesurable de l observation et à valeur dans [0, 1]. La règle de décision est la suivante : on rejette H 0 avec probabilité φx). En pratique, on génère une variable aléatoire U indépendante de X et de loi uniforme sur [0, 1], et on rejette H 0 si U φx). On peut aussi considérer le test randomisé ψx, U) = 1 U φx), qui lui est à valeurs dans {0, 1} et tel que φx) = E[ψ X]. Le démontrer. Définition La taille du test est sup θ Θ0 E θ φ. On appelle puissance du test la fonction θ E θ φ. On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la fonction puissance, pour θ Θ 0, est majorée par α. Démontrer que ces notions sont identiques si on les applique au test ou au test randomisé. On va maintenant, comme pour les méthodes d estimation, chercher des critères d optimalité. De même qu on a comparé les risques des estimateurs, on va comparer les puissances des tests. Définition Le test φ est dit uniformément le plus puissant parmi les tests de niveau α, soit UPPα), si et seulement si φ est de niveau α et si pour tout test ψ de niveau α, on a θ Θ 1, E θ ψ E θ φ. 63

64 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 8.2 Cas de deux hypothèses simples On étudie le cas où Θ 0 = {θ 0 } et Θ 1 = {θ 1 }. Soit µ une mesure dominant P θ0 et P θ1, et notons f 0 = dp θ 0 dµ et f 1 = dp θ 1 dµ. Rappelons la notion de tests du rapport de vraisemblance TRV). On l avait défini comme valant 1 lorsque f 1 X) > C α f 0 X), avec C α = inf {C : P θ0 f 1 X) > Cf 0 X)) α}. Rappeler pourquoi cet ensemble de C est de la forme [C α, + [. Lorsque le test est à valeurs dans {0, 1} cela suffit à le définir. Il vaut alors 0 sur l événement complémentaire. On généralise la notion de test du rapport de vraisemblance en disant que c est un test tel que : il existe un réel s α tel que Le test vaut 1 sur l événement sup θ Θ1 f θ X) > s α sup θ Θ0 f θ X), Le test vaut 0 sur l événement sup θ Θ1 f θ X) < s α sup θ Θ0 f θ X), Et sur l événement sup θ Θ1 f θ X) = s α sup θ Θ0 f θ X), le test vaut γ [0, 1]. Proposition Pour tout α ]0, 1[, il existe un test du rapport de vraisemblance de taille α pour tester H 0 : θ = θ 0 contre H 1 : θ = θ 1 qui est avec γ = 0 si P θ0 f 1 X) = C α f 0 X)) = 0 et φ α = 1 f1 X)>C αf 0 X) + γ1 f1 X)=C αf 0 X) γ = α P θ 0 f 1 X) > C α f 0 X)) P θ0 f 1 X) = C α f 0 X)) [0, 1] si P θ0 f 1 X) = C α f 0 X)) > 0. Preuve : On a P θ0 f 1 X) > C α f 0 X)) α, et si C < C α, P θ0 f 1 X) > Cf 0 X)) > α. Donc en faisant tendre C vers C α, on obtient P θ0 f 1 X) C α f 0 X)) α, c est à dire P θ0 f 1 X) > C α f 0 X)) + P θ0 f 1 X) = C α f 0 X)) α, ce qui prouve que γ [0, 1]. Puis E θ0 [φ α ] = P θ0 f 1 X) > C α f 0 X)) + γp θ0 f 1 X) = C α f 0 X)) = P θ0 f 1 X) > C α f 0 X)) + α P θ0 f 1 X) > C α f 0 X)) = α. 64

65 8.2 Cas de deux hypothèses simples Lemme Lemme de Neyman-Pearson). Soit α ]0, 1[. On suppose P θ0 f 1 X) > 0) > α. Alors φ est UPPα) pour tester H 0 : θ = θ 0 contre H 1 : θ = θ 1 si et seulement si φ est un test du rapport de vraisemblance de taille α. On dit alors que φ est NPα). Preuve : Soit ψ un test de niveau α. On a toujours le vérifier région par région) ψ φ α ) f 1 C α f 0 ) 0 donc en intégrant ψ φ α ) f 1 C α f 0 ) dµ 0 soit E θ1 ψ φ α ) C α E θ0 ψ φ α ) 0 car E θ0 ψ α et E θ0 φ α = α, et donc E θ1 ψ E θ1 φ α, et donc φ α est UPPα). Supposons maintenant que ψ est UPPα). Alors E θ1 ψ = E θ1 φ α, et donc C α E θ0 ψ φ α ) 0 et donc C α E θ0 ψ φ α ) = 0 Comme C α > 0 puisque P θ0 f 1 X) > 0) > α) on obtient E θ0 ψ = E θ0 φ α = α. Du coup ψ 1) f 1 C α f 0 ) dµ + ψ) f 1 C α f 0 ) dµ = 0, f 1 >C αf 0 f 1 <C αf 0 ce qui montre que ψ = 1 sur l événement f 1 X) > C α f 0 X) et ψ = 0 sur l événement f 1 X) < C α f 0 X), donc ψ est un test du rapport de vraisemblance de taille α. Exemple : modèle gaussien. Ici P θ = N µ, 1) n, θ = µ et Θ = R. Soient µ 0 et µ 1 deux réels. On montre facilement le faire!) que : Si µ 1 > µ 0, le TRVα) pour tester H 0 : µ = µ 0 contre H 1 : µ = µ 1 est φ α = 1 X µ0 >u 1 α / n en notant X = 1 n n X i et avec u 1 α le quantile d ordre 1 α de N 0, 1). De même si µ 1 < µ 0, le TRVα) pour tester H 0 : µ = µ 0 contre H 1 : µ = µ 1 est ψ α = 1 X µ0 <u α/ n On remarque que ces tests ne dépendent de µ 1 qu à travers le signe de µ 1 µ 0. On peut alors montrer que : φ α est UPPα) pour tester H 0 : µ = µ 0 contre H 1 : µ > µ 0, 65

66 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson ψ α est UPPα) pour tester H 0 : µ = µ 0 contre H 1 : µ < µ 0, et il n existe pas de test UPPα) pour tester H 0 : µ = µ 0 contre H 1 : µ µ 0. Ecrire la preuve de ces affirmations!). Si l on veut tester H 0 : µ = µ 0 contre H 1 : µ µ 0, on peut considérer le test h α = 1 X µ0 >u 1 α/2 / n + 1 X µ 0 <u α/2 / n. Faire la représentation graphique des courbes de puissance des trois tests φ α, ψ α et h α. On pourra commencer par écrire les fonctions puissance de chacun des tests à l aide de la fonction de répartition de N 0, 1), et alors montrer que la fonction puissance de φ α est croissante et celle de ψ α est décroissante. 8.3 Tests d hypothèses multiples On ne suppose plus que Θ 0 et Θ 1 sont réduits à un point. Existe-t-il alors un test UPPα)? On vient de voir que non en général, mais que si l on pouvait écrire le rapport de vraisemblance d une certaine manière monotone on pouvait montrer que le test UPPα) pour des hypothèses simples le restait pour un test unilatère. On va généraliser l exemple gaussien. On se place dans le cadre où : Θ est un intervalle de R, le modèle est dominé par une mesure µ, et on note, pour tout θ, f θ = dp θ dµ. On suppose aussi que pour tout θ Θ, f θ > 0 µ-p.p. Définition On dit que la famille {f θ, θ Θ} est une famille à rapport monotone si et seulement si il existe une statistique T X), c est à dire T : X R mesurable telle que : pour tout θ 1, θ 0 ) Θ 2 tel que θ 1 > θ 0, il existe une fonction Ψ θ1,θ 0 croissante de R dans R telle que f θ1 f θ0 X) = Ψ θ1,θ 0 T X)). Remarquons que quitte à considérer T X), on ne perd pas en généralité en ne considérant que des fonctions croissantes. Théorème Soit α ]0, 1[ et {f θ, θ Θ} une famille à rapport monotone. Soit θ 0 Θ et soit θ Θ tel que θ > θ 0. Alors 1. Le TRVα) de H 0 : θ = θ 0 contre H 1 : θ = θ ne dépend pas de θ, et il est unique µ p.p. On peut le noter φ θ0,α. 2. La fonction θ E θ [φ θ0,α] est croissante. 3. Le test φ θ0,α est UPPα) pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0, et il est unique µ p.p. Tout autre test UPPα) pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0 est égal à φ θ0,α µ p.p.) 66

67 8.3 Tests d hypothèses multiples Preuve : Montrons 1. Soit φ un TRVα) de H 0 : θ = θ 0 contre H 1 : θ = θ. Alors, il existe s α tel que : φx) = 1 si f θ X) > s α f θ0 X), φx) = 0 si f θ X) < s α f θ0 X), E θ0 [φx)] = α. Maintenant, comme {f θ, θ Θ} est une famille à rapport monotone, il existe une statistique T X) et une fonction Ψ θ,θ 0 croissante de R dans R telle que Donc il existe un réel c α tel que { } f θ x : x) > s α f θ0 f θ f θ0 X) = Ψ θ,θ 0 T X)). = {x : T x) > c α }. Le démontrer). c α est tel que P θ0 T X) > c α ) α et ne dépend donc pas de θ. On peut choisir puis avec γ = 0 si P θ0 T X) = c α ) = 0 et c α = inf{c : P θ0 T X) > c) α}, φ = 1 T X)>cα + γ1 T X)=cα γ = α P θ 0 T X) > c α ) P θ0 T X) = c α ) si P θ0 T X) = c α ) > 0. Si φ est un autre TRVα) de H 0 : θ = θ 0 contre H 1 : θ = θ, alors il existe c α tel que φx) = 1 si T x) > c α et φx) = 0 si T x) < c α. On a donc φ = φ P θ0 -p.s. Le démontrer), et donc φ = φ µ-p.p. puisque f θ0 > 0 µ-p.p. On a donc montré 1. Montrons maintenant 2. Soient θ 1 et θ 2 deux éléments de Θ tels que θ 1 < θ 2. Alors φ θ0,α est un test du rapport de vraisemblance de H 0 : θ = θ 1 contre H 1 : θ = θ 2 dire pourquoi) de taille a = P θ1 T X) > c α ) + γp θ1 T X) = c α ) = E θ1 [φ θ0,αx)]. Donc il est NPa) et UPPa) pour tester H 0 : θ = θ 1 contre H 1 : θ = θ 2, et donc il est plus puissant que le test constant égal à a, donc E θ2 [φ θ0,αx)] a, soit E θ1 [φ θ0,αx)] E θ2 [φ θ0,αx)] et on a ainsi montré 2. Montrons enfin 3. Tout d abord, pour tout θ θ 0, E θ [φ θ0,αx)] E θ0 [φ θ0,αx)] = α et donc φ θ0,α est un test de taille α pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0. Soit φ un test de niveau α pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0. Alors, si θ > θ 0, φ 67

68 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson est un test de niveau α pour tester H 0 : θ = θ 0 contre H 1 : θ = θ. Mais φ θ0,α est UPPα) pour tester H 0 : θ = θ 0 contre H 1 : θ = θ, donc E θ [φx)] E θ [φ θ0,αx)]. Ceci étant vrai pour tout θ > θ 0, on a montré que φ θ0,α est UPPα) pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0. Par ailleurs, il est unique µ-p.p. par 1. Revenons maintenant à la question concernant le test bilatère. On a vu dans el cas gaussien qu il n existait pas de test UPPα). On va néanmoins montrer, dans le cas gaussien, qu en se restreignant aux tests dont la puissance est au moins égale à la taille, on a un test optimal. Définition On dit que le test φ de H 0 : θ Θ 0 contre H 1 : θ Θ 1 est un test sans biais si et seulement si sup E θ [φx)] inf E θ [φx)]. θ Θ 0 θ Θ 1 Proposition Un test UPP est sans biais. Preuve : car il est plus puissant que le test constant égal à sa taille. Définition Le test φ est dit uniformément le plus puissant parmi les tests sans biais de niveau α, soit UPPBα), pour tester H 0 contre H 1 si et seulement si φ est un test sans biais et de niveau α pour tester H 0 contre H 1 tel que, si ψ est un test sans bais de niveau α pour tester H 0 contre H 1, alors E θ1 φ E θ1 ψ. Revenons au modèle gaussien, et considérons le test de H 0 : µ = µ 0 contre H 1 : µ µ 0 donné par h α = 1 X µ0 >u 1 α/2 / n + 1 X µ 0 <u α/2 / n. On a pour tout µ, en notant πµ) = E µ h α ), F la fonction de répartition de N 0, 1) et u = u 1 α/2 = u α/2 : πµ) = F u nµ µ 0 )) + 1 F u nµ µ 0 )) Le démontrer), et donc la dérivée de π est faire le calcul!) n π µ) = exp[ 1 2π 2 u nµ µ 0 )) 2 ] exp[ 1 2 u + ) nµ µ 0 )) 2 ], et donc le vérifier) π µ) 0 pour µ µ 0 et π µ) 0 pour µ µ 0, donc π est minimum en µ = µ 0 et donc h α est un test sans biais de H 0 : µ = µ 0 contre H 1 : µ µ 0. Proposition Le test h α est UPPBα) pour tester H 0 : µ = µ 0 contre H 1 : µ µ 0. 68

69 8.3 Tests d hypothèses multiples Preuve : Tout d abord, quitte à considérer θ = µ µ 0, on peut considérer que µ 0 = 0 sans perte de généralité. Soit φ un test sans biais pour tester H 0 : µ = 0 contre H 1 : µ 0. On a alors E 0 [φ] α et µ R, E µ [φ] α. Mais la fonction µ E µ [φx)] est dérivable, de dérivée φx 1,..., x n )ṗ µ x 1,..., x n )dx 1 dx n, où l on note p µ x 1,..., x n ) la densité de N µ, 1) n par rapport à Lebesgue et ṗ µ x 1,..., x n ) sa dérivée par rapport à µ. Démontrer cette affirmation). La fonction µ E µ [φx)] ayant un minimum en 0, sa dérivée s y annule, et donc pour tout test φ sans biais de H 0 : µ = 0 contre H 1 : µ 0 on a φx 1,..., x n )ṗ 0 x 1,..., x n )dx 1 dx n = ) En particulier, E 0 [φ] = α par continuité. On va maintenant montrer que pour tout réel µ, il existe des réels k 1 > 0 et k 2 > 0 tels que h α x 1,..., x n ) = 0 p µ x 1,..., x n ) k 1 p 0 x 1,..., x n ) k 2 ṗ 0 x 1,..., x n ) ) Notons tout d abord que n h α x 1,..., x n ) = 0 x i u. n Soit µ un réel fixé, et notons fx; k 1, k 2 ) la fonction telle que p µ x 1,..., x n ) k 1 p 0 x 1,..., x n ) k 2 ṗ 0 x 1,..., x n ) = p 0 x 1,..., x n )f On a nµx n fx; k 1, k 2 ) = exp 2 µ2) k 1 + k 2 nx, dont la dérivée en tant que fonction de x) est f x; k 1, k 2 ) = nµx n nµ exp 2 µ2) + k 2 n. n x ) i ; k 1, k 2. n On voit que si µ et k 2 sont non nuls et de signe contraire, alors f est décroissante puis croissante, et pour que 8.2) soit vérifié, il suffit que u et u soient les deux zéros de f. Autrement dit, il suffit de trouver k 1 et k 2 tels que fu; k 1, k 2 ) = 0 et f u; k 1, k 2 ) = 0 et k 2 de signe contraire de µ. Or, fu; k 1, k 2 ) = 0 et f u; k 1, k 2 ) = 0 si et seulement si k 1 k 2 nu = exp nµu n 2 µ2) 69

70 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson et k 1 + k 2 nu = exp nµu n 2 µ2) qui a une solution unique k 1, k 2 ) qui vérifie bien le fait que k 2 est de signe contraire de µ. Faire le calcul pour le vérifier). Par ailleurs, k 1 > 0. Faire le calcul pour le vérifier). Maintenant, si φ est un test sans biais de H 0 : µ = 0 contre H 1 : µ 0 on a dans tous les cas h α φ) p µ k 1 p 0 k 2 ṗ 0 ) 0, et donc en utilisant 8.1) E µ [h α φ] k 1 E 0 [h α φ] = 0, et donc E µ [h α ] E µ [φ]. Ceci étant vrai pour tout réel µ, on a bien montré que h α est UPPBα). 70

71 9 Etude des estimateurs sans biais Soit le modèle X, A, P θ ) θ Θ ), et X l observation. Soit g une fonction de Θ dans R k. On va s intéresser aux estimateurs sans biais UX) de gθ), c est-à-dire qui vérifient θ Θ, E θ [UX)] = gθ). 9.1 Exhaustivité et estimateurs UVMB On cherche à résumer l information sur le modèle contenue dans l observation par une statistique T X), i.e. à voir si il existe une telle statistique telle que toute bonne procédure d estimation ou de test soit fonction de cette statistique. Se rappeler les méthodes vues précédemment) Exemple du modèle de Bernoulli Ici le modèle est donné par X = {0, 1} n, P θ = Bθ) n, θ [0, 1], X = X 1,..., X n ). Toutes les procédures que l on a vues pour estimer ou tester θ étaient fonction de T X) = n X i. Soit UX) un estimateur, pour obtenir à partir de U un estimateur T X)-mesurable, on peut considérer V X) = E θ [UX) T X)]. Si UX) est un estimateur sans biais de gθ), alors V X) vérifie E θ [V X)] = gθ) l écrire). Mais pour que ce soit vrai pour tout θ, il faut que V X) ne dépende pas de θ, ce qui n a a priori aucune raison d être vrai. Ici, pour calculer V X), on peut procéder à l aide de la loi conditionnelle comme vu au chapitre précédent Rappeler pourquoi/comment). On a, pour tout x 1,..., x n ) X, pour tout k {0,..., n} Le démontrer) : 0 si n x i k 1 P θ X 1,..., X n ) = x 1,..., x n ) T X) = k) = n si n x i = k k On obtient alors que E θ [UX) T X)] ne dépend pas de θ. On peut alors conclure que, si UX) est un estimateur sans biais de gθ), alors V X) = E θ [UX) T X)] est un estimateur sans biais de gθ). De plus, pour le risque quadratique, 71

72 9 Etude des estimateurs sans biais V X) est aussi bon que UX), et meilleur que UX) si UX) n est pas T X)-mesurable Le démontrer). On va maintenant construire un cadre qui généralise cette situation Exhaustivité On va maintenant construire un cadre qui généralise cette situation. On suppose maintenant que le modèle est dominé. Soit µ une mesure dominante. Définition Une statistique T X) est dite statistique exhaustive si, pour tout ensemble mesurable A, il existe une version de E θ 1 A X) T X)) qui ne dépend pas de θ. Autrement dit, pour tout ensemble mesurable A, il existe une fonction φ A telle que θ Θ, E θ 1 A X) T X)) = φ A T X)) P θ p.s. Cette notion est intrinsèque au modèle et ne dépend pas de ce que l on cherche à estimer. Si on peut définir une loi de X conditionnelle à T X), et que cette loi conditionnelle ne dépend pas de θ, alors T X) est une statistique exhaustive. Dans cette définition, il se pourrait que l événement sur lequel l égalité est vérifiée et qui est de mesure 1 pour P θ ) dépende de θ. Mais on va montrer qu il n y a en fait aucune dépendence en θ. Pour cela, on considère une dominante privilégiée P comme on a construit au chapitre 2, c est à dire une probabilité P qui s écrit P = θ D α θ P θ 9.1) où D est une partie au plus dénombrable de Θ, et où les α θ sont > 0 et de somme totale égale à 1, telle que P domine tous les P θ et telle que pour tout événement A, P A) = 0 θ Θ, P θ A) = 0. Alors, pour tout θ, P θ -p.s. équivaut à P -p.s.. Lemme Si T X) est une statistique exhaustive, et P dominante privilégiée de forme 9.1), alors pour tout ensemble mesurable A θ Θ, E θ 1 A X) T X)) = E P 1 A X) T X)) P p.s. Preuve : Pour tout ensemble mesurable A, notons φ A la fonction telle que θ Θ, E θ 1 A X) T X)) = φ A T X)) P θ p.s.. 72

73 9.1 Exhaustivité et estimateurs UVMB Pour toute fonction h mesurable bornée on a E P φ A T X))hT X))) = θ D α θ E θ φ A T X))hT X))) = θ D α θ E θ 1 A X)hT X))) = E P 1 A X)hT X))) On va maintenant montrer que l exhausitivité se lit sur la vraisemblance. Pour cela on va avoir besoin de l outil général suivant. Lemme Lemme de changement de loi). Soient P et Q deux probabilités définies sur un même espace probabilisable Ω muni d une tribu) et telles que Q << P. Soit Y une variable aléatoire Q-intégrable. Alors 1. On a E Q Y ) = E P Y dq ), dp 2. Et pour toute variable aléatoire T, E Q Y T ) = E P Y dq dp T ) ) 1 E dq P dp T EP dq T)>0. dp Preuve : Pour le point 1., on écrit E Q Y ) = Y ω)dqω) = Y ω) dq dp ω)dp ω) = E P Montrons maintenant le point 2. Notons alors Y dq dp ). φt ) = E P Y dq dp T ) ) 1 E dq P dp T EP dq T)>0. dp On va montrer que pour toute fonction mesurable bornée h, E Q ht )φt )) = E Q Y ht ). Soit donc h une fonction mesurable bornée quelqconque. On a en utilisant le point 1 E Q ht )φt )) = E P ht )φt ) dq ). dp 73

74 9 Etude des estimateurs sans biais Puis E Q ht )φt )) = E P [ E P ht )φt ) dq = E P )] dp T ) E P Y dq dp E P ht T ) E P dq dp T ) 1 EP dq E P Y dq dp T ) = E P ht ) ) 1 E dq P dp T EP dq [ = E P ht )E P Y dq ) dp T 1 EP dq [ = E P ht )Y dq ] dp 1 E P dq dp T)>0 = E Q [ht )Y 1 EP dq dp T)>0 ] dp T)>0E P dp T)>0 dp T)>0 dq ] dp T ) dq dp T en utilisant de nouveau le point 1. Mais et donc On a donc E Q [1 EP dq dp T)>0 ] [ ] dq = E P dp 1 E P dq dp [ T)>0 ) dq = E P E P dp T 1 EP dq [ )] dq = E P E P dp T = 1, 1 EP dq = 1 Q p.s. T)>0 dp E Q [ht )Y 1 EP dq dp T)>0 ] = E Q [ht )Y ] et l on a bien montré que E Q ht )φt )) = E Q Y ht ). dp T)>0 Théorème Théorème de factorisation). Soit T X) une statistique et P dominante privilégiée de forme 9.1). Les trois assertions suivantes sont équivalentes i) T x) est une statistique exhaustive. ii) Pour tout θ, dp θ dp est T X)-mesurable. iii) Il existe une fonction mesurable l et pour tout θ, une fonction mesurable h θ tel que θ Θ, dp θ dµ x) = h θt x))lx). ] 74

75 9.1 Exhaustivité et estimateurs UVMB Preuve : Montrons ii) = iii). La dominante privilégiée P vérifie P << µ, et donc dp θ dµ = dp θ dp dp dµ. Montrons maintenant iii) = i). Supposons donc qu il existe une fonction mesurable l et pour tout θ, une fonction mesurable h θ tel que θ Θ, dp θ dµ x) = h θt x))lx). On commence par construire ν une probabilité telle que µ << ν. Proposer une telle construction). On a alors, en notant lx) = lx) dµ dν x), E θ 1 A X) T X)) = θ Θ, dp θ dν x) = h θt x)) lx). Soit A un ensemble mesurable quelconque. Par le lemme de changement de loi, on a ) E dpθ ν dν 1 AX) T X) = E ν dpθ dν T X) ) ) E ν lx)1a X) T X) 1 dpθ Eν )>0 dν T X) E ν lx) T X) ) 1 hθ T X))E ν lx) T X))>0. Mais ) dpθ P θ h θ T X)) = 0) P θ dν = 0 dp θ = dν = 0, dp θ dν =0 dν et donc P θ h θ T X)) > 0) = 1, et donc P θ -p.s. ) E ν lx)1a X) T X) E θ 1 A X) T X)) = ) E ν lx) T X) 1 Eν lx) T X))>0 et donc E θ 1 A X) T X)) = ) E ν lx)1a X) T X) ) 1 Eν lx) T X))>0 E ν lx) T P p.s. X) Montrons enfin i) = ii). On suppose que T X) est une statistique exhaustive. Soit A un ensemble mesurable quelconque. On a P θ A) = E θ E θ 1 A T X))) ) dpθ = E P dp E θ1 A T X)) ) dpθ = E P dp E P 1 A T X)) 75

76 9 Etude des estimateurs sans biais car T X) est une statistique exhaustive. Mais ) dpθ E P dp E P 1 A T X)) = E P E P dp ) θ dp T X))1 A. On a donc montré que pour tout ensemble mesurable A, P θ A) = E P E P dp ) θ dp T X))1 A, ce qui montre que c est-à-dire que dp θ dp est T X)-mesurable. dp θ dp = E P dp θ T X)) dp Proposition Si T X) est une statistique exhaustive et UX) une variable aléatoire P θ -intégrable, alors E θ [UX) T X)] ne dépend pas de θ. Preuve : Par le théorème de factorisation, pour tout θ, dp θ dp donc il existe une fonction mesurable h θ telle que Par le lemme de changement de loi, on a E θ UX) T X)) = θ Θ, dp θ dp x) = h θt x)). E P dpθ dp UX) T X) ) E P dpθ dp T X) ) = E P UX) T X)) 1 hθ T X))>0. est T X)-mesurable et 1 dpθ EP )>0 dp T X) Mais ) dpθ P θ h θ T X)) = 0) P θ dp = 0 dp θ = dp = 0, dp θ dp =0 dp et donc P θ h θ T X)) > 0) = 1, et donc P θ -p.s. et donc E θ UX) T X)) = E P UX) T X)) E θ UX) T X)) = E P UX) T X)) P p.s. Théorème On considère une fonction de perte L donnée par Lu, v) = ψu v) où ψ est une fonction convexe. Si T X) est une statistique exhaustive et UX) un estimateur de gθ), alors θ Θ, Rθ, U) Rθ, E θ [U T ]), et si ψ est strictement convexe et si UX) n est pas T X)-mesurable, alors θ Θ, Rθ, U) > Rθ, E θ [U T ]). 76

77 9.1 Exhaustivité et estimateurs UVMB On en déduit que V X) = E θ [U T ] est un estimateur de gθ) aussi bon que U, et meilleur que U si ψ est strictement convexe et si UX) n est pas T X)-mesurable. Preuve : Par l inégalité de Jensen, θ Θ, E θ [ψu gθ)) T ] ψe θ [U gθ) T ]), et l on obtient la première inégalité du théorème en prenant l espérance de cette inégalité. Dans l inégalité de Jensen, on a égalité si et seulement si Estimateurs UVMB U gθ) = E θ [U gθ) T ] P θ p.s. On suppose ici que gθ) est un réel, que la perte est la perte quadratique, i.e. Lu, v) = u v) 2. On a alors pour tout estimateur UX), par la décomposition biais/variance : Rθ, U) = V ar θ U) + E θ U) gθ)) 2. Définition Un estimateur UX) de gθ) est dit Uniformément de Variance Minimale parmi les estimateurs sans Biais UVMB) si et seulement si il est sans biais, et aussi bon que tout estimateur sans biais, c est-à-dire : θ Θ, E θ U) = gθ) et si V X) est un estimateur sans biais de gθ), alors θ Θ, Rθ, U) Rθ, V ). Remarquons qu il n existe pas toujours d estimateur sans biais. Par exemple, si Θ = R + et P θ est la loi exponentielle de paramètre θ, dire que U est un estimateur sans biais de θ signifie soit θ > 0, θ > 0, Ux)θe θx dx = θ Ux)e θx dx = 1. Si l on pose pour θ > 0, hθ) = + 0 Ux)e θx dx, on a hθ) + 0 Ux) e θx dx. Par Beppo-Levi, on a donc lim θ + hθ) = 0. lim θ Ux) e θx dx = 0, Si UX) est un estimateur sans biais de gθ) et que T X) est une statistique exhaustive, alors E θ U T ) qui ne dépend pas de θ) est un estimateur sans biais de gθ) aussi bon que U de risque quadratique majoré par celui de U). Est-il UVMB? 77

78 9 Etude des estimateurs sans biais Définition On suppose Θ R d, pas nécessairement avec d = 1. Une statistique T X) est une statistique complète si, pour toute fonction mesurable φ à valeurs dans R telle que φt x)) L 1 P θ ) pour tout θ Θ, vérifiant θ Θ, E θ [φt X))] = 0, on a θ Θ, φt X)) = 0 P θ p.s. Proposition Si T X) est une statistique exhaustive et complète, alors il existe au plus un estimateur de gθ) qui soit sans biais et fonction de T X). Preuve : Soient U 1 et U 2 des estimateurs sans biais de gθ) qui sont fonction de T X). Alors U 1 U 2 est fonction de T X), donc il existe une fonction mesurable φ telle que U 1 U 2 = φt X)). Mais θ Θ, E θ [φt X))] = E θ U 1 ) E θ U 2 ) = gθ) gθ) = 0 car U 1 et U 2 sont des estimateurs sans biais de gθ), et donc car T X) est complète, et donc θ Θ, φt X)) = 0 P θ p.s. θ Θ, U 1 = U 2 = E θ U 1 T X)) P θ p.s. ne dépend pas de θ car T X) est exhaustive. Théorème On suppose que T X) est une statistique exhaustive et complète, et qu il existe un estimateur sans biais de gθ) UX). Alors V = E θ [U T ] est l unique UVMB de gθ). Preuve : Si U est un UVMB de gθ) alors V = E θ [U T ] est aussi UVMB car sans biais et aussi bon que U ), et donc pour tout θ, Rθ, U ) = Rθ, V ) et donc V = U par le Théorème car la fonction x x 2 est strictement convexe. Donc V et U sont deux estimateurs sans biais de gθ) fonctions de T X), et donc V = U par la proposition précédente Modèle exponentiel On considère le modèle donné par dp θ x) = hx) exp { Qθ), T x) ψθ)} dµ où Q : Θ R k, T : X R k est mesurable, et [ ] θ Θ, ψθ) = log hx) exp { Qθ), T x) } dµx). 78

79 9.1 Exhaustivité et estimateurs UVMB Quitte à poser dν = hdµ, on peut supposer sans perte de généralité que hx) = 1, autrement dit que dp θ x) = exp { Qθ), T x) ψθ)} 9.2) dµ et On a [ θ Θ, ψθ) = log ] exp { Qθ), T x) } dµx). 9.3) Théorème Dans le modèle donné par 9.2), si QΘ) est d intérieur non vide, alors T X) est une statistique exhaustive et complète. Preuve : Tout d abord, T X) est une statistique exhaustive par le Théorème de factorisation. Puis, soit φ une fonction mesurable telle que pour tout θ Θ, φt x)) L 1 P θ ), et que On a alors θ Θ, X θ Θ, E θ [φt X))] = 0. φt x)) + exp { Qθ), T x) ψθ)} dµx) = X φt x)) exp { Qθ), T x) ψθ)} dµx) et donc θ Θ, φt x)) + exp { Qθ), T x) } dµx) = X X φt x)) exp { Qθ), T x) } dµx). On note µ + T la mesure positive de densité φ + par rapport à la mesure image de µ par T, et µ T la mesure positive de densité φ par rapport à la mesure image de µ par T. On a alors θ Θ, exp { Qθ), t } dµ + T t) = exp { Qθ), t } dµ T x). R k R k Par le lemme qui suit, comme QΘ) est d intérieur non vide, on obtient µ + T = µ T, donc φt x)) + = φt x)) µ-p.p., soit φt x)) = 0 µ-p.p., et donc φt x)) = 0 P θ -p.s. pour tout θ Θ, et T X) est une statistique exhaustive et complète. Lemme Soient µ et ν deux mesures positives sur R k. On suppose qu il existe un ouvert A de R k tel que s A, exp { s, x } dµx) = exp { s, x } dνx). Alors, µ = ν. 79

80 9 Etude des estimateurs sans biais Preuve : Soit s 0 un point de A, et δ > 0 tel que la boule centrée en s 0 et de rayon 2δ soit incluse dans A. Tout d abord, on a exp { s 0, x } dµx) = exp { s 0, x } dνx) = C 0, donc en notant P la probabilité de densité exp { s 0, x } /C 0 par rapport à µ et Q la probabilité de densité exp { s 0, x } /C 0 par rapport à ν, on a pour tout u R k tel que u 2δ, exp { u, x } dp x) = exp { u, x } dqx). Soit t R k quelconque non nul. On note h la fonction de la variable complexe z définie par z exp {z t, x } dp x). Alors la fonction h est holomorphe sur le domaine {z C : Rez) δ/ t } Le démontrer!). De même, si g est la fonction de la variable complexe z définie par z exp {z t, x } dqx), la fonction g est holomorphe sur le domaine {z C : Rez) δ/ t }. Par ailleurs, h et g coincident sur l ensemble des z réels dans ] δ/ t δ/ t [. Donc h = g sur le domaine {z C : Rez) < δ/ t }, et donc en particulier sur l ensemble des imaginaires purs, et donc en particulier pour z = i, et donc exp {i t, x } dp x) = exp {i t, x } dqx). Ceci est vrai pour tout t R k, donc P et Q ont même fonction caractéristique, donc P = Q et donc µ = ν. Exemples : dans chacun des cas suivant montrer qu il s agit d un modèle exponentiel, identifier θ, Qθ), T X), dire si il s agit d une statistique exhaustive complète. Modèle de Bernoulli Modèle de Poisson Modèle linéaire gaussien 9.2 Efficacité Score et information de Fisher Soit X, A, P θ ) θ Θ ), Θ R k, un modèle dominé et µ une mesure dominante. On note f θ = dp θ dµ. On suppose : S) : θ Θ, x X, f θ x) > 0. Sous cette hypothèses, les probabilités P θ sont équivalentes = mutuellement absolument continues). On peut alors définir l θ = log f θ. Si pour tout x X, θ f θ x) est différentiable, on pose l θ = lθ θ 1 ; ; l θ θ k ) T 80

81 9.2 Efficacité le vecteur gradient, que l on appelle fonction score ou simplement score. Remarquons que le score ne dépend pas de la mesure dominante : si P est une dominante privilégiée, P est absolument continue par rapport à µ, donc l θ = log dp θ dp + log dp dµ et donc le score est, pour toute mesure dominante µ, le gradient de log dp θ dp. Par ailleurs, on a, en notant f θ le gradient vecteur des dérivées partielles) de f θ par rapport à la variable θ, f l θ = θ. f θ On a donc, si l θ L 1 P θ ), E θ [ l θ X)] = f θ x)dµx). Comme la fonction θ f θ x)dµx) est une fonction constante égale à 1), on voit que si on peut échanger dérivation et intégration dériver sous le signe somme), E θ [ l θ X)] = 0 le score est centré). Définition On suppose S), que E θ [ l θ X)] = 0 et que E θ [ l θ X) 2 ] <. Alors la matrice de variance de l θ est appelée information de Fisher en θ et notée I θ, on a, comme le score est centré, C est une matrice k k. I θ = E θ [ l θ X) l T θ X)]. Remarquons que, comme toute matrice de variance, I θ est semi-définie positive Inégalité de Cramer-Rao On considère maintenant que l on veut estimer gθ) où g est une fonction de Θ dans R. Si UX) est un estimateur sans biais de gθ), on a pour tout θ Θ, E θ UX)) = gθ) = Ux)f θ x)dµx). Pour simplifier, regardons le cas où k = 1, et supposons g dérivable. Si on peut dériver sous le signe somme, on a g θ) = Ux) f θ x)dµx) = Ux) l θ x)f θ x)dµx) = E θ [UX) l θ X)]. Comme l θ X) est centré, on a aussi g θ) = E θ [UX) gθ)) l θ X)], et par Cauchy-Schwarz, g θ) ) 2 V arθ UX)) I θ, et donc, si I θ > 0, V ar θ UX)) g θ)) 2 /I θ. On peut généraliser cela en dimension k quelconque. On note gθ) le vecteur gradient de gθ). 81

82 9 Etude des estimateurs sans biais Théorème Inégalité de Cramer-Rao). On suppose que Θ est un ouvert de R k, et on suppose S). On suppose que pour tout x X, θ f θ x) est différentiable, et que pour tout θ Θ E θ [ l θ X)] = 0, E θ [ l θ X) 2 ] <, l information de Fisher I θ est inversible. On suppose que θ gθ) est différentiable, et que UX) est un estimateur sans biais de gθ) tel que pour tout θ Θ, gθ) = E θ [UX) l θ X)]. Alors θ Θ, V ar θ UX)) gθ) T I 1 θ gθ). Preuve : Soit a R k tel que a 0. On a gθ) T a = E θ [UX) l θ X)) T a] = E θ [UX) l θ X)) T a] gθ)e θ [ l θ X) T a] = E θ [UX) gθ)) l θ X) T a] car le score est centré. Donc par Cauchy-Schwarz, gθ) T a ) 2 V arθ UX))E θ [ l θ X) T a) 2 ]. Mais E θ [ l θ X) T a) 2 ] = a T I θ a > 0 Dire pourquoi) car I θ inversible. On a donc montré a R k : a 0, V ar θ UX)) gθ) T a ) 2 a T I θ a et en prenant a = I 1 θ gθ) le théorème s en déduit. On peut montrer que l on a obtenu la meilleur borne inférieure possible, c est à dire que le supremum en a de la borne inférieure est atteint en a = I 1 θ gθ) en appliquant le lemme suivant avec S = I θ et v = gθ). Lemme Si S est une matrice k k définie positive et si v est un vecteur de R k, alors v T a) 2 sup a R k,a 0 a T Sa = vt S 1 v. Preuve : On commence par montrer que a x = S 1/2 a est une bijection de R k dans R k de sorte que l on obtient v T a) 2 sup a R k,a 0 a T Sa = sup x T Ax x R k,x 0 x T x 82

83 9.2 Efficacité avec A = S 1/2 vv T S 1/2, de sorte que le supremum recherché est la plus grande valeur propre de A. Mais en posant w = S 1/2 v S 1/2 v, on voit que A = S 1/2 v 2 ww T. ww T est la matrice de projection orthogonale sur la droite engendrée par w, donc de plus grande valeur propre 1, donc la plus grande valeur propre de A est S 1/2 v 2 = v T S 1 v. Définition L estimateur sans biais UX) est dit efficace si Cas des modèles produit θ Θ, V ar θ UX)) = gθ) T I 1 θ gθ). On considère le modèle X n, A n, P n θ ) θ Θ ). On suppose que le modèle X, A, P θ ) θ Θ ) satisfait aux hypothèses du Théorème de l inégalité de Cramer-Rao, avec score l θ et information de Fisher I θ. Alors, dans le modèle X n, A n, P n θ ) θ Θ ), le score est l θ,n x 1,..., x n ) = n l θ x i ), on a E θ [ l θ,n X 1,..., X n )] = 0 et la matrice de variance de l θ,n X 1,..., X n ), sous P θ, est ni θ Démontrer ces affirmations). On a donc, si UX 1,..., X n ) est un estimateur sans biais de gθ) tel que gθ) = E θ [UX 1,..., X n ) l θ X 1,..., X n )], V ar θ UX 1,..., X n )) 1 n gθ)t I 1 θ gθ) Modèles exponentiels On considère le modèle exponentiel écrit sous forme canonique, c est à dire avec θ choisi de sorte que dp θ x) = exp{ θ, T x) ψθ)}, 9.4) dµ avec T : X R k mesurable, θ Θ, sous-ensemble de R k défini par Θ = { θ R k : } exp{ θ, T x) }dµx) < + 83

84 9 Etude des estimateurs sans biais et ψ : Θ R donnée par ψθ) = log exp{ θ, T x) }dµx). On a Proposition La fonction θ log exp{ θ, T x) }dµx) est indéfiniment dérivable sur l intérieur de Θ et se dérive sous le signe somme. Preuve : La faire. On peut alors montrer que sur l intérieur de Θ, ψθ) = E θ [T X)], le score est T ψθ) et est centré, l information de Fisher est I θ = V ar θ [T X)] = D 2 ψθ), la matrice hessienne de ψ en θ. T X) est une statistique exhaustive complète, qui estime sans biais ψθ), et en est un UVMB et un estimateur efficace si Θ R. Donc dans le modèle avec n observations i.i.d. d un modèle canonique, c est 1 n n T X i) qui estime sans biais ψθ), et en est un UVMB et un estimateur efficace si Θ R. Démontrer toutes ces affirmations). Exemples : : écrire sous forme canonique le modèle de Bernoulli, le modèle de Poisson, le modèle linéaire gaussien, et voir comment se traduisent ces affirmations. Si l on reprend le modèle exponentiel sous sa forme générale 9.2) et Q deux fois dérivable, calculer score, information de Fisher dans le cas k = 1, et montrer que, si Q θ) 0, 1 n n T X i) est un estimateur sans biais de ψ θ)/q θ), et en est un UVMB et un estimateur efficace. 9.3 Limites des estimateurs sans biais et de l efficacité Il n existe pas toujours d estimateur sans biais voir l exemple du modèle des lois exponentielles). Il n existe pas toujours d estimateur efficace ou UVMB : par exemple, dans le modèle N m, σ 2 ) n, il n existe pas d estimateur efficace de σ 2 voir T.D.). On peut parfois gagner sur le risque quadratique en autorisant un biais. Considérons par exemple le modèle N 0, σ 2 ) n dans lequel on veut estimer σ 2. Il s agit d un modèle exponentiel, n X2 i est une statistique exhaustive complète, et n σ 2 = 1 n X 2 i 84

85 9.3 Limites des estimateurs sans biais et de l efficacité est un estimateur sans biais UVMB de σ 2. Son risque quadratique est Si l on considère maintenant l estimateur Rσ 2, σ 2 ) := E σ [ σ 2 σ 2 ) 2] = 2σ4 n. T λ = λ σ 2, son risque quadratique est, par la dćomposition biais-variance : Rσ 2, T λ ) = V ar σ T λ ) + E σ T λ ) σ 2) ) 2 = σ 4 2λ 2 + λ 1)2. n L étude de la fonction λ 2λ2 n + λ 1)2 montrer qu elle admet un minimum strict en 1/1 + 2 n ), et que σ > 0, Rσ 2, T 1/1+ 2 n )) < Rσ2, σ 2 ). L estimateur σ 2 n est pas admissible, T 1/1+ 2 n ) est meilleur que σ2. Enfin, sous des hypothèses faibles, si un modèle admet un estimateur efficace T de gθ), pour θ Θ, Θ intervalle de R, alors le modèle est un modèle exponentiel de statistique exhaustive complète T, ce qui restreint l existence d estimateurs efficaces essentiellement aux modèles exponentiels, et pour estimer l espérance de la statistique exhaustive uniquement. Montrons cela. On suppose donc que les hypothèsse du Théorème de l inégalité de Cramer-Rao sont vérifiées pour le modèle et pour T, et que θ Θ, E θ T ) = gθ), V ar θ T ) = g θ) 2 I θ. Comme on a g θ) = E θ T gθ)) l θ ), Cov θ T, l θ )) 2 = V arθ T )V ar θ l θ ) et donc, pour tout θ, ou bien T = E θ T ), ou bien il existe λ θ tel que l θ = λ θ T E θ T ))., P θ -p.s. Si il existe θ 0 tel que T = E θ0 T ) P θ0 -p.s., alors T est constant µ-p.p., donc T = E θ T ) P θ -p.s. pour tout θ, et gθ) est constant, cas peu intéressant. Sinon, pour tout θ Θ, il existe λ θ tel que l θ = λ θ T E θ T )), P θ -p.s. On a donc, θ 0 étant un point fixé de Θ θ θ Θ, log f θ = log f θ0 + λ s T E s T ))ds, θ 0 85

86 9 Etude des estimateurs sans biais soit c est-à-dire avec θ Θ, log f θ f θ0 = T θ θ 0 λ s ds θ θ 0 λ s E s T )ds, θ Θ, f θ = f θ0 exp[qθ)t ψθ)] Qθ) = θ θ 0 λ s ds, ψθ) = θ θ 0 λ s E s T )ds. 86

87 10 Eléments de statistique asymptotique La borne de Cramer-Rao nous dit que, si T X) est un estimateur sans biais de gθ), alors pour tout θ, E θ [T X) gθ)] 2 g θ)) 2 Iθ). Mais si T a un biais, que dit la borne de Cramer-Rao? Si on note bθ) = E θ T X)) gθ), comme T estime sans biais bθ) + gθ) et que le risque quadratique est la somme de la variance et du carré du biais, on a E θ [T X) gθ)] 2 ) b 2 θ) + b θ) + g θ)) 2. Iθ) Mais ceci n est pas une borne intrinsèque puisqu elle dépend de T par l intermédiaire de b). Par ailleurs, la notion d efficacité stricte concerne exclusivement les modèles exponentiels. Ceci dit, on a vu que l on pouvait obtenir des minorations intrinsèques, en considérant non pas le risque ponctuel, mais le risque maximum théorème de Le Cam). On se demande si on peut obtenir des analogues asymptotiques de l efficacité, dans le contexte des suites d observations i.i.d.. Par exemple, peut-on garantir que, pour tout θ, si θ n est une suite d estimateurs de θ, lim inf n + E θ [ n θ n θ) 2] 1 Iθ)? La réponse est non, mais en renforçant légèrement, on obtient quelque chose comme [ lim lim inf sup E θ n θ n θ) 2] 1 c + n + θ θ 0 c Iθ 0 ). n Cela fait partie de ce que l on étudie en M2. On se demande alors si, sans supposer le modèle exponentiel, il est possible de trouver une suite d estimateurs θ [ ] n de θ tels que lim n + E θ n θ n θ) 2 = 1 Iθ), ou bien tels que 1 n θ n θ) converge en loi sous P θ vers N 0, Iθ) )? La réponse est oui, et c est l estimateur du maximum de vraisemblance qui le permet Etude asymptotique de l estimateur du maximum de vraisemblance L objectif ici est de montrer que sous de bonnes hypothèses, moins restrictives que de se trouver dans un modèle exponentiel, l estimateur du maximum de vraisemblance θ n 87

88 10 Eléments de statistique asymptotique vérifie que 1 n θ n θ) converge en loi sous P θ vers N 0, Iθ) ). Revenons tout d abord au cadre du modèle exponentiel en dimension 1. Soit Θ ouvert de R, µ une mesure sur R et P θ ) θ Θ tel que dp θ dµ x) = expθt x) ψθ)), P θ la loi d une suite de variables aléatoires réelles i.i.d. de loi P θ, gθ) = ψ θ) = E θ T X). T n = 1 n n T X i) est un estimateur efficace de gθ) et UVMB. Sa variance est V ar θ T n ) = ψ θ) 2 niθ) = ψ θ) n. Par le théorème de limite centrale, nt n ψ θ)) converge en loi sous P θ vers N 0, ψ θ) 2 Iθ) ). Qu en est-il pour l estimateur du maximum de vraisemblance θ n? La log-vraisemblance est l n θ) = θt X 1 ) + + T X n )) nψθ). ψ est strictement convexe, car ψ > 0 c est la variance d une variable aléatoire non constante), donc l n est strictement concave et admet donc un unique maximum. ψ est strictement croissante, et si le maximum de l n est atteint à l intérieur de Θ, il annule la dérivée, donc T n = ψ θ n ). Pour simplifier, on va supposer que ψ Θ) = R, et alors θ n = ψ ) 1 T n ). Pour obtenir la convergence en loi, on va utiliser la méthode delta. Théorème Soit T n ) n 1 une suite de variables aléatoires à valeur dans I intervalle de R et telle que nt n m) converge en loi vers N 0; σ 2 ). Soit g : I R une fonction dérivable. Alors ngt n ) gm)) converge en loi vers N 0; g m) 2 σ 2 ). On applique le théorème avec gx) = ψ ) 1 x). g est dérivable de dérivée g x) = 1 ψ ψ ) 1 x)). On a m = ψ θ), donc gm) = θ. g m) 2 ψ θ)) 2 Iθ) = g m) 2 ψ θ) = ) 1 2 ψ ψ θ) = 1 θ) ψ θ) = 1 Iθ), donc 1 n θ n θ) converge en loi sous P θ vers N 0, Iθ) ). Et en appliquant une nouvelle fois le théorème , si φ : Θ R est dérivable, nφ θ n ) φθ)) converge en loi sous P θ vers N 0, φ θ)) 2 Iθ) ). Preuve du Théorème rappel) : on écrit le développement de Taylor gx) = gm) + x m)g m) + x m)αx m), où α ) est une fonction qui vérifie αu) = o1) au voisinage de 0. On a alors ngtn ) gm)) = nt n m)g m) + nt n m)αt n m). Puis T n m tend en probabilité vers 0 : en effet, pour tout ɛ > 0, P T n m ɛ) = P nt n m) nɛ) P nt n m) M) dès que n M ɛ )2. Donc si F est la fonction de répartition de la gaussienne centrée réduite, lim sup n + P T n m ɛ) 88

89 10.1 Etude asymptotique de l estimateur du maximum de vraisemblance 21 F M)) et ceci pour tout M, donc en faisant tendre M vers l infini, lim n + P T n m ɛ) = 0. Ensuite, on en déduit que αt n m) converge en probabilité vers 0 : en effet, pour tout ɛ > 0 il existe δ > 0 tel que u < δ implique αu) < ɛ, soit αu) ɛ implique u δ, donc P αt n m) ɛ) P T n m δ) et donc lim n + P αt n m) ɛ) = 0. Puis nt n m)αt n m) converge en probabilité vers 0 : en effet, pour tout ɛ > 0 et pour tout M, comme, si nt n m)αt n m) ɛ et nt n m) < M alors M αt n m) ɛ, P nt n m)αt n m) ɛ) P nt n m) M) + P αt n m) ɛ M ), et donc lim sup n + P nt n m)αt n m) ɛ) 21 F M)), donc lim sup n + P nt n m)αt n m) ɛ) = 0 en faisant tendre M vers l infini. Enfin, nt n m)g m) converge en loi vers N 0; g m) 2 σ 2 ), et on termine par le lemme de Slutzky. On peut maintenant énoncer un théorème de convergence en loi du maximum de vraisemblance dans un cadre plus général. On considère un modèle dominé {P θ, θ Θ}, où Θ est un intervalle de R. On note f θ la densité de P θ par rapport à la mesure dominante, et P θ la loi d une suite de variables aléatoires réelles i.i.d. de loi P θ. On note Θ l intérieur de Θ et on se place dans le cadre où l on a défini fonction score et information de Fisher : A1) θ Θ, x X, f θ x) > 0, A2) x X, θ f θ x) est dérivable sur Θ, et on note l θ x) la fonction score dérivée par rapport à θ de log f θ x)), A3) θ Θ, E θ lθ X) = 0 et E θ l θ X) 2 < +. On note Iθ) l information de Fisher matrice de variance de l θ X)). Théorème On suppose A1), A2) et A3). Soit θ n l estimateur du maximum de vraisemblance obtenu avec n observations X 1,..., X n. On suppose : θ Θ, Iθ) > 0, x X, θ f θ x) est de classe C 2 sur Θ et θ Θ f θ, E θ f θ X) = 0, θ Θ, il existe V, voisinage de θ et h θ L 1 P θ ) tels que s V, 2 θ 2 log f s) h θ θ Θ, θ n converge en P θ probabilité vers θ. Alors, pour tout θ dans Θ, n θ n θ) converge en loi sous P θ vers N 0, 1 Iθ) ). Preuve du Théorème Soit θ dans Θ. Puisque θ n converge en P θ probabilité vers θ, avec une probabilité qui tend vers 1, θ n Θ, et θ n annule la dérivée de la log-vraisemblance. On va noter A n l événement θ n Θ. Sur A n, on a n X l θn i ) = 0. 89

90 10 Eléments de statistique asymptotique Par ailleurs, le développement de Taylor s écrit en notant l θ la dérivée seconde de log f θ) pour tout x X et s Θ : Donc pour tout s Θ : l s x) l θ x) = s θ) 1 0 l θ+ts θ) x)dt. avec n l s X i ) R n s) = n l θ X i ) = s θ) n n n l θ X i) + nr n s) l θ+ts θ) X i) l θ X i))dt. Donc en utilisant cela avec s = θ n, sur A n, 1 n n l θ X i ) = [ 1 n θ n θ) n n l θ X i) ] + n θ n θ)r n θ n ). Calcul et loi des grands nombres montrent que 1 n n l θ X i) converge en P θ -probabilité vers Iθ). 1 Par le théorème de limite centrale, sous P θ, n n l θ X i ) converge en loi vers N 0, Iθ)). Enfin, R n θ n ) converge en P θ -probabilité vers 0. En effet, si l on note rɛ, x) = sup s θ] ɛ l sx) l θ x), pour ɛ suffisamment petit tel que l intervalle centré en θ et de largeur 2ɛ soit dans V ), on a 0 rɛ, x) h θ x), et lim ɛ 0 rɛ, x) = 0, donc par convergence dominée lim ɛ 0 E θ rɛ, X) = 0. Puis pour tout δ > 0 et tout ɛ > 0, P θ R n θ n ) δ) P θ θ n θ ɛ) + P θ 1 n n rɛ, X i ) δ) car sup s θ ɛ R n s) 1 n n rɛ, X i). Par l inégalité de Markov, P θ 1 n n rɛ, X i) δ) E θrɛ,x) δ, et donc lim sup n + P θ R n θ n ) δ) E θrɛ,x) δ, et en prenant la limite quand ɛ tend vers 0 on obtient lim n + P θ R n θ n ) δ) = 0. Récapitulons : [ ] [ ] Z n n θn θ) = U n 1 An + Z n n θn θ) 1 1 An ), avec Z n qui converge en P θ -probabilité vers Iθ) et U n qui converge en[ loi sous P θ vers ] N 0, Iθ)). Par ailleurs, 1 An converge vers 1 en P θ -probabilité, et donc Z n n θn θ) 1 [ ] 1 An ) converge vers 0 en P θ -probabilité car pour tout ɛ > 0, P θ Z n n θn θ) 1 1 An ) ɛ) P θ 1 An = 0) tend vers 0 quand n tend vers l infini). On termine en utilisant le lemme de Slutzky. 90

91 10.2 Amélioration d un estimateur n-consistant 10.2 Amélioration d un estimateur n-consistant Comment calculer l estimateur du maximum de vraisemblance? Algorithme d annulation du gradient : et si beaucoup de maxima locaux, et donc beaucoup de zéros du gradient? Partir d un bon point initial et faire ensuite l algorithme de Newton? On dispose d une suite d estimateurs T n tels que pour tout θ, nt n θ) converge en loi sous P θ vers N 0, σ 2 θ)), avec σ 2 θ) > 1 Iθ). On se dit que T n n est pas loin de l estimateur du maximum de vraisemblance qui annule la fonction s n l s X i ). On peut alors chercher à améliorer l estimation en cherchant le zéro de la fonction par l algorithme de Newton partant de T n. En faisant un pas de cet algorithme, c est à dire en se déplaçant sur la droite tangente en T n au graphe de la fonction, jusqu au point où cette tangente traverse l axe des abscisses qui annule l ordonnée) [voir sur un dessin], on obtient un nouvel estimateur : θ n = T n n l Tn X i ) n l T n X i ). 10.1) On se place dans le même cadre que pour le Théorème On obtient alors Théorème On suppose A1), A2) et A3). On suppose aussi que pour tout θ Θ, nt n θ) converge en loi sous P θ. Alors, pour tout θ Θ, n θ n θ) converge en loi sous P θ vers N 0, 1 Iθ) ), avec θ n d feini par 10.1). Preuve du Théorème Soit θ dans Θ. On a avec les notations de la preuve du Théorème n l Tn X i ) = = n l θ X i ) + T n θ) n n l θ X i ) + nt n θ)w n l θ X i) + nt n θ)r n T n ) où W n converge en P θ -probabilité vers Iθ) comme dans la preuve du Théorème ). Aussi, Z n = 1 n n l T n X i ) converge en probabilité vers Iθ). En effet, Z n = 1 n n l θ X i) + 1 n n l T n X i ) l θ X i)), et si T n θ ɛ, alors 1 n n l T n X i ) l θ X i)) 1 n n rɛ, X i). Mais T n θ converge en P θ -probabilité vers 0, donc pour tout ɛ > 0 et tout δ > 0, P θ 1 n n l T n X i ) l θ X i)) δ) P θ T n θ ɛ) + P θ 1 n n rɛ, X i ) δ) P θ T n θ ɛ) + E θrɛ, X 1 )) δ 91

92 10 Eléments de statistique asymptotique par Markov, et donc en prenant la limite quand n tend vers l infini, puis quand ɛ tend vers 0, on obtient lim n + P θ 1 n n l T n X i ) l θ X i)) δ) = 0. On a donc : n θn θ) = nt n θ) = nt n θ) 1 W ) n + 1 Z n Z n Z n ) 1 n n l θ X i ) + nt n θ)w n Z n 1 n ) n l θ X i ). Par Slutzky, nt n θ) 1 Wn converge en P θ -probabilité vers 0, et 1 1 n n l ) Z n θ X i ) 1 converge en loi sous P θ vers N 0, Iθ) ). Donc encore par Slutzky, n θ n θ) converge 1 en loi sous P θ vers N 0, Iθ) ) Consistance de l estimateur du maximum de vraisemblance Il s agit ici de voir comment réaliser la consistance de l estimateur du maximum de vraisemblance hypothèse des théorèmes de loi asymptotique), et de voir que les hypothèses qui permettent de l obtenir ne sont plus locales mais globales. Si on note l n θ) la log-vraisemblance, et si log f θ x) L 1 P θ ), alors par la loi des grands nombres 1 n l nθ) converge en probabilité sous P θ vers E θ [log f θ X 1 )], et pour tout s Θ, si log f s x) L 1 P θ ), 1 n [l nθ) l n s)] converge en probabilité sous P θ vers log ) fθ x) dp θ x) = K P θ, P s ). f s x) Maximiser en s l n s) c est minimiser en s 1 n [l nθ) l n s)], et l on souhaite que asymptotiquement le maximum soit en θ, donc que le minimum de s K P θ, P s ) soit atteint pour s = θ. Or K P θ, P s ) est la divergence de Kullback entre P θ et P s, donc on sait que pour tout s, K P θ, P s ) 0 et que K P θ, P s ) = 0 si et seulement si P s = P θ. On va donc demander que cela implique s = θ, autrement dit que le modèle soit identifiable, c est à dire que la fonction θ P θ soit injective. Théorème On suppose le modèle P θ ) θ Θ dominé, et l on note θ n l estimateur du maximum de vraisemblance obtenu avec X 1,..., X n i.i.d. On suppose de plus que : le modèle est identifiable, Θ est un sous-ensemble compact de R k, pour tout x X, la fonction θ log f θ x) est continue f θ est la densité de P θ par rapport à la mesure dominante), et si l on note hx) = sup s Θ log f s x), pour tout θ Θ, h L 1 P θ ). Alors θ n est consistant, c est à dire que pour tout θ Θ, θ n converge en probabilité sous P θ vers θ. 92

93 10.3 Consistance de l estimateur du maximum de vraisemblance Remarquer que si θ log f θ x) est continue a fortiori f θ x) 0. Preuve du Théorème Notons, pour tout x X et α > 0, gα, x) = sup log f θ1 x) log f θ2 x). θ 1 θ 2 α Fixons θ Θ. On a alors gα, x) 2hx) et gα, ) L 1 P θ ). De plus, θ log f θ x) est uniformément continue sur le compact Θ, donc pour tout x X, lim α 0 gα, x) = 0, et par convergence dominée, lim ɛ 0 E θgα, X 1 ) = 0. Soit ɛ > 0 quelconque. L ensemble A ɛ = {s Θ : s θ ɛ} est compact fermé dans un compact), donc pour tout α > 0, on peut le recouvrir par un nombre fini N α de boules de rayon α, centrées en θ i, i = 1,..., N α. Pour tout s A ɛ, il existe i {1,..., N α } tel que s θ i α, et log f s x) log f θi x) gα, x). On a alors Donc ) P θ θ n θ ɛ sup l n s) max{l n θ i ), i = 1,..., N α } + s A ɛ n gα, X i ). ) P θ sup l n s) l n θ) s A ɛ P θ max{ l nθ i ) n, i = 1,..., N α} + 1 n n ) gα, X i ) l nθ) n Maintenant, max{ 1 n [l nθ i ) l n θ)], i = 1,..., N α } converge en probabilité sous P θ vers max{ K P θ, P θi ), i = 1,..., N α } car nombre fini de variables aléatoires), et max{ K P θ, P θi ), i = 1,..., N α } inf s Aɛ K P θ, P s ). Par ailleurs, s K P θ, P s ) est continue par convergence dominée) et atteint son minimum sur le compact A ɛ en un point, donc par identifiabilité, inf s Aɛ K P θ, P s ) = δ ɛ > 0. On a alors ) P θ θ n θ ɛ Mais P θ max{ 1 n [l nθ i ) l n θ)], i = 1,..., N α } δ ɛ 2 P θ max{ 1 n [l nθ i ) l n θ)], i = 1,..., N α } δ ɛ 2 lim P θ max{ 1 n + n [l nθ i ) l n θ)], i = 1,..., N α } δ ) ɛ = 0 2 car max{ K P θ, P θi ), i = 1,..., N α } δɛ 2 δɛ 2. Donc ) lim sup P θ θ n θ ɛ n + 2E θgα, X 1 ) δ ɛ ) et en faisant tendre α vers 0, on obtient lim n + P θ θ n θ ɛ = 0. ) 1 + P θ n n ) + 2E θgα, X 1 ) δ ɛ. gα, X i ) δ ɛ 2 ) 93

94 10 Eléments de statistique asymptotique 10.4 Asymptotique du test du rapport de vraisemblance On veut tester H 0 : θ = θ 0 contre H 1 : θ θ 0 avec le test du rapport de vraisemblance. Ce test s écrit ϕ n = 1 supθ Θ l nθ) l nθ 0 ) s pour un seuil s à déterminer, de sorte que lim sup n + E θ0 φ n α, niveau donné. Pour fixer le seuil, il s agit donc de déterminer la loi asymptotique de sup θ Θ l n θ) l n θ 0 ). Théorème On suppose P θ ) θ Θ dominé, Θ R, on note f θ la densité de P θ par rapport à la mesure dominante, et l on suppose que pour tous x et θ, f θ x) > 0. On note θ n l estimateur du maximum de vraisemblance. Soit θ 0 Θ. On suppose que : θ n converge en P θ0 probabilité vers θ 0. x X, θ f θ x) est de classe C 2 f θ en θ 0, E f 0 θ θ0 f θ0 X) = 0, E 0 θ0 f θ0 X) = 0 et E θ0 f θ0 f θ0 X) ) 2 < + où l on note f rapport à θ en θ 0 ). Iθ 0 ) > 0, Il existe V, voisinage de θ 0 et h L 1 P θ0 ) tels que θ 0 x) et f θ 0 x) les dérivées de f θ x) par θ V, 2 θ 2 log f θ) h. Alors 2[l n θ n ) l n θ 0 )] converge en loi sous P θ0 de liberté). vers χ 2 1) loi du chi-deux à un degré Preuve du Théorème En reprenant le Théorème on a n θn θ 0 ) = 1 Iθ 0 ) 1 n n l θ0 X i ) + ɛ n 10.2) où ɛ n tend en P θ0 -probabilité vers 0. θ l n θ) est de classe C 2 en θ 0, on a donc l n θ n ) = l n θ 0 ) + θ n θ 0 ) θ l nθ 0 ) + θ n θ 0 ) θ 2 l nθ n ) 10.3) pour un θ n θ 0 ; θ n ). Noter que θ n est aléatoire. Comme dans la preuve du Théorème , on obtient que 2 1 n θ 2 l nθ n ) = Iθ 0 ) + U n 10.4) 94

95 10.5 Généralisations multidimensionnelles où U n tend en P θ0 -probabilité vers 0. En reportant 10.2) et 10.4) dans 10.3), on obtient l n θ n ) l n θ 0 ) = = 1 1 Iθ 0 ) n + 1 2Iθ 0 ) 2 1 2Iθ 0 ) Par Slutzky, ɛn1+un Iθ 0)) Iθ 0 ) vers 0. Par ailleurs, 1 n l θ0 X i ) n Iθ0 ) ) ) n 1 n l θ0 X i ) + ɛ n l θ0 X i ) n ) 2 1 n l θ0 X i ) + ɛ n Iθ 0 ) + U n ) n ) 2 n l θ0 X i ) + ɛ n1 + U n Iθ 0 )) Iθ 0 ) 1 n + ɛ2 n 2Iθ 0 ) Iθ 0) + U n ). 1 1 Iθ 0 ) n 1 n ) n l θ0 X i ) n 1 n l ) θ0 X i ) + ɛ2 n 2Iθ 0 ) Iθ 0) + U n ) tend en P θ0 -probabilité 2 n 1 n l θ0 X i )) = n l θ0 X i ) Iθ0 )) 2, converge en loi sous P θ0 vers une gaussienne centrée réduite par le 2 l théorème de limite centrale, donc par image continue, θ0 X i ) converge en Iθ0 )) loi sous P θ0 vers χ 2 1) et le théorème s en suit par Slutzky. 1 n n On a alors, si u 1 α/2 est le quantile d ordre 1 α/2 de la loi gaussienne centrée réduite, u 2 1 α/2 est le quantile d ordre 1 α/2 de la loi χ2 1) car P U 2 u 2 ) = P U u)), et donc le test ϕ n = 1 supθ Θ l nθ) l nθ 0 ) u 2 1 α/2 est de niveau asymptotique α pour tester H 0 : θ = θ 0 contre H 1 : θ θ Généralisations multidimensionnelles On va écrire les résultats que l on obtient dans le cas où Θ R k, les preuves se déroulent de manière analogue au cas k = 1 le faire en exercice!). Soit P θ ) θ Θ un modèle dominé, Θ R k, on note f θ x) la densité de P θ par rapport à la mesure dominante, et P θ la loi d une suite de variables aléatoires i.i.d. de loi P θ. On note θ n l estimateur du maximum de vraisemblance obtenu avec n observations X 1,..., X n. Soit θ 0 Θ. On suppose que : θ n converge en P θ0 probabilité vers θ 0. 95

96 10 Eléments de statistique asymptotique x X, θ f θ x) est de classe C 2 D en θ 0, E 2 f θ0 f θ0 f θ0 X) = 0, E θ0 θ0 f θ0 X) = 0 et f θ E 2 0 θ0 f θ0 X) < + où l on a noté f θ0 x) le gradient de f θ x) par rapport à θ en θ 0 et D 2 f θ0 x) la matrice hessienne de f θ x) par rapport à θ en θ 0 ). Iθ 0 ) est définie positive Iθ 0 ) est la matrice de variance de f θ 0 f θ0 X 1 ) sous P θ0, Il existe V, voisinage de θ 0 et h L 1 P θ0 ) tel que pour tous i, j = 1,..., k, Alors 2 θ V, log f θ ) h. θ i θ i niθ0 ) θn θ 0 ) 1 n converge en P θ0 -probabilité vers 0, n θn θ 0 ) converge en loi sous P θ0 [ n 2 log X f θn i ) n f θ0 f θ0 X i ) vers N k 0, Iθ 0 ) 1 ), et ] n log f θ0 X i ) converge en loi sous P θ0 vers un χ 2 k) loi du chi-deux à k degrés de liberté) Constructions de régions de confiance asymptotiques A partir d estimateurs asymptotiquement efficaces : soit T n tel que pour tout θ, n Tn θ) converge en loi sous P θ vers N k 0, Iθ) 1 ),. On a donc si B k est un borélien de R k tel que, si U suit la loi N k 0, I k ), alors P U B k ) = α, alors { θ R k : niθ) 1/2 } T n θ) B k est une région de confiance pour θ asymptotiquement de niveau de confiance 1 α. Mais Iθ) dépend de θ inconnu, et il n est pas forcément facile de déterminer cet ensemble voir sur des exemples). Une solution est d estimer l information de Fisher. Si În est un estimateur consistant de Iθ), alors par Slutzky, nî1/2 n R n = T n θ) converge en loi sous P θ vers N k 0, I k ), et : } nî1/2 n T n θ) B k { θ R k est une région de confiance pour θ asymptotiquement de niveau de confiance 1 α. Si k = 1, on peut choisir B 1 = [ u 1 α/2 ; u 1 α/2 ], où u 1 α/2 est le quantile d ordre 1 α/2 de la loi gaussienne centrée réduite, et si k = 1, R n = T n u 1 α/2 u 1 α/2 ; T n n Î n n Î n est un intervalle de confiance pour θ asymptotiquement de niveau de confiance 1 α. On peut par exemple choisir : 96

97 10.7 Retour sur le test du chi-deux d ajustement În = IT n ) plug-in), consistant dès que θ Iθ) est continue, În = 1 n l n Tn lt Tn, consistant sous les hypothèses du Théorème par exemple. On peut aussi utiliser le test du rapport de vraisemblance. Si on note ϕ θ 0 n le test du rapport de vraisemblance de H 0 : θ = θ 0 contre H 1 : θ θ 0 asymptotiquement de niveau α, alors {θ 0 : ϕ θ 0 n = 0} est une région de confiance pour θ asymptotiquement de niveau de confiance 1 α. Donc en utilisant le Théorème , { } S n = θ 0 R k : sup l n θ) l n θ 0 ) u 2 1 α/2 θ Θ est une région de confiance pour θ asymptotiquement de niveau de confiance 1 α Retour sur le test du chi-deux d ajustement On revient sur le modèle où X = {1,..., k}, Θ = θ = θ 1,..., θ k 1 ) R k 1, θ j 0, j = 1,..., k, k 1 θ j 1, j=1 et P θ est la loi sur X donnée par : P θ X = j) = θ j, j = 1,..., k 1 et P θ X = k) = 1 k 1 j=1, que l on notera alors θ k. Soient X 1,..., X n i.i.d., on note pour j = 1,..., k N j = n 1 Xi =j. La log-vraisemblance est l n θ) = k j=1 N j log θ j, et l estimateur du maximum de vraisemblance est θ n tel que ) θn = N j, j = 1,..., k. j n On a vu que si pour tout j, θ j > 0 et si l on note T n = n k j=1 Nj n ) 2 θ j, θ j alors sous P θ, T n converge en loi quand n tend vers l infini vers un χ 2 k 1). On l a démontré en utilisant : le théorème de limite centrale et le théorème de Cochran. Peut-on relier ce résultat au Théorème ? Proposition On suppose que pour tout j = 1,..., k, θ j > 0. Alors [ ] 2 l n θ n ) l n θ) = T n + ɛ n où ɛ n converge en P θ -probabilité vers 0. 97

98 10 Eléments de statistique asymptotique Preuve de la Proposition On a [ ] 2 l n θ n ) l n θ) = 2 = 2 = 2 k j=1 Nj N j log nθ j [ k N j log 1 + j=1 k j=1 N j Nj n ) Nj n θ )] j θ j θ ) j θ j k j=1 N j Nj n θ ) 2 j + Z n en utilisant log1 + u) = u u2 2 + u2 εu), où εu) tend vers 0 quand u tend vers 0, et avec k Nj n Z n = 2 N θ ) 2 Nj j n j ε θ ) j. On a T n = n k j=1 N j n Nj n j=1 θ ) j n car k j=1 N j = n et k j=1 θ j = 1, et θ j k j=1 θ j θ j Nj n θ j θ ) j = θ j k j=1 θ j N j Nj n θ ) j, θ j avec On a alors k j=1 N j Nj n θ ) 2 j = n θ j U n = k j=1 k j=1 Nj nθ j ) N j n θ j θ j ) 2 ) ) N 2 Nj n j n θ j) 1. nθ j θ j [ ] 2 l n θ n ) l n θ) = T n + Z n U n. = T n + U n Mais par Slutzky, U n converge en P θ -probabilité vers 0, et par Slutzky et image continue, Z n = 2 k j=1 converge en P θ -probabilité vers 0. ) Nj Nj n n n θ )) 2 j ε θ j Nj n θ ) j. On considère maintenant que l on veut tester un sous-modèle décrit ainsi. Soit Θ R q, avec q < k 1, et π : Θ R k 1, πθ) = π 1 θ),..., π k 1 θ) de sorte que P θ X = j) = θ j 98

99 10.7 Retour sur le test du chi-deux d ajustement π j θ), j = 1,..., k 1. Si l on note p = P X = 1),..., P X = k 1)), on veut donc tester H 0 : p πθ) contre H 1 : p πθ). On va donc regarder l écart entre N j n ) j et π j ˆθ)) j pour un estimateur consistant de θ. Considérons par exemple l estimateur du maximum de vraisemblance θ n. Regardons quand les théorèmes asymptotiques s appliquent. Comme X est un ensemble fini, les hypothèses d intégrabilité et de domination sont vérifiées dès que les quantités sont finies. On note comme tout à l heure π k θ) = 1 k 1 j=1 π jθ). Donc pour la consistance, il suffit de supposer que H1) π est injective, continue sur Θ est compact, et pour tout j = 1,..., k, pour tout θ Θ, inf θ Θ π j θ) > 0. Pour la normalité asymptotique, on a besoin de plus H2) Pour tout j = 1,..., k, θ πθ) est de classe C 2, et l information de Fisher Iθ) est inversible. Théorème On suppose H1) et H2). On note T n = n k j=1 ) Nj 2 n π j θ n ). π j θ n ) Alors si p πθ), T n converge en loi sous P p vers un χ 2 k 1 q). La conséquence de ce théorème est que le test qui rejette H 0 lorsque T n χ 2 k 1 q) 1 α est asymptotiquement de niveau α. Il est aussi asymptotiquement de puissance 1 pour tout p / πθ). En effet, dans ce cas, T n converge en probabilité vers + l écrire). Preuve du Théorème On note Z n le vecteur de R k de coordonnées Z n,j = Nj n n π ) jθ), j = 1,..., k πj θ) et Y n le vecteur de R k de coordonnées Y n,j = ) π j θ n ) π j θ) n, j = 1,..., k. πj θ) Si on note D n la matrice diagonale des π j θ n) π j θ), on a T n = D n Z n Y n ) 2, et par Slutzky, la consistance de l e.m.v., et le théorème de Cochran, il suffit donc de montrer que Z n Y n converge en loi sous P θ vers N k 0, I k R) où R est la matrice de projection orthogonale sur un sous-espace de R k de dimension q

100 10 Eléments de statistique asymptotique Notons la matrice diagonale k k des π j θ), dπ la matrice k q qui possède en lignes les π j noter que la somme des coordonnées de π j est nulle puisque la somme des π j θ) est constante égale à 1), π le vecteur de R k des π j θ), π le vecteur de R k des πj θ). Comme pour i = 1,..., q, pour i, m = 1,..., q l θ x)) i = Iθ) i,m = k j=1 k j=1 1 π j θ) 1 x=j, π j θ) θ i 1 π j θ) π j θ) π j θ), θ i θ m Iθ) = dπ) T 1 dπ), et dire que Iθ) est inversible c est dire que les q vecteur de R k 1 π j θ) πj θ) θ i ) 1 j k, pour i = 1,..., q, sont linéairement indépendants. On a généralisation multidimensionnelle de la preuve du Théorème ) : n θn θ) = Iθ) 1 n n l θ X i ) + ɛ n = Iθ) 1 dπ) T 1 N + ɛ n n = Iθ) 1 dπ) T 1 ) N n n π + ɛ n où ɛ n tend en P θ -probabilité vers 0, et où l on a noté N le vecteur de R k de coordonnées N j. Par la méthode delta, on obtient n π θ n ) πθ) ) = dπ ) n θn θ + ɛ n = dπiθ) 1 dπ) T 1 n ) N n π + ɛ n où ɛ n et ɛ n tendent en P θ -probabilité vers 0. En multipliant à gauche par 1/2 on obtient Y n = 1/2 dπiθ) 1 dπ) T 1/2 Z n + U n où U n tend en P θ -probabilité vers 0. Donc Z n Y n = I k Q)Z n U n avec Q = Delta 1/2 dπiθ) 1 dπ) T 1/2, et Z n converge en loi sous P θ vers N k 0, I k ππ T ). Donc Z n Y n converge en loi sous P θ vers N k 0, Σ) avec Σ = I k Q) I k ππ T ) I k Q) T = I k Q + ππ T ) car Q est une matrice de projection orthogonale de rang q le rang de dπ) Q T = Q, Q 2 = Q) telle que Qππ T = 0, et Q + ππ T est une matrice de projection orthogonale sur un espace de dimension q

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Intégration et probabilités TD1 Espaces mesurés

Intégration et probabilités TD1 Espaces mesurés Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Capes 2002 - Première épreuve

Capes 2002 - Première épreuve Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : [email protected] Mots-clés : équation fonctionnelle, série

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire et Optimisation. Didier Smets Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Chapitre 7 : Intégration sur un intervalle quelconque

Chapitre 7 : Intégration sur un intervalle quelconque Universités Paris 6 et Paris 7 M1 MEEF Analyse (UE 3) 2013-2014 Chapitre 7 : Intégration sur un intervalle quelconque 1 Fonctions intégrables Définition 1 Soit I R un intervalle et soit f : I R + une fonction

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1 Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Mesures gaussiennes et espaces de Fock

Mesures gaussiennes et espaces de Fock Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chapitre 3. Mesures stationnaires. et théorèmes de convergence Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Approximation diophantienne uniforme et dimension de Hausdorff

Approximation diophantienne uniforme et dimension de Hausdorff Approximation diophantienne uniforme et dimension de Hausdorff Lingmin LIAO Travaux en collaboration avec Yann Bugeaud, Dong Han Kim et Micha l Rams Université Paris-Est Créteil Séminaire de Probabilités

Plus en détail

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Dualité dans les espaces de Lebesgue et mesures de Radon finies Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 & UE LM365 Intégration 2 Année 2010 11 Théorie de la Mesure et Intégration Responsable des cours : Amaury LAMBERT

Plus en détail

www.h-k.fr/publications/objectif-agregation

www.h-k.fr/publications/objectif-agregation «Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se

Plus en détail

Modèles et Méthodes de Réservation

Modèles et Méthodes de Réservation Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

MA6.06 : Mesure et Probabilités

MA6.06 : Mesure et Probabilités Année universitaire 2002-2003 UNIVERSITÉ D ORLÉANS Olivier GARET MA6.06 : Mesure et Probabilités 2 Table des matières Table des matières i 1 Un peu de théorie de la mesure 1 1.1 Tribus...............................

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

Calcul fonctionnel holomorphe dans les algèbres de Banach

Calcul fonctionnel holomorphe dans les algèbres de Banach Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Approximations variationelles des EDP Notes du Cours de M2

Approximations variationelles des EDP Notes du Cours de M2 Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390 PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390 Université PARIS 6 2008/2009 Jean BERTOIN 1 Table des Matières ( ) ces parties peuvent ^etre omises en première lecture, et ne feront pas

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

ENS de Lyon TD 1 17-18 septembre 2012 Introduction aux probabilités. A partie finie de N

ENS de Lyon TD 1 17-18 septembre 2012 Introduction aux probabilités. A partie finie de N ENS de Lyon TD 7-8 septembre 0 Introduction aux probabilités Exercice Soit (u n ) n N une suite de nombres réels. On considère σ une bijection de N dans N, de sorte que (u σ(n) ) n N est un réordonnement

Plus en détail

Chapitre 5 : Flot maximal dans un graphe

Chapitre 5 : Flot maximal dans un graphe Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d

Plus en détail

Développement décimal d un réel

Développement décimal d un réel 4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

FIMA, 7 juillet 2005

FIMA, 7 juillet 2005 F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail