Chapitre 3. Intervalles de confiance. 3.1 Principe général

Documents pareils
Moments des variables aléatoires réelles

Le modèle de Black et Scholes

Simulation de variables aléatoires

Correction du Baccalauréat S Amérique du Nord mai 2007

4 Distributions particulières de probabilités

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Développements limités. Notion de développement limité

TSTI 2D CH X : Exemples de lois à densité 1

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Espérance conditionnelle

MÉTHODE DE MONTE CARLO.

4. Martingales à temps discret

3. Conditionnement P (B)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Travaux dirigés d introduction aux Probabilités

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Chap 4. La fonction exponentielle Terminale S. Lemme : Si est une fonction dérivable sur R telle que : = et 0! = 1 alors ne s annule pas sur R.

Texte Agrégation limitée par diffusion interne

Méthodes de Simulation

Loi d une variable discrète

Limites finies en un point

La fonction exponentielle

CCP PSI Mathématiques 1 : un corrigé

Probabilités III Introduction à l évaluation d options

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Introduction à la statistique non paramétrique

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Modèles et Méthodes de Réservation

Précision d un résultat et calculs d incertitudes

Programmes des classes préparatoires aux Grandes Ecoles

Théorie de l estimation et de la décision statistique

Chapitre 2 Le problème de l unicité des solutions

Processus aléatoires avec application en finance

Capes Première épreuve

Probabilités sur un univers fini

3. Caractéristiques et fonctions d une v.a.

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Comparaison de fonctions Développements limités. Chapitre 10

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Cours de méthodes de scoring

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

O, i, ) ln x. (ln x)2

3 Approximation de solutions d équations

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)


MODELES DE DUREE DE VIE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Probabilités avancées. Florin Avram

Variables Aléatoires. Chapitre 2

Loi binomiale Lois normales

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Corrigé du baccalauréat S Asie 21 juin 2010

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Sur certaines séries entières particulières

Lagrange, où λ 1 est pour la contrainte sur µ p ).

I. Polynômes de Tchebychev

Correction de l examen de la première session

Probabilités. C. Charignon. I Cours 3

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Finance, Navier-Stokes, et la calibration

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Développements limités, équivalents et calculs de limites

LICENCE DE MATHÉMATIQUES DEUXIÈME ANNÉE. Unité d enseignement LCMA 4U11 ANALYSE 3. Françoise GEANDIER

Chapitre 2. Matrices

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Amphi 3: Espaces complets - Applications linéaires continues

Introduction à la Statistique Inférentielle

Cours Fonctions de deux variables

DOCM Solutions officielles = n 2 10.

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Exercices - Polynômes : corrigé. Opérations sur les polynômes

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

MCMC et approximations en champ moyen pour les modèles de Markov

Continuité en un point

Intégration sur des espaces produits

Corrigé des TD 1 à 5

Module 7: Chaînes de Markov à temps continu

Décomposition de Föllmer-Schweizer. explicite d un passif d assurance vie. au moyen du calcul de Malliavin

Leçon 01 Exercices d'entraînement

Quantification Scalaire et Prédictive

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Structures algébriques

Calcul intégral élémentaire en plusieurs variables

Cours d Analyse I et II

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Transcription:

Chapitre 3 Intervalles de confiance Ce chapitre est consacré à la construction d intervalles contenant le paramètre inconnu supposé réel, avec un niveau de confiance fixé. Il contient essentiellement des méthodes, sans rentrer dans un formalisme excessif. Dans la suite, (H n,{p θ } θ Θ ) est un modèle statistique paramétrique avec H R k et Θ R d. Le paramètre d intérêt est g(θ), avec g : Θ R une fonction connue. 3.1 Principe général L objectif est de construire un intervalle contenant le paramètre inconnu. Celuici est défini formellement de la fac on suivante : Définition. Soit α ]0,1[. Un intervalle de confiance pour g(θ) de niveau de confiance (1 α) est une statistique I à valeurs dans les intervalles de R telle que pour chaque θ Θ : P θ g(θ) I = 1 α. Dans cette définition, si l observation (x 1,,x n ) est une réalisation de la loi P θ0, la P θ0 -probabilité que (x 1,,x n ) soit dans l ensemble (y1,,y n ) H n : g(θ 0 ) I(y 1,,y n ) 29

30 CHAPITRE 3. INTERVALLES DE CONFIANCE vaut alors (1 α). Noter que les deux critères de qualité d un intervalle de confiance, i.e. sa longueur et son niveau de confiance, s opposent et qu il est donc impératif de réaliser un compromis. En pratique, pour un niveau de confiance raisonnable (souvent 90 ou 95 %), on cherche un intervalle de confiance de plus petite longueur. L un des ingrédients de base pour construire un intervalle de confiance est le quantile d une loi sur R. Définition. Soit F la fonction de répartition d une loi ν sur R. Le quantile d ordre r ]0,1[ de la loi ν est défini par q r = inf x R : F(x) r. Les premières propriétés des quantiles sont décrites ci-dessous : Proposition 3.1.1. Soit F la fonction de répartition d une loi sur R et q r son quantile d ordre r ]0,1[. Si F est continue, F(q r )=r. Si, de plus, F est strictement croissante, alors q r est l unique solution de l équation F(.)=r. Preuve. Il suffit de remarquer que, comme F est croissante et continue à droite, F(q r ) r F(q r ), si F(q r ) est la limite à gauche de F en q r. Comme en atteste l exemple qui suit, la recherche d une variable aléatoire pivot, i.e. une variable aléatoire dont la loi est indépendante de θ pour chaque θ Θ, est essentielle dans la construction d un intervalle de confiance. Exemple. L objectif est de construire un intervalle de confiance de niveau 1 α ]0,1[ pour le paramètre du modèle statistique (R n,{n (θ,1) n } θ R ). Soient (X 1,,X n ) P θ = N (θ,1) n, Φ la fonction de répartition de la loi N (0,1) et q le quantile d ordre (1 α/2) de la loi N (0,1). Comme n( X n θ) est une variable aléatoire pivot de loi N (0,1), P θ n X n θ q = Φ(q) Φ( q)=2φ(q) 1 = 1 α, car la densité de la loi N (0,1) est paire. Ainsi, P θ θ X n q, X n + q = 1 α, n n

3.2. INTERVALLE DE CONFIANCE PAR EXCÈS 31 c est-à-dire que l intervalle de confiance de niveau (1 α) pour le paramètre θ est [ X n q/ n, X n + q/ n]. 3.2 Intervalle de confiance par excès La construction d un intervalle de confiance s appuie sur une variable aléatoire pivot. A défaut d informations sur la loi de la variable aléatoire, ou bien si la loi ne permet pas de construire un intervalle de confiance (c est le cas si elle est discrète), une option est de se retrancher sur une notion plus faible, en exigeant seulement une minoration du niveau de confiance. Définition. Soit α ]0,1[. Un intervalle de confiance par excès pour g(θ) de niveau de confiance (1 α) est une statistique I à valeurs dans les intervalles de R telle que pour chaque θ Θ : P θ g(θ) I 1 α. Dans cette définition, si l observation (x 1,,x n ) est une réalisation de la loi P θ0, la P θ0 -probabilité que (x 1,,x n ) soit dans l ensemble (y1,,y n ) H n : g(θ 0 ) I(y 1,,y n ) est alors plus grande que (1 α). Pour toute la suite de cette section, le modèle statistique se présente sous la forme P θ = Q n θ θ Θ, avec Q θ une loi sur H R de support [a,b] indépendant de θ. Supposons de plus que le paramètre d intérêt vérifie g(θ)=e θ X 1 = H xq θ (dx) θ Θ. Utilisons la moyenne empirique pour estimer g(θ) (méthode des moments, cf section 2.2). En procédant comme dans la section 1.1, on montre avec l inégalité de Bienaymé-Tchebytchev que, si (X 1,,X n ) Q n θ, alors I 1 = X n b a, X n + b a. nα nα

32 CHAPITRE 3. INTERVALLES DE CONFIANCE est un intervalle de confiance par excès pour g(θ) de niveau (1 α). Il peut être amélioré en basant sa construction sur une inégalité plus précise, par exemple l inégalité de Hoeffding qui fait l objet du prochain théorème. Théorème 3.2.1. [INÉGALITÉ DE HOEFFDING] Soient Z 1,,Z n des variables aléatoires réelles indépendantes et identiquement distribuées, définies sur l espace probabilisé (Ω,A,P). Si il existe a < b tels que a Z 1 b P-p.s., alors pour tout t > 0 : n P i EZ 1 ) i=1(z t 2exp 2t2 n(b a) 2. Utilisons cette inégalité pour construire un intervalle de confiance par excès de niveau (1 α) pour le paramètre g(θ). Soit (X 1,,X n ) P θ = Q n θ. Puisque les variables aléatoires X 1,,X n sont indépendantes et de même loi avec X i [a,b] P θ -p.s. et E θ X 1 = g(θ), l inégalité de Hoeffding donne P θ X n g(θ) t 1 n = P θ n (X i E θ X i ) t i=1 2exp 2nt2 (b a) 2, pour chaque t > 0. Avec le choix de 1 t =(b a) 2n ln 2 α on trouve P θ ( X n g(θ) t) α. Par suite, 1 I 2 = X n (b a) 2n ln 2 1 α, X n +(b a) 2n ln 2 α est un intervalle de confiance par excès pour g(θ) de niveau (1 α). Comparé à l intervalle I 1 obtenu avec l inégalité de Bienaymé-Tchebytchev, les contributions de la taille de l échantillon, de l ordre de 1/ n, et de la longueur du support de Q θ sont les mêmes. En revanche, l amélioration est nette en ce qui concerne l influence de α et des constantes.

3.2. INTERVALLE DE CONFIANCE PAR EXCÈS 33 Exemple. Reprenons l étude statistique du jeu de pile ou face de la section 1.1 : 1000 tirages ont été réalisés indépendamment les uns des autres et, en codant x i = 1 si le i-ème tirage donne pile et 0 sinon, on a obtenu une observation (x 1,,x n ) {0,1} n, avec n = 1000, dont la moyenne x n vaut 0.52. Le modèle statistique est ({0,1} n,{b(θ) n } θ ]0,1[ ), et le paramètre d intérêt θ est estimé par la moyenne empirique X n issue de l échantillon (X 1,,X n ) B(θ) n. Pour a = 0, b = 1, α = 0.05 et la réalisation x n de X n, l intervalle de confiance I 2 montre que la probabilité θ 0 que la pièce donne pile appartient à [0.48,0.56], avec un niveau de confiance au moins égal à 0.95. Cet intervalle est à comparer à l intervalle [0.44, 0.60] au même niveau de confiance, obtenu en utilisant l inégalité de Bienaymé-Tchebytchev : la longueur varie du simple au double. Preuve du théorème 3.2.1. Supposons pour simplifier que Z 1 est centrée. Notons S n = n i=1 Z i. Pour tout r > 0, P( S n t) = P(S n t)+p( S n t) = P e rs n e rt + P e rs n e rt. On en déduit de l inégalité de Markov que P S n t e rt Ee rs n + Ee rs n e rt Ee rz 1 n + Ee rz 1 n, E désignant l espérance sous la probabilité P. Majorons maintenant le terme Ee sz 1, pour s = r ou s = r. Par convexité de la fonction exponentielle et comme Z 1 [a,b] P-p.s., e sz 1 = exp Z1 a b a sb + b Z 1 b a sa Puisque Z 1 est centrée, il vient : a b a esb + Ee sz 1 a b a esb + b b a esa. b b a esa = exp Z 1 a b a esb + b Z 1 b a esa. Or, en posant p = a/(b a), on trouve la représentation : ps(b a)+ln Par suite, si φ(x)= px + ln(1 p + pe x ) pour tout x 0: Ee sz 1 e φ(s(b a)). 1 p + pe s(b a).

34 CHAPITRE 3. INTERVALLES DE CONFIANCE La fonction φ est de classe C 2 et vérifie φ(0) =φ (0) =0 et φ (x) 1/4 pour tout x 0. D après la formule de Taylor-Lagrange, il existe donc κ [0, s(b a)] tel que φ(s(b a)) = s2 (b a) 2 φ (κ), 2 d où φ(s(b a)) s 2 (b a) 2 /8 et Ee sz 1 e r2 (b a) 2 /8 car s 2 = r 2. Il s ensuit que pour chaque r > 0, P S n t 2exp rt + n r2 (b a) 2. 8 Finalement, le choix r = 4t/(n(b a) 2 ), qui minimise le terme de droite dans l inégalité ci-dessus, nous donne l inégalité anonc ée. 3.3 Intervalle de confiance asymptotique A défaut d informations suffisantes ou appropriées sur la loi de la variable aléatoire utilisée pour la construction de l intervalle de confiance, une seconde alternative est de se retrancher sur une propriété asymptotique. Définition. Soit α ]0, 1[. Un intervalle de confiance asymptotique pour g(θ) de niveau de confiance (1 α) est une statistique I n à valeurs dans les intervalles de R telle que pour chaque θ Θ : lim P θ g(θ) In = 1 α. n Dans cette définition, si l observation (x 1,,x n ) est une réalisation de la loi P θ0, la P θ0 -probabilité que (x 1,,x n ) soit dans l ensemble (y1,,y n ) H n : g(θ 0 ) I n (y 1,,y n ) est proche de (1 α) lorsque n est assez grand. Noter l abus qui consiste à utiliser pour une valeur de n fixée un résultat asymptotique. En toute rigueur, l utilisation d un intervalle de confiance asymptotique doit être validée par une étude plus approfondie, et qui dépasse le cadre de cet ouvrage, portant

3.3. INTERVALLE DE CONFIANCE ASYMPTOTIQUE 35 sur la proximité entre P θ (g(θ) I n ) et (1 α). Supposons que l on veuille construire un intervalle de confiance asymptotique de niveau (1 α) dans le cas où l estimateur ĝ de g(θ) est asymptotiquement normal et de vitesse (v n ) n : pour chaque θ Θ, il existe σ(θ) > 0 tel que Par suite, v n ĝ g(θ) L/Pθ N 0,σ(θ) 2. v n ĝ L/Pθ g(θ) N (0,1). σ(θ) La variable aléatoire v n (ĝ g(θ))/σ(θ) est dite asymptotiquement pivot, car sa loi limite est indépendante de θ. Cependant, dans cette généralité, un tel résultat ne permet pas de construire un intervalle de confiance asymptotique pour g(θ). Si ˆσ est un estimateur consistant de σ(θ), le lemme de Slutsky montre que pour chaque θ Θ : v ṋ ĝ L/Pθ g(θ) N (0,1). σ En désignant par q le quantile d ordre (1 α/2) de la loi N (0,1), on en déduit que lim P vṋ θ n σ ĝ g(θ) q = 1 α. Ainsi, [ĝ ˆσq/v n,ĝ + ˆσq/v n ] est un intervalle de confiance asymptotique de niveau (1 α) pour g(θ). Exemple. Dans l étude statistique du jeu de pile ou face de la section 1.1, l observation (x 1,,x n ) {0,1} n, avec n = 1000, a donné une moyenne x n de 0.52. Le modèle statistique est ({0,1} n,{b(θ) n } θ ]0,1[ ), et le paramètre d intérêt θ est estimé par la moyenne empirique X n issue de l échantillon (X 1,,X n ) B(θ) n. D après le théorème central limite, n( X n θ) L/B(θ) n N 0,θ(1 θ), et, de plus, X n (1 X n ) est un estimateur consistant de θ(1 θ) d après la loi des grands nombres. Par suite, en notant q le quantile d ordre (1 α/2)

36 CHAPITRE 3. INTERVALLES DE CONFIANCE de la loi N (0,1), X n q X n (1 X n ), X n + q X n (1 X n ) n n est un intervalle de confiance asymptotique de niveau (1 α) pour θ. Si θ 0 est la probabilité que la pièce tombe sur pile, l observation (x 1,,x n ) de moyenne 0.52 montre que θ 0 [0.49,0.55] avec un niveau de confiance asymptotique de 0.95.