Statistique (MATH-F-315, Cours #2)

Statistique (MATH-F-315, Cours #2) Thomas Verdebout Université Libre de Bruxelles 2015

Plan de la partie Statistique du cours 1. Introduction. 2. Théorie de l estimation. 3. Tests d hypothèses et intervalles de confiance. 4. Régression. 5. ANOVA.

Estimateurs à dispersion minimale Pour simplifier ici, nous considérons le cas univarié uniquement. On peut considérer qu un estimateur ˆθ 1 de θ est meilleur qu un estimateur ˆθ 2 si E θ [ ( ˆθ1 θ) 2] E θ [ ( ˆθ2 θ) 2] θ Θ. Definition La quantité E θ [(ˆθ θ) 2 ] est appelée écart quadratique moyen (entre ˆθ et θ). Il n existe que pour les estimateurs ˆθ de carré intégrable (E θ [ˆθ 2 ] < ). Sur base de l écart quadratique moyen, nous considérons donc dans la suite qu un estimateur ˆθ 1 de θ est donc plus performant qu un estimateur ˆθ 2 si son écart quadratique moyen (pris par rapport à θ) est uniformément plus petit (uniformément ici signifie pour toute valeur de θ).

Estimateurs à dispersion minimale Nous avons que E θ [(ˆθ θ) 2 ] = E θ [(ˆθ E θ [ˆθ] + E θ [ˆθ] θ) 2 ] = E θ [(ˆθ E θ [ˆθ]) 2 ] + E θ [(E θ [ˆθ] θ) 2 ] + 2E θ [(ˆθ E θ [ˆθ])(E θ [ˆθ] θ)]. = E θ [(ˆθ E θ [ˆθ]) 2 ] + (E θ [ˆθ] θ) 2 + 2E θ [ˆθ E θ [ˆθ]](E θ [ˆθ] θ). Or, E θ [ˆθ E θ [ˆθ]] = 0. Donc E θ [(ˆθ θ) 2 ] = Var θ (ˆθ) + (E θ [ˆθ] θ) 2 = Var θ (ˆθ) + (Biais θ (ˆθ)) 2. b) Trade off entre biais et variance : MSE L écart quadratique moyen est donc la variance augmentée du carré du biais (trade-off entre biais et variance): i) En guise d'illustration

Estimateurs à dispersion minimale Recherchons maintenant un estimateur θ dont l écart quadratique moyen soit uniformément minimum dans l ensemble de tous les estimateurs de θ. Soit θ 0 un point quelconque de Θ. Considérons l estimateur T (X) = θ 0 p.s. pour tout θ (estimateur dégénéré en θ 0). On met complètement de côté l échantillon et on prend un point fixé θ 0 dans l espace des paramètres pour estimer θ. Ecart quadratique moyen de cet estimateur: (θ 0 θ) 2 en θ, et donc s annule en θ 0. Un estimateur θ minimisant l écart quadratique moyen dans l ensemble de tous les estimateurs de θ devrait donc présenter un écart quadratique moyen nul en tout θ 0, ce qui est impossible. Une possibilité raisonnable est de se restreindre aux estimateurs ˆθ sans biais (E θ [ˆθ] = θ pour tout θ Θ), l écart quadratique moyen coïncide avec la variance. La condition de non-biais élimine donc les estimateurs dégénérés.

Estimateurs à dispersion minimale Peut-on espérer l existence d estimateurs à variance uniformément minimale dans la classe des estimateurs sans biais? Pour commencer, définissons le concept de vraisemblance. Cas discret: On appelle vraisemblance (likelihood) la probabilité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). L θ (X) = L θ (X 1,..., X n) = n p θ (X i). Cas continu: On appelle vraisemblance la densité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). Si la loi-population est de densité f θ, on obtient n L θ (X) = L θ (X 1,..., X n) = f θ (X i).

Estimateurs à dispersion minimale Soit L θ (X) une vraisemblance satisfaisant à certaines conditions de régularité: L θ (x) > 0, θ, θ L θ (x) dérivable sous le signe de l expression dérivée θ log L θ (x) est de variance finie : 0 < I(θ) := ( θ log L θ (x)) 2 L θ (x)dx = Var θ ( θ log L θ (X)) < ; L θ (x)dx = 1, la la quantité I(θ) est appelée Information de Fisher (relative à θ). On a le résultat suivant Théorème (Inégalité de Cramér-Rao) Sous les conditions énoncées ci-dessus et si T est une statistique telle que (i) Var θ (T ) < pour tout θ Θ et (ii) l expression θ = T (x)l θ (x) dx, on a que Var θ (T (X)) 1 I(θ) pour tout θ Θ.

Estimateurs à dispersion minimale Preuve. D abord, notons que puisque θ = T (x)l θ (x) dx peut être dérivée sous le signe, 1 = d T (x)l θ (x) dx = T (x) θ log L θ (x) L θ (x) dx = Cov θ (T (X), θ log L θ (x)). dθ Maintenant, calculons la variance (non négative) de la variable aléatoire S θ (X) := T (X) (I(θ)) 1 θ log L θ (X) : 0 Var θ (S θ (X)) = Var θ (T (X)) + (I(θ)) 2 Var θ ( θ log L θ (X)) 2(I(θ)) 1 Cov θ (T (X), θ log L θ (X)) }{{}}{{} (I(θ)) 1 2(I(θ)) 1 Donc ce qui établit le résultat. 0 Var θ (T (X)) (I(θ)) 1,

Estimateurs à dispersion minimale Efficacité Definition Un estimateur ˆθ de θ est dit efficace (pour θ) si son biais est nul et que sa variance atteint uniformément la borne de Cramér-Rao : Var θ (ˆθ) = 1/I(θ) pour tout θ Θ. La même définition peut aussi s exprimer de façon équivalente à partir de l écart quadratique moyen : Definition Un estimateur ˆθ de θ est dit efficace (pour θ) si son écart quadratique moyen (par rapport à θ) atteint la borne de Cramér-Rao uniformément en θ : E θ [(T (X) θ) 2 ] = 1/I(θ) pour tout θ Θ.

Estimateurs à dispersion minimale Remarques 1. L équivalence des deux définitions provient de ce que, pour un estimateur sans biais, la variance et l écart quadratique moyen coïncident, et que, la variance étant comprise entre l écart quadratique moyen et la borne, l égalité de ces deux derniers implique celle de la variance et de l écart quadratique moyen, donc l absence de biais. Un estimateur biaisé ne saurait donc être efficace. 2. Un estimateur efficace de θ est à variance uniformément minimale dans la classe des estimateurs sans biais de θ; la réciproque n est pas vraie, car il arrive que la borne ne puisse être atteinte.

Estimateurs à dispersion minimale Exemple 1 (échantillon de Bernoulli) n n Soient X i i.i.d. Bin(1, p). On a que: L p(x) = p X i (1 p) n X i. Donc, log L p(x) = X i(log p) + (n X i) log(1 p), et p log L p(x) = = 1 X i p (n 1 X i) 1 p = ( ) 1 X i n p(1 p) 1 p. Calculons l information de Fisher ( n I(p) := Var p( p log L p(x)) = 1 p 2 (1 p) 2 Var Xi Bin(n, p)): ( ) X i = ( ) 1 X i p + 1 n 1 p 1 p np(1 p) p 2 (1 p) 2 = On sait que ˆp = X = 1 n Xi est un estimateur sans biais de θ. On a n p(1 p) Var p(ˆp) = = ( I(p) ) 1. n Donc ˆp est un estimateur efficace de p. n p(1 p)

Estimateurs à dispersion minimale Exemple 2 (moyenne d un échantillon gaussien). Soient X i i.i.d. N (µ, σ 2 ), σ 2 spécifié. On a que: Donc log L µ,σ 2(X) = n 2 log(2πσ2 ) 1 2 µ log L µ,σ 2(X) = 1 σ 2 Calculons l information de Fisher correspondante : ( ) Xi µ 2. σ (X i µ) I(µ) := E µ,σ 2[( µ log L µ,σ 2(X)) 2 ] = Var µ,σ 2( µ log L µ,σ 2(X)) = 1 E[(X σ 4 i µ) 2 ] = 1 σ 4 nσ2 = n σ. 2 Or X est un estimateur sans biais de µ, et Donc X est un estimateur efficace de µ. Var µ,σ 2( X) = σ2 n = [ I(µ) ] 1.

Estimateurs à dispersion minimale Exemple 3 (variance d un échantillon gaussien). De la même façon, mais en supposant cette fois µ spécifié, et σ 2 log L µ,σ 2(X) = 1 σ 2 (X i µ), E µ,σ 2[( σ 2 log L µ,σ 2(X)) 2 ] = Var µ,σ 2 σ 2 log L µ,σ 2(X) = 1 4σ nvar 4 µ,σ 2(((X1 µ)/σ)2 ) = n 2σ 4 puisque ((X 1 µ)/σ) 2 χ 2 1 et que la variance d une chi-carré à un degré de liberté est 2. On calcule aisément que Var µ,σ 2(s 2 ) = 2(n 1)σ 4 /n 2 et Var µ,σ 2(S 2 ) = 2σ 4 /(n 1) : ni s 2 ni S 2 ne sont donc efficaces (s 2 étant biaisé ne peut l être). En revanche, la variance de ˆσ 2 := 1 n n (Xi µ)2 a pour variance 2σ 4 /n, et ˆσ 2 est donc efficace.

La méthode du maximum de vraisemblance La méthode du maximum de vraisemblance est sans doute la méthode d estimation la plus utilisée. Elle possède de nombreuses propriétés intéressantes, notamment des propriétés de convergence, de normalité et d efficacité asymptotiques. Soit X une observation dont le comportement est caractérisé par une vraisemblance L θ (X), θ Θ. Definition On appelle estimateur maximum de vraisemblance (en anglais, maximum likelihood estimator ou MLE) de θ toute valeur ˆθ de θ maximisant la vraisemblance L θ (X) : ˆθ = Argmax θ L θ (X) ou, de façon équivalente, ˆθ = Argmax θ log L θ (X).

La méthode du maximum de vraisemblance Prenons le cas continu (le cas discret se résoud de façon similaire). Soit X = (X 1,..., X n), où les X i sont i.i.d. de densité f θ (x). La vraisemblance associée est donnée par L θ (X) = n f θ(x i). On obtient dès lors que ˆθ = Argmax log L θ θ(x) = Argmax θ log f θ (X i) Si θ f θ (x) est différentiable et Θ ouvert, on peut rechercher ˆθ parmis les solutions du système θ log f θ(x i) = 0, un système d équations appelées équations de vraisemblance.

La méthode du maximum de vraisemblance Exemple 1 (échantillon de Bernoulli). Soient X 1,..., X n i.i.d. Bin(1, p), p (0, 1). On a n n L p(x 1,..., X n) = p X i (1 p) n X i, donc et log L p(x 1,..., X n) = ( X i log(p) + n ( log Lp(X1,..., Xn) = p ( = X i ) ) X i log(1 p) ( 1 p n X i ) ( 1 p + 1 1 p ) 1 X i 1 p ) n 1 p.

La méthode du maximum de vraisemblance Annuler cette dérivée conduit à l équation ( qui s écrit encore ou ) ( ) (1 p) + p X i p(1 p) ( ) X i np = 0 X i = np. La solution des équations de vraisemblance est donc ˆp = 1 n X i. np p(1 p) = 0

La méthode du maximum de vraisemblance Exemple 2 (échantillon gaussien). Soient X 1,..., X n i.i.d. N (µ, σ 2 ). La vraisemblance s écrit [ ] L µ,σ 2(X 1,..., X n) = (2πσ 2 ) n 2 exp 1 (X 2σ 2 i µ) 2 ; donc log L µ,σ 2(X 1,..., X n) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 (X i µ) 2. Le système des équations de vraisemblance comprend deux équations. La première équation est relative à µ : µ log L µ,σ 2 = 1 (X σ 2 i µ) = 0. Cette équation (inconnue: µ) est satisfaite si et seulement si L unique solution en est donc ˆµ = 1 X i =: X. n n (Xi µ) = 0.

La méthode du maximum de vraisemblance La seconde équation provient de l annulation de la dérivée par rapport à σ 2. En y remplaçant µ par ˆµ (méthode de substitution), on obtient σ log L 2 ˆµ,σ 2 = n 1 2 σ + 1 2 2σ 4 qui est équivalente (car σ 2 > 0) à L unique solution est n 2 σ2 + 1 2 ˆσ 2 = 1 n (X i ˆµ) 2 = 0, (X i X) 2 = 0. (X i X) 2 = s 2.

La méthode du maximum de vraisemblance Si on note comme avant I (n) θ de taille n, on obtient I (n) θ ( := Var θ θ = la matrice d information de Fisher pour un échantillon log L(n) θ (X1,..., Xn)) = Var θ ( Var θ log L(1) θ θ (Xi)) = ( I (1) θ = ni (1) θ. ) log L(1) θ θ (Xi) La solution des équations de vraisemblance et l information de Fisher sont donc liées. Sous des conditions très générales, on montre que si ˆθ est solution des équations de vraisemblance, n 1/2 (ˆθ θ) L n N (0, (I(n) θ ) 1 ) C est à direˆθ (n) N (θ, (ni (1) θ ) 1 ). Notons que (ni (1) θ ) 1 est la borne de Cramér-Rao (pour θ et n observations). Au sens de l approximation ci-dessus, l estimateur ˆθ est donc normal, sans biais, et efficace. De tels estimateurs sont dits B.A.N. (Best Asymptotically Normal).

Autres méthodes d estimation Soient X 1,..., X n i.i.d. P θ, où θ = (θ 1,..., θ K ). Notons µ k (θ) := E[X1 k ], k = 1, 2,... les moments-population m k := 1 Xi k, k = 1, 2,... les moments empiriques correspondants. n Supposons que les moments-population existent et soient finis jusqu à l ordre K au moins. Ces moments sont des fonctions du paramètre θ : faisons l hypothèse que l application θ (µ 1(θ), µ 2(θ),..., µ K (θ)) soit bijective. La méthode des moments consiste à prendre comme estimateur de θ la solution ˆθ du système µ 1(θ) = m 1. µ K (θ) = m K

Autres méthodes d estimation En général, les estimateurs efficaces sont très sensibles aux observations aberrantes". Les statistiques habituelles qui sont efficaces sous un modèle sont généralement très affectées par une petite modification du modèle sous-jacent. Prenons l exemple de la moyenne empirique n 1 n Xi d un échantillon aléatoire simple X 1,..., X n. Si une des observations devient arbitrairement grande, la moyenne empirique devient de la même manière dans le sens où la moyenne de l échantillon X 1,..., X n, vaut. La médiane empirique souffre moins d une situation comme celle de ci-dessus. Dans ce sens, elle peut être qualifiée de plus robuste que la médiane. Dans les années 1960, les statistiques robustes ont connu un grand essor.

Autres méthodes d estimation En particulier, la classe des M-estimateurs d un paramètre θ a été abondamment étudiée. Un M-estimateur de θ associé à une fonction objectif ϕ θ est défini par ˆθ = Argmax θ ϕ θ (X i) Un choix judicieux de la fonction ϕ θ peut permettre d obtenir un estimateur robuste. Notons que les estimateurs maximum de vraisemblance sont un cas particulier de M-estimateur obtenu en prenant ϕ θ = logf θ.