Statistique (MATH-F-315, Cours #2)

Documents pareils
Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Méthodes de Simulation

Probabilités III Introduction à l évaluation d options

Théorie de l estimation et de la décision statistique

TSTI 2D CH X : Exemples de lois à densité 1

Moments des variables aléatoires réelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Précision d un résultat et calculs d incertitudes

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Quantification Scalaire et Prédictive

4. Martingales à temps discret

Calculs de probabilités avec la loi normale

Pierre Thérond Année universitaire

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 3. Les distributions à deux variables

MÉTHODE DE MONTE CARLO.

Le modèle de Black et Scholes

Programmation linéaire

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Comparaison de fonctions Développements limités. Chapitre 10

Introduction à la Statistique Inférentielle

Cours Fonctions de deux variables

M2 IAD UE MODE Notes de cours (3)

Cours d introduction à la théorie de la détection

Texte Agrégation limitée par diffusion interne

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Simulation de variables aléatoires

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

PRIME D UNE OPTION D ACHAT OU DE VENTE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèles et Méthodes de Réservation

3. Caractéristiques et fonctions d une v.a.

Commun à tous les candidats

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Les indices à surplus constant

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Économetrie non paramétrique I. Estimation d une densité

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

8 Ensemble grand-canonique

Hedging delta et gamma neutre d un option digitale

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Correction du Baccalauréat S Amérique du Nord mai 2007

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Fonctions de plusieurs variables

3 Approximation de solutions d équations

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Loi binomiale Lois normales

Représentation d une distribution

Université Paris-Dauphine DUMI2E 1ère année, Applications

4 Distributions particulières de probabilités

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Travaux dirigés d introduction aux Probabilités

Continuité en un point

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Correction de l examen de la première session

PROBABILITES ET STATISTIQUE I&II

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Programmes des classes préparatoires aux Grandes Ecoles

Fonctions de deux variables. Mai 2011

Image d un intervalle par une fonction continue

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Corrigé du baccalauréat S Pondichéry 12 avril 2007


OUTILS STATISTIQUES ET NUMÉRIQUES

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Introduction à la statistique non paramétrique

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

1 Complément sur la projection du nuage des individus

I. Polynômes de Tchebychev

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

TABLE DES MATIERES. C Exercices complémentaires 42

Lois de probabilité. Anita Burgun

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

MATHS FINANCIERES. Projet OMEGA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Soutenance de stage Laboratoire des Signaux et Systèmes

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Econométrie et applications

Espérance conditionnelle

Factorisation Factoriser en utilisant un facteur commun Fiche méthode

3. Conditionnement P (B)

Exemples d application

MODELES DE DUREE DE VIE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Modélisation et simulation

Chp. 4. Minimisation d une fonction d une variable

aux différences est appelé équation aux différences d ordre n en forme normale.

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Amphi 3: Espaces complets - Applications linéaires continues

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Cours 02 : Problème général de la programmation linéaire

Sur certaines séries entières particulières

Le produit semi-direct

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Transcription:

Statistique (MATH-F-315, Cours #2) Thomas Verdebout Université Libre de Bruxelles 2015

Plan de la partie Statistique du cours 1. Introduction. 2. Théorie de l estimation. 3. Tests d hypothèses et intervalles de confiance. 4. Régression. 5. ANOVA.

Estimateurs à dispersion minimale Pour simplifier ici, nous considérons le cas univarié uniquement. On peut considérer qu un estimateur ˆθ 1 de θ est meilleur qu un estimateur ˆθ 2 si E θ [ ( ˆθ1 θ) 2] E θ [ ( ˆθ2 θ) 2] θ Θ. Definition La quantité E θ [(ˆθ θ) 2 ] est appelée écart quadratique moyen (entre ˆθ et θ). Il n existe que pour les estimateurs ˆθ de carré intégrable (E θ [ˆθ 2 ] < ). Sur base de l écart quadratique moyen, nous considérons donc dans la suite qu un estimateur ˆθ 1 de θ est donc plus performant qu un estimateur ˆθ 2 si son écart quadratique moyen (pris par rapport à θ) est uniformément plus petit (uniformément ici signifie pour toute valeur de θ).

Estimateurs à dispersion minimale Nous avons que E θ [(ˆθ θ) 2 ] = E θ [(ˆθ E θ [ˆθ] + E θ [ˆθ] θ) 2 ] = E θ [(ˆθ E θ [ˆθ]) 2 ] + E θ [(E θ [ˆθ] θ) 2 ] + 2E θ [(ˆθ E θ [ˆθ])(E θ [ˆθ] θ)]. = E θ [(ˆθ E θ [ˆθ]) 2 ] + (E θ [ˆθ] θ) 2 + 2E θ [ˆθ E θ [ˆθ]](E θ [ˆθ] θ). Or, E θ [ˆθ E θ [ˆθ]] = 0. Donc E θ [(ˆθ θ) 2 ] = Var θ (ˆθ) + (E θ [ˆθ] θ) 2 = Var θ (ˆθ) + (Biais θ (ˆθ)) 2. b) Trade off entre biais et variance : MSE L écart quadratique moyen est donc la variance augmentée du carré du biais (trade-off entre biais et variance): i) En guise d'illustration

Estimateurs à dispersion minimale Recherchons maintenant un estimateur θ dont l écart quadratique moyen soit uniformément minimum dans l ensemble de tous les estimateurs de θ. Soit θ 0 un point quelconque de Θ. Considérons l estimateur T (X) = θ 0 p.s. pour tout θ (estimateur dégénéré en θ 0). On met complètement de côté l échantillon et on prend un point fixé θ 0 dans l espace des paramètres pour estimer θ. Ecart quadratique moyen de cet estimateur: (θ 0 θ) 2 en θ, et donc s annule en θ 0. Un estimateur θ minimisant l écart quadratique moyen dans l ensemble de tous les estimateurs de θ devrait donc présenter un écart quadratique moyen nul en tout θ 0, ce qui est impossible. Une possibilité raisonnable est de se restreindre aux estimateurs ˆθ sans biais (E θ [ˆθ] = θ pour tout θ Θ), l écart quadratique moyen coïncide avec la variance. La condition de non-biais élimine donc les estimateurs dégénérés.

Estimateurs à dispersion minimale Peut-on espérer l existence d estimateurs à variance uniformément minimale dans la classe des estimateurs sans biais? Pour commencer, définissons le concept de vraisemblance. Cas discret: On appelle vraisemblance (likelihood) la probabilité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). L θ (X) = L θ (X 1,..., X n) = n p θ (X i). Cas continu: On appelle vraisemblance la densité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). Si la loi-population est de densité f θ, on obtient n L θ (X) = L θ (X 1,..., X n) = f θ (X i).

Estimateurs à dispersion minimale Soit L θ (X) une vraisemblance satisfaisant à certaines conditions de régularité: L θ (x) > 0, θ, θ L θ (x) dérivable sous le signe de l expression dérivée θ log L θ (x) est de variance finie : 0 < I(θ) := ( θ log L θ (x)) 2 L θ (x)dx = Var θ ( θ log L θ (X)) < ; L θ (x)dx = 1, la la quantité I(θ) est appelée Information de Fisher (relative à θ). On a le résultat suivant Théorème (Inégalité de Cramér-Rao) Sous les conditions énoncées ci-dessus et si T est une statistique telle que (i) Var θ (T ) < pour tout θ Θ et (ii) l expression θ = T (x)l θ (x) dx, on a que Var θ (T (X)) 1 I(θ) pour tout θ Θ.

Estimateurs à dispersion minimale Preuve. D abord, notons que puisque θ = T (x)l θ (x) dx peut être dérivée sous le signe, 1 = d T (x)l θ (x) dx = T (x) θ log L θ (x) L θ (x) dx = Cov θ (T (X), θ log L θ (x)). dθ Maintenant, calculons la variance (non négative) de la variable aléatoire S θ (X) := T (X) (I(θ)) 1 θ log L θ (X) : 0 Var θ (S θ (X)) = Var θ (T (X)) + (I(θ)) 2 Var θ ( θ log L θ (X)) 2(I(θ)) 1 Cov θ (T (X), θ log L θ (X)) }{{}}{{} (I(θ)) 1 2(I(θ)) 1 Donc ce qui établit le résultat. 0 Var θ (T (X)) (I(θ)) 1,

Estimateurs à dispersion minimale Efficacité Definition Un estimateur ˆθ de θ est dit efficace (pour θ) si son biais est nul et que sa variance atteint uniformément la borne de Cramér-Rao : Var θ (ˆθ) = 1/I(θ) pour tout θ Θ. La même définition peut aussi s exprimer de façon équivalente à partir de l écart quadratique moyen : Definition Un estimateur ˆθ de θ est dit efficace (pour θ) si son écart quadratique moyen (par rapport à θ) atteint la borne de Cramér-Rao uniformément en θ : E θ [(T (X) θ) 2 ] = 1/I(θ) pour tout θ Θ.

Estimateurs à dispersion minimale Remarques 1. L équivalence des deux définitions provient de ce que, pour un estimateur sans biais, la variance et l écart quadratique moyen coïncident, et que, la variance étant comprise entre l écart quadratique moyen et la borne, l égalité de ces deux derniers implique celle de la variance et de l écart quadratique moyen, donc l absence de biais. Un estimateur biaisé ne saurait donc être efficace. 2. Un estimateur efficace de θ est à variance uniformément minimale dans la classe des estimateurs sans biais de θ; la réciproque n est pas vraie, car il arrive que la borne ne puisse être atteinte.

Estimateurs à dispersion minimale Exemple 1 (échantillon de Bernoulli) n n Soient X i i.i.d. Bin(1, p). On a que: L p(x) = p X i (1 p) n X i. Donc, log L p(x) = X i(log p) + (n X i) log(1 p), et p log L p(x) = = 1 X i p (n 1 X i) 1 p = ( ) 1 X i n p(1 p) 1 p. Calculons l information de Fisher ( n I(p) := Var p( p log L p(x)) = 1 p 2 (1 p) 2 Var Xi Bin(n, p)): ( ) X i = ( ) 1 X i p + 1 n 1 p 1 p np(1 p) p 2 (1 p) 2 = On sait que ˆp = X = 1 n Xi est un estimateur sans biais de θ. On a n p(1 p) Var p(ˆp) = = ( I(p) ) 1. n Donc ˆp est un estimateur efficace de p. n p(1 p)

Estimateurs à dispersion minimale Exemple 2 (moyenne d un échantillon gaussien). Soient X i i.i.d. N (µ, σ 2 ), σ 2 spécifié. On a que: Donc log L µ,σ 2(X) = n 2 log(2πσ2 ) 1 2 µ log L µ,σ 2(X) = 1 σ 2 Calculons l information de Fisher correspondante : ( ) Xi µ 2. σ (X i µ) I(µ) := E µ,σ 2[( µ log L µ,σ 2(X)) 2 ] = Var µ,σ 2( µ log L µ,σ 2(X)) = 1 E[(X σ 4 i µ) 2 ] = 1 σ 4 nσ2 = n σ. 2 Or X est un estimateur sans biais de µ, et Donc X est un estimateur efficace de µ. Var µ,σ 2( X) = σ2 n = [ I(µ) ] 1.

Estimateurs à dispersion minimale Exemple 3 (variance d un échantillon gaussien). De la même façon, mais en supposant cette fois µ spécifié, et σ 2 log L µ,σ 2(X) = 1 σ 2 (X i µ), E µ,σ 2[( σ 2 log L µ,σ 2(X)) 2 ] = Var µ,σ 2 σ 2 log L µ,σ 2(X) = 1 4σ nvar 4 µ,σ 2(((X1 µ)/σ)2 ) = n 2σ 4 puisque ((X 1 µ)/σ) 2 χ 2 1 et que la variance d une chi-carré à un degré de liberté est 2. On calcule aisément que Var µ,σ 2(s 2 ) = 2(n 1)σ 4 /n 2 et Var µ,σ 2(S 2 ) = 2σ 4 /(n 1) : ni s 2 ni S 2 ne sont donc efficaces (s 2 étant biaisé ne peut l être). En revanche, la variance de ˆσ 2 := 1 n n (Xi µ)2 a pour variance 2σ 4 /n, et ˆσ 2 est donc efficace.

La méthode du maximum de vraisemblance La méthode du maximum de vraisemblance est sans doute la méthode d estimation la plus utilisée. Elle possède de nombreuses propriétés intéressantes, notamment des propriétés de convergence, de normalité et d efficacité asymptotiques. Soit X une observation dont le comportement est caractérisé par une vraisemblance L θ (X), θ Θ. Definition On appelle estimateur maximum de vraisemblance (en anglais, maximum likelihood estimator ou MLE) de θ toute valeur ˆθ de θ maximisant la vraisemblance L θ (X) : ˆθ = Argmax θ L θ (X) ou, de façon équivalente, ˆθ = Argmax θ log L θ (X).

La méthode du maximum de vraisemblance Prenons le cas continu (le cas discret se résoud de façon similaire). Soit X = (X 1,..., X n), où les X i sont i.i.d. de densité f θ (x). La vraisemblance associée est donnée par L θ (X) = n f θ(x i). On obtient dès lors que ˆθ = Argmax log L θ θ(x) = Argmax θ log f θ (X i) Si θ f θ (x) est différentiable et Θ ouvert, on peut rechercher ˆθ parmis les solutions du système θ log f θ(x i) = 0, un système d équations appelées équations de vraisemblance.

La méthode du maximum de vraisemblance Exemple 1 (échantillon de Bernoulli). Soient X 1,..., X n i.i.d. Bin(1, p), p (0, 1). On a n n L p(x 1,..., X n) = p X i (1 p) n X i, donc et log L p(x 1,..., X n) = ( X i log(p) + n ( log Lp(X1,..., Xn) = p ( = X i ) ) X i log(1 p) ( 1 p n X i ) ( 1 p + 1 1 p ) 1 X i 1 p ) n 1 p.

La méthode du maximum de vraisemblance Annuler cette dérivée conduit à l équation ( qui s écrit encore ou ) ( ) (1 p) + p X i p(1 p) ( ) X i np = 0 X i = np. La solution des équations de vraisemblance est donc ˆp = 1 n X i. np p(1 p) = 0

La méthode du maximum de vraisemblance Exemple 2 (échantillon gaussien). Soient X 1,..., X n i.i.d. N (µ, σ 2 ). La vraisemblance s écrit [ ] L µ,σ 2(X 1,..., X n) = (2πσ 2 ) n 2 exp 1 (X 2σ 2 i µ) 2 ; donc log L µ,σ 2(X 1,..., X n) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 (X i µ) 2. Le système des équations de vraisemblance comprend deux équations. La première équation est relative à µ : µ log L µ,σ 2 = 1 (X σ 2 i µ) = 0. Cette équation (inconnue: µ) est satisfaite si et seulement si L unique solution en est donc ˆµ = 1 X i =: X. n n (Xi µ) = 0.

La méthode du maximum de vraisemblance La seconde équation provient de l annulation de la dérivée par rapport à σ 2. En y remplaçant µ par ˆµ (méthode de substitution), on obtient σ log L 2 ˆµ,σ 2 = n 1 2 σ + 1 2 2σ 4 qui est équivalente (car σ 2 > 0) à L unique solution est n 2 σ2 + 1 2 ˆσ 2 = 1 n (X i ˆµ) 2 = 0, (X i X) 2 = 0. (X i X) 2 = s 2.

La méthode du maximum de vraisemblance Si on note comme avant I (n) θ de taille n, on obtient I (n) θ ( := Var θ θ = la matrice d information de Fisher pour un échantillon log L(n) θ (X1,..., Xn)) = Var θ ( Var θ log L(1) θ θ (Xi)) = ( I (1) θ = ni (1) θ. ) log L(1) θ θ (Xi) La solution des équations de vraisemblance et l information de Fisher sont donc liées. Sous des conditions très générales, on montre que si ˆθ est solution des équations de vraisemblance, n 1/2 (ˆθ θ) L n N (0, (I(n) θ ) 1 ) C est à direˆθ (n) N (θ, (ni (1) θ ) 1 ). Notons que (ni (1) θ ) 1 est la borne de Cramér-Rao (pour θ et n observations). Au sens de l approximation ci-dessus, l estimateur ˆθ est donc normal, sans biais, et efficace. De tels estimateurs sont dits B.A.N. (Best Asymptotically Normal).

Autres méthodes d estimation Soient X 1,..., X n i.i.d. P θ, où θ = (θ 1,..., θ K ). Notons µ k (θ) := E[X1 k ], k = 1, 2,... les moments-population m k := 1 Xi k, k = 1, 2,... les moments empiriques correspondants. n Supposons que les moments-population existent et soient finis jusqu à l ordre K au moins. Ces moments sont des fonctions du paramètre θ : faisons l hypothèse que l application θ (µ 1(θ), µ 2(θ),..., µ K (θ)) soit bijective. La méthode des moments consiste à prendre comme estimateur de θ la solution ˆθ du système µ 1(θ) = m 1. µ K (θ) = m K

Autres méthodes d estimation En général, les estimateurs efficaces sont très sensibles aux observations aberrantes". Les statistiques habituelles qui sont efficaces sous un modèle sont généralement très affectées par une petite modification du modèle sous-jacent. Prenons l exemple de la moyenne empirique n 1 n Xi d un échantillon aléatoire simple X 1,..., X n. Si une des observations devient arbitrairement grande, la moyenne empirique devient de la même manière dans le sens où la moyenne de l échantillon X 1,..., X n, vaut. La médiane empirique souffre moins d une situation comme celle de ci-dessus. Dans ce sens, elle peut être qualifiée de plus robuste que la médiane. Dans les années 1960, les statistiques robustes ont connu un grand essor.

Autres méthodes d estimation En particulier, la classe des M-estimateurs d un paramètre θ a été abondamment étudiée. Un M-estimateur de θ associé à une fonction objectif ϕ θ est défini par ˆθ = Argmax θ ϕ θ (X i) Un choix judicieux de la fonction ϕ θ peut permettre d obtenir un estimateur robuste. Notons que les estimateurs maximum de vraisemblance sont un cas particulier de M-estimateur obtenu en prenant ϕ θ = logf θ.