CTU, Licence de Mathématiques Statistique Inférentielle. Jean-Yves DAUXOIS. Université de Franche-Comté



Documents pareils
Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

1 Mesure et intégrale

Limites des Suites numériques

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

STATISTIQUE : TESTS D HYPOTHESES

CHAPITRE 2 SÉRIES ENTIÈRES

Cours 5 : ESTIMATION PONCTUELLE

Etude de la fonction ζ de Riemann

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Dénombrement. Chapitre Enoncés des exercices

14 Chapitre 14. Théorème du point fixe

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Cours de Statistiques inférentielles

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Séries réelles ou complexes

Processus et martingales en temps continu

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

SÉRIES STATISTIQUES À DEUX VARIABLES

Les Nombres Parfaits.

EXERCICES : DÉNOMBREMENT

Principes et Méthodes Statistiques

Séquence 5. La fonction logarithme népérien. Sommaire

Comportement d'une suite

Suites et séries de fonctions

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

STATISTIQUE AVANCÉE : MÉTHODES

Chapitre 3 : Transistor bipolaire à jonction

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Statistique descriptive bidimensionnelle

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Probabilités et statistique pour le CAPES

c. Calcul pour une évolution d une proportion entre deux années non consécutives

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

4 Approximation des fonctions

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

55 - EXEMPLES D UTILISATION DU TABLEUR.

Formation d un ester à partir d un acide et d un alcool

Statistique Numérique et Analyse des Données

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

20. Algorithmique & Mathématiques

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Chaînes de Markov. Arthur Charpentier

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Échantillonnage et estimation

Processus géométrique généralisé et applications en fiabilité

Introduction : Mesures et espaces de probabilités

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Chap. 5 : Les intérêts (Les calculs financiers)

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Baccalauréat S Asie 19 juin 2014 Corrigé

Gérer les applications

Exercices de mathématiques

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

Initiation à l analyse factorielle des correspondances

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Des résultats d irrationalité pour deux fonctions particulières

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Mécanismes de protection contre les vers

UNIVERSITÉ DE SFAX École Supérieure de Commerce

La maladie rénale chronique

Comment les Canadiens classent-ils leur système de soins de santé?

Compte Sélect Banque Manuvie Guide du débutant

Université Pierre et Marie Curie. Biostatistique PACES - UE

Terminale S. Terminale S 1 F. Laroche

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Une action! Un message!

RECHERCHE DE CLIENTS simplifiée

Donnez de la liberté à vos données. BiBOARD.

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Risque de longévité et détermination du besoin en capital : travaux en cours

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

DETERMINANTS. a b et a'

Contribution à la théorie des entiers friables

Sommaire Chapitre 1 - L interface de Windows 7 9

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Module 3 : Inversion de matrices

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Solutions particulières d une équation différentielle...

LES MESURES CLÉS DU PROJET DE LOI ÉCONOMIE SOCIALE ET SOLIDAIRE

Un accès direct à vos comptes 24h/24 VOTRE NUMÉRO CLIENT. Centre de Relations Clients (0,12 /min)

Transcription:

CTU, Licece de Mathématiques Statistique Iféretielle Jea-Yves DAUXOIS Uiversité de Frache-Comté Aée scolaire 2011-2012

Ce polycopié cotiet le cours, les sujets d exercice et leurs corrigés aisi que les sujets des devoirs proposés. Les éocés des exercices sot doés e fi de chapitre auxquelles ils fot référece. Il est vivemet coseillé d essayer de faire sérieusemet les exercices, sas aller trop rapidemet voir leurs correctios détaillées e fi de polycopié. O sait e effet que, pour qu ue correctio soit efficace, il faut qu elle viee après ue période de recherche persoelle de la solutio. Les devoirs, quat à eux, e sot pas des exercices supplémetaires (ces deriers accompagés de leurs correctios sot déjà assez ombreux!). Pour qu ils apportet réellemet autre chose que les exercices, ils doivet être faits das les coditios d u devoir surveillé ou d u exame. E coséquece, il vous est vivemet coseillé de faire les devoirs et de m evoyer votre copie (évetuellemet les ues après les autres). E retour vous recevrez votre copie corrigée et égalemet ue correctio type du devoir. Le premier des devoirs peut être résolu dès que l o est parveu à la fi de la secode sectio du Chapitre 5. Le secod est lui réalisable après avoir travaillé l esemble du Chapitre 5. Les trois autres, même s ils peuvet être attaqués plus tôt, e serot réalisables qu ue fois assimilé l esemble des otios. Ils peuvet fourir de bos exercices de révisio e perspective de l exame. Efi, ce polycopié cotiet certaiemet de ombreuses coquilles et mérite ecore d être amélioré. Merci d avace aux lecteurs attetifs de trasmettre leur remarques, suggestios ou idicatios sur la localisatio des coquilles. U petit mail à l adresse jea-yves.dauxois@uiv-fcomte.fr et l amélioratio est prise e compte... Bo courage!

Table des matières Partie 1. Itroductio et Modèle Statistique 5 Chapitre 1. Itroductio 7 Chapitre 2. Modèle Statistique 11 1. Défiitio 11 2. Modèle d échatilloage 15 3. Vraisemblace 15 4. Familles Expoetielles 16 5. Modèle positio-échelle 17 6. Exercices 18 Partie 2. Estimatio poctuelle 21 Chapitre 3. Statistique et Estimateur 23 Chapitre 4. Costructio d estimateurs 27 1. Estimateurs empiriques (des momets) 27 2. Méthode de substitutio 29 3. Méthode des momets 29 4. Maximum de vraisemblace 30 5. Exercices 33 Chapitre 5. Qualité d u estimateur 37 1. Estimateur coverget 37 2. Estimateur sas biais 39 3. Risque d u estimateur 40 4. Iformatio de Fisher 43 5. Bore de Cramer-Rao (ou Fréchet-Darmois-Cramer-Rao) 46 6. Exercices 48 Chapitre 6. Amélioratio d estimateurs 51 1. Statistique exhaustive 51 2. Statistique exhaustive miimale 54 3. Théorème de Rao-Blackwell 54 4. Théorème de Lehma-Scheffé 56 5. Cas des familles expoetielles 57 6. Exercices 57 3

Chapitre 7. Comportemet asymptotique d u estimateur 59 1. Normalité asymptotique 59 2. Estimateurs empiriques des momets 60 3. Estimateur du maximum de vraisemblace 60 4. La δ-méthode ou l étude asymptotique d u estimateur obteu par la méthode de substitutio 61 5. Estimateurs par la méthode des momets 62 6. Exercices 63 Partie 3. Itervalles de cofiace 65 Chapitre 8. Itervalles de cofiace exacts 67 Chapitre 9. Itervalles de cofiace asymptotiques 71 Chapitre 10. Exercices sur les itervalles de cofiace exacts et asymptotiques 73 Partie 4. Correctio des exercices 75 Correctio des exercices du Chapitre 2 77 Correctio des exercices du Chapitre 4 85 Correctio des exercices du Chapitre 5 99 Correctio des exercices du Chapitre 6 119 Correctio des exercices du Chapitre 8 129 Partie 5. Devoirs 135

Partie 1 Itroductio et Modèle Statistique

CHAPITRE 1 Itroductio Cosidéros u problème de Fiabilité où l o étudie la durée de vie X d u matériel. Il est raisoable d admettre que celle-ci est aléatoire et X est alors ue variable aléatoire (v.a.) de foctio de répartitio (f.d.r.) F. Supposos que l o soit précisémet itéressé par l évaluatio de la probabilité que le matériel soit e marche après u temps t 0 de foctioemet, c est à dire évaluer F (t 0 ) = P (X > t 0 ) = 1 F (t 0 ). Pour cela o observe le foctioemet matériels similaires et o relève leurs temps de pae respectifs: x 1,..., x. O ote K = 1l x i t 0 le ombre de matériels tombées e pae au temps t 0. Il e reste doc K ecore e marche à cet istat. Il est assez aturel d estimer la probabilité F (t 0 ) par : F (t 0 ) = ombre de cas favorables ombre de cas possibles = K = 1 1l {xi >t 0 }. Posos maiteat ue hypothèse supplémetaire. O suppose (o sait ou o a pu vérifier) que la loi de X est ue loi expoetielle E(λ), mais dot o igore le paramètre λ. Calculos l espérace de X. O a où E(X) = + 0 xλe λx dx = 1 λ Γ(α) = + 0 + 0 u α 1 e u du ue u du = Γ(2) λ, est la foctio Gamma. O sait que Γ() = ( 1)!, ce qui ous doe ici E(X) = 1/λ. Il est assez aturel d estimer l espérace de X par la moyee empirique des temps observés, i.e. par x = 1 x i. Aisi λ peut être estimé par : ˆλ = 1 x = 7 x. i

8 Chapitre 1. Itroductio U calcul simple motre que F (t 0 ) = + t 0 λe λx dx = exp( λt 0 ) et o peut doc estimer la probabilité que le matériel foctioe durat le temps t 0 par : F (t 0 ) = exp( ˆλt 0 ). Les estimatios précédetes sot appelées estimatios poctuelles. O costate e particulier que plusieurs estimateurs ot été proposés pour F (t 0 ). Ils coduiset à des estimatios différetes de la même quatité pour u seul lot de matériel testé. Mais o remarque égalemet qu u même estimateur peut meer à différetes estimatios si o cosidère plusieurs lots de matériels. Les valeurs observées x 1,..., x ot e effet aucue raiso d être les mêmes. Aisi o se pose aturellemet les questios suivates. Commet peut-o comparer différets estimateurs? Quelle(s) défiitio(s) doer de la qualité d u estimateur? Commet mesurer l erreur commise par u estimateur (puisqu e particulier elle varie d ue observatio à l autre)? Toutes ces questio serot abordées das la Partie 2 de ce cours. Ce qui précède motre que l estimatio poctuelle a u icovéiet majeur, celui de se tromper presque toujours. Au mois das le cas de v.a. absolumet cotiues, ce qui était le cas précédemmet, il apparaît clairemet que l o est presque sûr de e pas tomber sur la valeur théorique que l o cherche à estimer. C est pourquoi o préfère parfois doer u itervalle plutôt qu ue valeur. O parle d itervalle de Cofiace ou parfois de fourchette d estimatio. Bie sûr il reste ue erreur possible. O doera alors l itervalle e foctio de l erreur que l o s autorise (ou que l o ous autorise). Plus o souhaitera que la probabilité d erreur soit petite, plus grad sera l itervalle. Et iversemet plus la probabilité d erreur que l o s autorise est grade, plus o pourra doer u itervalle étroit. L estimatio par itervalles de cofiace fait l objet de la Partie 3 de cours. Il reste u troisième axe fodametal de la Statistique Iféretielle que ous aborderos pas das ce cours. Il est de ature assez différete des deux précédets et cosiste à pouvoir se doer des outils statistiques pour décider etre deux hypothèses différetes. Aisi, si l o cosidère à ouveau l exemple précédet sur la fiabilité d u matériel, o peut être assez rapidemet ameé à répodre à des questios comme les suivates. La fiabilité du matériel F (t0 ) e u istat t 0 fixé (par exemple 2000h) estelle supérieure ou pas à 0,99? Appartiet-elle à l itervalle [0.975, 0.985] (il e s agit pas ici du même problème que celui du paragraphe précédet sur la otio d itervalle de cofiace comme ous le verros e étudiat plus e détails ces otios)? L hypothèse de loi expoetielle pour la durée de vie X du matériel est-elle raisoable ou pas? Ou ecore si l o dispose de deux versios du matériel : l u est-il plus fiable que l autre e u istat t 0? Autremet dit, e otat respectivemet F 1 et F 2 les foctios de répartitios de la durée de vie de chaque matériel, a-t-o F 1 (t 0 ) F 2 (t 0 ) ou le cotraire? Jea-Yves Dauxois c Juillet 2011

0. 9 La théorie des tests d hypothèses permet de répodre, etre autres, à toutes ces questios. Das ce domaie les erreurs sot égalemet possibles : celles de choisir l ue des deux hypothèses alors que c est l autre qui est vraie. L objectif est alors aturellemet de chercher à réduire au maximum ces deux erreurs mais ous verros rapidemet que cela est pas possible cojoitemet. Ici aussi se posera égalemet la questio de l optimalité (das u ses à défiir) de la procédure de test choisi. D ue maière géérale. Statisticie cofroté à des doées : brutes (résultat du cotrôle qualité d u produit, taille d idividus, âge de la mère à la aissace du premier efat, cocetratio e ozoe de l atmosphère etc...) ou résultats d expérieces (expérieces biologiques, pharmaceutiques, agroomiques etc...). Travail du statisticie. Extraire de l iformatio (résumée et pertiete) de ces doées (comme par exemple la taille moyee des idividus). Modéliser la part d aléa (par exemple détermier la loi de la durée de vie X du matériel). Tirer des coclusios sur la populatio totale à partir d observatios sur u échatillo). Mais il peut aussi avoir à (doer les moyes pour) predre des décisios (comme par exemple l activatio du pla atipollutio e raiso d ue trop grade cocetratio d ozoe). Effectuer des prévisio (prévisio du temps e météorologie, prévisio du cours d ue actio e fiace). Jea-Yves Dauxois c Juillet 2011

CHAPITRE 2 Modèle Statistique L objet de ce chapitre est de préseter le socle sur lequel vot s appuyer toutes les techiques statistiques présetées das les parties ou chapitres suivats. Aisi ous préseteros la otio fodametale de modèle statistique et e doeros quelques cas particuliers importats que ous retrouveros das les développemets ultérieurs. Nous préseteros aussi ue otio très liée à la otio de modèle statistique : la vraisemblace. Elle est égalemet très importate e statistique. 1. Défiitio Exemple 2.1. U problème de Fiabilité et modèle de Beroulli Reveos à otre problème itroductif de Fiabilité du Chapitre précédet et à sa première partie sur l estimatio poctuelle. O a cherché à coaître la vraie valeur de la foctio de répartitio F (t 0 ) de la durée de vie du matériel e u istat t 0. Il est itéressat de décrire ce problème d ue autre maière. Utilisos ue v.a. Y à valeurs {0, 1} pour modéliser l état du matériel au temps t 0. O ote {Y = 1} si le matériel est e marche et {Y = 0} s il est e pae. O a p 0 = P (Y = 1) = F (t 0 ) et P (Y = 0) = 1 p 0. La v.a. Y est de loi de Beroulli de paramètre p 0, où p 0 a ue valeur icoue das [0, 1]. O a doc fait comme si l o avait ue ifiité de lois possibles pour Y : toutes les lois de Beroulli B(1, p), avec p das [0, 1]. Et le problème était alors de trouver la vraie valeur p 0, à partir des résultats observés pour les machies testées, otés y 1,..., y. O a estimé p 0 par ( y i )/. O parle de modèle et estimatio paramétriques : restait seulemet à estimer u paramètre. C est essetiellemet le cadre cosidéré par ce cours das sa partie estimatio poctuelle. Notos la présece des esembles suivats : E=espace des observatios possibles={0, 1} ; E=tribu des évéemets sur E=P(E), esemble des parties de E ; Ue famille de Probabilités costituée par toutes les lois de Beroulli, P = {B(1, p) : p [0, 1]}. Nous verros qu ils défiisset u modèle paramétrique qui das le cas préset est appelé modèle de Beroulli. E revache, si l o s itéresse à l estimatio de F (t) pour tout t das R +, il faudrait estimer ue ifiité de paramètres : toutes les valeurs prises par la foctio F. O parle alors d estimatio o-paramétrique. C est u sujet que ous e feros qu aborder, essetiellemet quad ous traiteros le sujet des tests o-paramétriques. 11

12 Chapitre 2. Modèle Statistique Nous costatos ue différece avec u modèle probabiliste (E, E, P ). Das modèle probabiliste il y a ue seule probabilité et les seules questios qui se poset sot de l ordre du calcul (que l o sait ou e sait pas faire). Avec u modèle statistique (E, E, P), ces mêmes questios peuvet évetuellemet apparaître das u deuxième temps, mais avat il faut gérer la présece d u esemble de probabilités. Autremet dit la probabilité sous jacete au phéomèe est pas coue ou pas etièremet (c est surtout ce cas là que l o traite das ce cours). Le Statisticie cherchera à la détermier, l estimer. Ce modèle (E, E, P) = (E, E, {B(1, p) : p [0, 1]}) peut être utilisé pour modéliser d autres phéomèes, situatios. Exemples. 1) Jeu de pile ou face. Le problème est de coaître la probabilité p d obteir pile (par exemple), ce qui reviet à admettre que le dé peut être pipé. O ote Y = 1 si o obtiet pile, Y = 0 sio o obtiet ue face. Dire que la pièce peut être pipée, reviet à dire que le résultat d u lacer Y est de loi de Beroulli B(1, p) avec p icou das [0, 1]. O fait lacers, résultats otés y 1,..., y et o cherchera à estimer p. 2) Sodage d itetio de vote au secod tour des électios présidetielles. O suppose que seulemet deux cadidats A et B se présetet à ue électio. O ote p la proportio de votat pour le cadidat A et 1 p pour B. E otat {Y = 1} l évéemet l électeur vote pour A, et {Y = 0} s il vote pour B, le vote peut être modélisé par ue v.a. Y de loi de Beroulli B(1, p), avec ecore ue fois p qui peut predre importe quelle valeur das [0, 1]. O sode électeurs sur leurs itetios, résultats otés y 1,..., y et o cherche à estimer p. Défiitio 2.1. O appelle modèle statistique, la doée d u espace des observatios E, d ue tribu E d évéemets sur E et d ue famille de probabilités P sur l espace probabilisable (E, E). O le ote (E, E, P) ou, quad il y a pas de risque de cofusio, plus simplemet P. O supposera que la vraie loi sous-jacete au phéomèe que l o étudie appartiet au modèle statistique que l o s est doé. Il existe des outils pour vérifier si cette hypothèse est raisoable ou pas. Mais ous e les préseteros pas das le cadre de ce cours, car ils fot appels à la théorie des tests qui est pas au programme de cet eseigemet. O ote X la v.a. qui modélise le phéomèe aléatoire que l o étudie. Autremet dit la v.a. X egedre les observatios dot o dispose. Elle est à valeurs das (E, E) et sa loi de probabilité P icoue est das la famille P. O appellera parfois X v.a. géérique du modèle statistique. Défiitio 2.2. O dit qu u modèle statistique est paramétrique s il existe u etier d et u sous esemble Θ de R d tels que la famille de probabilités P puisse être paramétrée par Θ, i.e. tels que l applicatio : Θ P θ P θ Jea-Yves Dauxois c Juillet 2011

1. Défiitio 13 est surjective. O ote P = {P θ : θ Θ}. Das le cas cotraire o parle de modèle o-paramétrique. Le modèle de Beroulli utilisé das la modélisatio du foctioemet du matériel au temps t 0, pour le lacer de la pièce de moaie ou ecore le sodage d itetio de vote au secod tour est u exemple de modèle paramétrique. Le paramétrage est pas forcémet uique. Das exemple précédet de Beroulli, o peut paramétrer par la probabilité que le matériel soit e pae au temps t 0, c est à dire 1 p, ou bie ecore par toute foctio (bijective) de p. Comme par exemple par η = l(p/(1 p)), ce qui veut dire que p = e η /(1 + e η ). Das ce derier cas le modèle statistique s écrit : (E, E, P) = (E, E, {B(1, e η /(1 + e η )) : η R}) Nous verros u peu plus loi (das la partie sur les familles expoetielles) que cette paramétrisatio est pas aussi farfelue qu o aurait pu le peser de prime abord. Remarquos que l o peut toujours paramétrer la famille P, e serait-ce qu e preat Θ = P et doc l applicatio idetité etre les deux espaces. Pour que l o parle de modèle paramétrique, il faut que l espace Θ soit de dimesio fiie, d où l hypothèse qu il soit iclus das u R d. Exemple 2.2. U problème de cotrôle de la Qualité. Cosidéros ue etreprise de fabrique de vis. O costate que les mesures du diamètre X d ue vis variet d ue pièce à l autre. Cet aléa peut être dû au procédé de fabricatio et/ou aux évetuelles erreurs de mesure. Supposos que l o e coaisse pas la valeur moyee (rigoureusemet l espérace) du diamètre µ. Cherchos à préciser u modèle statistique adapté à ue telle situatio. Il est souvet raisoable d admettre que la loi de X est ormale. E effet de maière o rigoureuse o peut supposer que l aléa est symétrique et décroissat autour de la moyee. O modélise doc souvet cette variatio sous la forme : X = µ + ε, où ε est de loi N(0, σ 2 ). Autremet dit, o a X N(µ, σ 2 ). O suppose das u premier temps σ 2 cou. Pour modéliser cette situatio o a doc recours au modèle statistique : (E = R, E = B R, P = {N(µ, σ 2 ) : µ R}). Das ce cas, o Θ = R et θ = µ. Si σ 2 est lui aussi icou, alors le modèle deviet (R, B R, P = {N(µ, σ 2 ) : µ R, σ 2 > 0}) Jea-Yves Dauxois c Juillet 2011

14 Chapitre 2. Modèle Statistique et l o a : Θ = R R + et θ = (µ, σ 2 ). Le paramètre est dit bi-dimesioel. O peut aussi costruire u modèle où l espérace est coue et c est la variace qui est icoue. Défiitio 2.3. U modèle paramétrique (E, E, P) est dit idetifiable si la foctio θ P θ de la Défiitio 2.2 est de plus ijective, i.e. si θ 1 θ 2 P θ1 P θ2. Das la plupart des cas le modèle est idetifiable, quitte à predre ue autre paramétrisatio. O supposera das la suite que le modèle statistique est idetifiable. Abus de lagage et de otatio. Si la v.a. X est absolumet cotiue, la desité de P θ est otée f θ. C est ue foctio itégrable de R (ou ue partie de R) vers R +. Si la v.a. X est discrète, o appellera égalemet desité la foctio f θ défiie e tout x de l espace E, où la X pred ses valeurs, par : f θ (x) = P θ (X = x). O peut e effet motrer grâce à la théorie de la mesure, que das ce derier cas la loi de X est absolumet cotiue par rapport à la mesure de comptage sur E. Les itégrales de la forme dx utilisées das le cas de v.a. absolumet cotiues serot alors x remplacées par des sommes de la forme x. Aisi, par exemple, l espérace s écrit das le cas cotiu xf θ (x)dx et das le cas discret x xf θ(x) = x xp θ(x = x). Défiitio 2.4. O appelle support de la loi P θ l esemble : supp(p θ ) = {x E : f θ (x) > 0}. O costate qu il est déombrable das le cas de v.a. discrètes et ifii o déombrable das le cas de v.a. absolumet cotiues. Ce support peut dépedre de θ. Il e est aisi par exemple das le cas du modèle uiforme {U [0,θ] ; θ > 0} Exemple 2.3. Das le cas de l Exemple 2.1, o a : pour tout x supp(p θ ) = {0, 1}. f θ (x) = p x (1 p) 1 x, Das le cas de l Exemple 2.2, o a : pour x das supp(p θ ) = R. f θ (x) = 1 σ 2π exp ( ) (x µ)2, 2σ 2 Jea-Yves Dauxois c Juillet 2011

3. Vraisemblace 15 2. Modèle d échatilloage Pour étudier u phéomèe aléatoire, o a souvet itérêt à observer plusieurs réalisatios idépedates de celui-ci. C est ce que l o a fait das l exemple du premier chapitre. O parle alors d échatillo ou d échatilloage. Défiitio 2.5. O appelle -échatillo de la loi P θ, la doée d u vecteur X = (X 1,..., X ) costitué de v.a. idépedates et idetiquemet distribuées (i.i.d.) de loi P θ. O appelle modèle d échatilloage, le modèle (E, E, P = {P θ : θ Θ}), où E est la tribu produit (egedrée par les pavés) sur E et P θ = P θ P θ est la probabilité produit sur (E, E ) qui est la loi du vecteur X = (X 1,..., X ) (Cf. cours de Probabilités). Toutes les v.a. ot même loi, doc même valeur de θ. U échatillo est u vecteur aléatoire. Sa réalisatio, fruit de observatios idépedates du même phéomèe, est otée x = (x 1,..., x ). O fera toujours cette distictio etre v.a. et sa réalisatio e utilisat majuscules ou miuscules. U modèle d échatilloage est doc u modèle statistique particulier, où l espace des observatios est de la forme E, mui de sa tribu produit classique et de probabilités de la forme P θ. Aussi parfois o parlera das ce cas simplemet de modèle statistique. L importat est de bie avoir e tête quelle est la ature des observatios : par exemple v.a.r., vecteur aléatoire (mais avec composates o écessairemet idépedates, i de même loi) ou ecore échatillo... Grâce à l idépedace et l idetique distributio, la desité de l échatillo sous la loi P θ est alors : x = (x 1,..., x ) f θ (x i ), pour tout x de E. Si o cosidère le produit de droite o plus comme ue foctio de x mais comme ue foctio du paramètre θ, pour u x = (x 1,..., x ) fixé, o parle de vraisemblace. 3. Vraisemblace Défiitio 2.6. Das u modèle statistique paramétrique (E, E, P), o appelle vraisemblace de l observatio x la foctio L(x; ) : Θ R + θ L(x; θ) = f θ (x). Jea-Yves Dauxois c Juillet 2011

16 Chapitre 2. Modèle Statistique Bie sûr, das le cas d u modèle d échatilloage, la vraisemblace de l échatillo observé x = (x 1,..., x ) s écrit sous la forme L(x 1,..., x ; θ) = f θ (x i ). C est doc la loi cojoite du -échatillo évaluée aux valeurs observées et cosidérée comme foctio du paramètre θ. 4. Familles Expoetielles U modèle paramétrique importat e Statistique est celui des familles expoetielles. Il recouvre de ombreux modèle paramétriques classiques : ormal, biomial, poisso, gamma etc... Défiitio 2.7. U modèle statistique (E, E, P) sur u espace des observatios E est dit famille expoetielle géérale s il existe u etier p, des foctios η, T, C et h tels que les desités puisse s écrire, pour tout θ de Θ, sous la forme : avec les cotraites que f θ (x) = e η(θ),t (x) C(θ)h(x), T soit ue foctio mesurable à valeurs das R p ; η soit ue foctio à valeurs das R p ; C soit ue foctio réelle positive qui e déped pas x ; h soit ue foctio boréliee positive qui e déped pas de θ. Le vecteur aléatoire T (X) est appelé statistique caoique du modèle. Si la foctio T est l idetité, la famille expoetielle est dite aturelle. O parle de forme caoique d ue famille expoetielle géérale quad les desités de probabilités ot la forme f θ (x) = e θ,t (x) C(θ)h(x), pour tout θ de Θ, ce qu il est toujours possible d obteir quitte à reparamétriser la famille par θ = η(θ). Das ce cas le paramètre θ de la famille expoetielle est appelé paramètre caoique. avec Exemple 2.4. Reveos sur le modèle de Beroulli. La desité s écrit : ( ) x ( ( )) p p f p (x) = = p x (1 p) 1 x = (1 p) = exp x l (1 p) 1 p 1 p = exp ( η(p), T (x) ) C(p)h(x), ( ) p η(p) = l, T (x) = x, C(p) = (1 p) et h(x) = 1. 1 p Jea-Yves Dauxois c Juillet 2011

5. Modèle positio-échelle 17 Le modèle de Beroulli est doc ue famille expoetielle aturelle puisque T = Id. De plus, le modèle Beroulli paramétré e foctio de η est sous forme caoique. (E, E, P) = (E, E, {B(1, e η /(1 + e η )) : η R}) Modèle échatilloage costruit à partir d ue famille expoetielle géérale caoique reste ue famille expoetielle géérale caoique. E effet si X = (X 1,..., X ) est u échatillo de loi de desité alors le vecteur aléatoire X a pour desité f θ (x) = e θ,t (x) C(θ)h(x), f θ (x 1,..., x ) = e θ,p T (x i) C (θ) h(x i ) et T (X i) est la statistique caoique du ouveau modèle. O e déduit l expressio de la vraisemblace pour u échatillo x = (x 1,..., x ) d ue famille expoetielle géérale. Propositio 2.8. La vraisemblace pour u échatillo x = (x 1,..., x ) d ue famille expoetielle géérale caoique est la foctio : θ L(x 1,..., x ; θ) = e θ,p T (xi) C (θ) h(x i ). 5. Modèle positio-échelle Défiitio 2.9. Cosidéros u vecteur aléatoire X de loi P coue sur (R, B R ) et A u sous espace de R. Pour tout a das A et tout b das R +, o ote P a,b la loi du vecteur Y = a + bx. Le modèle paramétrique P A,b = {P a,b : a A, b R + } est appelé modèle positio-échelle egedré par P (ou par X). Le paramètre a est appelé paramètre de positio et b paramètre d échelle. Si b est fixé (par exemple à 1) o parle de modèle de positio. Das le cas où A e cotiet que le vecteur ul de R, o parle de modèle échelle. Exemple 2.5. Le Modèle gaussie uidimesioel Reprise de l Exemple 2.2. Le modèle P = {N(µ, σ 2 ) : µ R} est u modèle positio egedré par la loi N(0, σ 2 ). Il correspod aux différetes lois du modèle pour le diamètre X de la vis. Rappelos que X = µ + ε, où µ varie das R et ε est de loi N(0, σ 2 ). Jea-Yves Dauxois c Juillet 2011

18 Chapitre 2. Modèle Statistique Le modèle P = {N(µ, σ 2 ) : µ R, σ 2 > 0} est u modèle positio-échelle egedré par la loi N(0, 1). Le diamètre X de la vis peut e effet s écrire X = µ + σε, où ε est de loi N(0, 1). 6. Exercices Exercice 1 (Familles Expoetielles) O cosidère les modèles suivats : Modèle Biomial {B(m, p) : p [0, 1]} ; Modèle de Poisso {P(λ) : λ > 0} ; Modèle gaussie à variace fixée {N(µ, σ 2 ) : µ R} ; Modèle gaussie à paramètre bi-dimesioel {N(µ, σ 2 ) : µ R, σ 2 > 0} ; Modèle Gamma {G(α, β) : α > 0, β > 0} = {f α,β (x) = βα Γ(α) xα 1 e βx 1l R +(x) : α > 0, β > 0} ; Modèle uiforme {U [0,θ] : θ > 0} ; 1 Modèle de Cauchy {f θ (x) = : θ R} ; π(1+(x θ) 2 ) Modèle Multiomial {M(, p 1,..., p k ) : 0 < p i < 1, i = 1,..., k et k p i = 1}. Pour tous ces modèles, répodre aux questios suivates. 1) Quelle est l expressio de la desité f θ (x)? 2) Le modèle costitue-t-il ue famille expoetielle géérale? Naturelle? Quel est le paramètre caoique du modèle? 3) Quelle est la vraisemblace d u échatillo x = (x 1,..., x )? Exercice 2 (Modèles positio-échelle) 1) Costruire u modèle positio-échelle à partir de la loi expoetielle E(1). Préciser la forme des f.d.r. des lois de ce modèle aisi que leurs desités. 2) Motrer que le modèle uiforme {U [a,b] : < a < b < + } est u modèle positio-échelle. Exercice 3 (Statistiques d ordre) Soit X 1,..., X des v.a.r. défiies sur u même espace probabilisé (Ω, A, P ), idépedates et de même loi absolumet cotiue par rapport à la mesure de Lebesgue de desité f. Pour tout ω das Ω, o peut ordoer les réels X 1 (ω),..., X i (ω),..., X (ω) sous la forme X (1) (ω) X (2) (ω) X (i) (ω) X () (ω). Jea-Yves Dauxois c Juillet 2011

6. Exercices 19 L applicatio X (i) : ω Ω X (i) (ω) aisi défiie pour chaque i est ue v.a.r. dite ième statistique d ordre. 1) Calculer la loi de X () = sup{x 1,..., X } (f.d.r. et desité). 2) Calculer la loi de X (1) = if{x 1,..., X } (f.d.r. et desité). 3) Calculer la loi du couple (X (1), X () ). E déduire celle de l étedue R = X () X (1) (o doera sa f.d.r et sa desité e foctio de F et f). 4) Soit N y le ombre de X i iférieurs à y. Quelle est la loi de N y? Que dire des évéemets {N y k} et {X (k) y}? E déduire la f.d.r. de X (k). 5) O pourrait du résultat précédet tirer la desité de la v.a. X (k). Mais c est fastidieux. Il y a bie plus simple e attaquat le problème directemet, ce que l o propose de faire maiteat. O pourra utiliser le résultat suivat : Si f est cotiue sur u itervalle [a, b], alors, pour tout x das cet itervalle, o a : P (X ]x, x + h]) f(x) = lim h 0 + h Calculer la desité de X (k). 6) Motrer que si E(X) existe alors E(X (k) ) aussi. 7) Calculer la desité du vecteur (X (1),..., X () ). (Id. o pourra calculer P ((X (1),..., X () ) B), pour tout borélie B de B R ). Jea-Yves Dauxois c Juillet 2011

Partie 2 Estimatio poctuelle

Repreos l exemple iaugural, vu au Chapitre 1, sur estimatio de F (t 0 ), à partir d u échatillo x 1,..., x de temps observés. O est parti de cet échatillo, avec ces temps relevés, pour fialemet utiliser seulemet le ombre de temps observés supérieurs à t 0. Ce fut égalemet le cas das l écriture de ce modèle avec les y e fi de ce Chapitre. O a doc aturellemet réduit l iformatio apportée par l échatillo, pour e garder que ce qui ous semblait utile das l objectif d estimer F (t 0 ), où ecore p 0 das la secode écriture de ce problème. C est là la otio de Statistique : réduire l iformatio apportée par u échatillo. O parlera aturellemet d estimateur quad elle sera utilisée pour estimer le paramètre icou. Notos efi que, toujours das cet exemple, ous avos proposé plusieurs estimateurs et que aturellemet se pose la questio de la qualité et des propriétés d u estimateur, de savoir commet comparer des estimateurs etre eux ou ecore savoir commet améliorer u estimateur. C est là le programme de cette partie.

CHAPITRE 3 Statistique et Estimateur Comme ous l avos dit ue Statistique est ue réductio de l iformatio apportée par u échatillo. Plus précisémet voici sa défiitio. Défiitio 3.1. Soit (E, E, P = {P θ : θ Θ}) u modèle d échatilloage. O appelle statistique la v.a. T (X) = T (X 1,..., X ) où T est ue foctio mesurable coue de (E, E, P = {P θ : θ Θ}) vers u espace probabilisable (F, F) : T : E F x = (x 1,..., x ) T (x 1,..., x ). Isistos bie sur le fait qu ue statistique est ue v.a. Les valeurs qu elle predra dépedrot des valeurs prises par l échatillo. Si le modèle statistique est o trivial (i.e. o réduit à ue seule probabilité) alors la loi de la statistique T (X), où X = (X 1,..., X ), est icoue. Cela viet de la o coaissace de la loi de l échatillo. E revache la foctio T est, elle, coue. Repreos l exemple de l estimatio de la fiabilité vu au début du chapitre précédet. La foctio T : (x 1,..., x ) 1 1l [t0,+ [(x i ) est parfaitemet coue. E revache, la loi de la statistique T (X 1,..., X ) est pas etièremet coue puisque l o sait seulemet que la loi de T (X 1,..., X ) est ue Biomiale B(, F (t 0 ), où la valeur de F (t 0 ) est icoue. Souvet l espace d arrivée de T est de dimesio iférieure et plus simple que E (sige d ue effective réductio de l iformatio). Dire que la statistique est coue, sigifie e particulier que la foctio coue T e doit pas dépedre du paramètre (icou) θ (ou de la loi P das P). E revache, la loi de la statistique T (X) dépedra e gééral du paramètre du modèle. Ue statistique déped de la taille de l échatillo, et o otera parfois T (X) pour le souliger. Par abus de lagage o appellera égalemet statistique la suite T (X) = (T (X)) N de statistiques quad la taille de l échatillo augmete. O a déjà vu das l exemple iaugural qu u problème e statistique est d estimer u paramètre θ. O peut aussi vouloir estimer g(θ), l image de θ par ue foctio g. Pour rester le plus gééral, o cosidérera das la suite le cas gééral de l estimatio de g(θ). Pour ce faire, o utilise alors ue statistique qui peut alors porter le om d estimateur. 23

24 Chapitre 3. Statistique et Estimateur Défiitio 3.2. O appelle estimateur de g(θ), toute statistique T (X) de (E, E ) à valeurs das g(θ). La seule cotraite apportée est doc que la statistique pree ses valeurs das g(θ). Pour u même problème d estimatio, o pourra cosidérer de ombreux estimateurs. Cela dit, tous les estimateurs e sot pas forcémet judicieux. Notatio. Quad il s agit d estimer le paramètre θ o ote souvet ˆθ so estimateur et ˆθ quad o souhaite préciser la taille de l échatillo. Pour l estimatio de g(θ) o utilise parfois aussi la otatio ĝ(θ). Exemple 3.1. Cosidéros le modèle d échatilloage tiré du modèle paramétrique uiforme : (R +, B R +, {U [0,θ] : θ > 0}). Les desités das ce modèle sot doc de la forme : f θ (x) = 1 θ 1l [0,θ](x), pour θ R +. Supposos que l o cherche à estimer le paramètre θ à partir d u échatillo X 1,..., X tiré de ce modèle. Plusieurs estimatios sot possibles : Assez aturellemet o pese e premier lieu à ˆθ 1 = max(x 1,..., X ). O set aturellemet (et o pourra le vérifier plus tard) qu il s approche e croissat de θ quad la taille de l échatillo augmete. Mais seulemet, il a le désavatage d être toujours iférieur à la vraie valeur θ. O peut essayer de remédier à ce problème e proposat d autres estimateurs. O peut se dire que les réalisatios de l échatillo vot se répartir de maière à costituer + 1 itervalles de logueurs (très) approximativemet égales. D où l idée de cosidérer ˆθ 2 = ˆθ 1 + ˆθ 1 = + 1 ˆθ 1. O peut aussi remarquer que la distace qui sépare θ 1 = max(x 1,..., X ) de θ devrait être eviro égale à celle qui sépare 0 de mi(x 1,..., X ). O peut doc proposer l estimateur ˆθ 3 = mi(x 1,..., X ) + max(x 1,..., X ). O peut aussi adopter ue démarche radicalemet différete basée sur l ituitio que X = ( X i)/ devrait être u bo estimateur du cetre du support de la loi uiforme, à savoir θ/2. Aussi, o peut s itéresser à l estimateur : ˆθ 4 = 2 X. O pourrait proposer de maière assez irraisoée (puisque o basée sur l échatillo) ˆθ 5 = 2011 ou tout autre valeur. Il y aurait bie d autres possibilités à explorer... Deux questios se poset à la suite de cet exemple. Existe-t-il des méthodes géérales pour costruire de (bos) estimateurs? Et esuite commet les comparer Jea-Yves Dauxois c Juillet 2011

0. 25 ou savoir quel est le meilleur? sectios suivates. Ces questios fot respectivemet l objet des deux Jea-Yves Dauxois c Juillet 2011

CHAPITRE 4 Costructio d estimateurs 1. Estimateurs empiriques (des momets) O a déjà vu das exemple itroductif et l Exemple 3.1, commet estimer l espérace mathématique d ue v.a. Étudios davatage cet estimateur qui est à la base de ombreuses méthodes statistiques. Soit doc X ue v.a. géérique d u modèle d échatilloage (E, E, P = {P θ : θ Θ}). C est à dire que X 1,..., X est u échatillo de même loi que X. Notos E θ ( ) et Var θ ( ) respectivemet les opérateurs espérace et variace sous la loi P θ, e supposat que ces quatités sot bie défiies. Pour simplifier les otatios, o otera m θ = E θ (X) et σθ 2 = Var θ(x). Défiitio 4.1. O appelle moyee empirique, la statistique X défiie, pour ue taille d échatillo, par : X = 1 X i. Quad o peut écrire l espérace de la v.a. géérique X e foctio du paramètre du modèle, i.e. quad il existe ue foctio g telle que m θ = g(θ) (ce qui est souvet le cas), alors o pourra doer le titre d estimateur à X. O dira alors qu il estime m θ. Propositio 4.2. La moyee empirique est telle que E θ ( X ) = m θ Var( X ) = σ2 θ. Preuve. Immédiate par liéarité de l espérace et grâce à l idépedace etre les termes pour le calcul de la variace. Le premier poit de la propositio motre que l estimateur X est, das u certai ses, u bo estimateur de l espérace m θ puisqu il est égal e espérace à ce qu il cherche à estimer. O parlera d estimateur sas biais. Nous y reviedros au chapitre suivat. Ue gééralisatio évidete de ce qui précède est doée par l estimatio empirique d u momet de X d ordre quelcoque. Notos m θ (p) = E θ (X p ) le momet d ordre p de X sour la loi P θ, e supposat que celui-ci existe. Par aalogie avec ce qui précède, o peut défiir l estimateur empirique du momet d ordre p. 27

28 Chapitre 4. Costructio d estimateurs Défiitio 4.3. O appelle estimateur empirique du momet d ordre p, la statistique ˆm θ (p) = 1 X p i. O peut aussi s itéresser à l estimatio de la variace σθ 2. Le raisoemet est le même. O sait que l o peut écrire : D où l idée d estimer σ 2 θ par σ 2 θ = E θ (X 2 ) E 2 θ(x) = m θ (2) (m θ (1)) 2. S 2 = ˆm θ (2) ( ˆm θ (1)) 2 = 1 Xi 2 X. 2 U calcul élémetaire motre que S 2 s écrit aussi sous la forme : S 2 = 1 ( Xi X ) 2. C est sous cette forme qu est plus cou cet estimateur. Défiitio 4.4. O appelle estimateur de la variace empirique, la statistique S 2 défiie pour ue taille d échatillo par : S 2 = 1 ( Xi X ) 2. Cette méthode d estimatio empirique des momets est très géérale. Elle peut, par exemple, s appliquer pour l estimatio de la foctio de répartitio. Il suffit e effet de remarquer que l o peut écrire F θ (x) = P θ (X x) = E θ (1l {X x} ) = E(Y ), avec Y = 1l ],x] (X). O peut doc estimer F θ (x) par ˆF θ (x) = 1 Y i = 1 1l ],x] (X i ) et o retrouve l estimateur de la foctio de répartitio empirique. Jea-Yves Dauxois c Juillet 2011

3. Méthode des momets 29 2. Méthode de substitutio Pricipe de la méthode. Supposos que l o sache estimer le paramètre θ d u modèle statistique. O ote ˆθ cet estimateur. Et supposos égalemet que l o soit itéressé par l estimatio de l image g(θ) de ce paramètre par ue applicatio g (coue). La méthode de substitutio (ou de plug-i e aglais), cosiste à utiliser l estimateur g(ˆθ ). O verra ultérieuremet que si la foctio g est cotiue o pourra aisémet obteir des iformatios sur la qualité de cet estimateur à partir de celles de ˆθ. Cette méthode a aussi été déjà utilisée, de maière assez aturelle, das l exemple itroductif pour l estimatio de F (t 0 ) par exp( ˆλt 0 ). À partir d u estimateur de λ ous avos obteu u estimateur de F (t 0 ) qui est ue foctio de λ. U autre exemple d utilisatio de cette méthode est le suivat. O a vu commet estimer la variace σθ 2 = Var θ(x) d ue v.a.r. par S. 2 Si l o veut estimer so écarttype, o peut predre ˆσ θ = S 2 = 1 ( Xi X ) 2. 3. Méthode des momets Pricipe de la méthode. Supposos qu il existe ue foctio h bijective et cotiue de Θ R p vers h(θ) R p, ue foctio mesurable ϕ de E vers R p telle que E θ (ϕ(x)) existe et toutes les deux telles que l o ait : h(θ) = E θ (ϕ(x)), pour tout θ de Θ. La méthode des momets cosiste alors à estimer θ par ( ) ˆθ (X) = h 1 1 ϕ(x i ). Cette méthode a égalemet déjà été utilisée das l exemple itroductif où ous avos proposé u estimateur du paramètre λ du modèle expoetiel. Cette méthode peut être vue comme u mélage des deux précédetes méthodes. Exemple 4.1. Modèle de la loi expoetielle. L équatio E(X) = 1 λ Jea-Yves Dauxois c Juillet 2011

30 Chapitre 4. Costructio d estimateurs s écrit sous la forme h(λ) = E θ (ϕ(x)) avec h(x) = 1/x et ϕ est l idetité sur R +. E estimat λ par ( ) ˆλ = h 1 1 X i = 1 X, o retrouve l estimateur utilisé das l exemple itroductif sur la fiabilité des matériels. Exemple 4.2. Modèles gaussies uidimesioels. Cosidéros les modèles statistiques itroduits pour des problèmes de cotrôle de la qualité das l Exemple 2.2. Das le premier modèle, P = {N(µ, σ 2 ) : µ R} l estimatio par la méthode des momets redoe l estimateur ituitif de µ par X, e preat h et ϕ égales aux foctios idetité puisque µ = E(X). Das le secod modèle, P = {N(µ, σ 2 ) : µ R, σ 2 R + }, o peut écrire la relatio h(θ) = E θ (ϕ(x)) e preat θ = (µ, σ 2 ), h(θ) = (µ, σ 2 + µ 2 ) et ϕ(x) = (x, x 2 ) applicatio de R vers R R +. E effet o sait que l o a E(X 2 ) = Var(X) + E 2 (X). Comme h 1 (u, v) = (u, v u 2 ), o obtiet comme estimateur du paramètre multidimesioel θ par la méthode des momets : ˆθ (X) = h 1 ( 1 ) ( ϕ(x i ) = h 1 X 1 X2 i ) ( = X 1 X2 i X 2 O retrouve les estimateurs vus par la méthode des momets empiriques. O parle de la méthode des momets, mais il faut bie reteir que l uicité porte sur la méthode (qui est très géérale) et o sur le ombre d estimateurs d u même paramètre que l o peut obteir par cette méthode. Nous verros das u exercice que, par exemple, das le modèle de la loi expoetielle (comme das d autres), la méthode des momets permet d obteir de ombreux autres estimateurs du paramètre λ. O s ispirera e particulier des relatios E(X 2 ) = 2/λ 2 et F (t 0 ) = P (X > t 0 ) pour obteir deux autres estimateurs par cette méthode des momets. ). 4. Maximum de vraisemblace Pour itroduire cette approche, cosidéros deux ures coteat toutes les deux des boules bleues et rouges mais e proportio différetes : proportio p 1 = 90% de boules bleues das la première et proportio p 2 = 15% de boules bleues das la secode. O tire au hasard ue boule das ue des deux ures sas savoir de laquelle il s agit. O costate que la boule est bleue. Naturellemet o parierait plutôt que la boule tirée est issue de l ure 1. O a pris l ure qui maximise la probabilité de l évéemet que l o a obteu : avoir ue boule bleue. O a choisi la situatio la plus vraisemblable. O va voir que c est celle qui maximise la vraisemblace. E effet, le modèle est ici : {B(p); p {0.9, 0.15}}, Jea-Yves Dauxois c Juillet 2011

4. Maximum de vraisemblace 31 de v.a. géérique X où {X = 1} sigifie que la boule tirée est bleue et {X = 0} sigifie qu elle est rouge. La vraisemblace d u tirage d ue boule bleue est doc L(1; p) = p pour p das {0, 9; 0, 15}. E preat la valeur de p = 0.9 qui maximise la vraisemblace, o décide doc que la boule proviet de l ure 1. Si la boule avait été rouge, o aurait évidemmet choisi l autre ure, ce qui maximise égalemet la vraisemblace qui est alors : L(0, p) = 1 p. Gééralisos u peu. Supposos que l o ait ue ifiité d ures avec toutes les proportios possibles p de boules bleues comprises etre 0 et 1. O effectue tirages i.i.d. das ue même ure (icoue) et o ote respectivemet X 1,..., X le résultat de chaque tirage (x i = 1 si la boule tirée est bleue et 0 sio). E s ispirat de la méthode adoptée ci-dessus, o peut choisir d estimer p par la valeur qui maximise la vraisemblace de l évéemet observé qui est le vecteur x = (x 1,..., x ). La vraisemblace est L(x 1,..., x ; p) = et l estimateur ˆp est doc défii par p x i (1 p) 1 x i = p P x i (1 p) P x i ˆp = ArgmaxL(x; p). p La foctio logarithme état croissate, o peut écrire ( ( ) ) ˆp = Argmax l(p) x i + x i l(1 p). p La foctio p ϕ(p) = l(p) x i + ( x i) l(1 p) admet pour dérivée ϕ (p) = x i x i p 1 p et dérivée secode ϕ (p) = x i p 2 x i (1 p) 2 qui est égative puisque les x i sot das {0, 1}. La foctio ϕ est doc cocave et so maximum atteit e la valeur ˆp qui aule la dérivée première, i.e. x i = x i ˆp 1 ˆp ce qui doe ˆp = x = ( x i)/. Remarquos que l o obtiedrait le même estimateur e utilisat la méthode des momets puisque E(X) = p. Mais il y a pas aucue raiso que cette méthode coduise toujours aux mêmes estimateurs. O peut gééraliser cette méthode pour u modèle statistique quelcoque. Défiitio 4.5. Soit (E, E, P = {P θ : θ Θ}) u modèle statistique paramétrique et X sa v.a. géérique. O appelle estimateur du maximum de vraisemblace la Jea-Yves Dauxois c Juillet 2011

32 Chapitre 4. Costructio d estimateurs statistique ˆθ(X) où ˆθ est ue applicatio : ˆθ : E Θ x ˆθ(x) telle que pour tout θ Θ. O ote L(x; ˆθ(x)) L(x; θ) ˆθ(x) = ArgmaxL(x; θ). θ Das le cas d u modèle d échatilloage la variable géérique est X = (X 1,..., X ) et l Estimateur du Maximum de Vraisemblace est ˆθ(X) = ArgmaxL(X; θ). θ Il est bie évidet que d ue part l estimateur du maximum de vraisemblace existe pas toujours et que, d autre part, s il existe rie e garatie qu il soit uique. Si la foctio vraisemblace est cocave, o sait que le maximum est uique et atteit e la valeur qui aule la dérivée première (cas uidimesioel) ou le gradiet (cas multidimesioel). Isistos bie sur le fait que cette méthode e peut être utilisée que si l hypothèse de cocavité est vérifiée. U cotre-exemple est doé par le modèle de la loi uiforme que ous traiteros e exercice. Comme la vraisemblace est souvet sous la forme d u produit (modèle d échatilloage) il est gééralemet plus aisé (pour les dérivatios) de travailler avec la logvraisemblace défiie comme le logarithme épérie de la vraisemblace. La foctio l état croissate, l estimateur obteu e maximisat la log-vraisemblace est idetique à l estimateur du maximum de vraisemblace. Si l o porte otre itérêt sur l estimatio de g(θ) image de θ par ue foctio g coue, alors la propriété suivate peut être utile. Propositio 4.6. (Propriété d ivariace du maximum de vraisemblace). Soit ˆθ(X) u estimateur du maximum de vraisemblace das u modèle paramétrique (E, E, P = {P θ : θ Θ}). Soit g ue foctio bijective, mesurable et coue de Θ vers Θ = g(θ). L estimateur du maximum de vraisemblace de η = g(θ) das le modèle {P η : η Θ }, paramétré par η, est alors ˆη = g(ˆθ(x)). La démostratio de cette propositio est évidete (basée sur la bijectivité de la ouvelle paramétrisatio). O peut e fait motrer (c est plus délicat) que ce résultat est vrai pour ue foctio g mesurable quelcoque et o posera doc comme défiitio que l estimateur du maximum de vraisemblace de g(θ) est g(ˆθ(x)). Jea-Yves Dauxois c Juillet 2011

5. Exercices 33 5. Exercices Exercice 1 (Modèle Gamma et Méthode des momets) O cosidère le Modèle Statistique de la loi Gamma (R +, B R +, {G(α, β) : α > 0, β > 0}). O rappelle que la desité d ue v.a. X de loi G(α, β) est : f α,β (x) = βα Γ(α) xα 1 e βx 1l R +(x). 1) Calculer E α,β (X) et V ar α,β (X). 2) Par la méthode des momets, doer u estimateur du paramètre bidimesioel (α, β) du modèle, basé sur l observatio d u échatillo X 1,..., X. 3) Détermier des estimateurs de α et β e utilisat cojoitemet des estimateurs empiriques des momets et la méthode de substitutio. Exercice 2 (Modèle de la loi expoetielle et Méthode des momets) O a vu e cours que la méthode des momets permet d obteir u estimateur du paramètre λ das u modèle de la loi expoetielle : ˆλ = 1/ X basé sur la relatio E(X) = 1/λ. L itérêt de cet exercice est de motrer que cette méthode permet la costructio de plusieurs estimateurs de ce même paramètre λ. 1) O suppose qu ue v.a.r. X suit ue loi expoetielle E(λ). Calculer E(X 2 ). 2) Écrire la fiabilité F (t 0 ) = P (X > t 0 ) sous forme d ue espérace. 3) O cosidère le modèle de la loi expoetielle (R +, B R +, {E(λ) : λ > 0}). E vous ispirat des résultats des deux questios précédetes et e utilisat à chaque fois la méthode des momets, proposer deux autres estimateurs du paramètre λ. Exercice 3(Maximum de vraisemblace pour u modèle gaussie) 1) O cosidère le modèle gaussie {N(µ, σ 2 ) : µ R}. Doer l estimateur du maximum de vraisemblace du paramètre µ basé sur ue observatio x 1,..., x d u échatillo issu de ce modèle. 2) O cosidère maiteat le modèle gaussie avec paramètre bidimesioel, i.e. {N(µ, σ 2 ) : µ R, σ 2 > 0}. Doer l estimateur du maximum de vraisemblace du paramètre θ = (µ, σ 2 ), pour le modèle d échatilloage associé. Exercice 4 (Maximum de vraisemblace pour u modèle de loi uiforme) O cosidère le modèle uiforme {U [0,θ] : θ > 0}. 1) Motrer que la vraisemblace associée à u échatillo x 1,..., x observé das ce modèle est : L(x 1,..., x ; θ) = 1 θ 1l x (1) 01l x() θ où x (1) et x () sot respectivemet les observatios des statistiques d ordre X (1) et X (). 2) Doer l estimateur du maximum de vraisemblace du paramètre θ. Jea-Yves Dauxois c Juillet 2011

34 Chapitre 4. Costructio d estimateurs Exercice 5 (Modèles de la loi expoetielle et de la loi de Poisso e Fiabilité) Partie 1 O s itéresse à la durée de vie X d u matériel électroique. Il est raisoable de cosidérer que cette durée de vie est aléatoire et que sa loi est expoetielle (il existe des méthodes statistiques, mais que ous e verros pas das le cadre de ce cours, pour vérifier cette hypothèse). E revache, o igore la valeur du paramètre λ de cette loi. 1) Écrire le modèle statistique egedré par X. Doer égalemet le modèle d échatilloage associé. 2) Doer l estimateur du maximum de vraisemblace pour ue observatio x 1,..., x d u échatillo X 1,..., X de durées de vie de ces matériels. 3) Doer ue estimatio par maximum de vraisemblace de la quatité α = P (X > t 0 ), où t 0 est u temps fixé. 4) Quels estimateurs de λ et de α obtiet-o si o utilise la méthode des momets? Partie 2 Supposos maiteat que les observatios de ces durées de vie soiet obteues grâce à l expériece suivate. Au temps t = 0, o dispose u matériel sur u bac d essai. Quad celui-ci tombe e pae, o remplace immédiatemet (ou o e compte pas le temps de remplacemet) le matériel défectueux par u matériel idetique mais euf. Et aisi de suite jusqu au temps t 0. O ote alors K le ombre de paes relevées das l itervalle [0, t 0 ]. 5) Calculer la probabilité que K soit ul. 6) O ote T k le temps écoulé jusqu à la kème pae observée. C est à dire que T k = X 1 + + X k. Motrer que la loi de la v.a.r. T k est ue Gamma G(k, λ) (Id. O pourra utiliser la trasformée de Laplace ou la foctio caractéristique). 7) Exprimer l évéemet K = k e foctio d évéemets liat les v.a.r. T k et X k+1. E déduire que la loi de K est ue loi de Poisso, dot o détermiera la valeur du paramètre. Partie 3 O suppose que l o réalise fois cette expériece et o ote K 1,..., K les ombres de paes observées das chaque itervalle [0, t 0 ]. 8) Doer le modèle statistique associé à ces observatios. 9) Doer par la méthode du maximum de vraisemblace u autre estimateur du paramètre λ, basé cette fois sur les observatios k 1,..., k. 10) Qu obtiet-o comme estimateur de λ si, das ce modèle, o utilise la méthode des momets? Exercice 6 (Maximum de vraisemblace) Pour les modèles suivats, doer l estimateur du maximum de vraisemblace associé à l observatio d u échatillo X 1,..., X. Jea-Yves Dauxois c Juillet 2011

5. Exercices 35 1) Modèle de la loi expoetielle décalée : (R +, B R +, {E t0 (λ) : λ > 0, t 0 R}). O rappelle que la desité de la loi expoetielle décalée E t0 (λ) est : f λ,t0 (x) = λ exp( λ(x t 0 ))1l [t0,+ [(x). 2) Modèle de la loi Bêta à u seul paramètre : (R +, B R +, {Beta(1, θ) : θ > 1}). O rappelle que la desité de la loi Beta(a, b) est : f a,b (x) = 1 β(a, b) xa 1 (1 x) b 1 1l [0,1] (x), où β(a, b) est la valeur de la foctio Eulériee Bêta prise e a et b. Id. O pourra motrer e premier lieu que la desité pour le modèle cosidéré est : f θ (x) = θ(1 x) θ 1 1l [0,1] (x). Jea-Yves Dauxois c Juillet 2011

CHAPITRE 5 Qualité d u estimateur O a vu plusieurs techiques pour costruire des estimateurs. Même si la présetatio est pas exhaustive (par maque de temps...), abordos maiteat le problème de l évaluatio de la qualité d u estimateur et la comparaiso d estimateurs etre-eux. Le but état bie sûr de predre le meilleur (s il e existe u meilleur). O l a vu, u estimateur T (X) de g(θ) est ue v.a. Pour chaque échatillo observé, l estimateur predra de ouvelles valeurs. Il faut doc, pour parler de la qualité d u estimateur, teir compte de so comportemet aléatoire. A priori doc, l estimateur e doera pas toujours (e fait même raremet) la boe valeur g(θ). Das le cas où T (X) est absolumet cotiu, il sera même p.s. toujours différet de la valeur fixe g(θ). Il est à oter que la présece d erreur est pas toujours la coséquece des variatios aléatoires de l estimateur. Aisi, si l o reviet sur l estimateur du maximum de vraisemblace das u modèle de Beroulli (Cf. Sectio 4.4), o a vu que qu il a pour expressio x. L estimateur e doera doc jamais des valeurs e dehors de l esemble : {0, 1/, 2/,..., ( 1)/, 1}. Il e doera doc jamais la boe valeur p si cette derière est pas das cet esemble. Naturellemet, o voudra qu u estimateur possède quelques ues (à défaut de toutes) des qualité suivates. Quad la taille d échatillo augmete, l estimateur a tedace à se rapprocher (das u ses à défiir) de la valeur g(θ) qu il estime. O parlera das ce cas d estimateur coverget ou cosistat. Même si l estimateur commet ue erreur d estimatio à chaque fois, e moyee (e fait e espérace) il e se trompe pas. O dira das u tel cas que l estimateur est sas biais. L estimateur doit être le plus précis possible : les variatios de l estimateur autour de g(θ) doivet être réduites, voire les plus petites possible. O mesurera cette précisio au moye de la otio de foctio de risque. Il y aurait d autres critères, mais ous auros pas le temps de les étudier. 1. Estimateur coverget Lorsque l o augmete la taille de l échatillo, o augmete la quatité d iformatio dot o dispose sur le phéomèe aléatoire que l o étudie. Aussi, il est assez aturel de souhaiter qu u estimateur ait tedace à s approcher de la valeur qu il estime, lorsque la taille de l échatillo croît. 37

38 Chapitre 5. Qualité d u estimateur Défiitio 5.1. U estimateur T (X) = (T (X)) N de g(θ) est dit (faiblemet) coverget ou cosistat si la suite (T (X)) N coverge e probabilité (sous la loi P θ ) vers g(θ), i.e. quad +. T (X) P θ g(θ), Si T (X) et g(θ) sot das R, la défiitio de la covergece de l estimateur sigifie que l o a, pour tout ε > 0 : quad +. P ( T (X) g(θ) > ε) 0, Si T (X) et g(θ) sot das R p, la défiitio de la covergece de l estimateur s écrit à partir de la otio précédete sous la forme : T (X) g(θ) P θ 0, quad + et où est ue orme quelcoque das R p. O peut motrer aisémet que cela est équivalet à avoir la covergece e probabilité pour chaque coordoée. O peut bie sûr cosidérer d autres types de covergece, comme la covergece p.s. ou la covergece das L p, pour p fixé. Das ces cas, o dira respectivemet que l estimateur est fortemet coverget ou cosistatou L p -coverget ou cosistat. Exemple 5.1. Estimateurs de la moyee empirique et de la variace empirique. Soit u modèle paramétrique P = {P θ : θ Θ} quelcoque tel que l espérace (e supposat qu elle existe) de sa variable géérique X s écrive sous la forme E θ X = g(θ). C est par exemple trivialemet le cas de l Exemple 2.2 des modèles gaussies uidimesioels. O a itroduit das la Défiitio 4.1 la moyee empirique X et vu qu elle est u estimateur aturel de E θ X. Par la loi des grads ombres il apparaît clairemet que sous de boes hypothèses cet estimateur est cosistat et même fortemet coverget. O peut égalemet démotrer (e supposat que les momets d ordre 2 existet) qu il est L 2 -coverget, e remarquat que l o a E θ X = g(θ) et Var θ ( X ) = σθ 2 / qui ted vers 0 quad +. Supposos toujours que la variace de X existe et s écrive sous la forme Var θ (X) = h(θ) das ce modèle. O peut motrer que, sous certaies coditios, l estimateur S 2 de la variace empirique, vu das la Défiitio 4.4, est u estimateur cosistat de Var θ (X). E effet, e utilisat l écriture S 2 = 1 Xi 2 X. 2 Jea-Yves Dauxois c Juillet 2011