Statistiques - Notes de cours - M1. Elisabeth Gassiat

Documents pareils
3. Conditionnement P (B)

Intégration et probabilités TD1 Espaces mesurés Corrigé

Image d un intervalle par une fonction continue

Moments des variables aléatoires réelles

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Simulation de variables aléatoires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Amphi 3: Espaces complets - Applications linéaires continues

4. Martingales à temps discret

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Programmes des classes préparatoires aux Grandes Ecoles

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Limites finies en un point

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

3 Approximation de solutions d équations

Espérance conditionnelle

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Intégration et probabilités TD1 Espaces mesurés

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Probabilités sur un univers fini

Fonctions de plusieurs variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

I. Polynômes de Tchebychev

MA6.06 : Mesure et Probabilités

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Capes Première épreuve

Texte Agrégation limitée par diffusion interne

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

CCP PSI Mathématiques 1 : un corrigé

Probabilités sur un univers fini

Suites numériques 3. 1 Convergence et limite d une suite

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

M2 IAD UE MODE Notes de cours (3)

Continuité en un point

Calcul fonctionnel holomorphe dans les algèbres de Banach

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités III Introduction à l évaluation d options

Le modèle de Black et Scholes

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Théorie de la Mesure et Intégration

Programmation linéaire

Résolution d équations non linéaires

Cours d Analyse. Fonctions de plusieurs variables

Mesures gaussiennes et espaces de Fock

Chapitre 2 Le problème de l unicité des solutions

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Calcul différentiel sur R n Première partie

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Programmation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Sur certaines séries entières particulières

Programmation linéaire et Optimisation. Didier Smets

Introduction à l étude des Corps Finis

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Que faire lorsqu on considère plusieurs variables en même temps?

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le produit semi-direct

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Chapitre 2. Matrices

Intégrale de Lebesgue

Travaux dirigés d introduction aux Probabilités

Théorie de la Mesure et Intégration

4 Distributions particulières de probabilités

Résolution de systèmes linéaires par des méthodes directes

Chapitre VI - Méthodes de factorisation

Cours d analyse numérique SMI-S4

Cours de méthodes de scoring

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Couples de variables aléatoires discrètes

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Cours de Tests paramétriques

Groupe symétrique. Chapitre II. 1 Définitions et généralités

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Intégration sur des espaces produits

Méthodes de Simulation

Principe de symétrisation pour la construction d un test adaptatif

La fonction exponentielle

Continuité et dérivabilité d une fonction

Théorème du point fixe - Théorème de l inversion locale

Commun à tous les candidats

La mesure de Lebesgue sur la droite réelle

Chp. 4. Minimisation d une fonction d une variable

Théorie de l estimation et de la décision statistique

Modèles et Méthodes de Réservation

Développement décimal d un réel

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Approximations variationelles des EDP Notes du Cours de M2

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Transcription:

Statistiques - Notes de cours - M1 Elisabeth Gassiat

Table des matières 1 Introduction 5 1.1 Estimation et régions de confiance...................... 5 1.2 Tests....................................... 10 2 Construction d estimateurs 13 2.1 Généralités................................... 13 2.2 Méthode des moments. Estimation empirique................ 14 2.3 Maximum de vraisemblance.......................... 15 3 Fonction de répartition et théorème de Glivenko-Cantelli 21 4 Construction de tests 25 4.1 Test du rapport de vraisemblance....................... 25 4.1.1 Généralités............................... 25 4.1.2 Optimalité dans le cas de deux hypothèses simples......... 26 4.2 Test de Kolmogorov-Smirnov......................... 26 4.3 Test du chi-deux d ajustement........................ 28 4.4 Lien entre tests et régions de confiance.................... 28 5 Vecteurs gaussiens 31 6 Modèle linéaire gaussien 35 6.1 Définition et exemples............................. 35 6.2 Estimation des paramètres........................... 36 6.2.1 Estimation de m et σ 2......................... 36 6.2.2 Estimation de β et σ 2......................... 37 6.3 Tests d hypothèses linéaires.......................... 38 6.4 Régions de confiance.............................. 39 6.4.1 Région de confiance pour m...................... 39 6.4.2 Région de confiance pour β...................... 40 6.4.3 Région de confiance pour σ 2...................... 41 7 Eléments de théorie de la décision 43 7.1 introduction................................... 43 7.2 Affinité de test et minoration du risque maximum.............. 43 7.3 Distance et affinité de Hellinger........................ 46 7.4 Vitesse de séparation pour le test de deux hypothèses simples....... 50 7.5 Divergence de Kullback............................ 52 3

7.6 Estimation bayésienne............................. 54 7.6.1 Estimateurs admissibles et estimateurs bayésiens.......... 54 7.6.2 Notion de loi conditionnelle...................... 56 7.6.3 Calcul d estimateurs bayésiens.................... 58 8 Tests du rapport de vraisemblance et théorie de Neyman-Pearson 63 8.1 Extension de la notion de test......................... 63 8.2 Cas de deux hypothèses simples........................ 64 8.3 Tests d hypothèses multiples.......................... 66 9 Etude des estimateurs sans biais 71 9.1 Exhaustivité et estimateurs UVMB...................... 71 9.1.1 Exemple du modèle de Bernoulli................... 71 9.1.2 Exhaustivité.............................. 72 9.1.3 Estimateurs UVMB.......................... 77 9.1.4 Modèle exponentiel........................... 79 9.2 Efficacité.................................... 80 9.2.1 Score et information de Fisher.................... 80 9.2.2 Inégalité de Cramer-Rao........................ 82 9.2.3 Cas des modèles produit........................ 83 9.2.4 Modèles exponentiels.......................... 84 9.3 Limites des estimateurs sans biais et de l efficacité............. 84 10 Eléments de statistique asymptotique 87 10.1 Etude asymptotique de l estimateur du maximum de vraisemblance.... 87 10.2 Amélioration d un estimateur n-consistant................. 91 10.3 Consistance de l estimateur du maximum de vraisemblance........ 92 10.4 Asymptotique du test du rapport de vraisemblance............. 94 10.5 Généralisations multidimensionnelles..................... 95 10.6 Constructions de régions de confiance asymptotiques............ 96 10.7 Retour sur le test du chi-deux d ajustement................. 97

1 Introduction En probabilité, on étudie les propriétés de variables aléatoires connaissant leur loi. En statistique, on cherche à trouver de l information sur la loi connaissant les variables aléatoires. Voici une idée de la démarche sur un exemple simple, celui du sondage. On souhaite avoir une idée de la proportion p de personnes qui préfèrent l option A à l option B dans une population de N individus deux options possibles). Pour cela, on interroge n personnes. On se dit que considérer, parmi ces n personnes, la proportion p de personnes qui préfèrent l option A à l option B donne une idée de p. Bon, mais si on refait un sondage, on ne va pas retrouver la même valeur pour p : c est une variable aléatoire, l aléa vient du choix des n parmi les N. Ah oui, mais si on choisit ces n au hasard, on se dit qu on va trouver une valeur proche. Mais alors : tout le temps? Non ce n est pas possible, même au hasard, on peut tomber sur un mauvais échantillon. Et une valeur proche comment? Cela dépend de si on veut que ce résultat arrive souvent. Essayons de formaliser tout cela. On va noter X i = 1 si la i-ème personne interrogée répond A et X i = 0 si la i-ème personne interrogée répond B. On note alors Z n le nombre de personnes qui ont répondu A parmi les n, soit Z n = n X i. La proportion observée est donc p = 1 n Z n. Dire que l on choisit n personnes au hasard parmi N, c est dire que le tirage de l ensemble de ces n personnes suit la loi uniforme sur tous les sous-ensembles à n éléments parmi les N possibles, et Z n suit alors la loi hypergéométrique de paramètre n, p, N). On sait que si N est très grand par rapport à n, cette loi est approximativement la loi binomiale Bn; p), qui est celle que l on obtient avec un tirage avec remise les X i sont alors des variables aléatoires indépendantes de même loi de Bernoulli de paramètre p). Du coup, le fait que p soit proche de p, et avec quelle probabilité, va pouvoir être quantifié. Dans cette démarche, il y a une part de modélisation qui consiste à dire quelque chose sur la loi possible de la variable aléatoire considérée. Ici, la modélisation porte sur la loi de Z n par l intermédiaire de au hasard et l approximation N >> n. On a X variable aléatoire de loi P inconnue, et la modélisation fixe P, ensemble de lois possibles pour P, autrement dit, on a une information a priori qui est : P P. 1.1 Estimation et régions de confiance Reprenons la situation où l on dispose de X 1,..., X n indépendantes de loi de Bernoulli Bθ), et que l on cherche à estimer θ par 1 n n X i. On dit que X 1,..., X n est 5

1 Introduction l observation et que 1 n n X i est un estimateur de θ. Ce vocabulaire dit seulement que c est une quantité qui ne dépend que de l observation. C est une variable aléatoire. Comment savoir si cette variable aléatoire est proche de θ? Rappels : LFGN On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi P, telle que E X 1 ) est finie. Alors la suite de variables aléatoires 1 n n X i) n 1 converge presque sûrement vers EX 1 ). LGN On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi, telle que E X 1 ) est finie. Alors la suite de variables aléatoires 1 n n X i) n 1 converge en probabilité vers EX 1 ). Reprendre les définitions de convergence p.s. et en probabilité qui permettent de voir que, en ce qui concerne la question de quantifier les probabilités des écarts, la LFGN est seulement qualitative, et que ce qui nous intéresse est la LGN. Souvent on note X n = 1 n n X i la moyenne empirique. Dans notre exemple, on a EX 1 ) = θ, donc X n semble être un bon estimateur de θ. Pour évaluer ses performances, il faut noter qu il y a deux types d erreurs, si on utilise X n : X n θ l écart entre l estimateur X n et la valeur cible θ), et, si l on veut préciser cette erreur pour avoir X n θ ɛ la probabilité que cette affirmation soit fausse. On voit que ces deux erreurs varient de manière inverse : si l on augmente la précision si l on diminue ɛ), on diminue la probabilité que l affirmation soit vraie. On va donc construire des fourchettes que l on associe à des niveaux de confiance, c est ce que l on appelle un intervalle de confiance : on va chercher à évaluer P X n θ ɛ), et si c est inférieur ou égal à α, on dira que [X n ɛ, X n + ɛ] est un intervalle de confiance pour θ de niveau de confiance 1 α. Il y a plusieurs choses à remarquer. D abord, la loi P des X i est inconnue. Elle dépend de θ, on va donc la noter P θ. Ensuite, l intervalle de confiance est un intervalle aléatoire. Si on renouvelle l expérience, il change. Et ce que l on veut contrôler, on souhaite que cela soit valide bien que l on ne connaisse pas la loi, puisque justement c est l objectif, donc que ce soit vrai quel que soit θ. Définition 1.1.1. Soit α [0, 1]. On dit que I est un intervalle de confiance pour θ Θ de niveau de confiance 1 α si et seulement si I est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction de l observation θ Θ, P θ θ I) 1 α. Dans l exemple, Θ = [0, 1]. Noter que dans l événement θ I c est I qui est aléatoire, pas θ qui est une quantité fixe mais inconnue). Reprendre l exemple pour lire la définition. 6

1.1 Estimation et régions de confiance On veut donc évaluer P X n θ ɛ). Outils? Rappels : Inégalité de Markov Si Z est une variable aléatoire réelle positive ou nulle, alors t > 0, P Z t) EZ). t Ceci n a un intérêt que si EZ) est finie). Inégalité de BT Si Z est une variable aléatoire réelle admettant une espérance et une variance, alors t > 0, P Z EZ) t) V arz) t 2. Se rappeler les preuves. Sur l exemple : V arx n ) = θ1 θ) n bien détailler pourquoi), et donc θ [0, 1], P θ X n θ ɛ) θ1 θ). Par ailleurs, par l étude de la fonction θ θ1 θ), on nɛ 2 voit que θ [0, 1], θ1 θ) 1/4. On a donc ceci se réécrit en détailler les étapes) θ [0, 1], P θ Xn θ ɛ ) 1 4nɛ 2. θ [0, 1], P θ Xn ɛ < θ < X n + ɛ ) 1 1 4nɛ 2, ce qui montre que l intervalle I =]X n ɛ; X n + ɛ[ est un intervalle de confiance pour θ Θ de niveau de confiance 1 1. Si l on fixe α et que l on veut un intervalle de 4nɛ 2 niveau de confiance 1 α, il faut choisir ɛ = 1/2 nα. En ce qui concerne n, on voit que la probabilité d erreur décroit en 1/n. Dans ce cas, on peut utiliser une inégalité plus performante, qui donne une décroissance exponentielle en n. Proposition 1.1.1 Inégalité de Cramer-Chernoff.). Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P telle que pour tout λ > 0, ψλ) soit fini en posant ) ψλ) = log E e λx 1 EX 1 )). Alors ɛ > 0, λ > 0, P X n EX 1 ) ɛ ) e nλɛ ψλ)). Preuve : On a pour tout λ > 0 1 Xn EX 1 ) ɛ = 1 λxn EX 1 )) λɛ exp [ λx n EX 1 )) λɛ ] 7

1 Introduction donc en prenant l espérance P X n EX 1 ) ɛ ) E { exp [ λx n EX 1 )) λɛ ]} n = e λɛ E[e λ n X i EX 1 )) ] car les X i sont indépendants. Puis comme ils ont même loi, pour tout i = 1,..., n, log E[e λ n X i EX 1 )) ] = ψ λ n ), donc pour tout λ > 0 P X n EX 1 ) ɛ ) e λɛ+nψ λ n ) et l on obtient la proposition en posant λ = λ/n. Lemme 1.1.1 Lemme de Hoeffding.). Soit Y une variable aléatoire réelle de loi P telle que, pour des réels a et b, a Y b, et telle que EY ) = 0. Alors λ R, log E [e ] λy λ2 b a) 2. 8 Preuve : On a b a 2 Y a + b 2 b a 2 donc Y a + b ) 2 2 b a)2. 4 Du coup, si Q est une probabilité sur [a, b], on a dire pourquoi!) V ar Q Y ) b a)2. 4 Prenons maintenant pour tout réel λ, dq λ y) = e λy φλ) dp y), en posant φλ) = log E P e λy dire pourquoi ça existe). Maintenant, on obtient facilement que φ est deux fois dérivable dire pourquoi et faire les calculs!) et que pour tout λ, φ λ) = V ar Qλ Y ). Donc En intégrant entre 0 et λ, λ R, φ λ) b a)2. 4 λ R, φ λ) φ 0) λb a)2, 4 8

1.1 Estimation et régions de confiance mais φ 0) = E P Y ), donc en intégrant de nouveau entre 0 et λ, et enfin φ0) = 1. λ R, φλ) φ0) λb a)2, 4 Conséquence pour notre exemple : Proposition 1.1.2. Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P θ = Bθ). Alors ɛ > 0, θ [0, 1], P θ Xn θ ɛ ) 2e 2nɛ2. Preuve : On fixe ɛ > 0 et θ [0, 1]. En appliquant le lemme de Hoeffding à chaque X i avec a = θ et b = 1 θ, donc b a = 1) puis l inégalité de Cramer-Chernoff, on obtient pour tout λ > 0 P θ Xn θ ɛ ) λ2 nλɛ e 8 ). Donc P θ Xn θ ɛ ) e n sup λ2 λ>0 λɛ 8 ). Mais sup λ>0 λɛ λ2 8 ) = 2ɛ2, donc P θ Xn θ ɛ ) e 2nɛ2. Par ailleurs, les θ X i, i = 1,..., n sont aussi des variables aléatoires indépendantes centrées de même loi et telles que θ 1 θ X i θ donc le même raisonnement donne P θ θ Xn ɛ ) e 2nɛ2 et l on termine par P θ Xn θ ɛ ) = P θ Xn θ ɛ ) + P θ θ Xn ɛ ). On peut aussi penser, pour contrôler P θ Xn θ ɛ ) à des résultats asymptotiques. Rappel TLC : On suppose que X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi, admettant une espérance et une variance. Alors la suite )) n X n EX 1 ) V arx1 ) converge en loi vers U, variable aléatoire réelle de loi N 0, 1). Se rappeler la définition de convergence en loi et les différents critères équivalents de convergence en loi. n 1 9

1 Introduction Retour à l exemple : lorsque X k ) k 1 est une suite de variables aléatoires réelles indépendantes et de même loi P θ = Bθ), on a par le TLC ) n θ [0, 1], ɛ > 0, lim P X n θ + 1 θ ɛ = 2 e u2 2 du n + θ1 θ) ɛ 2π par parité de la densité de la loi N 0, 1), soit écrire les détails) θ [0, 1], ɛ > 0, lim n + P θ en notant F la fonction de répartition de la loi N 0, 1). Comme pour tout θ, θ1 θ) 1 2, θ [0, 1], ɛ > 0, P θ et on a θ [0, 1], ɛ > 0, lim inf n + P θ X n ɛ θ1 θ) n θ X n + ɛ θ1 θ) n ) = 2F ɛ) 1 ) X n ɛ θ1 θ) θ X n + ɛ θ1 θ) n n X n On obtient ainsi que [ X n ɛ 2 n ; X n + ɛ ] 2 n P θ X n ɛ 2 n θ X n + ɛ ) 2 n ɛ 2 n θ X n + ɛ ) 2 2F ɛ) 1. n est un intervalle de confiance pour θ Θ asymptotiquement de niveau de confiance 1 α, si l on a choisi ɛ de sorte que F ɛ) = 1 α/2. On note u 1 α/2 un tel ɛ. Par exemple, pour α = 0.05, on obtient u 1 α/2 1.96, donc pour avoir une préxcision de 0.01 largeur de l intervalle de confiance) il faut n 10 4. Définition 1.1.2. Soit α [0, 1]. Soit X k ) k 1 une suite de variables aléatoires réelles indépendantes et de même loi P θ. On dit que I n est un intervalle de confiance pour θ Θ asymptotiquement de niveau de confiance 1 α si et seulement si I n est un intervalle aléatoire, dont les bornes sont des variables aléatoires fonction de l observation X 1,..., X n θ Θ, lim inf n + P θ θ I n ) 1 α. 1.2 Tests Imaginons que le sondage soit fait dans un contexte de contrôle de qualité, et que θ soit la proportion de pièces défectueuses dans la production. 10

1.2 Tests La question à laquelle le statisticien s intéresse ici est de savoir si cette proportion est, par exemple, bien inférieure à 5%. Autrement dit, étant donné une valeur θ 0 fixée, il s agit de décider si θ θ 0 au vu du résultat du sondage. Une approche naïve pourrait être de décider que oui, en effet, θ θ 0 si l observation est telle que X n θ 0 et non, ce n est pas le cas, si l observation est telle que X n > θ 0. En réfléchissant un peu, on voit que ce n est pas la bonne méthode, car alors, si en fait θ = θ 0, et que l on devrait décider que oui, en effet, θ θ 0 et bien la probabilité de se tromper en décidant que ce n est pas le cas, est proche de 1/2 pour n grand. Par contre, il semble que décider que oui, en effet, θ θ 0 si l observation est telle que X n t et non, ce n est pas le cas, si l observation est telle que X n > t soit une bonne procédure. Toute la question est de choisir le seuil de décision t. Pour cela, on va quantifier les erreurs de décision. Il y a deux erreurs de décision possible : décider que θ θ 0 alors qu en fait θ > θ 0, et décider que θ > θ 0 alors qu en fait θ θ 0. Notons α = sup θ θ 0 P θ Xn > t ). α est appelée erreur de première espèce, elle quantifie la probabilité maximum de l erreur que l on fait en décidant que θ > θ 0 alors qu en fait θ θ 0. Si l on note maintenant β = sup θ>θ 0 P θ Xn t ), β est appelée erreur de deuxième espèce, elle quantifie la probabilité maximum de l erreur que l on fait en décidant que θ θ 0 alors qu en fait θ > θ 0. On souhaite choisir le seuil t de sorte que ces deux erreurs soient petites. Proposition 1.2.1. Soient X 1,..., X n des variables aléatoires réelles indépendantes et de même loi P θ = Bθ). Alors, pour t fixé, la fonction θ P θ Xn t ) est croissante, et pour toute valeur θ 0, pour tout t, sup θ θ0 P θ Xn > t ) + sup θ>θ0 P θ Xn t ) = 1. Preuve : Soient U 1,..., U n des variables aléatoires réelles indépendantes et de même loi uniforme sur [0, 1]. Pour tout θ [0, 1], 1 U1 θ est de loi Bθ), et donc P θ Xn > t ) ) 1 n = P 1 Ui θ > t. n Mais θ 1 Ui θ est une fonction croissante, donc θ P 1 n n 1 U i θ > t ) est aussi une fonction croissante. Donc son maximum pour θ [0, θ 0 ] est atteint en θ 0. De même, P θ Xn t ) = 1 P 1 n n 1 U i θ > t ) est une fonction décroissante de θ, c est une fonction continue de θ car polynomiale ; l écrire!) donc son maximum pour θ ]θ 0, 1] est en θ 0. On a donc sup θ θ0 P θ Xn > t ) + sup θ>θ0 P θ Xn t ) = P θ0 Xn > t ) + P θ0 Xn t ) = 1. Comment choisir t? Si l on cherche à rendre α petit, il faut choisir t assez grand, mais alors β = 1 α ne sera pas petit. Si l on choisit t = θ 0, alors pour n grand α et β sont proches de 1/2, ce qui n est pas 11

1 Introduction satisfaisant dans un contexte de contrôle de qualité. Ce que l on peut faire, c est choisir t de sorte que α soit petit, et que, lorsque θ 1 > θ 0, pour θ 1 pas trop proche de θ 0 on ait sup θ>θ1 P θ Xn t ) petit. Introduisons maintenant la notion de test statistique. Définition 1.2.1. Soient Θ 0 et Θ 1 deux sous-ensembles disjoints de Θ. Un test statistique de l hypothèse H 0 : θ Θ 0 contre l alternative H 1 : θ Θ 1 est une variable aléatoire φ fonction mesurable de l observation et à valeur dans {0, 1}. On appelle région de rejet l ensemble des valeurs de l observation pour lesquelles φ = 1. La taille du test est sup θ Θ0 E θ φ. On appelle puissance du test la fonction θ E θ φ. On dit que le test est de niveau α si sa taille est majorée par α, ou autrement dit si la fonction puissance, pour θ Θ 0, est majorée par α. Un test est une procédure de décision : si φ = 1, on décide H 1, on dit aussi que l on rejette H 0. Si φ = 0, on décide H 0, on dit aussi que l on accepte H 0. Reprenons l exemple. Allure de la fonction puissance, qui croit de 0 à 1 sur [0, 1]. De même que pour les intervalles de confiance, on peut parler de test asymptotiquement de niveau α si φ n ) est une suite de tests de H 0 : θ Θ 0 contre H 1 : θ Θ 1 tel que θ Θ 0, lim sup E θ φ n α. n + En utilisant le théorème de limite centrale, on voit que si l on choisit comme seuil, dans l exemple, t n = θ 0 + u 1 α θ0 1 θ 0 ) n alors le test φ n = 1 Xn tn est asymptotiquement de niveau α pour tester H 0 : θ θ 0 contre H 1 : θ > θ 0. Aussi, en prenant θ 1 = θ 0 + 2 u 1 α θ0 1 θ 0 ) n, on obtient θ θ 1, lim sup E θ φ n 1 α, n + soit ) θ θ 1, lim sup P θ Xn t n α. n + 12

2 Construction d estimateurs 2.1 Généralités On considère le modèle statistique avec l observation X, à valeurs dans X muni d une tribu A, et une famille de probabilités P θ ) θ Θ sur X, A). Si Θ R k pour un entier k, on dit que le modèle est paramétrique. Si Θ est une partie d un espace de dimension infinie par exemple : l ensemble des probabilités ayant une densité sur R), on dit que le modèle est non paramétrique. Soit g une fonction de Θ dans un ensemble Y muni d une tribu B. Un estimateur de gθ) est une variable aléatoire T X), où T est une fonction mesurable de X dans Y. On appelle biais la quantité gθ) E θ [T X)]. Rappel : on note E θ l espérance prise sour la probabilité P θ, c est à dire pour X de loi P θ ). Noter que le biais est une fonction de θ. On dit que T X) est un estimateur sans biais de gθ) si et seulement si θ Θ, E θ [T X)] = gθ). Pour évaluer la qualité d un estimateur, on introduit une fonction de perte : L : Y Y R + vérifiant : y Y, Ly, y) = 0, y, y ) Y 2, Ly, y ) = Ly, y) L est symétrique), de sorte que Lgθ), T X)) évalue un écart entre l estimateur et la valeur cible. On appelle risque de l estimateur T X) la fonction θ E θ [Lgθ), T X))]. On cherche alors des estimateurs qui rendent ce risque petit. C est une fonction, donc il faut choisir le sens de petit, on y reviendra!). Exemples : Risque quadratique : lorsque Y = R, et Ly, y ) = y y ) 2, le risque est E θ [gθ) T X)) 2 ]. On a la décomposition biais-variance : risque quadratique=carré du biais + variance Ecrire la preuve. E θ [gθ) T X)) 2 ] = gθ) E θ [T X)]) 2 + V ar θ [T X)]. 13

2 Construction d estimateurs Risque de test/ de classification : lorque Ly, y ) = 1 y y, le risque est E θ [1 T X) gθ) ] = P θ T X) gθ)). Lorsque l on considère une suite d expériences statistiques, de sorte que pour tout entier n, on dispose d une observation X 1,..., X n ) et d une famille de probabilités P θ,n ) θ Θ sur X n, A n ) par exemple, à partir d une suite de variables i.i.d., de sorte que P θ,n = P n θ ), si T n X 1,..., X n )) n 1 est une suite d estimateurs de gθ), on dira que : T n est un estimateur fortement consistant de gθ) si et seulement si θ Θ, lim T nx 1,..., X n ) = gθ) P θ p.s.. n + T n est un estimateur consistant de gθ) si et seulement si θ Θ, T n X 1,..., X n ) n + gθ) en P θ probabilité, autrement dit, si Y R m et si est une norme par exemple la norme euclidienne) sur R m, θ Θ, ɛ > 0, lim P θ,n T n X 1,..., X n ) gθ) ɛ) = 0. n + Remarque : par abus de notation, j utiliserai T n pour T n X 1,..., X n ) comme fait ci-dessus). 2.2 Méthode des moments. Estimation empirique On considère X n ) n 1 une suite de variable aléatoires indépendantes identiquement distribuées sur X. Soit φ : X R une fonction telle que pour tout θ Θ, φ L 1 P θ ). Soit g : Θ R donnée par θ Θ, gθ) = E θ [φx)]. L estimateur de gθ) obtenu par la méthode des moments est T n = 1 n n φx i ). Alors, T n est un estimateur sans biais et consistant de gθ). Exemple : le sondage vu au premier chapitre. Plus généralement, on parle de méthode des moments lorsque l on construit un estimateur avec des moyennes empiriques. 14

2.3 Maximum de vraisemblance Exemple du modèle gaussien : Soit X n ) n 1 une suite de variable aléatoires indépendantes identiquement distribuées sur R, de loi N m, σ 2 ). Le modèle est alors, pour la loi de X 1, P θ ) θ Θ avec θ = m, σ 2 ) et Θ = R R +,. Un estimateur de θ obtenu par la méthode des moments est θ n = m n, σ 2 n) avec ) 2 m n = 1 n X i, σ n 2 n = 1 n Xi 2 1 n X i. n n Il est consistant dire pourquoi). Est-il sans biais? calculer le biais). La méthode des moments est une méthode qui utilise donc des moments calculés avec la mesure empirique P n, qui est une mesure de probabilité aléatoire qui met en chaque X i la masse 1/n : P n = 1 n δ Xi. n Dans l exemple précédent, m n = xdp n x), σ 2 n = x 2 dp n x) xdp n x)) 2. Tous les moments empiriques sont des estimateurs consistants de l espérance de la fonction, la méthode fonctionne car P n est un bon estimateur de P θ. En quel sens? Au moins en ce qui concerne la fonction de répartition, c est ce que l on verra au prochain chapitre voir Théorème de Glivenko-Cantelli). 2.3 Maximum de vraisemblance On dit que le modèle statistique est un modèle dominé si il existe une mesure positive µ su X, A) telle que : pour tout θ Θ, P θ est absolument continue par rapport à µ. Se rappeler la définition de absolument continue. En ce cas, pour tout θ Θ, il existe une fonction mesurable f θ de X dans R telle que P θ = f θ µ, c est la densité de P θ par rapport à µ. On appelle alors vraisemblance la variable aléatoire fonction de θ : Lθ) = f θ X), et log-vraisemblance la variable aléatoire fonction de θ : lθ) = log f θ X). Pour estimer θ, on peut choisir la valeur de θ qui rend la densité maximale en la valeur de l observation, c est ce que l on appelle l estimateur du maximum de vraisemblance : θ = argmax θ Θ Lθ) = argmax θ Θ lθ). 15

2 Construction d estimateurs Se posent alors les questions d existence et d unicité. Lorsque le modèle statistique est celui de n variables aléatoires indépendantes X 1,..., X n de loi P θ, θ Θ, si le modèle est dominé par la mesure µ), alors le modèle P n θ ) θ Θ est dominé par µ n. Si pour tout θ Θ, P θ = f θ µ, alors la vraisemblance est et la log-vraisemblance est : L n θ) = l n θ) = n f θ X i ), n log f θ X i ). Exemples Modèle de Bernoulli. Soit X 1,..., X n ) i.i.d. de loi de Bernoulli Bθ), θ [0, 1]. La loi de Bernoulli est absolument continue par rapport à µ = δ 0 + δ 1. Une façon pratique d écrire la vraisemblance est Lθ) = θ X 1 θ) 1 X. On a alors en notant S n = n X i : l n θ) = S n log θ + n S n ) log1 θ). Le maximum de vraisemblance est θ n = S n /n. Le démontrer). Modèle Gaussien. Soit X 1,..., X n ) i.i.d. de loi N m, σ 2 ), m R, σ 2 R +,. La loi gaussienne N m, σ 2 ) est absolument continue par rapport à Lebesgue, de densité 1 σ 2π e x m)2 /2σ 2, donc l n m, σ 2 ) = Le maximum de vraisemblance est m n = 1 n n X i m) 2 2σ 2 n 2 log2πσ2 ). n X i, σ 2 n = 1 n n Xi 2 1 n ) 2 n X i. Le démontrer). Il est clair que si l on change de mesure dominante, la vraisemblance change le voir sur les deux exemples). Que se passe-t-il alors pour l estimateur du maximum de vraisemblance? On peut voir sur les deux exemples que, en changeant de mesure dominante, on ne change pas l estimateur du maximum de vraisemblance Le faire! Et voir ce qui change et ce qui ne change pas!). En fait, c est un résultat général, qui justifie la notion intrinsèque) d estimateur du maximum de vraisemblance. Proposition 2.3.1. Si un modèle X, A, P θ ) θ Θ ) est dominé, alors il existe une probabilité Q qui domine le modèle et qui vérifie A A, QA) = 0 θ Θ, P θ A) = 0. On dit alors que Q est une dominante privilégiée du modèle. 16

2.3 Maximum de vraisemblance Remarque : il n y a pas unicité de la dominante privilégiée, toute autre mesure de probabilité équivalente à Q est une dominante privilégiée. Preuve : Soit µ une mesure dominante. On commence par construire une probabilité P équivalente à µ et qui domine le modèle. La mesure µ est sigma-finie, donc il existe une collection au plus dénombrable d ensembles mesurables A n, n N, qui forme une partition de X et tels que pour tout n, µa n ) < +. On choisit λ n ) n N des réels tels que n N λ n = 1 et tels que n N, µa n ) > 0 λ n > 0. On pose P telle que dp dµ x) = λ n µa n ) 1 A n x). n N On a pour tout ensemble mesurable A, P A) = n N λ n µa A n ) µa n ) ce qui montre que P est une probabilité absolument continue par rapport à µ, et que si P A) = 0, alors pour tout n N, µa A n ) = 0, donc µa) = 0 et µ est absolument continue par rapport à P. Du coup aussi, pour tout θ Θ, P θ est absolument continue par rapport à P. Notons maintenant F θ = dp θ /dp. L ensemble A θ = {F θ > 0} est mesurable. Soit C la collection des réunions au plus dénombrables d ensembles A θ, et posons M = sup P C). C C On a M 1. Soit C n une suite d éléments de C tels que P C n ) M 1/n. Soit C = n 1 C n. C C, et P C ) M, donc P C ) = M. Comme C C, il existe une collection au plus dénombrable θ j ) j J d éléments de Θ tels que C = j J A θj. Soit ensuite λ j ) j J des réels strictement positifs tels que j J λ j = 1, et soit Q la mesure telle que dq dp x) = λ j F θj x). j J On a pour tout ensemble mesurable A, QA) = j J λ jp θj A), donc Q est une probabilité telle que si A est tel que, pour tout θ Θ, P θ A) = 0, alors QA) = 0. Il s agit maintenant de montrer la réciproque. Démontrons tout d abord que θ Θ, P A θ ) = P A θ C ). En effet, si ce n était pas le cas, pour un θ de Θ, on aurait P A θ C ) c ) > 0, donc P A θ C ) > M : contradiction. 17

2 Construction d estimateurs Soit maintenant A tel que QA) = 0. Pour tout θ Θ, on a P A θ C ) c ) = 0, et donc par domination P θ A θ C ) c ) = 0, et donc P θ A) = P θ A C ) = F θ dp = A C F θ dp. A A θ C On en déduit que P θ A) = F θ dp F θ dp = A A θ j J A θj ) j J A A θ A θj j J A A θ A θj Mais comme QA) = 0, on a pour tout j J, P θj A) = 0, donc A A θ A θj et donc P θ A). F θ F θj dp θj. F θ F θj dp θj = 0, Corollaire 2.3.1. L estimateur du maximum de vraisemblance ne dépend pas du choix de mesure dominante. Preuve : Soient µ une mesure dominante. Notons Lθ) la vraisemblance obtenue avec µ. Soit Q une dominante privilégiée. Alors Q est absolument continue par rapport à µ, et l on a, en notant L Q θ) = dp θ dq X) : Lθ) = L Q θ) dq dµ 1 X). Donc θ maximise Lθ) si et seulement si θ maximise L Q θ), qui est une quantité qui ne dépend pas de µ. On va maintenant justifier l usage du maximum de vraisemblance dans une situation très simple et en considérant le risque de test. On se place dans la situation où Θ est réduit à deux points, que l on peut noter Θ = {0, 1}. Le modèle est alors réduit à deux probabilités P 0 et P 1, et c est donc un modèle dominé. Une dominante privilégiée est µ = P 0+P 1 2. Alors : Proposition 2.3.2. L estimateur du maximum de vraisemblance minimise la moyenne du risque de test en 0 et en 1. Preuve : On considère donc la fonction de perte 1 t θ, et pour tout estimateur T le risque RT, θ) = P θ T θ). Soit alors ST ) la moyenne 1 2 RT, 0) + RT, 1)). On a, comme T X) {0, 1}, ST ) = 1 2 { T x)f 0 x)dµx) + } 1 T x))f 1 x)dµx) = 1 2 + 1 T x)f 0 x) f 1 x))dµx). 2 18

2.3 Maximum de vraisemblance Soit θ l estimateur du maximum de vraisemblance. On a alors ST ) S θ) = 1 T x) 2 θx))f 0 x) f 1 x))dµx). Mais si f 0 x) f 1 x) < 0, alors θx) = 1, et T x) θx) 0. Et si f 0 x) f 1 x) > 0, alors θx) = 0, et T x) θx) 0. Donc dans tous les cas, T x) θx))f 0 x) f 1 x)) 0, et donc ST ) S θ) 0. On va calculer la moyenne du risque pour l estimateur du maximum de vraisemblance, et pour cela introduire la distance en variation. Définition 2.3.1. Si P et Q sont deux probabilités sur X, A), la distance en variation totale entre P et Q est définie par d P ; Q) = sup P A) QA). A A Ceci définit une distance sur l ensemble des probabilités sur X, A) En effet, on vérifie la symétrie, le fait que si d P ; Q) = 0, alors P = Q, et l inégalité triangulaire. On a alors Proposition 2.3.3. Si µ domine P et Q, alors la distance en variation totale entre P et Q vérifie d P ; Q) = 1 dp 2 dµ dq dµ = P A) QA) L 1 µ) où A = {x : dp dq dµ x) dµ x)}. La distance en variation totale entre P et Q est alors notée P Q V T. Remarque : au passage, on a montré que est une quantité qui ne dépend pas de la mesure dominante choisie. on a Preuve : Tout d abord, en posant Par ailleurs, dp dµ dq dµ = L 1 µ) A dp dµ dq dµ L 1 µ) A = {x : dp dq x) dµ dµ x)}, A dp dµ dq ) dp dµ dµ A c dµ dq ) dµ. dµ dp dµ dq ) dp dµ + dµ A c dµ dq ) dµ = 0, dµ 19

2 Construction d estimateurs donc dp dµ dq dµ = 2 L 1 µ) A dp dµ dq ) dµ. dµ Puis on a par définition P A) QA) d P ; Q). Maintenant, si B A, P B) QB) = P B A) + P B A c ) QB A) QB A c ) dp = A B dµ dq ) dp dµ + dµ A c B dµ dq ) dµ dµ dp A B dµ dq ) dµ dµ dp dµ dq ) dµ = P A) QA), dµ et de la même manière P B) QB) donc pour tout B A, A A c dp dµ dq ) dµ = [P A) QA)], dµ P B) QB) P A) QA), et en prenant le supremum en B A on obtient dp, Q) = P A) QA). On obtient maintenant, dans le cadre précédent : Proposition 2.3.4. Si Θ = {0, 1}, la valeur minimale de la moyenne du risque de test en 0 et en 1, atteinte par le maximum de vraisemblance, vaut 1 2 1 P 0 P 1 V T ). 20

3 Fonction de répartition et théorème de Glivenko-Cantelli Soit X une variable aléatoire réelle. Définition 3.0.1. La fonction de répartition F X de X est la fonction de R dans [0, 1] donnée par t R, F X t) = P X t). On a les propriétés suivantes. Rappeler les preuves). F X est une fonction croissante, continue à droite, telle que et lim F Xt) = 0 t lim F Xt) = 1; t + Si on note F X t ) la limite à gauche de F X au point t dire pourquoi elle existe), F X t ) = P X < t) et F X t) F X t ) = P X = t). La fonction de répartition caractérise la loi. Autrement dit, si deux variables aléatoires ont même fonction de répartition, alors elles ont même loi. Par ailleurs, la première propriété est caractéristique des fonctions de répartition. Proposition 3.0.1. Si F est une fonction de R dans [0, 1] qui est croissante, continue à droite, telle que lim t F t) = 0 et lim t + F t) = 1, alors il existe une variable aléatoire réelle X telle que F est la fonction de répartition de X. Rappeler la preuve) Définition 3.0.2. Toute fonction de répartition F admet une inverse généralisée ou pseudo-inverse) définie par : u ]0, 1[, F u) = inf {x R : F x) u}. On dit aussi que F est la fonction quantile et que F u) est le quantile de u. On a alors : Proposition 3.0.2. Pour tout x R et tout u ]0, 1[, u F x) F u) x. 21

3 Fonction de répartition et théorème de Glivenko-Cantelli F est une fonction croissante qui vérifie et u ]0, 1[, F F u)) u, x R, si F x) ]0, 1[, F F x)) x. Preuve :Commencer par regarder des exemples de cas F discontinue et F avec un plateau. Soit u ]0, 1[, on note I = {x R : F x) u}. Comme u < 1, I est non vide. Sinon on aurait pour tout réel x, P X x) < u < 1). Par ailleurs comme F est croissante, si x I et si y x, alors y I. Donc I est un intervalle semi-infini à droite, notons x 0 sa borne inférieure. I = x 0, + [. Montrons alors que x 0 I. En effet, pour tout t > 0, x 0 + t I, donc F x 0 + t) u et comme F est continue à droite, F x 0 ) u. Donc I = [x 0, + [ et donc F u) = x 0. L équivalence de la proposition s en déduit. La croissance de F en découle. Puis en prenant x = F u) on obtient la première inégalité, et en prenant u = F x) on obtient la deuxième inégalité. La fonction quantile permet de simuler une variable aléatoire de fonction de répartition connue à partir d une variable aléatoire de loi uniforme sur [0, 1]. Théorème 3.0.1. Si U est une variable aléatoire de loi uniforme sur [0, 1], alors F U) est une variable aléatoire de fonction de répartition F. Preuve : En effet, pour tout réel x, en utilisant la proposition précédente on a P F U) x ) = P U F x)) = F x). Soit maintenant X n ) n 1 une suite de variables aléatoires indépendantes de même loi que X. On note P n la mesure empirique et F n la fonction de répartition empirique donnée par : t R, F n t) = 1 n 1 Xi t = 1 x t dp n x). n On a alors : Théorème 3.0.2 Théorème de Glivenko-Cantelli). La fonction de répartition empirique converge P-presque sûrement uniformément vers la fonction de répartition, i.e. P p.s., lim sup F n t) F t) = 0 n + t R Preuve : Soit N un entier strictement positif. ) Notons pour 1 j N 1, x j,n = F j N, et x 0,N = et x N,N = +. On convient F n x 0,N ) = 0, F x 0,N ) = 0, F n x N,N ) = 1 et F x N,N ) = 1. On a alors pour tout j tel que 0 j N 1, t [x j,n ; x j+1,n [, F n x j,n ) F n t) F n x j+1,n ) et F x j,n ) F t) F x j+1,n ). 22

Donc t [x j,n ; x j+1,n [, F n x j,n ) F x j+1,n ) F n t) F t) F n x j+1,n ) F x j,n ). ) Comme x j,n = F j N, on a F x j,n ) j N F x j,n) pour tout j vérifier que aussi pour j = 0 et j = N), de sorte que t [x j,n ; x j+1,n [, F n x j,n ) F x j,n ) 1 N F nt) F t) F n x j+1,n ) F x j+1,n )+ 1 N. Donc sup F n t) F t) 1 t R N + max { F nx j,n ) F x j,n ) ; F n x j,n ) F x j,n ) }. 1 j N 1 Par la loi forte des grands nombres, pour tout j, F n x j,n ) F x j,n ) tend vers 0 P -p.s. et F n x j,n ) F x j,n ) tend vers 0 P -p.s. Si pour tout N on note A N l événement A N = lim sup sup F n t) F t) 1 ) n + t R N on a donc P A N ) = 1 préciser comment cela découle des LFGN citées précédemment). Alors, P N 1 A N ) = 1, et ) A N lim F n t) F t) = 0. N 1 sup n + t R On va maintenant s intéresser au cas où la fonction de répartition F est continue. Proposition 3.0.3. Si F est continue, pour tout u ]0, 1[, F F u)) = u. Si X est de fonction de répartition F continue, alors F X) est de loi uniforme sur [0, 1]. Preuve : Reste à voir qu alors F F u)) u. Pour tout δ > 0, on a F u) δ < F u), donc, par contraposition de l équivalence de la proposition 3.0.6, F F u) δ) < u. Comme F est continue, on peut passer à la limite quand δ tend vers 0 et obtenir F F u)) u. Si maintenant X est de fonction de répartition F continue, X a même loi que F U) où U est de loi uniforme sur [0, 1], donc F X) a même loi que F F U)) = U. On a aussi : Théorème 3.0.3. Si F est une fonction de répartition continue, si X 1,..., X n sont n variables aléatoires indépendantes de fonction de répartition F et si F n est la fonction de répartition empirique, alors la loi de ne dépend pas de F. D n = sup F n t) F t) t R 23

3 Fonction de répartition et théorème de Glivenko-Cantelli Preuve : Soit U 1,..., U n des variables aléatoires indépendantes de loi uniforme sur [0, 1]. Alors X 1,..., X n ) a même loi que F U 1 ),..., F U n )), et donc D n a même loi que D 0 n = sup t R n 1 F U i ) t F t). Mais on a alors, comme l événement F U i ) t) est égal à l événement F t) U i ) Dn 0 n = sup 1 t R Ui F t) F t) et comme F est continue croissante sur R, avec limite 0 en et limite 1 en +, F R) = 0, 1) l intervalle est ouvert ou semi-ouvert ou fermé), donc en posant u = F t), Dn 0 n = sup 1 Ui u u. u ]0,1[ Application : construction de bandes de confiance pour F : La loi de D 0 n peut être tabulée, donc si d n,α est tel que P D 0 n d n,1 α ) α, alors si F c désigne l ensemble des fonctions de répartition continues, on a, en utilisant le théorème précédent, F F c, P F F n F d n,1 α ) 1 α et l ensemble des fonctions comprises, pour tout t, entre F n t) d n,1 α et F n t) + d n,1 α est une bande de confiance pour F de niveau de confiance 1 α. 24

4 Construction de tests Se rappeler la notion de test, avec la définition 1.2.1. La méthode indiquée par l exemple du sondage est : choisir une statistique de test, c est-à-dire une variable aléatoire, dont la loi est différente selon que l hypothèse nulle H 0 est vraie ou selon que c est l hypothèse alternative H 1 qui est vraie, choisir une région de rejet qui est conforme à ce changement qualitatif, et la calibrer en fonction du niveau souhaité revoir cela avec l exemple du sondage). 4.1 Test du rapport de vraisemblance 4.1.1 Généralités Soit un modèle statistique dominé X, A, P θ ) θ Θ ). Soient Θ 0 et Θ 1 deux sous-ensembles disjoints de Θ. On veut tester H 0 : θ Θ 0 contre H 1 : θ Θ 1. Le test du rapport de vraisemblance consiste à prendre la décision en fonction de la valeur de la vraisemblance sur chacun des ensembles définissant l hypothèse nulle Θ 0 ) et l hypothèse alternative Θ 1 ). Soit donc µ une mesure dominante, et pour tout θ Θ, f θ la densité de P θ par rapport à µ. On note Lθ) la vraisemblance. Soit T X) = sup θ Θ 1 Lθ) sup θ Θ0 Lθ). Le test du rapport de vraisemblance est de la forme φx) = 1 T >s pour un seuil s fixé. Si on se fixe un niveau α ]0, 1[, alors on définit { } C α = inf C > 0 : sup P θ T > C) α. θ Θ 0 On a : Proposition 4.1.1. Pour tout α ]0, 1[, si l ensemble { C > 0 : sup θ Θ0 P θ T > C) α } est non vide, alors le test du rapport de vraisemblance 1 T >Cα est de niveau α. Preuve : Soit θ Θ 0. Pour tout C > C α, on a P θ T > C) α. Comme la fonction C P θ T > C) est continue à droite, on a en faisant tendre C vers C α à droite, P θ T > C α ) α. Comme ceci est vrai pour tout θ Θ 0, on en déduit que le test du 25

4 Construction de tests rapport de vraisemblance 1 T >Cα est de niveau α. Exemple : modèle binomial et test de H 0 : θ θ 0 contre H 1 : θ > θ 0. Montrer que le test du rapport de vraisemblance prend la forme 1 Sn s n,α pour un s n,α bien choisi. 4.1.2 Optimalité dans le cas de deux hypothèses simples On considère le cas où Θ 0 = {θ 0 } et Θ 1 = {θ 1 }, θ 0 θ 1. On note f 0 resp. f 1 ) la densité de P θ0 resp. P θ1 ) par rapport à la mesure dominante. Le test du rapport de vraisemblance est de la forme φx) = 1 f1 X)>sf 0 X) et le seuil s est choisi en fonction du niveau souhaité α du test. La taille du test est P θ0 f 1 X) > sf 0 X)), sa puissance est P θ1 f 1 X) > sf 0 X)). On a le résultat d optimalité suivant. Proposition 4.1.2. Si le test du rapport de vraisemblance est de taille α alors il est plus puissant que n importe quel test de niveau α de H 0 : θ = θ 0 contre H 1 : θ = θ 1. Preuve : Soient s et α tels que P θ0 f 1 X) > sf 0 X)) = α. Posons φx) = 1 f1 X)>sf 0 X). Soit ψ un test de niveau α de θ = θ 0 contre H 1 : θ = θ 1. On a E θ1 [φ ψ] se θ0 [φ ψ] = f 1 x) sf 0 x)) φx) ψx)) dµx) 0 car la fonction f 1 x) sf 0 x)) φx) ψx)) est toujours positive ou nulle le voir en distinguant les différents cas de signe possibles pour f 1 x) sf 0 x)). Donc E θ1 [φ] E θ1 [ψ] s E θ0 [φ] E θ0 [ψ]) 0 s α E θ0 [ψ]) car φ est de taille α donc E θ0 [φ] = α) et ψ est de niveau α donc E θ0 [ψ] α). Reprendre le cas du test de rapport de vraisemblance pour le modèle binomial. 4.2 Test de Kolmogorov-Smirnov On considère le modèle statistique R n, BR n ), P n F ) F F), où F est l ensemble des fonctions de répartition sur R. Si F 0 est une fonction de répartition fixée, on veut tester H 0 : F = F 0 contre H 1 : F F 0. L idée est de se baser sur la fontion de répartition empirique F n. On a alors : 26

4.2 Test de Kolmogorov-Smirnov Théorème 4.2.1. Si F 0 est continue, le test est de niveau α. φ = 1 Fn F 0 d n,1 α On a déjà vu que si F 0 est continue, la loi de F n F 0 sous P n F 0 ne dépend pas de F 0. La preuve du théorème est alors immédiate. On appelle ce test test de Kolmogorov- Smirnov et D n = F n F 0 statistique de Kolmogorov. Le calcul de D n est simple. On a le démontrer) : { } i 1 D n = max 2 i n n F 0X i 1) ) ; i 1 n F 0X i) ) F 0 X 1) ) 1 F 0 X n) ) en notant X i) ) 1 i n la statistique de rang de X i ) 1 i n c est-à- dire X 1) X 2) X n). La loi de D n sous P n F 0 est continue. Le démontrer en l écrivant avec la loi uniforme). Si F F 0, on a pour tout t, F n t) F 0 t) = F n t) F t) + F t) F 0 t), donc F n F 0 F F 0 F n F et donc, si F est continue et F F 0 2d n,1 α 1 E F [φ] P F F n F F F 0 d n,1 α ) α, c est-à-dire que si F est continue et F F 0 2d n,1 α, la puissance en F est 1 α. On peut montrer que d n,1 α est d ordre 1/ n quand n tend vers l infini en montrant que sous F 0 continue, n F n F 0 converge en loi). On peut chercher à comparer la loi inconnue à F 0 en précisant sa position par rapport à F 0. Par exemple, si l on veut tester H 0 : t, F t) F 0 t) contre H 1 : t, F t) > F 0 t), on utilisera la statistique de Smirnov D n + = sup F n t) F 0 t)). t R On peut montrer que si F 0 est continue, la loi de D n + lorsque F = F 0 ne dépend pas de F 0, et peut donc être tabulée. On peut donc choisir d + n,1 α tel que le test 1 D n + d + soit n,1 α de niveau α. Démontrer tout cela, et comment calculer D n + avec la statistique de rang). Noter que lorsque pour tout t, F t) F 0 t), l observation a tendance à être plus grande sous P F que sous P F0. 27

4 Construction de tests 4.3 Test du chi-deux d ajustement On vient de voir un test d ajustement pour décider si une loi est une loi donnée continue. Il s agit d un test non paramétrique. Que faire pour tester la même chose pour des lois discrètes? On va y répondre dans le cas paramétrique. On se place dans le cas où X = {1,..., k}. On note P l ensemble des probabilités p = p1),..., pk)) sur X, et P p la loi sur X induite par p. Le modèle statistique est alors X n, A, P n p ) p P ). On se donne p 0 P tel que p 0 j) > 0, j = 1,..., k, et on veut tester H 0 : p = p 0 contre H 1 : p p 0. On dispose de X 1,..., X n. Pour tout j = 1,..., k, on note N j = n 1 Xi =j la statistique de comptage remarquer qu elle dépend de n et X 1,..., X n même si la notation ne l indique pas). On se dit que N j n est un bon estimateur de pj), donc que pour tester p = p 0 contre p p 0 on pourrait se baser sur les différences N j n p 0j). On pose : k N j np 0 j)) 2 Z n =. np 0 j) j=1 On va avoir besoin de lois du Chi-deux. Définition 4.3.1. Soit m un entier. La loi du Chi-deux à m degrés de liberté est la loi de la somme des carrés de m variables aléatoires indépendantes de loi N 0, 1). On note cette loi χ 2 m). On a alors : Théorème 4.3.1. Sous P p0, Z n converge en loi quand n tend vers + vers une variable aléatoire de loi χ 2 k 1) loi du Chi-deux à k 1 degrés de liberté). On démontrera ce théorème au chapitre suivant. A partir de ce théorème, on peut construire un test qui soit asymptotiquement de niveau α et de puissance 1 Le faire! Démontrer les résultats de niveau et puissance!). 4.4 Lien entre tests et régions de confiance Lorsqu on a construit des tests, on est souvent parti du même point de départ que lorsqu on a construit des régions de confiance ; on est parti d un estimateur de ce qui est testé ou estimé, et fait ensuite des calculs analogues. Y a-t-il quelque chose de général 28

4.4 Lien entre tests et régions de confiance qui relie les deux procédures statistiques? Dire la définition d une région de confiance RX) pour θ, pas forcément un intervalle de R. Proposition 4.4.1. Soit RX) une région de confiance pour θ de niveau de confiance 1 α. Alors, pour tout θ 0 Θ, φx) = 1 θ0 / RX) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0 Preuve : Fixons θ 0 Θ. On a alors P θ0 θ 0 RX)) 1 α puisque RX) une région de confiance pour θ de niveau de confiance 1 α, et donc E θ0 [φx)] = P θ0 θ 0 / RX)) = 1 P θ0 θ 0 RX)) α. Proposition 4.4.2. On suppose que pour tout θ 0 Θ, φ θ0 X) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0, et que la fonction de Θ X dans R qui, à tout θ, X) associe φ θ X) est mesurable. Alors RX) = {θ Θ : φ θ X) = 0} est une région de confiance pour θ de niveau de confiance 1 α. Preuve : Soit θ 0 quelconque fixé dans Θ. Puisque φ θ0 X) est un test de niveau α de H 0 : θ = θ 0 contre H 1 : θ θ 0, on a E θ0 [φx)] α, soit P θ0 φ θ0 X) = 0) 1 α. Autrement dit, P θ0 θ 0 RX)) 1 α. Ceci étant vrai pour tout θ 0 Θ cela prouve que RX) est une région de confiance pour θ de niveau de confiance 1 α. Exemples : Modèle binomial : construire un test de H 0 : θ = θ 0 contre H 1 : θ θ 0 à partir de la région de confiance vue en introduction. Revisiter le test de Kolmogorov et la bande de confiance pour la fonction de répartition. A partir du test du chi-deux d ajustement, construire une région de confiance pour la probabilité p 1,..., p k ) dans le modèle multinomial. 29

5 Vecteurs gaussiens Ce qui suit sont surtout des rappels! Définition 5.0.1. La loi gaussienne N m, σ 2 ), où m R et σ 2 R + est la probabilité de densité par rapport à Lebesgue ) 1 σ 2π exp x m)2 2σ 2. Un vecteur aléatoire X à valeurs dans R k est un vecteur gaussien si et seulement si toute combinaison linéaire de ses coordonnées est une variable aléatoire rélle gaussienne, autrement dit, si et seulement si, pour tout U R k, il existe m R et σ 2 R + tels que U T X soit de loi N m, σ 2 ). Si X est un vecteur gaussien, on peut alors définir EX) le vecteur des espérances des coordonnées de X, et V arx) la matrice k k de variance de X. Rappeler sa définition). La fonction caractéristique φ du vecteur gaussien d espérance m R k et de matrice de variance Σ est donnée par [ t R k, φ t) = exp im T t 1 ] 2 tt Σt. Rappeler la preuve.) En particulier, la loi d un vecteur gaussien est complètement déterminée par son espérance m R k et sa matrice de variance Σ, on note alors la loi N k m; Σ). Si Σ est inversible, la densité par rapport à Lebesgue sur R k est 1 2π) k/2 detσ) exp 1 ) 2 x m)t Σ 1 x m). Proposition 5.0.1. Si X est un vecteur gaussien de loi N k m; Σ) et si A est une matrice p k, alors AX est un vecteur gaussien de loi N p Am; AΣA T ). Rappeler la preuve.) Proposition 5.0.2. Si X est un vecteur gaussien et si sa variance est diagonale par blocs, alors les blocs de coordonnées correspondants forment des vecteurs gaussiens indépendants. 31

5 Vecteurs gaussiens Rappeler la preuve.) Définition 5.0.2. Un n-échantillon gaussien est un vecteur gaussien de loi N n 0; Id), c est-à-dire un vecteur dont les n composantes sont des variables aléatoires indépendantes de loi gaussienne centrée réduite. Proposition 5.0.3. Lorsqu on fait un changement de base orthonormée, un n-échantillon gaussien reste un n-échantillon gaussien. Rappeler la preuve.) Théorème 5.0.1 Théorème de Cochran). Soit X un n-échantillon gaussien, et soient E 1,..., E p des sous-espaces vectoriels de R n orthogonaux, dont la somme est égale à R n. Notons Π j la projection orthogonale de R n sur E j, j = 1,..., p et k j = dime j ), j = 1,..., p. Alors les vecteurs Π j X), j = 1,..., p, sont des vecteurs gaussiens indépendants, et pour j = 1,..., p, Π j X) 2 suit la loi χ 2 k j ). Preuve : Soit e i,j ) 1 i p,1 j ki la base orthonormée de R n telle que, pour tout i = 1,..., p, e i,j ) 1 j ki est une base orthonormée de E i. Soit A la matrice de changement de base associée, de sorte que si Y = AX, Y 1,..., Y n sont les coordonnées de X dans la nouvelle base. Par les deux propositions qui précèdent, Y est un n-échantillon gaussien. Par ailleurs, pour tout i = 1,..., p, en notant k 0 = 0 : k i Π i X) = Y k1 +...+k i 1 +je i,j. j=1 Donc k i Π i X) 2 = j=1 Y 2 k 1 +...+k i 1 +j et Π i X) 2 suit donc la loi χ 2 k i ). Par ailleurs, Π i X)) 1 i p est un vecteur gaussien de matrice de variance diagonale, donc les Π j X), j = 1,..., p, sont des vecteurs gaussiens indépendants Théorème 5.0.2 Théorème de limite centrale multidimensionnel). Soit X n ) n 1 une suite de variables aléatoires à valeurs dans R k, indépendantes et de même loi de variance finie. Alors ) 1 n n X i EX 1 ) n converge en loi vers une variable U de loi N k EX 1 ), V arx 1 )). 32

Rappeler la preuve à partir du TLC unidimensionnel.) Preuve du Théorème 4.3.1 : On a X 1,..., X n i.i.d. de loi P p0 sur {1,..., k}. Pour j = 1,..., k, on note n N j = et Z n = 1 Xi =j k N j np 0 j)) 2. np 0 j) j=1 Soit W n le vecteur de R k de j-ième coordonnée ) 1 N j np 0 j). n p0 j) Notons D le vecteur de R k de j-ième coordonnée p 0 j). Par le TLC multidimensionnel, le vecteur W n converge en loi sous P p0 vers une variable U de loi N k 0, Id DD T ). Donc, par image continue, Z n = W n 2 converge en loi sous P p0 vers U 2. Maintenant, A = Id DD T est la matrice de projection orthogonale sur l orthogonal de la droite engendrée par D. Donc AA T = A, et U a même loi que AV, où V est de loi N k 0, Id). Donc U 2 a même loi que AV 2, qui est de loi χ 2 k 1) d après le Théorème de Cochran. 33

6 Modèle linéaire gaussien 6.1 Définition et exemples Le modèle linéaire gaussien est R n, BR n ), P θ ) θ Θ ), où θ = m, σ 2 ), P θ = N n m, σ 2 Id), et Θ = V R +, V étant un sous-espace vectoriel de R n. Si l observation est Y, on peut écrire ou encore Y = m + ε, m V, ε N n 0, σ 2 Id), Y i = m i + ε i, i = 1,..., n, ε i, i = 1,..., n, i.i.d. de loi N 0, σ 2 ). Remarquer qu ici, les ε i ne sont pas observés, et que les Y i n ont pas même loi. Dans ce modèle, il y a deux parties : La modélisation de la variance : ε N n 0, σ 2 Id), les ε i ont même variance, ils sont indépendants, ils sont gaussiens. La modélisation de l espérance : choix du sous-espace vectoriel V tel que m V modèle linéaire). Une façon d écrire la modélisation de l espérance est d écrire que V est l image de X pour une matrice X n p, et donc qu il existe β R p tel que m = Xβ. Si X est injective, ou encore si V est de dimension p, alors ce β est unique et l on écrit le modèle Y = Xβ + ε, β R p, ε N n 0, σ 2 Id). Ici, X est connu car V est connu), et l on pose θ = β, σ 2 ), P θ Θ = R p R +. = N n Xβ, σ 2 Id), Exemples : Pour chaque exemple, expliciter le modèle sous ses deux formes, avec V et avec X. 1. Régression : On a des mesures Y i, on veut les expliquer par des variables connues. Par exemple : par le temps, si les mesures sont faites à des temps t i, on peut chercher à ajuster une parabole : Y i = a + bt i + ct 2 i + ε i, i = 1,..., n. 35