Probabilités et inférence statistique (STAT-S202)
|
|
|
- Nicolas Roux
- il y a 10 ans
- Total affichages :
Transcription
1 Probabilités et inférence statistique (STAT-S202) Partie 2: Inférence statistique Catherine Dehon (2e édition) Université libre de Bruxelles Solvay Brussels School of Economics and Management ch.0-p.1i
2 STAT-S-202 Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write, H.G. Wells Deux parties 1 Probabilités : Davy Paindaveine, 1er quadrimestre Théorie : 24h (=12 2h) TP : 18h (=9 2h) Examen de 1 ère session : janvier 2 Inférence statistique : Catherine Dehon, 2e quadrimestre Théorie : 24h (=12 2h) TP : 18h (=9 2h) Examen de 1ère session : juin Un examen unique en 2e session ch.0-p.2i
3 Fiche signalétique Cycle et année d étude BA2 - cours obligatoire But du cours Introduction des concepts d inférence statistique (estimation, test d hypothèse, régression, analyse de la variance,...). Mise en pratique sur des exemples d économie et de gestion. Méthode d enseignement et support Théorie : Cours ex cathedra. Syllabus de théorie disponible sur le site : http :// Exercices Subdivision des étudiants en groupes de T.P. Les énoncés des exercices sont disponibles sur le même site que le syllabus. Les solutions ainsi que quelques examens résolus des années précédentes sont également téléchargeables sur ce site. Méthode d évaluation L examen est organisée durant la session de juin. L examen comporte une partie théorique et une partie pratique, sans interruption entre les deux. Le formulaire utilisé lors des TP sera fourni lors de l examen. Aucune note personnelle n est autorisée. ch.0-p.3i
4 Règles d attribution des crédits et report partiel 1 Report partiel de session : De la première à la seconde session, un étudiant bénéficie automatiquement du report de la note de la première partie du cours (examen de janvier) ou de la seconde partie du cours (examen de juin), si celle-ci est au moins égale à 10/20 [aucune démarche administrative n est nécessaire]. Les notes inférieures à 10/20 sont automatiquement annulées. L étudiant qui a obtenu un report de note et qui décide de représenter l examen correspondant lors d une session ultérieure renonce implicitement à son ancienne note et seule la nouvelle note obtenue sera prise en considération, même si celle-ci est inférieure à celle obtenue antérieurement. La note pour la seconde session est la moyenne entre la note obtenue pour la première partie (note de janvier ou note obtenue en seconde session) et la note obtenue pour le deuxième partie (note de juin ou note obtenue en seconde session). 2 Attribution des crédits : L unité d enseignement Probabilités et inférence statistique est créditée si la note finale est au moins égale à 10/20. Un étudiant qui ne se voit pas attribuer les crédits ne bénéficiera pas de report partiel à l année suivante. Il devra donc, quelles que soient les notes obtenues l année précédente, repasser les deux parties du cours. ch.0-p.4i
5 Avertissement Ce syllabus a été rédigé dans le but de faciliter la prise de notes pendant le cours théorique. La mise à jour du présent syllabus sera faite via le cours théorique. Il est bien entendu que l examen portera sur l ensemble de la matière vue au cours théorique (des éléments pourraient être ajoutés oralement au cours) ainsi que la matière des travaux pratiques. Nous remercions le professeur Marc Hallin pour l accès à son syllabus dont les transparents de ce cours sont en grande partie inspirés. ch.0-p.5i
6 Introduction But Transformer des données en information La Statistique Ensemble de méthodes et outils mathématiques visant à collecter, décrire et analyser des données afin d obtenir de l information permettant de prendre des décisions malgré la présence d incertitude (erreur, bruit) La statistique joue un rôle essentiel dans de nombreuses disciplines en économie : taux de croissance, nombre de brevets déposés, prix de l immobilier,... en finance : rentabilité d un investissement,... en marketing : étude de marché,... en gestion des ressources humaines : absentéisme,... en médecine : mise sur le marché de nouveaux médicaments,... en sciences sociales, en sciences politiques, etc La statistique est l outil de confrontation d une théorie scientifique à l observation ch.0-p.1i
7 Introduction 10 octobre 2011 : le bureau de campagne de François Hollande juge que si la proportion p des Français en faveur de François Hollande est 52%, il faut opter pour une fin de campagne assez agressive, si p > 52%, il faut au contraire opter pour une fin de campagne prudente. Comment décider de ce qu il faut faire avant les primaires socialistes du 16 octobre 2011 contre Martine Aubry? La décision dépend de la valeur de p, qui est malheureusement inconnue. Puisqu il est bien sûr exclu d interroger tous les français pour évaluer p, la seule possibilité consiste à réaliser un sondage : interroger 100 futurs votants sur leurs intentions de vote. ch.0-p.2i
8 Introduction La statistique descriptive s arrête à la description des résultats de ce sondage Hollande (62%) Aubry (38%) Ceci ne dit cependant rien de tangible sur p : Quelle que soit la valeur de p (0, 1), ce résultat de 62% peut en effet se réaliser, en raison des "variations aléatoires" auxquelles le résultat du sondage est soumis (mais la valeur p = 1%, par exemple, rend ce résultat de 62% très peu probable et est donc à écarter) ch.0-p.3i
9 Introduction Ce sont ainsi les probabilités qui engendrent la statistique inférentielle, laquelle va plus loin que la statistique descriptive : elle permet de tirer des conclusions (et donc de prendre des décisions). Comme le cours le montrera, elle établira ici qu une "fourchette" pour p, associée à un "taux d erreur de 5%", est donnée par [52.5%, 71.5%]. que si on tolère une probabilité de 5% qu on opte à tort pour une fin de campagne prudente, il convient d opter en effet pour la prudence (alors qu un résultat de sondage de 58% ne mènerait pas à cette conclusion) Clairement, toute "preuve statistique" comportera un risque d erreur. Comment définir et mesurer cette erreur? Comment contrôler cette erreur? (p.ex., comment choisir une taille de sondage assurant une erreur inférieure à un seuil fixé par le cabinet Hollande?) Comment interpréter les résultats des procédures d inférence statistique? ch.0-p.4i
10 Plan du chapitre 1 1 Statistiques et lois échantillonnées Motivation Simulation Rappels ch.1-p.5i
11 Plan du chapitre 1 1 Statistiques et lois échantillonnées Motivation Simulation Rappels ch.1-p.5i
12 Motivation Dans l exemple précédent, nous avons étudié une proportion. D autres problèmes statistiques s intéressent à la moyenne population d une variable aléatoire. Soit X une v.a. de moyenne µ = E[X] et de variance σ 2 = Var[X] <. On s intéresse à E[X] = x f (x) dx. où X est une variable aléatoire continue admettant une certaine densité f. Bien sûr, cette expression intégrale ne permet pas dévaluer E[X], parce que f est inconnue. Comment pouvez-vous vous y prendre? ch.1-p.5i
13 Motivation L idée naturelle consiste à considérer un échantillon (X 1,..., X n). On dira qu il s agit d un échantillon aléatoire simple si ces v.a. sont indépendantes et identiquement distribuées ("i.i.d."). Ceci signifie que ces v.a. sont mutuellement indépendantes, et partagent toutes la même distribution (dans le cas présent, elles sont toutes continues avec la densité f ). L échantillon observé sera désigné par (x 1,..., x n) (les minuscules sont souvent réservées aux valeurs numériques observées, tandis que les majuscules désignent les v.a. dont ces valeurs observées sont des réalisations). ch.1-p.6i
14 Motivation Toutes les observations étant de densité f, elles portent toutes de l information sur f, et donc sur E[X]. Comment extraire cette information? Il est naturel de calculer la moyenne empirique X = 1 n n i=1 X i et de fonder la conclusion sur la valeur que prend cette variable aléatoire sur l échantillon observé (x 1,..., x n). Des questions naturelles dans ce cadre sont : En quel sens X fournit-elle une information importante sur E[X]? Comment tenir compte de la variabilité intrinsèque de X? La seconde question est justifiée par le fait que X étant une fonction des v.a. X 1,..., X n, elle est elle-même une v.a., avec sa propre distribution : on parlera de distribution échantillonnée. ch.1-p.7i
15 Motivation Dans cette partie du cours, on parlera beaucoup de la notion de statistique : On appelle statistique toute fonction (mesurable) des observations. Ainsi, par exemple, est une statistique, alors que T 1 (X 1,..., X n) := X = 1 n n i=1 X i T 2 (X 1,..., X n) := 1 n n (X i θ) 2, i=1 où θ est le paramètre inconnu du modèle, n en est pas une. En effet, pour chaque valeur de θ, T 2 est différente. Une statistique étant une fonction des v.a. X 1,..., X n, elle est elle-même une v.a., avec sa propre distribution : on parlera de distribution échantillonnée. ch.1-p.8i
16 Plan du chapitre 1 1 Statistiques et lois échantillonnées Motivation Simulation Rappels ch.1-p.9i
17 Simulation Soit X une v.a. de moyenne µ = E[X] et de variance σ 2 = Var[X] <. Soit (X 1,..., X n) un échantillon aléatoire simple associé. Simulation via Website : Online Statistics : An Interactive Multimedia Course of Study http ://onlinestatbook.com/ Chapter VII : Sampling Distributions - Basic demo Deux situations sont fréquentes : X 1,..., X n sont i.i.d. d une loi inconnue quelconque X 1,..., X n sont i.i.d. N(µ, σ 2 ) ch.1-p.9i
18 Plan du chapitre 1 1 Statistiques et lois échantillonnées Motivation Simulation Rappels ch.1-p.10i
19 Rappels La distribution échantillonnée de X (n) = 1 n n i=1 X i vérifie toujours (i) E[ X (n) ] = 1 [ n ] n E X i = 1 n E[X i ] = 1 n µ = 1 n n n (nµ) = µ i=1 et (ii) Var[ X (n) ] = 1 n 2 Var [ n i=1 i=1 ] X i = 1 n Var[X n 2 i ] = 1 n 2 i=1 i=1 n i=1 σ 2 = 1 n 2 (nσ2 ) = σ2 n, Donc la distribution de X (n) (i) reste de moyenne µ n (ii) devient de plus en plus concentrée quand n grandit. Théorème (Loi faible des grands nombres) Soit (X 1,..., X n) un échantillon aléatoire simple. Supposons que σ 2 = Var[X i ] <. Posons µ = E[X i ] et X (n) = 1 n n i=1 X i. Alors ε > 0, P[ X (n) µ > ε] 0. ch.1-p.10i
20 Rappels Ces résultats tiennent quelle que soit la distribution "mère" (celle de X). Hélas, il n en va pas de même du reste de la distribution de X (n). En effet, les propriétés d additivité montrent que : Si X 1,..., X n sont i.i.d. N (µ, σ 2 ), alors X 1 + X X n N (nµ, nσ 2 ), de sorte que X = (X 1 + X X n)/n N ( nµ, nσ2 ) = N (µ, σ2 ). n n 2 n Si X 1,..., X n sont i.i.d. Bern(p) = Bin(1, p), alors X 1 Bin(n, p). n Si X 1,..., X n sont i.i.d. Poi(λ), alors X 1 n Poi(nλ). Si X 1,..., X n sont i.i.d. χ 2 k, alors X 1 n χ2 nk. Ceci illustre le fait qu il est priori difficile, pour un n fixé, de contrôler l erreur X (n) µ : en effet, la distribution de X (n) µ dépend de la distribution "mère"... Laquelle est le plus souvent inconnue en pratique! Mais on est sauvé par LE théorème le plus important en probabilité et en statistique... ch.1-p.11i
21 Rappels Théorème (Théorème central-limite (TCL)) Soit (X 1,..., X n) un échantillon aléatoire simple. Supposons que σ 2 = Var[X i ] <. Posons µ = E[X i ] et X (n) = 1 n n i=1 X i. Alors [ ] X (n) µ P x Φ(x), σ 2 n où x Φ(x) = P[N (0, 1) x] est la fonction de répartition de la loi N (0, 1). Autrement dit : pour n grand, la distribution de Z (n) = ( X (n) µ) σ n est bien approximée par la loi N (0, 1). On pourra donc calculer des probabilités pour Z (n) (et donc pour X (n) ) en faisant comme s il s agissait d une variable normale standard. ch.1-p.12i
22 Rappels Un exemple type d application de ce théorème est le suivant. Soit X une v.a. de moyenne µ = E[X] et de variance σ 2 = Var[X] <. Soit (X 1,..., X n) un échantillon aléatoire simple associé. Le TCL affirme que, en loi, X (n) µ σ n N (0, 1) D autre part, on a vu que s σ p.s., donc aussi en probabilité et en loi. Le lemme de Slutzky livre donc que, en loi, ( ) ( ) X (n) µ X (n) µ s s = σ / N (0, 1) / 1 = N (0, 1). n n σ Le caractère miraculeux de ce résultat est qu il est valable quelle que soit la distribution "mère" (et est donc applicable même quand on ne la connaît pas). ch.1-p.13i
23 Rappels En posant z β = Φ 1 (β), le résultat ci-dessus ainsi que cette égalité P[z α/2 N (0, 1) z 1 α/2 ] = 1 α permet d écrire que [ P z α/2 [ P z α/2 n X (n) µ s z 1 α/2 ] s n X (n) µ z 1 α/2 s ] n [ P X (n) s z 1 α/2 n µ X (n) s ] z α/2 n 1 α 1 α 1 α Pour α = 0.05, ceci implique que, si n est grand, (z α/2 = 1.96 et z 1 α/2 = 1.96) [ P X (n) 1.96 s µ X (n) s ] 0.95 : n n alors que X est une "estimation ponctuelle" du µ inconnu, l intervalle aléatoire [ X (n) 1.96 s n, X (n) s n ] constitue une "fourchette" ayant la propriété de contenir la valeur inconnue de µ avec une probabilité d environ 0.95! ch.1-p.14i
24 Rappels Mais il arrive qu on soit amené à travailler avec de petits échantillons. Cela peut s expliquer par la rareté des observations, par le coût énorme pour obtenir des observations supplémentaires (c est le cas en génétique, par exemple), etc. Si n est trop petit (n < 30?), l approximation de la loi de X (n) que fournit le TCL est trop peu précise pour donner des résultats satisfaisants en pratique. Que peut-on faire dans ce cas? Travailler sous l hypothèse (restrictive!) que la distribution "mère" soit normale. ch.1-p.15i
25 Rappels Le résultat fondamental est le suivant. Théorème (lemme de Fisher) Soient X 1,..., X n des variables aléatoires i.i.d. N (µ, σ 2 ) (n 2). Alors (i) X ) (n) N (µ, σ2 n (ii) ns2 σ 2 χ2 n 1 (iii) X s 2. Contrairement à la loi des grands nombres et au TCL (qui, puisque n dans ces théorèmes, seront dits "asymptotiques"), le résultat ci-dessus sera qualifié d exact. Ceci traduit le fait que le résultat tient pour tout n fixé, et donc pourra être utilisé même pour n petit. ch.1-p.16i
26 Plan du chapitre 2 2 Estimation ponctuelle Introduction au problème Propriétés d un estimateur Estimateur sans biais Estimateurs convergents Estimateurs exhaustifs Estimateurs à dispersion minimale Estimateurs efficaces Méthodes d estimation La méthode des moments La méthode des moindres carrés La méthode du maximum de vraisemblance ch.2-p.17i
27 Plan du chapitre 2 2 Estimation ponctuelle Introduction au problème Propriétés d un estimateur Estimateur sans biais Estimateurs convergents Estimateurs exhaustifs Estimateurs à dispersion minimale Estimateurs efficaces Méthodes d estimation La méthode des moments La méthode des moindres carrés La méthode du maximum de vraisemblance ch.2-p.1i
28 Introduction au problème Soit le modèle statistique P = {P θ θ Θ}, Θ R k engendrant le vecteur aléatoire X = (X 1,..., X n) qui reflète l objet d intérêt : 1 salaires de n personnes sélectionnées en Belgique ; 2 succès ou échec de n étudiants ; 3 nombre de faillites d entreprises sur n mois. Souvent on utilise le modèle d échantillonnage où les X i sont i.i.d. : on réserve alors la notation P θ à leur loi commune. θ est un paramètre qui peut représenter, par exemple, la moyenne de la distribution Estimation paramétrique. Definition On appelle estimateur de θ toute statistique à valeurs dans Θ. On appelle estimateur de g(θ) toute statistique à valeur dans g(θ). ch.2-p.1i
29 Introduction au problème Plusieurs notations peuvent être utilisées pour l estimateur de θ : T(X), θ(x), θ, etc. Exemple Soient X 1,..., X n i.i.d. N (µ, σ 2 ), µ R, σ 2 R +. Les statistiques suivantes sont toutes à valeurs dans R, et constituent donc des estimateurs de µ : 1 X := 1 n n i=1 X i (moyenne arithmétique) 2 X (n) 1/2 (médiane empirique) 1 3 (X 2 min + X max) (moyenne des extrêmes) 1 (n) 4 (X 2 1/4 + X (n) 3/4 ) (milieu de l intervalle interquartile) i=11 X (i) (moyenne tronquée ( trimmed )) 6 X 1 (première observation) 7... Comment faire la différence entre un bon et un moins bon estimateur? Quelles sont les propriétés désirables d un estimateur? Les propriétés d un estimateur sont, en fait, les propriétés de sa loi échantillonnée. Dans les paragraphes qui suivent, nous passerons ces propriétés en revue dans un ordre qui n est en rien lié à leur importance. ch.2-p.2i
30 Introduction au problème Vraisemblance Cas discret : On appelle vraisemblance (likelihood) la probabilité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). Dans le cas particulier d un modèle d échantillonnage, et si la loi-population (discrète) accorde une probabilité p θ (x) à la valeur x, on obtient n L θ (X) = L θ (X 1,..., X n) = p θ (X i ). Dans le cas pratique où un échantillon {x 1,..., x n} est observé (appelé réalisation), on pourra calculer la vraisemblance : n L θ (x 1,..., x n) = p θ (x i ). Cas continu : On appelle vraisemblance la densité jointe L θ (X) du vecteur aléatoire X = (X 1,..., X n) évaluée en X = (X 1,..., X n). Dans le cas particulier d un modèle d échantillonnage, et si la loi-population est de densité f θ, on obtient n L θ (X) = L θ (X 1,..., X n) = f θ (X i ). i=1 i=1 i=1 ch.2-p.3i
31 Introduction au problème Exemple 1 (échantillon de Bernoulli) Considérons n jets d une pièce de monnaie : X i = { 0 si le résultat est Pile : probabilité 1 p 1 si le résultat est Face : probabilité p i = 1,..., n, La masse de probabilité portée par le point x ( R) est 1 p x = 0 p p(x) = p x = 1 0 sinon = p x (1 p) (1 x) Donc, la vraisemblance pour ce modèle s écrit n L p(x 1,..., X n) = p X i (1 p) 1 X i i=1 = p n i=1 X i (1 p) n n i=1 X i. ch.2-p.4i
32 Introduction au problème Exemple 2 (échantillon gaussien) Ici, la densité de chacun des X i est, au point x R, f µ,σ 2(x) = 1 [ σ 2π exp 1 ] (x µ)2, 2σ2 et donc L µ,σ 2(X 1,..., X n) = n f µ,σ 2(X i ) i=1 ( ) [ ] n 1 = σ exp 1 n (X 2π 2σ 2 i µ) 2. i=1 ch.2-p.5i
33 Plan du chapitre 2 2 Estimation ponctuelle Introduction au problème Propriétés d un estimateur Estimateur sans biais Estimateurs convergents Estimateurs exhaustifs Estimateurs à dispersion minimale Estimateurs efficaces Méthodes d estimation La méthode des moments La méthode des moindres carrés La méthode du maximum de vraisemblance ch.2-p.6i
34 Estimateur sans biais Notons E θ [... ] une espérance calculée sous P θ. Definition Un estimateur θ de θ est dit sans biais si E θ [ θ ] = θ, θ Θ (ce qui implicitement requiert que E θ [ θ ] existe et soit finie pour tout θ). La différence E θ [ θ] θ est appelée biais de l estimateur θ de θ. Introduisons le biais asymptotique ce qui implique que l estimateur θ soit regardé comme faisant partie d une suite θ (n), n N d estimateurs calculés à partir d une suite X (n) d observations, auxquelles correspond une suite de lois P θ (n). Definition Un estimateur θ (n) de θ est dit asymptotiquement sans biais si lim E θ [ θ (n)] = θ, θ Θ. n ch.2-p.6i
35 Estimateur sans biais Exemple 1 Soient X 1,..., X n i.i.d. Bin(1, p), p (0, 1). La fréquence empirique p := 1 n n i=1 X i est un estimateur sans biais de la probabilité correspondante p, puisque [ ] 1 n E p X i = 1 n E p[x i ] n n i=1 i=1 = 1 np = p p [0, 1]. n Exemple 2 Soient X 1,..., X n i.i.d., E[X i ] = µ <. La moyenne empirique X := 1 n Xi est un estimateur sans biais pour µ (propriété qu elle partage toutefois avec X 1 ) ch.2-p.7i
36 Estimateur sans biais Exemple 3 Soient X 1,..., X n i.i.d., Var(X i ) = σ 2 <, E[X i ] = µ. La variance empirique s 2 := 1 n (X i n X) 2 = 1 n Xi 2 n X 2 i=1 est un estimateur biaisé de σ 2. En effet, [ ] E[s 2 1 n ] = E Xi 2 E[ n X 2 ] i=1 i=1 = n n E[X 2 1 ] (Var( X) + E 2 [ X]) = Var(X 1 ) + E 2 [X 1 ] (Var( X) + E 2 [ X]) = σ 2 + µ 2 σ2 n µ2 = n 1 n σ2 < σ 2 Le biais de s 2 se corrige facilement, et S 2 := 1 n (X i n 1 X) 2 = n n 1 s2 i=1 [ est un estimateur sans biais de σ 2, puisque E[S 2 n ] = E n 1 s2 ] = n n 1 E[s2 ] = σ 2. ch.2-p.8i
37 Estimateur sans biais Remarques 1 Certains des estimateurs sans biais sont clairement peu intéressants. 2 Dans certaines situations, un estimateur sans biais peut ne pas exister. 3 Manque de résistance aux transformations simultanées du paramètre et de l estimateur : Si θ g(θ) est non linéaire θ est sans biais pour θ g( θ) est en général un estimateur biaisé de g(θ) Par exemple, S n est pas un estimateur sans biais pour l écart-type σ. ch.2-p.9i
38 Estimateurs convergents En liaison avec la Loi des Grands Nombres, il peut paraître désirable que, lorsque le nombre n d observations tend vers l infini, un estimateur converge vers le paramètre à estimer. Cette idée de convergence implique que l estimateur θ soit regardé comme faisant partie d une suite θ (n), n N d estimateurs calculés à partir d une suite X (n) d observations, auxquelles correspond une suite de lois P θ (n). Definition Une suite θ (n), n N, d estimateurs de θ est dite faiblement convergente si, pour tout θ Θ, θ (n) converge en probabilité vers θ (weak consistency), lorsque n ; elle est dite fortement convergente si, pour tout θ Θ, θ (n) converge p.s. vers θ (strong consistency). ch.2-p.10i
39 Estimateurs convergents Remarques 1 La convergence n est qu une propriété asymptotique, et pour n fixé a peu d implications. 2 Le Théorème de l Application Continue implique que la propriété de convergence se conserve par transformation continue : si θ g(θ) est continue et θ (n) est une suite faiblement (fortement) convergente d estimateurs de θ, alors g( θ (n) ) est une suite faiblement (fortement) convergente d estimateurs de g(θ). 3 La Loi des Grands Nombres fournit des résultats de convergence : p (n) p.s. p (n) p.s. (échantillon de Bernoulli) ; X µ (échantillon gaussien). ch.2-p.11i
40 Estimateurs convergents Condition suffisante pour avoir la convergence au sens faible Si une suite θ (n), n N, d estimateurs de θ est telle que lim E θ [ θ (n)] = θ et n alors cette suite est faiblement convergente. lim Var θ [ θ (n)] = 0, n θ Θ Exemple Soient X 1,..., X n i.i.d. N (µ, 1) (n 2), E[X i ] = µ <. La moyenne empirique X (n) est telle que [ ] E µ X (n) [ = µ et Var µ X (n) ] = 1 n lim [ X n Varµ (n) ] = 0 Donc la suite X (n) converge faiblement vers µ (ce que l on pouvait déjà déduire de (n) p.s. la Loi des Grands Nombres : X µ.) ch.2-p.12i
41 Estimateurs exhaustifs Un estimateur θ (de façon plus générale, une statistique T) est exhaustif (en anglais, sufficient) s il contient toute l information concernant θ qui se trouve contenue dans X. L exhaustivité est délicate à formaliser de façon rigoureuse c est pourquoi dans le cadre de ce cours, on adoptera comme définition la condition nécessaire et suffisante fournie par le résultat suivant. Théorème (Critère de factorisation Neyman-Fisher) Une estimation (une statistique) T(X) est exhaustive si, pour toute valeur x de X, la vraisemblance se factorise en L θ (x) = g θ (T(x))h(x), où h dépend de x mais pas de θ et g ne dépend de x qu à travers T(x). Un corollaire du critère de Neyman-Fisher est que si T est exhaustive, toute fonction bijective T 1 de T est également exhaustive. ch.2-p.13i
42 Estimateurs exhaustifs Exemple 1 (échantillon de Bernoulli) Soient X 1,..., X n i.i.d. Bin(1, p) p [0, 1]. La vraisemblance L p(x) = n i=1 p X i (1 p) 1 X i = p n i=1 X i (1 p) n n i=1 X i = p n X n(1 X) (1 p) ne dépend de X qu à travers p = X, qui est donc une statistique exhaustive. Exemple 2 (échantillon gaussien) Soient X 1,..., X n i.i.d. N (µ, σ 2 ) : la vraisemblance n ( ) [ n 1 L µ,σ 2(X) = f µ,σ 2(X i ) = σ exp 1 2π 2σ 2 i=1 ( ) [ n 1 = σ exp 2π 1 2σ 2 n i=1 X 2 i ] n (X i µ) 2 i=1 ] [ 1 n exp σ µ 2 i=1 ] [ X i exp n 2σ µ2] 2 ne dépend de X qu à travers T (X) = ( n i=1 X 2 i, n i=1 X i), qui est donc exhaustive, au même titre que ( X, s 2 ). ch.2-p.14i
43 Estimateurs à dispersion minimale On peut considérer qu un estimateur θ 1 de θ est meilleur qu un estimateur θ 2 si E θ [ ( θ1 θ) 2] E θ [ ( θ2 θ) 2] θ Θ. Definition La quantité E θ [( θ θ) 2 ] est appelée écart quadratique moyen (entre θ et θ). Il n existe que pour les estimateurs θ de carré intégrable (E θ [ θ 2 ] < ). Un estimateur θ 1 de θ est donc meilleur qu un estimateur θ 2 si son écart quadratique moyen (pris par rapport à θ) est uniformément plus petit (uniformément ici signifie pour toute valeur de θ). ch.2-p.15i
44 Estimateurs à dispersion minimale Lien entre l écart quadratique moyen et la variance E θ [( θ θ) 2 ] = E θ [( θ E θ [ θ] + E θ [ θ] θ) 2 ] = E θ [( θ E θ [ θ]) 2 ] + E θ [(E θ [ θ] θ) 2 ] + 2 E θ [( θ E θ [ θ])(e θ [ θ] θ)]. = E θ [( θ E θ [ θ]) 2 ] + (E θ [ θ] θ) E θ [ θ E θ [ θ]](e θ [ θ] θ). Or, E θ [ θ E θ [ θ]] = 0. Donc E θ [( θ θ) 2 ] = Var θ ( θ) + (E θ [ θ] θ) 2 = Var θ ( θ) + (Biais θ ( θ)) 2. b) Trade off entre biais et variance : MSE L écart quadratique moyen est donc la variance augmentée du carré du biais (trade-off entre biais et variance) : i) En guise d'illustration ch.2-p.16i
45 Estimateurs à dispersion minimale Idée naturelle Rechercher un estimateur θ dont l écart quadratique moyen soit uniformément minimum dans l ensemble de tous les estimateurs de θ. Hélas, un tel θ n existe pas. En effet : Soit θ 0 un point quelconque de Θ. Considérons l estimateur T (X) = θ 0 p.s. pour tout θ (estimateur dégénéré en θ 0 ). Ecart quadratique moyen de T (X) : (θ θ 0 ) 2 en θ, et donc s annule en θ 0. Un estimateur θ minimisant l écart quadratique moyen dans l ensemble de tous les estimateurs de θ devrait donc présenter un écart quadratique moyen nul en tout θ 0, ce qui est impossible. Solution Si on se restreint aux estimateurs θ sans biais (E θ [ θ] = θ pour tout θ Θ), l écart quadratique moyen coïncide avec la variance. La condition de non-biais élimine donc les estimateurs dégénérés. ch.2-p.17i
46 Estimateurs à dispersion minimale Definition θ 1 θ 2 Soient θ θ 1 et θ θ 2 deux estimateurs sans biais de θ, alors l efficacité relative de θ θ 1 par rapport à θ θ 2 est définie par : θ 2 ER( θ θ 1, θ θ 2 ) = Var( θ θ 2 ) Var( θ θ 1 ). θ 1 On dira que θ θ 1 est relativement plus efficace que θ θ 2 si ER( θ θ 1, θ θ 2 ) 1. Exemple Soient X 1,..., X n i.i.d., E[X i ] = µ <. La moyenne empirique X et X 1 sont deux estimateurs sans biais pour µ. L efficacité relative de X par rapport à X 1 est donnée par : ER( X, X 1 ) = Var(X 1) Var( X) = σ2 σ 2 /n = n 1 La moyenne empirique X est relativement plus efficace que X 1 si n > 1. La question qui se pose naturellement est donc : peut-on espérer l existence d estimateurs à variance uniformément minimale dans la classe des estimateurs sans biais? ch.2-p.18i
47 Estimateurs efficaces Peut-on espérer l existence d estimateurs à variance uniformément minimale dans la classe des estimateurs sans biais? La borne de Cramér-Rao Soit L θ (X) une vraisemblance satisfaisant à certaines conditions de régularité : (i) Il existe un domaine X de valeurs de X ne dépendant pas de θ, tel que L θ (x)dx = 1 et L θ (x) > 0 pour tout x X et tout θ Θ. X (ii) La fonction θ L θ (x) est dérivable sous le signe dans l expression L θ (x)dx = 1. Il en découle que 0 = d L θ (x) dx = θ L θ (x) dx = θ log L θ (x)l θ (x) dx = E θ [ θ log L θ (x)]. dθ (iii) La dérivée θ log L θ (x) est de variance finie : 0 < I(θ) := ( θ log L θ (x)) 2 L θ (x)dx = Var θ ( θ log L θ (X)) < ; la quantité I(θ) est appelée Information de Fisher (relative à θ). ch.2-p.19i
48 Estimateurs efficaces Considérons un estimateur T (X) de θ ; supposons que (iv) T est de variance finie : Var θ (T ) < pour tout θ Θ ; (v) T est sans biais, et l expression θ = T (x)l θ (x) dx peut être dérivée sous le signe : 1 = d T (x)l θ (x) dx = T (x) θ log L θ (x) L θ (x) dx = Cov θ (T (X), θ log L θ (x)) dθ Le théorème suivant fournit alors une borne inférieure à la variance de T. Théorème (Inégalité de Cramér-Rao) Sous les conditions énoncées ci-dessus, Var θ (T (X)) 1 I(θ) pour tout θ Θ. ch.2-p.20i
49 Estimateurs efficaces Preuve. Cette inégalité s obtient facilement en calculant la variance (non négative) de la variable aléatoire S θ (X) := T (X) (I(θ)) 1 θ log L θ (X) : 0 Var θ (S θ (X)) = Var θ (T (X)) + (I(θ)) 2 Var θ ( θ log L θ (X)) 2(I(θ)) 1 Cov θ (T (X), θ log L θ (X)) } {{ } } {{ } (I(θ)) 1 2(I(θ)) 1 Les conditions (iii) et (v) impliquent Var θ ( θ log L θ (X)) = I(θ) et Cov θ (T (X), θ log L θ (X)) = 1. Donc ce qui établit le résultat. 0 Var θ (T (X)) (I(θ)) 1, ch.2-p.21i
50 Estimateurs efficaces Efficacité Definition Un estimateur θ de θ est dit efficace (pour θ) si son biais est nul et que sa variance atteint uniformément la borne de Cramér-Rao : Var θ ( θ) = 1/I(θ) pour tout θ Θ. La même définition peut aussi s exprimer de façon équivalente à partir de l écart quadratique moyen : Definition Un estimateur θ de θ est dit efficace (pour θ) si son écart quadratique moyen (par rapport à θ) atteint la borne de Cramér-Rao uniformément en θ : E θ [(T (X) θ) 2 ] = 1/I(θ) pour tout θ Θ. ch.2-p.22i
51 Estimateurs efficaces Remarques 1 L équivalence des deux définitions provient de ce que, pour un estimateur sans biais, la variance et l écart quadratique moyen coïncident, et que, la variance étant comprise entre l écart quadratique moyen et la borne, l égalité de ces deux derniers implique celle de la variance et de l écart quadratique moyen, donc l absence de biais. Un estimateur biaisé ne saurait donc être efficace. 2 Un estimateur efficace de θ est à variance uniformément minimale dans la classe des estimateurs sans biais de θ ; la réciproque n est pas vraie, car il arrive que la borne ne puisse être atteinte. ch.2-p.23i
52 Estimateurs efficaces Exemple 1 (échantillon de Bernoulli) Soient X i i.i.d. Bin(1, p). On a vu que : L p(x) = p n i=1 X i (1 p) n n i=1 X i. Donc, n n log L p(x) = X i (log p) + (n X i ) log(1 p), et n 1 n p log L p(x) = X i p (n 1 n X i ) 1 p = i=1 i=1 i=1 n ( ) 1 = X i n p(1 p) 1 p. i=1 Calculons l information de Fisher : ( n ) 1 I(p) := Var p( p log L p(x)) = p 2 (1 p) Var X 2 i = i=1 i=1 i=1 ( 1 X i p + 1 ) 1 p np(1 p) p 2 (1 p) 2 = puisque n i=1 X i Bin(n, p). On sait que p = X = 1 n n i=1 X i est un estimateur sans biais de θ. On a p(1 p) Var p( p) = = ( I(p) ) 1. n Donc p est un estimateur efficace de p. n 1 p n p(1 p) ch.2-p.24i
53 Estimateurs efficaces Exemple 2 (moyenne d un échantillon gaussien). Soient X i i.i.d. N (µ, σ 2 ), σ 2 spécifié. On a vu que : Donc log L µ,σ 2(X) = n 2 log(2πσ2 ) 1 2 µ log L µ,σ 2(X) = 1 σ 2 n ( ) 2 Xi µ. σ i=1 n (X i µ) i=1 Calculons l information de Fisher correspondante : I(µ) := E µ,σ 2[( µ log L µ,σ 2(X)) 2 ] = Var µ,σ 2( µ log L µ,σ 2(X)) Or X est un estimateur sans biais de µ, et = 1 n E[(X σ 4 i µ) 2 ] = 1 σ 4 nσ2 = n σ. 2 i=1 Var µ,σ 2( X) = σ2 n = [ I(µ) ] 1. Donc X est un estimateur efficace de µ. ch.2-p.25i
54 Estimateurs efficaces Une méthode de détection des estimateurs efficaces s obtient via le critère suivant. Théorème (Critère d efficacité) Sous les conditions générales de régularité énoncées plus haut, la statistique T (X) est un estimateur efficace de θ ssi la dérivée logarithmique de la vraisemblance se factorise sous la forme avec P θ -probabilité 1 pour tout θ Θ. θ log L θ (X) = A(θ) (T (X) θ) ch.2-p.26i
55 Plan du chapitre 2 2 Estimation ponctuelle Introduction au problème Propriétés d un estimateur Estimateur sans biais Estimateurs convergents Estimateurs exhaustifs Estimateurs à dispersion minimale Estimateurs efficaces Méthodes d estimation La méthode des moments La méthode des moindres carrés La méthode du maximum de vraisemblance ch.2-p.27i
56 La méthode des moments Soient X 1,..., X n i.i.d. P θ, où θ = (θ 1,..., θ K ). Notons µ k(θ) := E[X1 k ], k = 1, 2,... les moments-population m k := 1 n Xi k, k = 1, 2,... les moments empiriques correspondants. n i=1 Supposons que les moments-population existent et soient finis jusqu à l ordre K au moins. Ces moments sont des fonctions du paramètre θ : faisons l hypothèse que l application θ (µ 1(θ), µ 2(θ),..., µ K (θ)) soit bijective. La méthode des moments consiste à prendre comme estimateur de θ la solution θ du système µ 1(θ) = m 1. µ K (θ) = m K (un système de K équations à K inconnues θ 1,..., θ K ; en vertu de l hypothèse faite, ce système possède une et une seule solution pourvu que (m 1, m 2,..., m K ) prenne sa valeur dans {(µ 1(θ), µ 2(θ),..., µ K (θ)) θ Θ}). ch.2-p.27i
57 La méthode des moments Remarque Au lieu des moments non centrés, on peut choisir les moments centrés, ou un mélange de moments centrés et non centrés, ou tout K -uple convenable (bijectivité) d espérances de fonctions de l observation et de leurs équivalents empiriques. Exemple 1 (échantillon de Bernoulli). Soient X 1,..., X n i.i.d. Bin(1, p). Ici, K = 1 ; l application p µ 1 = E p[x 1 ] = p est trivialement bijective. L estimateur de p fourni par la méthode des moments est donc p = 1 n X i. n i=1 ch.2-p.28i
58 La méthode des moments Exemple 2 (échantillon gaussien). Soient X 1,..., X n i.i.d. N (µ, σ 2 ). Ici, K = 2 ; l application ( ) ( ) µ µ 1 = µ σ 2 µ 2 = σ 2 + µ 2 est clairement bijective. La solution ( µ, σ 2 ) du système { (µ 1 =)µ = X (µ 2 =)σ 2 + µ 2 = 1 n n i=1 X i 2 est donc { µ = X σ 2 = 1 n n i=1 X 2 i X 2 = s 2. Mais cela ne marche pas toujours aussi bien! ch.2-p.29i
59 La méthode des moments Exemple 3 (échantillon uniforme). Soient X 1,..., X n i.i.d. U [0,θ]. Il est donc impossible que X max soit strictement supérieur à θ (quelle que soit la valeur de θ, la P θ -probabilité pour que cela se produise est nulle). Ici, K = 1, et le moment-population d ordre 1 est µ 1(θ) = θ/2 ; θ θ/2 est évidemment bijective. L estimateur θ fourni par la méthode des moments est solution de l équation (µ 1 =)θ/2 = X ; l estimateur qui en résulte est donc θ = 2 X. Or il arrivera avec probabilité strictement positive que θ = 2 X < X max, ce qui est absurde! ch.2-p.30i
60 La méthode des moindres carrés Soient Y 1,..., Y n indépendantes (en fait, la non-corrélation dans tout ce paragraphe est suffisante) telles que E θ [Y i ] = m i (θ) <. L équidistribution ici n est donc pas requise. La méthode se justifie pleinement dès lors que Var θ (Y i ) = σ 2 Y (une constante ne dépendant ni de i ni de θ). On appelle estimateur des moindres carrés (en anglais, least squares estimator ou LSE) de θ la valeur θ du paramètre qui minimise n (Y i m i (θ)) 2, i=1 c est à dire n θ = Argmin θ Θ (Y i m i (θ)) 2. i=1 ch.2-p.31i
61 La méthode des moindres carrés Exemple 1 (le modèle de régression simple). Dans ce modèle, θ = (α, β), et où les x i sont des constantes connues. E α,β [Y i ] = α + βx i, i = 1,..., n, Les estimateurs des moindres carrés de α et β sont ( ) α n = Argmin β α,β (Y i α βx i ) 2. La solution de ce problème de minimisation sont l ordonnée à l origine et la pente de la droite de régression (au sens des moindres carrés) ŷ = α + βx dans la série bivariée ((x 1, Y 1 ),... (x n, Y n)) : α = Ȳ β x n n et β = (Y i Ȳ )(x i x)/ (x i x) 2. i=1 i=1 i=1 ch.2-p.32i
62 La méthode des moindres carrés Exemple 2 (le modèle d analyse de la variance à un facteur). Dans ce modèle, θ = (θ 1,..., θ K ), et θ 1 1 i n 1 θ 2 n i n 1 + n 2 E θ [Y i ] =. θ K n n K i n n K 1 + n K =: n. θ 1 [. = Argmin n1 n θ 1,...,θ K (Y i θ 1 ) (Y i θ K ) ]. 2 i=1 i=n θ 1 + +n K 1 +1 K Ce problème peut être résolu pour chaque θ k séparément. La solution en est θ k = Argmin θk = 1 n 1 + +n k n k n 1 + +n k i=n 1 + +n k 1 +1 i=n 1 + +n k 1 +1 Y i =: Ȳk. (Y i θ k ) 2 ch.2-p.33i
63 La méthode des moindres carrés Les estimateurs des moindres carrés ne sont qu un exemple d estimateurs obtenus par minimisation (maximisation) d une fonction-objectif adéquate (en l occurrence une somme de carrés) : θ = Argmin θ M(Y 1,..., Y n; θ) θ = Argmax θ M(Y 1,..., Y n; θ). De façon générale, de tels estimateurs sont appelés M-estimateurs. Les estimateurs du maximum de vraisemblance étudiés dans le paragraphe suivant en sont aussi un exemple. Un troisième exemple est celui des estimateurs LAD (least absolute deviation). Au lieu de la somme des carrés, les estimateurs LAD minimisent une somme M(Y 1,..., Y n; θ) := n i=1 Y i m i (θ) de valeurs absolues : n θ := Argmin θ Y i m i (θ). Typiquement, là où la méthode des moindres carrés conduit à des moyennes empiriques, l estimateur LAD est une médiane empirique. i=1 ch.2-p.34i
64 La méthode des moindres carrés Un dernier exemple de M-estimateur est celui des estimateurs, dits robustes, de Huber. Afin de limiter l influence de possibles valeurs aberrantes (très grandes ou trèss petites), cet estimateur repose sur une fonction de la forme M(Y 1,..., Y n; θ) = i [min( Y i m i (θ), c)] 2, où c > 0 est une constante fixée à l avance. Classical S-median Biweight S Most Robust S ch.2-p.35i
65 La méthode du maximum de vraisemblance La méthode du maximum de vraisemblance est sans doute la méthode d estimation la plus utilisée. Elle possède de nombreuses propriétés intéressantes, notamment des propriétés de convergence, de normalité et d efficacité asymptotiques. Soit X une observation dont le comportement est caractérisé par une vraisemblance L θ (X), θ Θ. Definition On appelle estimateur maximum de vraisemblance (en anglais, maximum likelihood estimator ou MLE) de θ toute valeur θ de θ maximisant la vraisemblance L θ (X) : θ = Argmax θ L θ(x) ou, de façon équivalente, θ = Argmax θ log L θ(x). La justification intuitive de la méthode est claire : la valeur estimée du paramètre est celle qui rend l observation faite la plus plausible. ch.2-p.36i
66 La méthode du maximum de vraisemblance Structures d échantillonnage : X = (X 1,..., X n), où les X i sont i.i.d. Cas continu : Densité f θ Vraisemblance donnée par L θ (X) = n i=1 f θ(x i ). On obtient alors θ = Argmax log L θ θ(x) n = Argmax θ log f θ (X i ) Cas discret : Fonction de probabilité p θ Vraisemblance donnée par n i=1 p θ(x i ). On obtient alors i=1 θ = Argmax log L θ θ(x) n = Argmax θ log p θ (X i ) Pour plus de simplicité, nous adoptons dans la suite la notation continue. i=1 ch.2-p.37i
67 La méthode du maximum de vraisemblance Si θ f θ (x) est dérivable et Θ ouvert, on peut rechercher θ parmis les solutions du système n θ log f θ(x i ) = 0, i=1 un système de K équations à K inconnues (θ 1,..., θ K ) appelées équations de vraisemblance. Exemple 1 (échantillon de Bernoulli). Soient X 1,..., X n i.i.d. Bin(1, p), p (0, 1). On a L p(x 1,..., X n) = p n i=1 X i (1 p) n n i=1 X i, donc et log L p(x 1,..., X n) = ( n X i log(p) + n i=1 ( n p log Lp(X 1,..., X n) = = i=1 ( n i=1 X i ) ) n X i log(1 p) i=1 ( 1 p n ) n 1 X i 1 p i=1 ) ( 1 X i p + 1 ) n 1 p 1 p. ch.2-p.38i
68 La méthode du maximum de vraisemblance Annuler cette dérivée conduit à l équation ( n qui s écrit encore ou i=1 ) ( ) (1 p) + p X i p(1 p) ( n ) X i np = 0 i=1 n X i = np. La solution des équations de vraisemblance est donc i=1 np p(1 p) = 0 p = 1 n n X i. i=1 ch.2-p.39i
69 La méthode du maximum de vraisemblance Exemple 2 (échantillon gaussien) Soient X 1,..., X n i.i.d. N (µ, σ 2 ). La vraisemblance s écrit [ ] L µ,σ 2(X 1,..., X n) = (2πσ 2 ) n 2 exp 1 n (X 2σ 2 i µ) 2 ; donc log L µ,σ 2(X 1,..., X n) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 i=1 n (X i µ) 2. Le système des équations de vraisemblance comprend deux équations. La première équation est relative à µ : µ log L µ,σ 2 = 1 n (X σ 2 i µ) = 0. Cette équation (inconnue : µ) est satisfaite si et seulement si L unique solution en est donc µ = 1 n X i =: n X. i=1 i=1 i=1 n i=1 (X i µ) = 0. Remarquons que cette équation en fait est aussi celle à laquelle aboutit la méthode des moindres carrés ; par ailleurs, σ 2 n y joue aucun rôle. ch.2-p.40i
70 La méthode du maximum de vraisemblance La seconde équation provient de l annulation de la dérivée par rapport à σ 2. En y remplaçant µ par µ (méthode de substitution), on obtient σ log 2 L µ,σ2 = n 1 2 σ σ 4 n (X i µ) 2 = 0, i=1 qui est équivalente (car σ 2 > 0) à L unique solution est n 2 σ2 + 1 n (X i 2 X) 2 = 0. i=1 σ 2 = 1 n (Xi X) 2 = s 2. ch.2-p.41i
71 La méthode du maximum de vraisemblance Remarques Le concept d estimateur maximum de vraisemblance et celui de solution des équations de vraisemblance ne sont pas strictement équivalents. En particulier, la résolution des équations de vraisemblance peut conduire à des solutions correspondant à des minima, des extrema locaux, des points de selle... L étude des propriétés des solution des équations de vraisemblance cependant est techniquement plus simple que celle des maxima de la fonction de vraisemblance, et c est pour ce dernier concept que sont énoncés la plupart des résultats existants. Le concept d estimateur maximum de vraisemblance n est pas non plus sans présenter, dans certains modèles, quelques problèmes. Le maximum peut ne pas être unique. Il peut également ne pas exister, soit parce que la vraisemblance est non bornée (c est le cas des modèles de mélange), soit parce que son maximum est atteint sur le bord du domaine Θ. Les propriétés des estimateurs du maximum de vraisemblance sont essentiellement de nature asymptotique, et ne garantissent rien pour des tailles d échantillon finies. ch.2-p.42i
72 La méthode du maximum de vraisemblance Propriétés asymptotiques des solutions des équations de vraisemblance 1) Soit X (n) = (X 1,..., X n), où les X i sont i.i.d., de loi P (1) θ. On notera P (n) θ la loi du n-tuple X (n) et L (n) θ sa vraisemblance ; la vraisemblance L (1) θ d un échantillon de taille 1 n est donc rien d autre que la densité commune des X i. La vraisemblance s écrit L (n) θ (X 1,..., X n) = n i=1 L (1) θ (X i). De même, si on note I (n) θ taille n, on obtient I (n) θ ( := Var θ θ = n i=1 la matrice d information de Fisher pour un échantillon de log L(n) θ (X 1,..., X ) n) = Var θ ( Var θ log L(1) θ θ (X i) ) = n i=1 ( n i=1 I (1) θ = ni (1) θ. ) log L(1) θ θ (X i) L information de Fisher, dans les structures d échantillonnage, est donc additive. ch.2-p.43i
73 La méthode du maximum de vraisemblance 2) Sous des conditions très générales (dérivabilité uniforme à l ordre deux de θ L (1) θ ; matrice d information de Fisher finie et de rang maximum), on montre que (i) il existe des suites θ (n) de solutions des équations de vraisemblance telles que θ (n) p.s. θ ; (ii) pour une telle suite, n 1/2 ( θ (n) θ) L n N (0, (I(n) θ ) 1 ) c est à dire θ (n) N (θ, (ni (1) θ ) 1 ). Notons que (ni (1) θ ) 1 est la borne de Cramér-Rao (pour θ et n observations). Au sens de l approximation ci-dessus, l estimateur θ (n) est donc normal, sans biais, et efficace. De tels estimateurs sont dits B.A.N. (Best Asymptotically Normal). ch.2-p.44i
74 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.45i
75 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.1i
76 Définitions L estimation ponctuelle de θ associe une estimation T (x) (un nombre) à chaque valeur x de l observation X. L information fournie est relativement maigre : un seul nombre. T (X) L estimation ponctuelle ne fournit pas d indication sur la précision de l estimateur (à moins qu on l accompagne d une estimation de son écart quadratique moyen) Dans le problème de l estimation par intervalle, on associe un intervalle [ L (x), L + (x) ] à chaque valeur x de l observation X. Cet intervalle est construit de façon telle que [ [L P θ (X), L + (X) ] ] θ 1 α (α petit, choisi à l avance). ch.3-p.1i
77 Définitions L information apportée par cet intervalle est bien plus riche. Estimation par intervalle précise (intervalle étroit ) : L (X) L + (X) Estimation par intervalle moins précise (intervalle plus large ) L (X) L + (X) Une définition plus précise est la suivante. Definition Un intervalle de confiance au niveau de confiance (1 α) pour θ est un intervalle [L (X), L + (X)] tel que (i) L (X) et L + (X) sont des statistiques ; (ii) P θ [L (X) θ L + (X)] 1 α pour tout θ Θ. ch.3-p.2i
78 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.3i
79 IC pour la moyenne d un échantillon gaussien 1) Soient X 1,..., X n i.i.d. N (µ, σ 2 ) (n 2). Supposons que σ 2 est connu. On sait grâce au lemme de Fisher que : X (n) N ) (µ, σ2 n X (n) µ σ n [ ] X (n) µ P µ σ/ n z α/2 [ ] X (n) µ P µ σ/ n z 1 α/2 P µ [ X (n) µ σ/ n z 1 α/2 = P µ [ z α/2 X (n) µ σ/ n z 1 α/2 ] ] ( ) N 0, 1 = α/2 pour tout µ = 1 α/2 pour tout µ = α/2 pour tout µ = 1 α pour tout µ Notons également que z α/2 = z 1 α/2. ch.3-p.3i
80 IC pour la moyenne d un échantillon gaussien [ P µ z α/2 X ] (n) µ σ/ n z 1 α/2 [ ] σ P µ z α/2 n X (n) σ µ z 1 α/2 n [ ] P µ X (n) σ z 1 α/2 n µ X (n) σ z α/2 n = 1 α µ = 1 α µ = 1 α µ P µ X (n) σ z 1 α/2 n µ X (n) σ + z 1 α/2 n } {{ } } {{ } = 1 α µ =:L (X) =:L + (X) [ ] et [L (X), L + (X)] = X ± σ z1 α/2 est un intervalle de confiance pour µ au n niveau de confiance (1 α). ch.3-p.4i
81 IC pour la moyenne d un échantillon gaussien 2) Soient X 1,..., X n i.i.d. N (µ, σ 2 ) (n 2) où σ 2 = Var[X i ] < est un paramètre de nuisance. Grâce au lemme de Fisher : ) X (n) N (µ, σ2 ns 2, n σ 2 χ2 n 1, et X s 2 il découle donc du lemme de Fisher que n ( X (n) µ) = P µ,σ 2 σ ( ns 2 ) / (n 1) σ 2 P µ,σ 2 P µ,σ 2 = ( X (n) µ) s/ n 1 = ( X (n) µ) S/ t n 1. n [ ] X (n) µ S/ n t n 1;α/2 [ ] X (n) µ S/ n t n 1;1 α/2 [ t n 1;α/2 X (n) µ S/ n t n 1;1 α/2 ] = α/2 pour tout µ, σ 2 = α/2 pour tout µ, σ 2 = 1 α pour tout µ, σ 2 Notons également que t n 1;α/2 = t n 1;1 α/2. ch.3-p.5i
82 IC pour la moyenne d un échantillon gaussien P µ,σ 2 P µ,σ 2 [ P µ,σ 2 t n 1;α/2 X ] (n) µ S/ n t n 1;1 α/2 ] S [t n 1;α/2 n X (n) S µ t n 1;1 α/2 n [ X (n) t n 1;1 α/2 S n µ X (n) t n 1;α/2 S n ] = 1 α µ, σ 2 = 1 α µ, σ 2 = 1 α µ, σ 2 P µ,σ 2 X (n) S t n 1;1 α/2 n µ X (n) S + t n 1;1 α/2 n = 1 α µ, σ2 } {{ } } {{ } =:L (X) =:L + (X) [ ] et [L (X), L + (X)] = X ± S tn 1;1 α/2 est un intervalle de confiance pour µ au n niveau de confiance (1 α). ch.3-p.6i
83 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.7i
84 IC pour la variance d un échantillon gaussien Soient X 1,..., X n i.i.d. N (µ, σ 2 ) (n 2). Grâce au lemme de Fisher : P µ,σ 2 [χ 2n 1;α/2 ns2 σ 2 ns 2 σ 2 χ2 n 1, χ2 n 1;1 α/2 ] = 1 α pour tout µ, σ 2 ou, de façon équivalente, P µ,σ 2 ns 2 σ 2 χ 2 n 1;1 α/2 } {{ } =:L (X) ns2 χ 2 n 1;α/2 } {{ } =:L + (X) = 1 α pour tout µ, σ2. Un [ intervalle de confiance, ] au niveau de confiance (1 α), pour σ 2 est donc ns 2 ns ; 2. χ 2 n 1;1 α/2 χ 2 n 1;α/2 ch.3-p.7i
85 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.8i
86 IC pour la moyenne d un échantillon de loi quelconque Soient X 1,..., X n i.i.d. où σ 2 = Var[X i ] <. Posons µ = E[X i ] et X (n) = 1 n n i=1 X i On sait grâce au TCL et au lemme de Slutzky que : [ ] X (n) µ P x Φ(x), S n où x Φ(x) = P[N (0, 1) x] est la fonction de répartition de la loi N (0, 1). Donc [ P µ z α/2 X ] (n) µ S/ n z 1 α/2 1 α µ [ ] S P µ z α/2 n X (n) S µ z 1 α/2 n 1 α µ [ ] P µ X (n) S z 1 α/2 n µ X (n) S z α/2 n 1 α µ P µ et [L (X), L + (X)] = X (n) S z 1 α/2 n µ X (n) S + z 1 α/2 n } {{ } } {{ } 1 α µ =:L + (X) =:L (X) [ X ± z1 α/2 S n niveau de confiance (1 α). ] est un intervalle de confiance pour µ au ch.3-p.8i
87 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.9i
88 IC pour une proportion (échantillon de Bernoulli) Soit un échantillon de Bernoulli X 1,..., X n iid Bin(1, p), p (0, 1). On a que pour p = X (n) que E[ X (n) ] = p Var[ X (n) p(1 p) ] = n Le TCL (cas particulier : théorème de de Moivre - Laplace) affirme que, pour tout x, [ ] X (n) p P x Φ(x). p(1 p) n En pratique, on pourra utiliser cette approximation asymptotique si np(1 p) > 9 ou n > 20, np > 10 et n(1 p) > 10. Ainsi, on peut écrire : P p z α/2 p p z 1 α/2 1 α p (0, 1) p(1 p) n [ ] p(1 p) p(1 p) P p p z 1 α/2 p p + z 1 α/2 1 α p (0, 1). n n Il y a un problème car les bornes dépendent du paramètre inconnu p!!!! ch.3-p.9i
89 IC pour une proportion Solution : Soit k une constante, approximer cette quantité par p(1 p) n Donc, [ p ± z 1 α/2 asymptotique) (1 α). = ( p + k n )(1 p k n ) = n p(1 p) quand n est grand n p(1 p) n p(1 p) n + k 1 2 p k 2 n 3/2 n 2 ] est un intervalle de confiance de niveau (approché ou Les valeurs de z α/2 pour diverses valeurs de α s établissent comme suit : α α/2 z 1 α/ z.95 = z.975 = z.99 = z.995 = La largeur de l intervalle de confiance (proportionnelle à z 1 α/2 ) croît donc quand le niveau de confiance (1 α) croît. ch.3-p.10i
90 Plan du chapitre 3 3 Estimation par intervalle Définitions IC pour la moyenne d un échantillon gaussien IC pour la variance d un échantillon gaussien IC pour la moyenne d un échantillon de loi quelconque IC pour une proportion Question : Combien d observations faut-il pour que...? ch.3-p.11i
91 Question : Combien d observations faut-il pour que...? Une question souvent posée dans la pratique est : Quelle taille d échantillon N faut-il prévoir pour que l intervalle de confiance construit (au niveau de confiance (1 α)) soit de longueur au plus égale à 2l 0? La réponse dépend, bien entendu, du problème considéré. Soit le modèle d échantillonnage de Bernoulli. La question devient : Quelle est la taille N 0 minimale du sondage nécessaire pour connaître, au niveau de confiance (1 α), la proportion inconnue p à 0.01 près (à 1% près)? Cet intervalle de confiance sera de la forme [ ] p(1 p) p ± z 1 α/2 ; n p(1 p) sa demi-longueur est donc d = z 1 α/2. On veut d l n 0, où l 0 est donné (ici, l 0 = 0.01). Or c est-à -dire z 1 α/2 p(1 p) n l 0 z 2 p(1 p) 1 α/2 l0 2 n n z 2 p(1 p) 1 α/2. l0 2 ch.3-p.11i
92 Question : Combien d observations faut-il pour que...? Si aucune estimation préalable de p n est disponible, on peut se placer dans le pire des cas p(1 p) = max p (0,1) p(1 p) = 1/4. On obtient z 2 1 α/2 n =: N 4l0 2 0 (on note z le plus petit entier supérieur ou égal à z ). Numériquement, les valeurs de N 0, pour les valeurs les plus usuelles de α, sont données ci-dessous pour l 0 = 1% et l 0 = 10%. l 0 = 0.01 l 0 = 0.1 α = 5% N 0 = N 0 = 97 α = 1% N 0 = N 0 = 166 Si on dispose d une évaluation préalable p 0, on peut prendre n z 2 p 0 (1 p 0 ) 1 α/2 =: N l Exemple : pour p 0 = 1/4, on obtient l 0 = 0.01 l 0 = 0.1 α = 5% N 0 = N 0 = 73 α = 1% N 0 = N 0 = 125 ch.3-p.12i
93 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.13i
94 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.1i
95 Définitions Soit X une observation décrite par un modèle statistique P = {P θ θ Θ}. Considérons une partition de Θ en Θ = H 0 H 1 ( désigne une réunion disjointe) où H 0 est appelée l hypothèse nulle (en anglais, null hypothesis) et H 1 est la contre-hypothèse (en anglais, alternative). Un problème de test est un problème de décision dans lequel deux décisions seulement sont possibles : RH 0 (rejet de H 0 ) (après observation de X) ou R/H 0 (non-rejet de H 0 ). ch.4-p.1i
96 Définitions Définition Un test est une statistique, traditionnellement notée φ, à valeurs dans {0, 1}, qui sert de règle de décision : { si φ(x) prend la valeur 0 on ne rejette pas H0 : R/H 0 si φ(x) prend la valeur 1 on rejette H 0 : RH 0. Exemple (échantillon de Bernoulli) Pour fixer les idées, considérons le schéma de Bernoulli associé à n jets d une pièce de monnaie : θ = p = P[ face ], Θ = [0, 1]. Supposons qu on mette en doute le fait que cette pièce soit correctement équilibrée, c est-à -dire l hypothèse que p = 1/2. Est-il raisonnable, après observation des résultats des n jets, de rejeter cette hypothèse? ch.4-p.2i
97 Définitions Le problème de décision ainsi posé est le problème de test { H0 : p = 1/2 : la pièce est correctement équilibrée H 1 : p 1/2 la pièce n est pas correctement équilibrée. Notons X 1,..., X n i.i.d. Bin(1, p), où X i := I[le résultat du ième jet est face ] p := 1 n n i=1 X i. Intuitivement, il semble raisonnable de rejeter l hypothèse si la proportion observée p de résultats face est trop petite ( p < 1/2 L) ou trop grande ( p > 1/2 + L) par rapport à 1/2. Cette règle de décision est un test de la forme { 1 si p / [1/2 ± L] (proportion observée p trop différente de 1/2 ) φ = φ( p) = 0 si p [1/2 ± L] (proportion observée de p proche de 1/2). Mais comment déterminer L? ch.4-p.3i
98 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.4i
99 Risques de première et de seconde espèce Soit φ un test (pour un problème paramétré par θ, une hypothèse nulle H 0 et une contre-hypothèse H 1 ). Deux erreurs peuvent être commises : l erreur de première espèce, qui consiste à rejeter l hypothèse nulle correcte l erreur de seconde espèce, qui est celle de ne pas rejeter l hypothèse nulle fausse. θ H 0 θ H 1 φ = 0 (R/H 0 ) décision correcte erreur (risque) de 2 nde espèce φ = 1 (RH 0 ) erreur (risque) de 1 ère espèce décision correcte La probabilité de commettre chacune de ces deux erreurs est appelée risque ; ce risque est fonction de la valeur (inconnue) de θ. ch.4-p.4i
100 Risques de première et de seconde espèce Le risque de première espèce est la probabilité de rejeter l hypothèse quand celle-ci est correcte (quand θ H 0 ) : P θ [RH 0 ] = P θ [φ(x) = 1] = E θ [φ] quand θ H 0. Le risque de seconde espèce est la probabilité de ne pas rejeter l hypothèse quand celle-ci est fausse (quand θ H 1 ) : P θ [R/H 0 ] = 1 P θ [φ(x) = 1] = 1 E θ [φ] quand θ H 1. Le complémentaire du risque de seconde espèce d un test est encore appelé puissance. La puissance d un test est donc la probabilité P θ [φ(x) = 1] = E θ [φ], θ H 1 pour que celui-ci rejette une hypothèse fausse. Le test idéal serait celui qui minimiserait à la fois les risques de première et de seconde espèce. ch.4-p.5i
101 Risques de première et de seconde espèce Pour minimiser à la fois les risques de première et de seconde espèce, il faudrait minimiser E θ [φ] pour θ H 0 et minimiser c est-à -dire 1 E θ [φ] pour θ H 1 minimiser E θ [φ] pour θ H 0 et maximiser E θ [φ] pour θ H 1. La vraie valeur de θ étant inconnue, ces objectifs sont contradictoires. En effet, le test φ 0 (ne jamais rejeter) minimise E θ [φ] pour θ H 0 tandis que le test φ 1 (toujours rejeter) maximise E θ [φ] pour θ H 1. ch.4-p.6i
102 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.7i
103 Le Principe de Neyman Afin de résoudre ce dilemme, le principe suivant, appelé Principe de Neyman, est appliqué. Ce principe consiste à (a) se restreindre aux tests φ de niveau α sur H 0, c est à dire aux tests satisfaisant la contrainte de niveau E θ [φ] α, θ H 0 où α est fixé à l avance (valeurs usuelles : 0.01 ; 0.05 ; 0.01 ; 0.001). (b) parmi les test de niveau α, choisir celui (existence? unicité?) qui maximise la puissance uniformément en θ H 1. Ceci conduit à la définition de la notion de test à puissance uniformément maximum (PUM ; en anglais, uniformly most powerful, UMP) dans la classe des tests de niveau α. ch.4-p.7i
104 Le Principe de Neyman Definition Un test φ est à PUM dans la classe des test de niveau α (pour H 0 contre H 1 ) si (i) φ est de niveau α : E θ [φ ] α pour tout θ H 0 ; (ii) φ est au moins aussi puissant, en tout θ H 1, que tout autre test φ satisfaisant à la contrainte de niveau (i) : pour tout φ tel que E θ [φ] α en tout θ H 0, E θ [φ] E θ [φ ] pour tout θ H 1. Le problème de l existence de tests PUM et de leur construction n est pas toujours simple (et des tests PUM n existent pas pour tous les problèmes), et dépasse largement le cadre de ce cours introductif. Nous nous contenterons donc de décrire les tests les plus usuels ; quelquefois, nous montrerons qu ils vérifient la condition de niveau. ch.4-p.8i
105 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.9i
106 Zone de rejet ou région critique Rappel : Un test φ(x) étant une statistique à valeurs dans {0, 1}. En pratique le test sera entièrement caractérisé par l ensemble φ 1 ({1}) des valeurs x de l espace des observations conduisant au rejet de H 0. Cet ensemble est appelé zone de rejet ou région critique. Règle de comportement : rejeter l hypothèse nulle lorsque X prend une valeur x appartenant à la région critique. Régions critiques unilatérales (rejet pour les grandes ou petites valeurs) : {x : T (x) > t + 1 α} ou {x : T (x) < t α }, où T (X) est une statistique, dite statistique de test, et les limites tα et t + 1 α, qui dépendent du niveau α choisi, sont appelées valeurs critiques. Région critique dite bilatérale : {x : T (x) / [t α 1, t + α 2 ]}, où α 1 + α 2 = α. Ces tests rejettent l hypothèse nulle pour les grandes et les petites valeurs de T (X). La notation tα (t + 1 α ) est justifiée par le fait que cette valeur critique est généralement un quantile d ordre α (1 α) de la loi de T (X) (sous H 0 ). ch.4-p.9i
107 Zone de rejet ou région critique Dans la suite, chaque fois qu une procédure de test sera présentée, nous adopterons une description standard mentionnant le problème de test considéré, la statistique de test, la loi permettant de calculer les valeurs critiques, et la règle de comportement à adopter. Problème de test : H 0 : et H 1 : Statistique de test : Loi sous H 0 : Règle de comportement : ch.4-p.10i
108 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.11i
109 Echantillon gaussien, variance spécifiée : test d une moyenne Soient X 1,..., X n i.i.d. N (µ, σ 2 0), de variance σ 2 0 spécifiée. Problème de test (unilatéral) : H 0 : µ µ 0 et H 1 : µ > µ 0 Statistique de test : X := 1 n n i=1 X i ou Z := X µ 0 σ 0 / n Loi sous µ = µ 0 : X N (µ 0, σ 2 0/n) = Z N (0, 1) Règle de comportement : φ = 1 (RH 0 ) au niveau de probabilité α si Z > z 1 α ou, de façon équivalente, si X > µ0 + z 1 α σ 0 n où z 1 α est le quantile d ordre 1 α de la variable normale centrée réduite. Le contenu intuitif de cette règle de comportement est clair : on rejette H 0 si X est trop grand par rapport à µ 0, la magnitude du trop grand étant calibrée par la condition de niveau. ch.4-p.11i
110 Echantillon gaussien, variance spécifiée : test d une moyenne Remarque 1 : Niveau La condition de niveau est satisfaite. En effet, en µ = µ 0, E µ0 (φ) = P µ0 (φ = 1) = P µ0 (RH 0 ) = P[Z > z 1 α ] = α ; α 0 z α En gris : Probabilité de rejet sous µ = µ 0. ch.4-p.12i
111 Echantillon gaussien, variance spécifiée : test d une moyenne en µ < µ 0, E µ(φ) = P µ(φ = 1) = P µ(rh 0 ) < α. En effet, Z = X µ 0 σ 0 / n = X µ σ 0 / + µ µ 0 n σ 0 / N n } {{ } } {{ } N (0,1) <0 ( µ µ0 σ 0 / n } {{ } <0 ), 1 α µ µ 0 σ 0/ n < 0 0 z α < α ch.4-p.13i
112 Echantillon gaussien, variance spécifiée : test d une moyenne Ou de manière analytique : P µ(φ = 1) = P µ(rh 0 ) = P [ ( ) ] µ µ0 N σ 0 / n, 1 > z 1 α = P N (0, 1) > z 1 α µ µ 0 σ 0 / < α. n } {{ } <0 } {{ } >z 1 α Donc le test satisfait à la condition de niveau. ch.4-p.14i
113 Echantillon gaussien, variance spécifiée : test d une moyenne Remarque 2 : Puissance De même, en µ > µ 0, Z = X µ 0 σ 0 / n = X µ σ 0 / + µ µ 0 n σ 0 / N n } {{ } } {{ } N (0,1) >0 ( µ µ0 σ 0 / n } {{ } >0 ), 1 > α 0 z α α µ µ 0 σ 0/ n ch.4-p.15i
114 Echantillon gaussien, variance spécifiée : test d une moyenne [ ( ) ] µ µ0 P µ(φ = 1) = P µ(rh 0 ) = P N σ 0 / n, 1 > z 1 α = P N (0, 1) > z 1 α µ µ 0 σ 0 / n > α } {{ } <0 1 pour µ ou pour n. Le graphe de la fonction µ E µ(φ) pour ce test (noir) est de la forme 1 α 0 H µ 0 µ 0 H 1 En gris : la puissance d un autre test de même niveau, uniformément moins puissant ch.4-p.16i
115 Echantillon gaussien, variance spécifiée : test d une moyenne Remarque 3 : Optimalité On peut montrer (on ne le fait pas ici) que ce test est à puissance uniformément maximale (PUM) dans la classe des test de niveau α. Remarque 4 : p-valeurs (p-values) : définition La règle de décision pour ce test est RH 0 si Z > z 1 α F N (0,1) (Z ) > F N (0,1) (z 1 α ) 1 Φ(Z ) < α où F N (0,1) est la fonction de répartition (notée Φ) de la variable N (0, 1), ce qui implique Φ(z 1 α ) = 1 α. Definition 1 Φ(Z ) est appelée p-valeur du test (c est une statistique, donc une quantité aléatoire, fonction de (X 1,..., X n)). La règle de décision peut donc s énoncer aussi sous la forme RH 0 si p-valeur(x 1,..., X n) < α. ch.4-p.17i
116 Plan du chapitre 4 4 Tests d hypothèses Définitions Risques de première et de seconde espèce Le Principe de Neyman Zone de rejet ou région critique Echantillon gaussien, variance spécifiée : test d une moyenne Echantillon gaussien, variance non spécifiée : test d une moyenne ch.4-p.18i
117 Echantillon gaussien, variance non spécifiée : test d une moyenne Considérons à présent le cas où X 1,..., X n i.i.d. N (µ, σ 2 ) où ( µ, σ 2) R R +. Problème de test : { H0 : µ µ 0 (σ 2 non spécifié) H 1 : µ > µ 0 (σ 2 non spécifié), c est-à -dire, sous forme de partition de Θ, { H0 = (, µ 0 ] (0, ) H 1 = (µ 0, ) (0, ); σ 2 est appelé paramètre de nuisance ; µ est appelé paramètre d intérêt. Grâce au lemme de Fisher : ) X N (µ, σ2, n il découle donc du lemme de Fisher que n ( X µ) σ ( ns 2 ) / (n 1) σ 2 ns 2 σ 2 χ2 n 1 et X s 2, = ( X µ) s/ n 1 = ( X µ) S/ n t n 1. ch.4-p.18i
118 Echantillon gaussien, variance non spécifiée : test d une moyenne Le test de Student (unilatéral) pour un échantillon ((one-sided) one-sample Student test) est donné par Statistique de test : T = X µ 0 S/ n = X µ 0 s/ n 1 Loi sous µ = µ 0 : T t n 1 Règle de comportement : φ = 1 (RH 0 ) au niveau de probabilité α si T > t n 1;1 α ou, de façon équivalente, si X > µ0 + t n 1;1 α S n où t n 1;1 α est le quantile d ordre (1 α) de la variable de Student à n 1 degrés de liberté. Le contenu intuitif de cette règle de comportement est exactement le même que dans l exemple précédent. Par contre comme t n 1;1 α > z 1 α la règle de comportement est plus prudente à rejeter, liée à une incertitude plus grande, due à la non-spécification de σ 2. ch.4-p.19i
119 Echantillon gaussien, variance non spécifiée : test d une moyenne On peut montrer que ce test satisfait à la condition de niveau est à puissance uniformément maximale dans la classe des tests sans biais de niveau α, c est-à -dire la classe des test φ satisfaisant { Eθ [φ] α θ H 0 E θ [φ] α θ H 1. Remarque 1 : Ici encore, la règle de comportement peut être décrite en faisant intervenir la notion de p-valeur ; celle-ci se définit comme F tn 1 (T ), où F tn 1 est la fonction de répartition de la variable de Student à n 1 degrés de liberté. Remarque 2 : Pour n grand (n 30), T t n 1 N (0, 1), et les quantiles t n 1;1 α peuvent être remplacés par les quantiles gaussiens z 1 α ; gràce au théorème central-limite, l hypothèse gaussienne peut donc être abandonnée. ch.4-p.20i
120 Echantillon gaussien, variance non spécifiée : test d une moyenne Remarque 3 : Le problème unilatéral symétrique du précédent { H0 : µ µ 0 H 1 : µ < µ 0 se traite de la même façon, mais le rejet se fait pour les petites valeurs de X ou de T. Règle de comportement : φ = 1 (RH 0 ) si T < t n 1;α ou, de façon équivalente, si X < µ0 + t n 1;α S n. Remarquons, que la symétrie par rapport à zéro de la fonction de densité de la distribution de Student implique que t n 1;α = t n 1;1 α ce qui implique RH 0 si X < µ 0 t n 1;1 α S n Ici, la p-valeur doit êre calculée comme une probabilité à gauche : p-valeur(x 1,..., X n) = F tn 1 (T ). La règle de comportement consiste alors à rejeter l hypothèse nulle si la p-valeur est inférieure à α. ch.4-p.21i
121 Echantillon gaussien, variance non spécifiée : test d une moyenne Remarque 4 : Choix du test unilatéral Deux problèmes unilatéraux a priori sont possibles : { H0 : µ µ 0 H 1 : µ > µ 0 et { H0 : µ µ 0 H 1 : µ < µ 0. Le choix du problème unilatéral doit se faire sur base des objectifs à atteindre. Dans un test d hypothèse, seul le rejet de l hypothèse nulle est concluant car le risque correspondant (risque de première espèce) est contrôlé (au plus égal à α). Dans le cas d un non-rejet, le risque de seconde espèce n est pas contrôlé : il est aussi petit que possible, mais sa valeur, inconnue, peut être proche de un. Le non-rejet est donc une suspension du jugement : les observations ne permettent pas de rejeter l hypothèse, mais cela n implique aucune certitude. Le non-rejet de H 0 ne doit en aucune façon être interprétée comme une acceptation de H 0. Il convient donc de mettre dans H 0 l assertion qu on désire pouvoir rejeter en étant raisonnablement sûr de ne pas se tromper. ch.4-p.22i
122 Echantillon gaussien, variance non spécifiée : test d une moyenne Considérons, par exemple, une association de consommateurs désirant convaincre de publicité mensongère un producteur de tabac qui affirme que le contenu moyen en nicotine d une cigarette light est inférieur à 1.3 unités. Si elle choisit le test { H0 : µ 1.3 deux choses peuvent se produire : H 1 : µ > 1.3 le rejet de H 0 établit (au risque de première espèce près mais on peut choisir α petit) que l affirmation du cigaretier est mensongère le non-rejet, à nouveau, est non-significatif, et ne permet pas de conclure. ch.4-p.23i
123 Echantillon gaussien, variance non spécifiée : test d une moyenne Si au contraire c est le test { H0 : µ 1.3 qui est choisi, H 1 : µ < 1.3, les observations conduisent au rejet de l hypothèse H 0 : µ 1.3. Elles disculpent donc (au niveau α choisi) le cigaretier! les observations ne permettent pas de rejeter l hypothèse que µ 1.3. Elles ne disculpent donc pas le producteur mais le risque de seconde espèce reste inconnu, et peut être proche de un. Aucune évidence donc d une affirmation mensongère de la part du cigaretier. L association doit donc clairement mettre en oeuvre le premier de ces deux tests, le second ne permettant en aucune façon de conclure dans le sens désiré. Pour les mêmes raisons, les experts de la défense nommés par le cigaretier devraient, eux, mettre en oeuvre le second des deux tests. ch.4-p.24i
124 Echantillon gaussien, variance non spécifiée : test d une moyenne Remarque 5 : Problèmes de test bilatéraux Considérons des hypothèses de la forme { H0 : µ = µ 0 H 1 : µ µ 0 (σ 2 non spécifié). On utilise le test de Student bilatéral (two-sided), version bilatérale des tests précédents. Règle de comportement : φ = 1 (RH 0 ) si T / [ t n 1;1 α/2 ; t n 1;1 α/2 ] ou, de façon équivalente, si X / [ µ 0 ± t n 1;1 α/2 S n ]. La notion de p-valeur est un peu plus délicate que dans le cas unilatéral. Supposons que T > 0 : on rejette l hypothèse si T > t n 1;1 α/2, c est-à -dire (1 F tn 1 (T )) < α, ou encore 2(1 2 Ft (T )) = 2(1 n 1 Ft n 1 ( T )) < α. On peut donc définir la p-valeur, dans ce test bilatéral, comme 2(1 F tn 1 ( T ), ch.4-p.25i
125 Le graphe de la fonction µ E µ(φ) = P µ(rh 0 ) a la forme typique suivante : E µ [φ] α µ 0 µ FIGURE: La fonction µ E µ(φ) pour le test de Student bilatéral. ch.4-p.26i
126 Plan du chapitre 5 5 Inférence sur les moyennes et les variances Problèmes à un échantillon Problèmes à deux échantillons : comparaison de deux moyennes Estimation ponctuelle de µ 2 µ 1 Estimation par intervalle de confiance Tests de comparaison Echantillons appariés Problèmes à deux échantillons : comparaison de deux variances ch.5-p.27i
127 Plan du chapitre 5 5 Inférence sur les moyennes et les variances Problèmes à un échantillon Problèmes à deux échantillons : comparaison de deux moyennes Estimation ponctuelle de µ 2 µ 1 Estimation par intervalle de confiance Tests de comparaison Echantillons appariés Problèmes à deux échantillons : comparaison de deux variances ch.5-p.1i
128 Problèmes à un échantillon Tests d hypothèses pour µ. Soit X 1,..., X n un échantillon d observations i.i.d. où E[X i ] = µ et Var(X i ) = σ 2 sont finies. L estimateur le plus usuel de µ est la moyenne empirique X = 1 n n X i. i=1 De nombreuses propriétés viennent justifier ce choix : en tant qu estimateur de µ, X en effet est (i) sans biais (ii) fortement convergent (Loi forte des grands nombres) (iii) exhaustif et efficace (et donc à variance uniformément minimale dans la classe des estimateurs sans biais) dans le cas gaussien (iv) unique solution des équations de vraisemblance gaussiennes... ch.5-p.1i
129 Problèmes à un échantillon Dans le cas gaussien, la loi exacte de X est normale, quel que soit la taille n de l échantillon : on a X µ σ/ n N (0, 1) et X µ S/ n t n 1. Dans le cas général, le résultat de normalité reste approximativement correct pourvu que n soit suffisamment grand (Théorème Central-Limite) : X µ S/ N (0, 1). n Les problèmes de test concernant µ ont été traités en détail au chapitre précédent. ch.5-p.2i
130 Problèmes à un échantillon Tests d hypothèses pour σ 2 dans le cas gaussien Les estimateurs usuels de σ 2 sont la variance empirique s 2 = 1 n et sa version corrigée pour le biais S 2 := Leurs principales propriétés sont n (X i X) 2 i=1 n n 1 s2. (i) s 2 est biaisé (mais asymptotiquement non biaisé), mais S 2 ne l est pas (ii) tous deux sont fortement convergents (iii) s 2 est l unique solution des équations de vraisemblance gaussiennes (iv) tous deux sont exhaustifs dans le cas gaussien (v) bien que non efficace, S 2, toujours dans le cas gaussien, est à variance uniformément minimale dans la classe des estimateurs sans biais... ch.5-p.3i
131 Problèmes à un échantillon Dans le cas gaussien, les lois exactes sont connues (Lemme de Fisher), indépendamment de la taille n 2 de l échantillon : ns 2 (n 1)S2 = χ 2 σ2 n 1. σ 2 Problème de test (unilatéral) : H 0 : σ 2 σ 2 0 et H 1 : σ 2 > σ 2 0 Statistique de test : ns 2 σ 2 0 Loi sous σ 2 = σ 2 0 : ns 2 σ 2 0 χ 2 n 1 Règle de comportement : dans le problème unilatéral ou (p-valeur) RH 0 au niveau de probabilité α si ns2 σ 2 0 > χ 2 n 1;1 α RH 0 au niveau de probabilité α si la p-valeur 1 F χ 2 ( ns2 ) est inférieure à α. n 1 σ0 2 ch.5-p.4i
132 Problèmes à un échantillon Problème de test (unilatéral) : { H0 : σ 2 σ0 2 H 1 : σ 2 < σ0, 2 Statistique de test : ns 2 σ 2 0 Loi sous σ 2 = σ 2 0 : ns 2 σ 2 0 χ 2 n 1 Règle de comportement : dans le problème unilatéral (symétrique du précédent) RH 0 au niveau de probabilité α si ns2 σ 2 0 < χ 2 n 1;α ou (p-valeur) RH 0 au niveau de probabilité α si la p-valeur F χ 2 ( ns2 ) est inférieure à α. n 1 σ0 2 ch.5-p.5i
133 Problèmes à un échantillon Problème de test (bilatéral) : { H0 : σ 2 = σ0 2 H 1 : σ 2 σ0, 2 Statistique de test : ns 2 σ 2 0 Loi sous σ 2 = σ 2 0 : ns 2 σ 2 0 χ 2 n 1 Règle de comportement : dans le problème bilatéral RH 0 au niveau de probabilité α si ns2 σ 2 0 / [ ] χ 2 n 1;α/2, χ 2 n 1;1 α/2 Cette solution traditionnelle du problème bilatéral est obtenue (au niveau α) en combinant deux règles de décisions unilatérales de niveau α/2 ch.5-p.6i
134 Problèmes à un échantillon Dans le cas général, quand n est grand, on peut établir (pour s 2 aussi bien que pour S 2, leur différence étant négligeable quand n ) le comportement central-limite (pourvu que µ 4, le moment d ordre 4 des observations, soit fini) (S 2 σ 2 ) µ 4 σ 4 n N (0, 1). ch.5-p.7i
135 Plan du chapitre 5 5 Inférence sur les moyennes et les variances Problèmes à un échantillon Problèmes à deux échantillons : comparaison de deux moyennes Estimation ponctuelle de µ 2 µ 1 Estimation par intervalle de confiance Tests de comparaison Echantillons appariés Problèmes à deux échantillons : comparaison de deux variances ch.5-p.8i
136 Problèmes à deux échantillons : comparaison de deux moyennes Estimation ponctuelle de µ 2 µ 1 Echantillon 1 : X 1,..., X n1 i.i.d. E[X i ] = µ 1 et Var(X i ) = σ1 2 < X = 1 n 1 X i sx 2 = 1 n 1 (X i n 1 n X) 2 1 i=1 i=1 Echantillon 2 : Y 1,..., Y n2 i.i.d. E[Y i ] = µ 2 et Var(Y i ) = σ2 2 <. Ȳ = 1 n 2 Y j sy 2 = 1 n 2 (Y j n 2 n Ȳ )2. 2 j=1 j=1 Estimateur de µ 2 µ 1 : différence Ȳ X des moyennes empiriques. Cet estimateur possède toutes les propriétés de l estimateur X : (i) non-biais (ii) convergence forte (Loi forte des grands nombres) (iii) exhaustivité et efficacité (et donc variance uniformément minimale dans la classe des estimateurs sans biais) dans le cas gaussien (iv) unique solution des équations de vraisemblance gaussiennes... ch.5-p.8i
137 Problèmes à deux échantillons : comparaison de deux moyennes Cas 1 : Loi de Ȳ X, cas gaussien Dans le cas gaussien X 1,..., X n1 i.i.d. N (µ 1, σ1) 2 et Y 1,..., Y n2 i.i.d. N (µ 2, σ2) 2 : ( ) Ȳ X N µ 2 µ 1, σ2 1 + σ2 2. n 1 n 2 Pas exploitable car les variances population σ 2 1 et σ 2 2 en général sont inconnues. Hypothèse (homogénéité des variances) : σ1 2 = σ2 2 (on notera σ 2 leur valeur commune), alors on a ( )) Ȳ X N (µ 2 µ 1, σ 2 + 1n1 1n2. Par ailleurs, on a n 1 s 2 1 σ 2 χ 2 n 1 1 et n 2 s 2 2 σ 2 χ 2 n 2 1 et donc (provenant de deux échantillons mutuellement indépendants, s 2 1 et s 2 2 sont indépendants) n 1 s n 2 s 2 2 σ 2 χ 2 n 1 +n 2 2. ch.5-p.9i
138 Problèmes à deux échantillons : comparaison de deux moyennes Remarquons que S 2 := n 1s n 2 s 2 2 n 1 + n 2 2 est un estimateur sans biais de σ 2. En effet, [ ] n1 s1 2 + n 2 s2 2 E = n 1 + n 2 2 (moyenne d une χ 2 n 1 +n 2 2), σ 2 et donc E[S 2 ] = E [ ] n1 s1 2 + n 2 s2 2 = σ 2. n 1 + n 2 2 En vertu de ce qui précède, on dispose donc d une variable normale réduite ( )) Ȳ X N (µ 2 µ 1, σ 2 + 1n1 1n2 Ȳ X (µ 2 µ 1 ) N (0, 1) 1 σ + 1 n 1 n 2 et d une variable chi-carré n 1 s n 2 s 2 2 σ 2 = (n 1 + n 2 2)S 2 σ 2 χ 2 n 1 +n 2 2. ch.5-p.10i
139 Problèmes à deux échantillons : comparaison de deux moyennes Indépendance entre les deux variables X est indépendant de s 2 1 en vertu du Lemme de Fisher X est indépendant de s 2 2 puisque calculé à partir de l échantillon 2 On peut donc construire une variable de Student : Ȳ X (µ 2 µ 1 ) 1 σ + 1 n 1 n 2 S/σ = Ȳ X (µ 2 µ 1 ) t n1 1 S + 1 +n 2 2. n 1 n 2 Si l hypothèse d égalité des variances n est pas satisfaite : éviter l estimation groupée S 2 ( pooled estimation). On peut montrer que, dans ce cas, où ν := Ȳ X (µ 2 µ 1 ) t ν, S S2 2 n 1 n 2 ( ) s s2 2 n 1 n 2 (s1/n 2 1 ) 2 n (s2 2/n 2 ) 2 ( x désigne la partie entière de x). n 2 1 ch.5-p.11i
140 Problèmes à deux échantillons : comparaison de deux moyennes Cas 2 : Loi de Ȳ X, grands échantillons Lorsque n 1 et n 2 sont suffisamment grands, on a pour X et Ȳ les lois approchées Donc, X N (µ 1, σ 2 1/n 1 ) et Ȳ N (µ 2, σ 2 2/n 2 ). Ȳ X N et, toujours pour n 1 et n 2 suffisamment grands, ( ) µ 2 µ 1, σ2 1 + σ2 2 n 1 n 2 Ȳ X (µ 2 µ 1 ) N (0, 1) S S2 2 n 1 n 2 (approximation considérée comme raisonnable pour n 1 et n 2 50). ch.5-p.12i
141 Problèmes à deux échantillons : comparaison de deux moyennes Estimation par intervalle de confiance Les diverses lois ci-dessus permettent la construction d intervalles de confiance pour µ 2 µ 1 Cas 1 : Intervalle de confiance, échantillons gaussiens, variances égales [ ] Ȳ X 1 ± t n1 +n 2 2;1 α/2s + 1. n 1 n 2 Cas 2 : Intervalle de confiance, grands échantillons Ȳ X S1 2 ± z 1 α/2 + S2 2. n 1 n 2 ch.5-p.13i
142 Problèmes à deux échantillons : comparaison de deux moyennes Tests de comparaison Problème de test (unilatéral) : { H0 : µ 1 µ 2 d 0 H 1 : µ 1 µ 2 < d 0, Statistique de test (cas gaussien, variances égales) : T = X Ȳ d 0 S 1 n n 2 Loi sous µ 1 µ 2 = d 0 : T t n1 +n 2 2 Règle de comportement (problème unilatéral) : ou RH 0 si T < t n1 +n 2 2;α RH 0 au niveau de probabilité α si la p-valeur F tn1 +n 2 2 (T ) est inférieure à α. ch.5-p.14i
143 RH 0 au niveau de probabilité α si la p-valeur 2(1 F tn1 +n 2 2 ( T )) est inférieure à α. ch.5-p.15i Problème de test (bilatéral) : { H0 : µ 1 µ 2 = d 0 H 1 : µ 1 µ 2 d 0, Statistique de test (cas gaussien, variances égales) : T = X Ȳ d 0 S 1 n n 2 Loi sous µ 1 µ 2 = d 0 : T t n1 +n 2 2 Règle de comportement (problème bilatéral) : ou RH 0 si T / [±t n1 +n 2 2;1 α/2]
144 Problèmes à deux échantillons : comparaison de deux moyennes Echantillons appariés L hypothèse d indépendance entre les deux échantillons est absolument cruciale, et il faut prendre garde à ne pas appliquer les procédures décrites ci-dessus à des échantillons n y satisfaisant pas. Exemple. Un constructeur désire comparer les résistances à l usure de deux types de pneumatiques, A et B. Cinq voitures sont équipées, à l arrière, d un pneu de chaque type. Pour chaque montage, un nombre donné de kilomètres sont parcourus, puis l usure est mesurée pour chacun des deux pneus arrières. Les résultats sont les suivants (pneu A : observations X 1... X 5 ; pneu B : observations Y 1... Y 5). Voiture Pneu A Pneu B ch.5-p.15i
145 Problèmes à deux échantillons : comparaison de deux moyennes Les observations (X 1... X 5) et (Y 1... Y 5) ne peuvent pas être considérées comme constituant deux échantillons indépendants! En effet, chaque couple (X i, Y i ) provient de la même voiture. Même sous des hypothèses gaussiennes, on ne peut donc pas dire grand-chose de la loi de Ȳ X. En revanche, les différences (Y 1 X 1 ),..., (Y 5 X 5) =: d 1,..., d 5 peuvent être considérées comme indépendantes, et E[d i ] = E[Y i X i ] = µ 2 µ 1. d 1,..., d 5 constitue un échantillon i.i.d., de taille n = 5 et de moyenne µ 2 µ 1. FAUX problème à 2 échantillons, mais un VRAI problème à 1 échantillon! Voiture d i := Y i X i ch.5-p.16i
146 Problèmes à deux échantillons : comparaison de deux moyennes On calcule aisément la moyenne empirique d =.48 et l écart-type S d =.0837 de d 1,..., d 5. Si on fait l hypothèse que ces d i sont i.i.d. N (µ 2 µ 1, σ 2 d) on obtient T d := d (µ 2 µ 1 ) S d / n t n 1. Un test de Student de l hypothèse le pneu B s use plus vite, en moyenne, que le pneu A, c est-à -dire { H0 : µ 2 µ 1 0 H 1 : µ 2 µ 1 < 0 peut donc être fondé sur la statistique de test T d, selon la procédure décrite dans d le paragraphe consacré aux problèmes à un échantillon. Ici, T d = S d / prend la n 0.48 valeur / 5 = 12.8 < t 4;.01 = 3.747, et on on rejette donc H 0 au niveau α = 1%. On peut conclure par conséquent (au niveau α = 0.01) que le pneu B est meilleur que le pneu A. ch.5-p.17i
147 Plan du chapitre 5 5 Inférence sur les moyennes et les variances Problèmes à un échantillon Problèmes à deux échantillons : comparaison de deux moyennes Estimation ponctuelle de µ 2 µ 1 Estimation par intervalle de confiance Tests de comparaison Echantillons appariés Problèmes à deux échantillons : comparaison de deux variances ch.5-p.18i
148 Problèmes à deux échantillons : comparaison de deux variances Intérêt de ce problème : hypothèse d homogénéité des variances. Ce problème sera étudié dans le cas des populations normales seulement, puisque seuls les petits échantillons réclament cette homogénéité. Avant de l examiner de plus près, introduisons une nouvelle loi dérivée de la loi gaussienne : la loi dite de Fisher-Snedecor. La variable F de Fisher-Snedecor Definition Soient Q 1 χ 2 n 1 et Q 2 χ 2 n 2 deux variables chi-carré indépendantes. La loi de F := Q 1 Q 2 n 2 n 1 = Q 1/n 1 Q 2 /n 2 est appelée loi de Fisher-Snedecor à n 1 et n 2 degrés de liberté (n 1 degrés de liberté dans le numérateur, n 2 dans le dénominateur). Toute variable F dont la loi est une loi de Fisher-Snedecor sera dite variable de Fisher-Snedecor, ce que nous noterons F F n1 ;n 2. ch.5-p.18i
149 Problèmes à deux échantillons : comparaison de deux moyennes Densité n n 1/2 1 n n 2/2 2 x n f n1,n 2 (x) = B( n 1 n 2 x ) (n 1 x + n 2 ) n 1 +n x < 0 où B( n 1 n ) := z n (1 x) n dx 0 est la fonction Beta d Euler, liée à la fonction Gamma d Euler par la relation B(y, z) = Γ(y)Γ(z) Γ(y + z) y, z R + 0. α α Fn1,n2;α Fn1,n2;1 α ch.5-p.19i
150 Problèmes à deux échantillons : comparaison de deux moyennes Quantiles. Le quantile d ordre 1 α de la loi de Fisher-Snedecor à n 1 et n 2 degrés de liberté sera noté F n1,n 2 ;1 α. Ces quantiles, pour les valeurs usuelles de α, sont tabulés. Les quantiles F n1,n 2 ;α, pour les mêmes valeurs usuelles de α, ne le sont pas, car ils se déduisent des précédents. On a en effet la relation suivante : Proposition Si F F n1,n 2, alors 1 F Fn 2,n 1. On en déduit que F n2,n 1 ;α = 1 F n1,n 2 ;1 α. ch.5-p.20i
151 Problèmes à deux échantillons : comparaison de deux moyennes Une autre propriété, qui sera exploitée dans les problèmes de comparaison de variances d échantillons gaussiens indépendants, est la suivante : Proposition Si X 1,..., X n1 i.i.d. N (µ 1, σ 2 1) et Y 1,..., Y n2 i.i.d. N (µ 2, σ 2 2) sont deux échantillons gaussiens mutuellement indépendants, alors n 1 s 2 1 σ 2 1 χ 2 n 1 1 et n 2 s 2 2 σ 2 2 χ 2 n 2 1 sont deux variables chi-carré indépendantes, et donc n 1 s 2 1 n 2 s 2 2 n 2 1 n 1 1 σ2 2 σ1 2 = S2 1 σ2 2 S2 2 σ1 2 F n1 1,n 2 1. Finalement, on établit facilement, à partir de leurs définitions respectives, que le carré d une variable de Student à q degrés de liberté est une variable de Fisher-Snedecor à 1 et q degrés de liberté. ch.5-p.21i
152 Problèmes à deux échantillons : comparaison de deux moyennes Intervalle de confiance pour le rapport σ 1 /σ 2 (deux échantillons gaussiens indépendants) On vient de voir que P [ ( S1 2 σ2 S2 2 σ 1 F n1 1,n 2 1;α/2 S2 1 S 2 2 ( σ2 ) 2 F n1 1,n2 1 σ 1 ) 2 F n1 1,n2 1;1 α/2] = 1 α ou, de façon équivalente, [ ] S 1 1 P σ 1 S 1 1 = 1 α. S 2 F...;1 α/2 σ 2 S 2 F...;α/2 On en déduit un intervalle de confiance, au niveau de confiance (1 α), pour le rapport σ 1 /σ 2 : [ ] S 1 S 1, S 2 Fn2 1,n 1 1;1 α/2 S 2 Fn2 1,n 1 1;α/2. ch.5-p.22i
153 Problèmes à deux échantillons : comparaison de deux moyennes { H0 : σ 2 1 σ 2 2 Test de comparaison de deux variances (deux échantillons gaussiens indépendants). Les tests suivants, dits tests de Fisher-Snedecor, permettent de tester l hypothèse d égalité de deux variances sur la base de deux échantillons gaussiens indépendants. Problème de test (unilatéral) : H 1 : σ 2 1 > σ 2 2 Statistique de test : F := S2 1 S 2 2 Loi sous σ 2 1 = σ 2 2 : F F n1 1,n 2 1 Règle de comportement : RH 0 au niveau de probabilité α si F > F n1 1,n 2 1;1 α. ch.5-p.23i
154 Problèmes à deux échantillons : comparaison de deux moyennes { H0 : σ 2 1 σ 2 2 Règle de comportement : dans le problème unilatéral (symétrique du précédent) on utilise la règle de comportement H 1 : σ 2 1 < σ 2 2 RH 0 au niveau de probabilité α si F < F n1 1,n 2 1;α. Règle de comportement : dans le problème bilatéral la règle de comportement est { H0 : σ1 2 = σ2 2 H 1 : σ1 2 σ2, 2 RH 0 au niveau de probabilité α si F / [F n1 1,n 2 1;α/2, F n1 1,n 2 1;1 α/2]. ch.5-p.24i
155 Plan du chapitre 6 6 Inférence sur les probabilités (les proportions) Problèmes à un échantillon Estimation ponctuelle et intervalles de confiance Tests d hypothèses (n grand ) Tests d hypothèses (n petit ) Problèmes à deux échantillons Estimation ponctuelle de p 2 p 1 Intervalle de confiance pour p 2 p 1 Tests de comparaison Les test chi-carré (chi-deux) Le test chi-carré d ajustement Le test chi-carré d homogénéité Le test chi-carré d indépendance ch.6-p.25i
156 Plan du chapitre 6 6 Inférence sur les probabilités (les proportions) Problèmes à un échantillon Estimation ponctuelle et intervalles de confiance Tests d hypothèses (n grand ) Tests d hypothèses (n petit ) Problèmes à deux échantillons Estimation ponctuelle de p 2 p 1 Intervalle de confiance pour p 2 p 1 Tests de comparaison Les test chi-carré (chi-deux) Le test chi-carré d ajustement Le test chi-carré d homogénéité Le test chi-carré d indépendance ch.6-p.1i
157 Problèmes à un échantillon Le modèle statistique est le modèle d échantillonnage de Bernoulli : X 1,..., X n i.i.d. Bin(1, p), p [0, 1] ( n réalisations indépendantes de X). ch.6-p.1i Les observations sont des comptages d événements, et les paramètres sont les probabilités de ces événements (terminologie traditionnelle : les proportions). Le schéma d expérience est le schéma statistique le plus simple : le schéma de Bernoulli : succès = réalisation d un événement A E échec = non-réalisation de A = réalisation de Ā. A ce schéma d expérience est associé une variable aléatoire de Bernoulli comptant les succès : { 1 si succès p (ω A) X(ω) = 0 si échec 1 p (ω Ā).
158 Problèmes à un échantillon Estimation ponctuelle Le problème consiste à estimer la valeur inconnue de p. L estimateur p := 1 n Xi possède toutes les propriétés désirables. Sa loi exacte est n p Bin(n, p), et sa loi approchée (approximation généralement considérée satisfaisante pourvu que np(1 p) > 9) ( ) p(1 p) p N p,. n Cette approximation repose sur le théorème central-limite (version De Moivre - Laplace), qui nous dit que n 1/2 ( p p) est asymptotiquement N (0, p(1 p)). En tant qu estimateur de p, p est (i) sans biais (ii) fortement convergent (iii) exhaustif et efficace (iv) solution unique de l équation de vraisemblance. ch.6-p.2i
159 Problèmes à un échantillon Intervalles de confiance Pour n grand (np(1 p) > 9), la construction d un intervalle de confiance peut êre fondée sur la loi normale approchée de p : [ ] p(1 p) p ± z 1 α/2 n (au niveau de confiance (asymptotique ou approchée) 1 α). Pour n petit, cette construction doit être fondée sur la loi binomiale exacte de n p ; les intervalles recherchés s obtiennent par lecture de tables et d abaques. ch.6-p.3i
160 Problèmes à un échantillon Tests d hypothèses (n grand ) Pour les trois types de test ( H 0 : p p 0 ; H 0 : p p 0 ; H 0 : p = p 0 ), la statistique de test est la même, ainsi que la loi utilisée pour le calcul des valeurs critiques. Statistique de test : p ou Z = p p 0 p 0 (1 p 0 ) n Loi sous p = p 0 : p N ( p 0, p ) 0(1 p 0 ) n ou Z N (0, 1) Règle de comportement : dans le problème unilatéral { H0 : p p 0 RH 0 au niveau de probabilité α si H 1 : p > p 0, Z > z 1 α la p-valeur 1 Φ(Z ) est inférieure à α p > p 0 + z 1 α p 0 (1 p 0 ) n. ch.6-p.4i
161 Problèmes à un échantillon Règle de comportement : dans le problème unilatéral (symétrique du précédent) { H0 : p p 0 RH 0 au niveau de probabilité α si H 1 : p < p 0, Z < z 1 α la p-valeur Φ(Z ) est inférieure à α p < p 0 z 1 α p 0 (1 p 0 ) n Règle de comportement : dans le problème bilatéral { H0 : p = p 0 RH 0 au niveau de probabilité α si H 1 : p p 0, Z / [ ] ±z 1 α/2 la p-valeur 2(1 Φ( Z )) est inférieure à α ] p / [p 0 ± z 1 α/2. p 0 (1 p 0 ) n ch.6-p.5i
162 Problèmes à un échantillon Exemple : Le Ministère de la Santé Publique aimerait voir les médecins prescrire davantage de médicaments génériques, et se demande si le recours insuffisant à ces derniers est dû à une mauvaise information du corps médical sur leur existence. Une enquêe réalisée auprès de 102 praticiens montre que seulement 47 d entre eux connaissent le nom de l équivalent générique de la métha***. Ceci permet-il d affirmer que plus de la moitié du corps médical ignore ce médicament générique? Pour résoudre ce problème, posons : { H0 : p 0.5 H 1 : p < 0.5, où p est la proportion de médecins ignorant l existence du médicament générique. L estimateur p de p prend la valeur 47/102 = ; donc Z prend la valeur Z = = La lecture des tables de la loi gaussienne fournit la p-valeur Φ( 0.79) = On ne peut donc rejeter l hypothèse à aucun des niveaux usuels (1%, 5%, 10%). ch.6-p.6i
163 Problèmes à un échantillon Tests d hypothèses (n petit ) Si l approximation normale de la loi de p n est pas satisfaisante, il faut recourir à la loi binomiale exacte de n p, qui servira de statistique de test. Exemple. On jette n =10 fois une pièce de monnaie. Quel est le nombre de face permettant de rejeter (α = 5%) l hypothèse que la pièce est correctement équilibrée? Le problème de test posé est (test bilatéral) { H0 : p = 0.5 H 1 : p 0.5. La valeur de n est petite donc on utilise la table de la fonction de répartition binomiale Bin(10, 1/2) Soit N = n p le nombre de face. Pour rejeter H 0 au niveau faut que soit 1 F Bin(10,1/2) (N 1) α 2 = soit F Bin(10,1/2) (N) α 2 = ch.6-p.7i
164 Problèmes à un échantillon N F Bin(10,1/2) (N) F Bin(10,1/2) (N 1) On voit que l on pourra rejeter l hypothèse si l on obtient 0, 1 ou 9, 10 faces. De façon générale, la procédure de test sera la suivante. Statistique de test : n p. Loi sous p = p 0 : n p Bin(n, p 0 ). On notera F Bin(n,p0 ) la fonction de répartition correspondante. ch.6-p.8i
165 Problèmes à un échantillon Règle de comportement : dans le problème unilatéral { H0 : p p 0 H 1 : p < p 0, RH 0 au niveau de probabilité α si F Bin(n,p0 )(n p) α. Règle de comportement : dans le problème unilatéral (symétrique du précédent) { H0 : p p 0 H 1 : p > p 0, RH 0 au niveau de probabilité α si F Bin(n,p0 )(n p 1) 1 α. Règle de comportement : dans le problème bilatéral { H0 : p = p 0 H 1 : p p 0, RH 0 au niveau de probabilité α si F Bin(n,p0 )(n p) α/2 ou F Bin(n,p0 )(n p 1) 1 α/2. On pourra vérifier que ces règles de comportement satisfont à la condition de niveau. ch.6-p.9i
166 Plan du chapitre 6 6 Inférence sur les probabilités (les proportions) Problèmes à un échantillon Estimation ponctuelle et intervalles de confiance Tests d hypothèses (n grand ) Tests d hypothèses (n petit ) Problèmes à deux échantillons Estimation ponctuelle de p 2 p 1 Intervalle de confiance pour p 2 p 1 Tests de comparaison Les test chi-carré (chi-deux) Le test chi-carré d ajustement Le test chi-carré d homogénéité Le test chi-carré d indépendance ch.6-p.10i
167 Problèmes à deux échantillons Problèmes de comparaison entre deux populations. L expérience E se compose de deux schémas de Bernoulli indépendants : succès p 1 E 1 échec 1 p 1 succès p 2 E 2 échec 1 p 2 X 1,..., X n1 i.i.d. Bin(1, p 1 ) ; p 1 (0, 1) Y 1,..., Y n2 i.i.d. Bin(1, p 2 ) ; p 2 (0, 1). ch.6-p.10i
168 Problèmes à deux échantillons Estimation ponctuelle de p 2 p 1 Un estimateur naturel, sans biais, exhaustif, convergent, solution des équations de vraisemblance, etc. est donné par p 2 p 1 := p 2 p 1. Quand les échantillons sont grands, ( p 1 N p 1, p ) 1(1 p 1 ) n 1 et p 2 N ( p 2, p ) 2(1 p 2 ) n 2 sont indépendants ; donc p 2 p 1 N ( p 2 p 1, p 2(1 p 2 ) + p ) 1(1 p 1 ). n 2 n 1 ch.6-p.11i
169 Problèmes à deux échantillons Intervalle de confiance pour p 2 p 1 On a approximativement ou asymptotiquement le résultat suivant : p 2 p 1 (p 2 p 1 ) N (0, 1). p1 (1 p 1 ) + p 2(1 p 2 ) n 1 n 2 Un intervalle de confiance au niveau de confiance (asymptotique ou approché) (1 α) est donc de la forme p 1 (1 p 1 ) p 2 p 1 ± z 1 α/2 + p 2(1 p 2 ). n 1 n 2 ch.6-p.12i
170 Problèmes à deux échantillons Tests de comparaison Soit la forme unilatérale du problème du test de l égalité des paramètres p 1 et p 2 : { H0 : p 2 p 1 0 H 1 : p 2 p 1 < 0. Soit p, un estimateur de la valeur commune, sous p 2 = p 1, de p 1 et p 2 : n1 i=1 p := X i + n 2 j=1 Y j = n 1 p 1 + n 2 p 2. n 1 + n 2 n 1 + n 2 Statistique de test : p 2 p 1 Loi sous p 2 = p 1 : p 2 p 1 N ( ( 1 0, p(1 p) + 1 )), n 1 n 2 Règle de comportement : ( 1 RH 0 si p 2 p 1 < z α p(1 p) + 1 ) n 1 n 2 ch.6-p.13i
171 Problèmes à deux échantillons Exemple historique : le Vaccin Salk Vaccin antipoliomyélitique Salk : Test mené à grande échelle aux USA en 1954 Une population de n enfants aléatoirement divisés en 2 groupes de : un premier groupe a servi de groupe-témoin, et un placebo lui a été appliqué. Le second groupe a été vacciné au moyen du vaccin mis au point. groupe témoin : n 1 = placebo (en réalité, ) groupe traité : n 2 = vaccin (en réalité, ) total n = L expérience a été réalisée à la double aveugle (ni l enfant ni le médecin traitant ni les parents ne furent informés du groupe auquel était versé l enfant) afin d éviter les phénomènes dits effets-placebo. ch.6-p.14i
172 Problèmes à deux échantillons Les résultats de cette campagne de vaccination furent les suivants : groupe 1 (placebo) : 110 cas de poliomyélite ( p 1 = ) groupe 2 (vaccin) : 33 cas de poliomyélite ( p 2 = ). Ces observations montrent une différence considérable entre les fréquences empiriques d apparition de la maladie dans chacun des deux groupes : p 2 p 1 = Fallait-il en conclure à l efficacité du vaccin et vacciner de façon systématique l ensemble de la population? Afin de ne pas prendre à la légère la décision de vacciner des millions d enfants, prenons une valeur d un niveau très petite : α = ; le quantile correspondant est z 1 α = 3.1. Le problème de test s écrit { H0 : p 2 p 1 0 le vaccin est au mieux sans effets H 1 : p 2 p 1 < 0 le vaccin a un effet bénéfique On calcule aisément la valeur de p : p = = ch.6-p.15i
173 Problèmes à deux échantillons ( 1 RH 0 si p 2 p 1 < z α p(1 p) + 1 ) n 1 n 2 Le test rejette l hypothèse nulle car p 2 p 1 est inférieur à ( ) ( ) ( ) = or p 2 p 1 vaut Donc l hypothèse nulle est rejetée, et l effet bénéfique du vaccin est établi (au niveau de probabilité α = 0.001, donc de façon très significative). On peut considérer que la poliomyélite, dans les pays où la vaccination put être mise en oeuvre (certains groupes religieux continuent à s y opposer), a été virtuellement éradiquée. Le taux des nouvelles contaminations est tombé à 1 pour 10 millions de personnes. Remarque : Pour n 1 et/ou n 2 petits, il existe un test exact le test de Fisher (ou de Fisher-Irwin). ch.6-p.16i
174 Plan du chapitre 6 6 Inférence sur les probabilités (les proportions) Problèmes à un échantillon Estimation ponctuelle et intervalles de confiance Tests d hypothèses (n grand ) Tests d hypothèses (n petit ) Problèmes à deux échantillons Estimation ponctuelle de p 2 p 1 Intervalle de confiance pour p 2 p 1 Tests de comparaison Les test chi-carré (chi-deux) Le test chi-carré d ajustement Le test chi-carré d homogénéité Le test chi-carré d indépendance ch.6-p.17i
175 Les test chi-carré (chi-deux) La loi multinomiale : Le schéma multinomial se rencontre lorsqu une expérience aléatoire E donne lieu à I résultats possibles (I = 2 est le schéma de Bernoulli). résultat 1 p 1 résultat 2 p 2 E.. résultat i p i.. résultat I p I = 1 I 1 i=1 p i ch.6-p.17i
176 Les test chi-carré (chi-deux) Considérons les variables aléatoires n 1,..., n I comptant le nombre de fois que chacun des I résultats s est présenté au cours de n répétitions de E : résultat 1 n 1 Bin(n, p 1 ) ; donc E[n 1 ] = np 1 résultat 2 n 2 Bin(n, p 2 ) ; donc E[n 2 ] = np 2.. résultat i. résultat I n i Bin(n, p i ) ; donc E[n i ] = np i. n I Bin(n, p i ) ; donc E[n I ] = np I Total n Le vecteur aléatoire n := (n 1,..., n I ) est dit vecteur multinomial de paramètres p 1,..., p I et d exposant n, ce que l on note n := (n 1,..., n I ) Mult(n; p 1,..., p I ). La vraisemblance multinomiale se calcule facilement : L p1,...,p I (r 1,..., r I ) := P[n 1 = r 1, n 2 = r 2,..., n I = r I ] = n! r 1!r 2! r I! pr 1 1 p r 2 2 p r I I où (r 1,..., r I ) N I est tel que I i=1 r i = n. ch.6-p.18i
177 Les test chi-carré (chi-deux) Un résultat asymptotique On peut montrer que, si n Mult(n; p 1,..., p I ), Q (n) := I (n i np i ) 2 i=1 np i χ 2 I 1. En réalité, il s agit d un résultat asymptotique (convergence en loi). Mais l approximation est considérée satisfaisante pourvu que np i 5 pour au moins 80% des valeurs de i, et np i 1 pour toutes. Si p i = p i (θ), où θ Θ R k est un paramètre de dimension k, que l intérieur int(θ) de Θ n est pas vide, et que θ = Arg max θ Θ I i=1 n i log p i (θ) (donc θ est l estimateur maximum de vraisemblance de θ), alors on peut montrer que, si n Mult(n; p 1 (θ),..., p I (θ)), Q (n) := I (n i np i ( θ)) 2 i=1 np i ( θ) χ 2 I 1 k. ch.6-p.19i
178 Les test chi-carré (chi-deux) Le test chi-carré d ajustement Le test chi-carré d ajustement est un test sur la valeur du paramètre p 1,..., p I d une multinomiale. Soit donc n Mult(n; p 1,..., p I ) un vecteur observé, de loi multinomiale. Le problème de test est { H0 : p 1 = p 0 1, p 2 = p 0 2,..., p I = p 0 I H 1 : il existe au moins un i tel que p i p 0 i. Statistique de test : Loi sous H 0 : Q (n) χ 2 I 1. Q (n) := I (n i npi 0 ) 2. i=1 np 0 i Règle de comportement : RH 0 si Q (n) > χ 2 I 1;1 α. Ce test est une généralisation du test de l hypothèse bilatérale (concernant une seul paramètre p (0, 1)) H 0 : p = p 0 vu plus haut. ch.6-p.20i
179 Les test chi-carré (chi-deux) Exemple Un vieux débat non résolu en criminologie tourne autour de la question : la saison influence-t-elle le crime? Un ensemble de n = 1361 homicides ont été triés selon la saison où ils ont été commis. Hiver Printemps Eté Automne n 1 = 328 n 2 = 334 n 3 = 372 n 4 = 324 Ces observations permettent-elles de mettre en évidence une influence de la saison sur la fréquence des crimes commis (niveau de probabilité α = 5%)? Cette question prend la forme d un problème de test : { H0 : p 1 = p 2 = p 3 = p 4 = 1 4 H 1 : i, j tels que p i p j. La valeur prise par la statistique de test est ( ) ( ) Q (n) ( = /4 1361/4 1361/4 ) 2 + ( ) = 4.03 ; 1361/4 cette valeur est à comparer au quantile χ 2 3;0.95 = ou χ 2 3;0.90 = donc R/H 0 (pas même à α = 10%). ch.6-p.21i
180 Les test chi-carré (chi-deux) Le test chi-carré d homogénéité Généralisons au cas multinomial et à J 2 échantillons le problème de comparaison de deux probabilités, et supposons avoir observé J multinomiales indépendantes n 1 Mult(n 1 ; p 11,..., p I1 ). n j Mult(n j ; p 1j,..., p Ij ). n J Mult(n J ; p 1J,..., p IJ ). Les n j, j = 1,..., J sont des constantes fixées par les conditions expérimentales. Au total, on dispose donc de n = n n j + + n J = J j=1 n j réalisations d expériences multinomiales. ch.6-p.22i
181 Les test chi-carré (chi-deux) Les observations se présentent sous forme d un tableau I J de fréquences observées, appelé table de contingence : 1 j J 1 n 11 n 1j n 1J n i n i1 n ij n ij n i..... I n I1 n Ij n IJ n I n 1 n j n J n ch.6-p.23i
182 Les test chi-carré (chi-deux) A ce tableau de fréquences observées correspond le tableau des paramètres 1 j J 1 p 11 p 1j p 1J.... i p i1 p ij p ij.... I p I1 p Ij p IJ des J multinomiales observées. L hypothèse d homogénéité est l hypothèse sous laquelle les paramètres de ces J multinomiales coïncident : { H0 : p ij1 = p ij2 i = 1,..., I ; j 1, j 2 = 1,..., J H 1 : i, j 1, j 2 : p ij1 p ij2. ch.6-p.24i
183 Les test chi-carré (chi-deux) Le test chi-carré d homogénéité Procédure de test : Notons p i la valeur commune (inconnue) de p i1... p ij sous H 0. On a, en vertu du théorème d addition des variables chi-carré, J I Q (n) (n ij n j p i ) 2 := χ 2 n j p J(I 1). i j=1 i=1 } {{ } χ 2 I 1, indépendantes Les valeurs des p i étant inconnues, il faut les remplacer par des estimateurs. Notons p i := n i n leurs estimateurs maximum de vraisemblance. Les quantités n jp i sont alors estimées par n j p i = n i n j La statistique de test devient : n. Q(n) := I i=1 J j=1 ( n ij n i n j n n i n j n ) 2. Sa loi (approchée) sous H 0 est : Q (n) χ 2 (I 1)(J 1). En effet ((I 1) est le nombre de paramètres estimés sous H 0 ), J(I 1) (I 1) = (I 1)(J 1). La règle de comportement est donc : RH 0 si Q (n) > χ 2 (I 1)(J 1);1 α. ch.6-p.25i
184 Les test chi-carré (chi-deux) Exemple Une enquête a été réalisée, lors d une période de récession économique, auprès de trois groupes d acteurs de la vie économique : les chefs d entreprises, les économistes et les hommes politiques. Dans chaque groupe, cent individus ont été interrogés sur les décisions qui, selon eux, seraient les plus favorables à une sortie de la récession. Les résultats sont les suivants (ici, I = 4, J = 3 et n = 300). Chefs Economistes Hommes d entreprises politiques Accroître le déficit budgétaire Réduire les impôts Réduire les taux d intérêts Offrir des avantages fiscaux aux entreprises n 1 = 100 n 2 = 100 n 3 = 100 Peut-on considérer que les opinions, dans ces trois groupes, sont réparties de la même façon? ch.6-p.26i
185 Les test chi-carré (chi-deux) Le test chi-carré d indépendance Le contexte expérimental pour ce test est entièrement différent. Les observations sont un échantillon bivarié discret ou discrétisé, de la forme ( ) ( ) ( ) X 1 X 2 X n,,..., i.i.d., Y 1 Y 2 Y n où la loi des (X ν, Y ν) est décrite par (loi bivariée discrète) les valeurs possibles des X ν : x 1,..., x I les valeurs possibles des Y ν : y 1,..., y J les probabilités p ij := P[X ν = x i et Y ν = y j ]. La présentation de ces données se fait dans un tableau à double entrée : une table de contingence I J, où n ij = fréquence observée de la valeur (x i, y j ) au sein de l échantillon ( ) X1 Y 1 ( X n Y n ). ch.6-p.27i
186 Les test chi-carré (chi-deux) Table de contingence I J. y 1 y j y J x 1 n 11 n 1j n 1J n 1... x i n i1 n ij n ij n i..... x I n I1 n Ij n IJ n I n 1 n j n J n A cette table de fréquences observées correspond le tableau des probabilités : ici, contrairement au tableau rencontré dans le problème d homogénéité, la somme de toutes les probabilités p ij vaut 1. y 1 y j y J x 1 p 11 p 1j p 1J p 1... x i p i1 p ij p ij p i x I p I1 p Ij p IJ p I p 1 p j p J 1 ch.6-p.28i
187 Les test chi-carré (chi-deux) Hypothèse d indépendance L hypothèse nulle à laquelle nous allons nous intéresser est l hypothèse d indépendance entre les variables X et Y { H0 : indépendance entre X et Y, i.e. p ij = p i p j i, j H 1 : i, j : p ij p i p j Exemple Un ensemble de n = 2100 certificats de décès d adultes, enregistrés auprès des hôpitaux d une grande ville, ont été classés de la façon suivante : X : cause du décès Y : habitudes tabagiques Gros fumeur Fumeur léger Non-fumeur Décès d origine respiratoire Décès d origine cardio-vasculaire Autres causes de décès Ces données permettent-elles de rejeter l hypothèse d indépendance entre habitudes tabagiques et causes de décès? ch.6-p.29i
188 Les test chi-carré (chi-deux) Sous H 0, Q (n) = I i=1 J (n ij np i p j ) 2 χ 2 IJ 1 np i p j j=1 ((n 11, n 21,..., n IJ ) est de loi Mult(n; p 11, p 21,..., p IJ ) et, sous H 0, p ij = p i p j ) Mais les p i et p j sont inconnus. Estimer les p i et les p j à partir de leurs estimateurs maximum de vraisemblance p i = n i n La statistique de test est Q (n) = I i=1 La loi sous H 0 de cette statistique est ( J n ij n i n j n j=1 n i n j n Q (n) χ 2 (I 1)(J 1); et p j = n j n. ) 2. car (I 1) + (J 1) est le nombre de paramètres estimés sous H 0 : IJ 1 [(I 1) + (J 1)] = (I 1)(J 1). Règle de comportement : on rejette l hypothèse d indépendance si Q (n) > χ 2 (I 1)(J 1);1 α. ch.6-p.30i
189 Les test chi-carré (chi-deux) Si α = 0.5%, les tables donnent χ 2 4;0.995 = On peut donc affirmer l existence d une dépendance entre les habitudes tabagiques et les causes de décès. ch.6-p.31i Exemple (suite) : Table de contingence des données et fréquences marginales : n ij Gros fumeur Fumeur léger Non-fumeur n i Décès respiratoire Décès cardio-vasculaire Autres causes de décès n j Tableau des effectifs espérés estimés (sous H 0 ) n i n j /n : n i n j /n Gros fumeur Fumeur léger Non-fumeur Décès d origine respiratoire Décès d origine cardio-vasculaire Autres causes de décès Q (n) = ( ) ( ) ( ) = Le nombre de degrés de liberté est (3-1)(3-1) = 4.
190 Plan du chapitre 7 7 Le Modèle d Analyse de la Variance à un facteur Définitions et exemples Test de l hypothèse d absence d effet-traitement ch.7-p.32i
191 Plan du chapitre 7 7 Le Modèle d Analyse de la Variance à un facteur Définitions et exemples Test de l hypothèse d absence d effet-traitement ch.7-p.1i
192 Définitions et exemples Rappel : Le modèle de position à deux échantillons Dans le modèle de position à deux échantillons indépendants (cas gaussien), on observe deux échantillons indépendants X 11, X 21,..., X i1,..., X n1 1 i.i.d. N (µ 1, σ 2 ) et Posons X 12, X 22,..., X i2,..., X n2 2 i.i.d. N (µ 2, σ 2 ) ε i1 := X i1 µ 1 et ε i2 := X i2 µ 2, le même modèle peut encore s écrire X i1 = µ 1 + ε i1 avec ε i1 i.i.d. N (0, σ 2 ) i = 1,..., n 1 X i2 = µ 2 + ε i2 avec ε i2 i.i.d. N (0, σ 2 ) i = 1,..., n 2 ou, plus simplement, X ij = µ j + ε ij ε ij i.i.d. N (0, σ 2 ) i = 1,..., n j j = 1, 2. Sous cette forme apparaissent deux paramètres d intérêt, µ 1 et µ 2 R, et un paramètre de nuisance, σ 2 R + 0. ch.7-p.1i
193 Définitions et exemples Le modèle d analyse de la variance à un facteur Le modèle précédent se généralise de façon immédiate au cas de J 2 échantillons en posant X ij = µ j + ε ij ε ij i.i.d. N (0, σ 2 ) i = 1,..., n j j = 1,..., J (première forme du modèle d analyse de la variance à un facteur). On y distingue J paramètres d intérêt, µ 1,..., µ J R, et un paramètre de nuisance, σ 2 R + 0. Ceci correspond à la situation suivante : Echantillon 1 Echantillon j Echantillon J (taille n 1 ) (taille n j ) (taille n J ) X 11,..., X n1 1 X 1j,..., X nj j X 1J,..., X nj J iid N (µ 1, σ 2 ) iid N (µ j, σ 2 ) iid N (µ J, σ 2 ) Le modèle d Analyse de la Variance à un facteur n est donc rien d autre qu un modèle de position à J échantillons. ch.7-p.2i
194 Définitions et exemples Exemple Un opérateur de téléphonie mobile désire revoir la tarification de ses SMS de façon à stimuler le recours à ce mode de communication. Trente de ses abonnés ayant une consommation similaire (en moyenne de 45 SMS/semaine) ont été sélectionnés pour analyser quatre structures de tarif différentes. Quatre groupes ont été constitués au hasard. Un tarif a été appliqué à chacun de ces groupes. Le nombre de SMS envoyé s établit comme suit : Tarif 1 Tarif 2 Tarif 3 Tarif µ 1 µ 2 µ 3 µ 4 n 1 = 6 n 2 = 8 n 3 = 9 n 4 = 7 La formule tarifaire a-t-elle un impact sur le nombre moyen de SMS envoyés? ch.7-p.3i
195 Définitions et exemples Posons on a donc, par construction, µ := 1 J J µ j et α j := µ j µ; j=1 J α j = 0. j=1 Seconde forme du modèle d analyse de la variance à un facteur : X ij = µ + α j + ε ij ε ij i.i.d. N (0, σ 2 ) i = 1,..., n j j = 1,..., J. Paramètres d intérêt J + 1 : µ, α 1,..., α J liés par une relation linéaire J j=1 α j = 0 Paramètre de nuisance, σ 2 R + 0. Les α j, j = 1,..., J sont appelés effets-traitement ou effets-facteur. Selon la forme adoptée pour le modèle, les paramètres du modèle sont µ 1,..., µ J et σ 2 ou J µ, α 1,..., α J (avec α j = 0) et σ 2. j=1 ch.7-p.4i
196 Définitions et exemples Deux cas peuvent être envisagés (mais ils conduisent à la même solution) : (a) le cas gaussien : ε ij i.i.d. N (0, σ 2 ) on emploiera la méthode du maximum de vraisemblance gaussien ; (b) le cas dit général E(ε ij ) = 0 i, j, et { σ 2 si i = k, j = l E(ε ij ε kl ) = 0 sinon on emploiera la méthode des moindres carrés. ch.7-p.5i
197 Définitions et exemples Méthode du maximum de vraisemblance sous les hypothèses gaussiennes : X ij N (µ j, σ 2 ) i = 1... n j = 1... J indépendants. La densité de X ij est donc [ 1 σ 2π exp 1 ] 2σ (X 2 ij µ j ) 2, et la vraisemblance s écrit donc L µ1...µ J ;σ 2(X X nj J) = [ 1 σ 2π exp 1 ] 2σ (X 2 ij µ j ) 2 i,j = (2πσ 2 ) n 2 exp 1 n J j (X 2σ 2 ij µ j ) 2. j=1 i=1 Maximiser (par rapport à µ 1... µ J ) la vraisemblance L µ1...µ J ;σ 2(X X nj J) Minimiser (par rapport à µ 1... µ J ) J nj j=1 i=1 (X ij µ j ) 2, ce qui, par définition même, n est rien d autre que la méthode des moindres carrés. ch.7-p.6i
198 Définitions et exemples La solution est n j µ j = X j = 1 X ij j = 1... J, n j i=1 qui est à la fois l estimateur maximum de vraisemblance (MLE) et l estimateur moindres carrés (OLS) de µ j. L estimateur µ j est la moyennes observée dans le jème niveau du traitement. Si la paramétrisation (µ, α 1,..., α J ) est préférée, on obtient µ = 1 J J X j = 1 J j=1 n J j 1 X ij. n j j=1 i=1 } {{ } X j et α j = X j µ La méthode du maximum de vraisemblance fournit également un estimateur pour σ 2, ce que ne fait pas la méthode des moindres carrés : σ 2 = 1 n n J j (X ij X j) 2 =: 1 n SC rés. j=1 i=1 } {{ } =:SC rés ch.7-p.7i
199 Définitions et exemples Propriétés des estimateurs (cas gaussien) On obtient directement (combinaison linéaire de normales indépendantes) que ) µ j = X j N (µ j, σ2 j = 1,..., J. Donc µ j est un estimateur sans biais de µ j. On peut montrer par ailleurs (sur la base des propriétés des formes quadratiques idempotentes) que n σ 2 = SC rés χ 2 n J σ 2 et que σ 2 et les µ j sont mutuellement indépendants. Pour J = 1 et J = 2, on retrouve ainsi les résultats antérieurs (problèmes à un et deux échantillons). Il en découle que, ici encore, σ 2 est un estimateur biaisé de σ 2 : on a en effet [ ] E[ σ 2 ] = E[SC rés /n] = σ2 n E SCrés = σ2 n J (n J) = σ 2 n n σ2 < σ 2. n j σ 2 Mais, on peut construire un estimateur sans biais de σ 2 : S 2 := SC rés n J = n n J σ 2. En effet, E[S 2 ] = n n J E[ σ2 ] = σ 2. ch.7-p.8i
200 Définitions et exemples La définition des variables de Student permet donc d affirmer que, pour tout j, µ j µ j σ/ n j SC rés σ 2 /(n J) = µ j µ j SCrés /n j (n J) = µ j µ j S2 /n j t n J. Ce résultat permet de construire des intervalle de confiance individuels pour les µ j, et de construire les test d hypothèses correspondants. A titre d exemple, un intervalle de confiance au niveau (1 α) pour µ 1 est [ ] 1 X 1 ± t n J;α/2 S. n 1 ch.7-p.9i
201 Définitions et exemples Exemple. Tarif 1 Tarif 2 Tarif 3 Tarif (n 1 = 6) (n 2 = 8) (n 3 = 9) (n 4 = 7) X 1 = 44 X 2 = 54.1 X 3 = 38.8 X 4 = 45.3 SC rés = (47 44) (42 44) 2 + ( ) ( ) 2 + ( ) ( ) 2 + ( ) ( ) 2 = , σ 2 = = 9.26 et S 2 = = ch.7-p.10i
202 Définitions et exemples Remarques : (i) Les variables de Student ainsi construites pour diverses valeurs de j ne sont pas mutuellement indépendantes car leurs dénominateurs font tous intervenir la même somme des carrés résiduelle. Si plusieurs intervalles de confiance sont construits simultanément, leur niveau de confiance nominal (1 α) n est correct que de façon individuelle, et non globale. (ii) La perte de J degrés de liberté dans l estimation par S 2 de la variance σ 2 correspond au fait que J moyennes µ j ont été estimées. Cette perte de degrés de liberté (le rang de la matrice idempotente qui définit S 2 est n J) est cohérente avec les résultats antérieurs : n 1 degrés de liberté dans le problème à un échantillon (J = 1), et n 2 degrés de liberté dans le problème à deux échantillons (J = 2). (iii) Si l hypothèse de normalité ne peut pas être faite (cas général ), on perd, bien entendu, les résultats sur les lois des estimateurs. Mais leurs moments ne se trouvent pas affectés : E( µ j ) = µ j, Var( µ j ) = σ2 n j j = 1,..., J et E(S 2 ) = σ 2 ch.7-p.11i
203 Plan du chapitre 7 7 Le Modèle d Analyse de la Variance à un facteur Définitions et exemples Test de l hypothèse d absence d effet-traitement ch.7-p.12i
204 Test de l hypothèse d absence d effet-traitement Le problème de test le plus courant dans ce contexte est celui de l hypothèse H 0 : µ 1 = µ 2 = = µ J ou encore ou, plus intuitivement, H 0 : α 1 = α 2 = = α J = 0 H 0 : pas d effet traitement. Formellement, le même problème s écrit : { H0 : α j = 0 j = 1... J H 1 : j : α j 0. ou encore : { H0 : µ 1 = = µ j j = 1... J H 1 : l une au moins des moyennes est différente des autres. ch.7-p.12i
205 Test de l hypothèse d absence d effet-traitement Méthode générale de construction des tests de Fisher Problème d absence d effet-traitement : cas particulier du problème du test de contraintes linéaires sur les paramètres d un modèle beaucoup plus général. Dans le cadre gaussien, une solution est fondée sur une méthode générale de construction de tests, dite méthode du rapport des vraisemblances. Cette méthode conduit à une classe de tests, dits tests de Fisher. Supposons que l hypothèse (absence d effet-facteur) H 0 : µ 1 = µ 2 = = µ J impose r = (J 1) contraintes linéaires aux J paramètres du modèle. La construction de la statistique de test s effectue en deux étapes. 1 Estimation du modèle non contraint par maximum de vraisemblance. La qualité de l ajustement est mesurée par la somme des carrés résiduels non-contraints SC rés, qui dispose de (n J) degrés de liberté. 2 Estimation du modèle contraint sous H 0 (= sous les r contraintes de H 0 ), par maximum de vraisemblance. La qualité de cet ajustement réalisé sous les contraintes est mesurée par la somme des carrés résiduels SC 0 rés ((n J + r) degrés de liberté). SC 0 rés SC rés. ch.7-p.13i
206 Test de l hypothèse d absence d effet-traitement Mesure de la détérioration dans la qualité de l ajustement attribuable à l introduction des contraintes qui forment l hypothèse : SC 0 rés SC rés 0 ((n J + r) (n J) = r degrés de liberté). Si cette détérioration est trop élevée, il est intuitivement raisonnable de l attribuer à la fausseté de l hypothèse. Cette détérioration sera mesurée de façon relative, par le rapport ( SC 0 rés SC rés ) /SCrés. Plus précisément, le test (dit test de Fisher) se présente de la façon suivante. Statistique de test : F := SC 0 rés SC rés r SC rés n J Loi sous H 0 : F F r;n J Règle de comportement : RH 0 si F > F r,n J;1 α ch.7-p.14i
207 Test de l hypothèse d absence d effet-traitement Dans ce cas particulier, le test de Fisher prend une forme particulièrement simple. 1 Estimation dans le modèle non-contraint : elle conduit, on l a vu, à la somme de carrés résiduelle SC rés = n J j (X ij X j) 2 ((n J) degrés de liberté). j=1 i=1 2 Estimation dans le modèle contraint sous H 0, µ 1 = = µ J = µ (µ R non spécifié). On dispose donc de n := J j=1 n j observations i.i.d. N (µ, σ 2 ). L estimateur maximum de vraisemblance de la moyenne commune µ est donc X = 1 n n J j X ij. j=1 i=1 La somme de carrés résiduelle correspondante est donc SC 0 rés = n J j (X ij X) 2 ((n 1) degrés de liberté). j=1 i=1 ch.7-p.15i
208 Test de l hypothèse d absence d effet-traitement On obtient donc la statistique de test F = ( J nj j=1 nj j=1 i=1 (X ij X) 2 J J nj j=1 i=1 (X ij X j) 2 /(n J) i=1 (X ij X j) 2 )/(J 1), et on rejette l hypothèse H 0 d absence d effet-traitement si F > F J 1,n J;1 α. Cette statistique s écrit de façon plus simple : décomposons SC 0 rés = = n J j (X ij X) 2 =: SC Tot (somme des carrés totale) j=1 i=1 n J j j=1 i=1 (X ij 0 { }} { X j + X j X) 2 SC rés { }} { n J j n = (X ij X J j n j) 2 + ( X j X) J j (X ij X j)( X j X). j=1 i=1 j=1 i=1 j=1 i=1 ch.7-p.16i
209 Test de l hypothèse d absence d effet-traitement Clairement, n J j ( X j X) 2 = j=1 i=1 n J j (X ij X j)( X j X) = j=1 i=1 J n j ( X j X) 2 ; j=1 n J j ( X j X) (X ij X j) = 0. } {{ } 0 La décomposition de la somme des carrés totale s écrit alors n J j (SC 0 rés = )SC Tot = (X ij X J j) 2 + n j ( X j X) 2 = SC intra + SC inter, j=1 i=1 SC inter := J j=1 n j( X j X) 2 : somme des carrés interclasse, ou entre les classes (en anglais, between treatments ou between sum of squares ) j=1 j=1 nj i=1 (X ij X j) 2 = SC rés : somme des carrés intraclasse, ou SC intra := J j=1 dans les classes (en anglais, within treatments ou within sum of squares ). i=1 et la statistique de test F prend la forme F = SC inter/(j 1) SC intra /(n J) F J 1,n J (loi sous H 0 ). ch.7-p.17i
210 Test de l hypothèse d absence d effet-traitement On a donc la décomposition (de la somme des carrés totale) (SC 0 rés =) SC Tot = SC inter + SC intra, où SC inter est expliquée par l action du facteur tandis que SC intra est liée à la variabilité de l erreur. Cette décomposition est généralement présentée dans un tableau, dit table d Analyse de la Variance, de la forme Source de variation Somme des carrés Degrés de liberté Carré moyen Traitement (facteur) SC inter J 1 Erreur SC intra n J Total SC Tot n 1 SC inter J 1 SC intra n J La statistique du test de Fisher s obtient comme rapport du carré moyen interclasse au carré moyen de l erreur (le carré moyen intraclasse) : F = SC inter/(j 1) SC intra /(n J) F J 1,n J (loi sous H 0 ). ch.7-p.18i
211 Test de l hypothèse d absence d effet-traitement Exemple (suite). Le problème du test de l absence d effet-facteur s interprète ici de la façon suivante { H0 : Les différents tarifs n ont pas d impact sur le nombre moyen SMS envoyés H 1 : Les différents tarifs ont un impact sur le nombre moyen de SMS envoyés, c est à dire {H0 : µ 1 = = µ 4 H 1 : l une au moins des moyennes est différente des autres. Tarif 1 Tarif 2 Tarif 3 Tarif (n 1 = 6) (n 2 = 8) (n 3 = 9) (n 4 = 7) X 1 = 44 X 2 = 54.1 X 3 = 38.8 X 4 = 45.3 ch.7-p.19i
212 Test de l hypothèse d absence d effet-traitement On a : X = 1 ( ) = 45.4, 30 et on avait obtenu SC rés = = SC intra. On calcule aisément SC inter = 6( ) 2 + 8( ) 2 + 9( ) 2 + 7( ) 2 = = Le Tableau d Analyse de la Variance se présente sous la forme Sources de variation Sommes de carrés Degrés de liberté Carrés moyens Traitement (facteur) Erreur Total La statistique de test F = = Or F 3;26;0.95 = On rejette H 0 à 5%. Donc, le plan tarifaire a donc un impact sur le nombre moyen de SMS envoyés. ch.7-p.20i
213 Plan du chapitre 8 8 Le Modèle d Analyse de la Variance à deux facteurs Définitions et exemples Tests d hypothèses ch.8-p.21i
214 Plan du chapitre 8 8 Le Modèle d Analyse de la Variance à deux facteurs Définitions et exemples Tests d hypothèses ch.8-p.1i
215 Définitions et exemples Modèle d Analyse de la Variance à un facteur : X ik = µ i + ε ik, ε ik i.i.d. N (0, σ 2 ), k = 1,..., n i, i = 1,..., I Ce modèle se généralise facilement à plusieurs facteurs. Supposons que ces facteurs soient au nombre de deux : I modalités du premier (le facteur-ligne) ; i = 1,..., I J modalités du second (le facteur-colonne) ; j = 1,..., J Par exemple : Quel est l impact du genre (I = 2) et du diplôme (J = 4) sur le salaire? Ce modèle à deux facteurs s écrit X ijk = µ ij + ε ijk, ε ijk i.i.d. N (0, σ 2 ), k = 1,..., n ij, i = 1,..., I, j = 1,..., J (première forme du modèle d Analyse de la Variance à deux facteur). Afin de simplifier l analyse, supposons que n ij = K pour tout i, j (nombre constant K de réplications par cellule) Le nombre total d observations est donc n = IJK. ch.8-p.1i
216 Définitions et exemples Posons µ := 1 IJ i j µ ij µ i := 1 µ ij i = 1,..., I J j µ j := 1 µ ij j = 1;..., J I (on écrit i, j, k pour I i=1, J j=1 et K k=1, respectivement). Ces quantités permettent d introduire les effets-ligne ( ) α i := µ i µ i = 1,..., I α i = 0 et effets-colonne i i β j := µ j µ j = 1,..., J : j β j = 0. ch.8-p.2i
217 Définitions et exemples En général, toutefois, µ ij µ + α i + β j Notons γ ij la différence entre µ ij et µ + α i + β j : γ ij := µ ij (µ+α i +β j ) i = 1,..., I, j = 1,..., J i γ ij = 0 j ; j γ ij = 0 i. Ces quantités γ ij, qui sont intimement associées à la conjonction de la modalité i du facteur-ligne et de la modalité j du facteur-colonne, sont appelées les interactions. On a alors µ ij = µ + α i + β j + γ ij, Modèle sous la seconde forme : X ijk = µ+α i +β j +γ ij +ε ijk, k = 1,..., n ij, i = 1,..., I, j = 1,..., J, ε ijk i.i.d. N (0, σ 2 ). ch.8-p.3i
218 Définitions et exemples Décompte des paramètres dans cette seconde forme : il y a au total 1 + I + J + IJ paramètres d intérêt : la moyenne générale µ, les effets-ligne α 1,..., α I, les effets-colonne β 1,..., β J et les interactions γ 11,..., γ IJ ; ces paramètres vérifient (2 + (I 1) + (J 1) + 1) = (I + J + 1) relations linéaires : i α i = 0, j β j = 0, i γ ij = 0 pour tout j, j γ ij = 0 pour tout i (de façon plus précise, i γ ij = 0 pour j = 1,..., J 1, j γ ij = 0 pour i = 1,..., I 1 et i j γ ij = 0 suffisent) le bilan s établit donc à (1 + I + J + IJ) (I + J + 1) = IJ, ce qui coîncide avec le nombre des paramètres d intérêt µ ij dans la première forme du modèle. A ces paramètres d intérêt vient s ajouter le paramètre de nuisance σ 2. ch.8-p.4i
219 Définitions et exemples Exemple Une entreprise de distribution aux USA a le choix entre trois stratégies publicitaires : publicité télévisée, annonces publicitaires dans la presse écrite et distribution de feuillets toutes boîtes. Afin de mettre en oeuvre dans chaque région la stratégie la plus appropriée (Côte Est, Centre, Côte Ouest), trois counties ont été sélectionnés au hasard dans ces régions, et les augmentations relatives des ventes y ont été relevées. Télévision Presse écrite Toutes-boîtes Totaux Côte Est Centre Côte Ouest Totaux ch.8-p.5i
220 Plan du chapitre 8 8 Le Modèle d Analyse de la Variance à deux facteurs Définitions et exemples Tests d hypothèses ch.8-p.6i
221 Tests d hypothèses Les hypothèses nulles considérées dans ce contexte sont de la forme : H0 A : α 1 = = α I = 0 (pas d effets-ligne) H0 B : β 1 = = β J = 0 (pas d effets-colonne) H0 AB : γ ij = 0 i, j (pas d interactions). Les versions empiriques (estimateurs maximum de vraisemblance non contraint) des µ, µ i, µ j et µ ij sont : X := 1 X ijk (moyenne générale) IJK X i := 1 JK X j := 1 IK X ij := 1 K i j k i k k X ijk j k X ijk X ijk (moyenne pour la i ème modalité du facteur-ligne) (moyenne pour la j ème modalité du facteur-colonne) (moyenne dans la cellule ij). ch.8-p.6i
222 Tests d hypothèses Ceux des α i, β j et γ ij s en déduisent : α i = µ i µ = X i X β j = µ j µ = X j X γ ij = µ ij ( µ + α i + β j ) = X ij X i X j + X. ainsi que la somme des carrés résiduelle (non contrainte) SC rés = (X ijk X ij ) 2 := i j k i j k où ε ijk sont les résidus dans le modèle non contraint. ε 2 ijk ch.8-p.7i
223 Tests d hypothèses Les estimateurs µ ij, µ A ij, µ B ij et µ AB ij des µ ij sous l impact des contraintes se déduisent de la décomposition suivante qui ne varie pas : X ijk = X ij + ε ijk = X + ( X i X) + ( X j X) + ( X ij X i X j + X) + ε ijk = µ + α i + β j + γ ij + ε ijk Sous H A 0, H B 0, et H AB 0 on obtient, respectivement, les estimations (maximum de vraisemblance sous contraintes) des µ ij µ A ij = X ij ( X i X) = X ij α i µ B ij = X ij ( X j X) = X ij β j µ AB ij = X i + X j X Pourquoi? ch.8-p.8i
224 Tests d hypothèses La décomposition ne varie pas mais ce qui varie selon l hypothèse considérée est la répartition entre estimateur de µ ij et résidu de certaines pièces de la décomposition : résidu {}}{ X ijk = X + ( X i X) + ( X j X) + ( X ij X i X j + X) + } {{ } ε ijk µ ij = X ij résidu A := résidu +( X i X) { }} { = X } + ( X j X) + ( X ij X i X j + X) + {{ } ( X i X) + ε ijk µ A ij = X ij ( X i X) résidu B := résidu +( X j X) = X + ( X i X) + ( X ij X i X j + X) { }} { + ( X j X) + ε ijk } {{ } µ B ij = X ij ( X j X) = X + ( X i X) + ( X j X) } {{ } µ AB = X ij ij ( X ij X i X j + X)= X i + X j X + résidu AB := résidu +( X ij X i X j + X) { }} { ( X ij X i X j + X) + ε ijk. ch.8-p.9i
225 Tests d hypothèses Les sommes de carrés résiduelles correspondantes (on note SCrés, A SCrés B et SCrés, AB respectivement, les sommes de carrés résiduelles sous H0 A, H0 A et H0 A ) sont donc SCrés A := (X ijk µ A ij )2 = (X ijk X ij + ( X i X)) 2 =: SC rés + SC A i j k i j k SCrés B := (X ijk µ B ij )2 = (X ijk X ij + ( X j X)) 2 =: SC rés + SC B i j k i j k SCrés AB := = i = i j (X ijk µ AB ij ) 2 j k (X ijk X ij + ( X ij X i X j + X)) 2 =: SC rés + SC AB, k où SC A := ( X i X) 2 = JK α 2 i, i j k i SC B := ( X j X) 2 = IK β j 2 i j k i SC AB := ( X ij X i X j + X) 2 = K γ ij 2. i j k i j Les doubles produits, dans ces trois expressions, s annulent : par exemple on vérifie que 2 (X ijk X ij )( X i X) = 2 ( ) (X ijk X ij ) ( X i X) = 0. i j k i j k ch.8-p.10i
226 Tests d hypothèses Ces diverses sommes de carrés apparaissent dans une décomposition de la somme des carrés totale SC Tot := i j k (X ijk X) 2 SC Tot := (X ijk X) 2 i j k = (X ijk X ij + X ij X i X j + X + X i X + X j X) 2 i j k = (X ijk X ij ) 2 (= SC rés ) i j k + ( X ij X i X j + X) 2 (= SC AB ) i j k + ( X i X) 2 (= SC A ) i j k + ( X j X) 2 (= SC B ) i j k + doubles produits =SC rés + SC A + SC B + SC AB ici encore, les doubles produits sont tous nuls. ch.8-p.11i
227 Test de l hypothèse d absence d effet-traitement Il en découle que les variations de sommes de carrés qui apparaissent aux numérateurs des statistiques de Fisher pour les trois hypothèses considérées : SCrés A SC rés = SC A SCrés B SC rés = SC B SCrés AB SC rés = SC AB. ch.8-p.12i
228 Test de l hypothèse d absence d effet-traitement Ces diverses sommes de carrés sont présentées (avec les degrés de liberté correspondants) dans un tableau d Analyse de la Variance de la forme suivante. Sources de variation Sommes de Carrés Degrés de liberté Carrés moyens Facteur-ligne SC A I 1 Facteur-colonne SC B J 1 Interaction SC AB (I 1)(J 1) Résidu (erreur) SC rés IJ(K 1) SC A I 1 SC B J 1 SC AB (I 1)(J 1) SC rés IJ(K 1) Total SC Tot IJK 1 = n 1 ch.8-p.13i
229 Test de l hypothèse d absence d effet-traitement Les tests de Fisher pour les trois problèmes de test considérés sont décrits ci-dessous. Problème de test : H0 A : absence d effets-ligne Statistique de test : SC A /I 1 F = SC rés /IJ(K 1) Loi sous H A 0 : F F I 1,IJ(K 1) Règle de comportement : RH A 0 si F > F I 1,IJ(K 1);1 α ou (p-valeur) si 1 F I 1,IJ(K 1) (F) < α ch.8-p.14i
230 Tests d hypothèses Problème de test : H0 B Statistique de test : : absence d effets-colonne F = SC B /J 1 SC rés /IJ(K 1) Loi sous H0 B : F F J 1,IJ(K 1) Règle de comportement : RH0 B si F > F J 1,IJ(K 1);1 α ou (p-valeur) si 1 F J 1,IJ(K 1) (F) < α Problème de test : H AB 0 : pas d interactions Statistique de test : F = SC AB/(I 1)(J 1) SC rés /IJ(K 1) Loi sous H AB 0 : F F (I 1)(J 1),IJ(K 1) Règle de comportement : RH AB 0 si F > F (I 1)(J 1),IJ(K 1);1 α ou (p-valeur) si 1 F (I 1)(J 1),IJ(K 1) (F) < α ch.8-p.15i
231 Tests d hypothèses Exemple (suite) Les diverses moyennes X ij, X i, X j, X prennent les valeurs ci-dessous. Stratégie publicitaire Région Télévision Presse écrite Toutes-boîtes Côte Est X11 = X12 = X13 = 18.3 X1 = Centre X21 = 5.43 X22 = 3.8 X23 = X2 = 7.23 Côte Ouest X31 = X32 = X33 = X3 = X 1 = X 2 = X 3 = X = ch.8-p.16i
232 Tests d hypothèses Il en résulte le tableau d Analyse de la Variance suivant Sources de variation Sommes de carrés d.l. Carrés moyens Région SC A = Stratégie publicitaire SC B = Interaction SC AB = Résidu ou Erreur SC rés = Total SC Tot = Test de l hypothèse H A 0 (pas d effet-région) la statistique de test prend la valeur = cette valeur est supérieure au quantile d ordre 0.99 d une F 2,18 : F 2,18;0.99 = 6.01 on rejette donc l hypothèse d absence d effet de la région (au niveau α = 1%). ch.8-p.17i
233 Tests d hypothèses Test de l hypothèse H B 0 (pas d effet-stratégie) la statistique de test prend la valeur = cette valeur est supérieure au quantile d ordre 0.99 d une F 2,18 : F 2,18;0.99 = 6.01 on rejette donc l hypothèse d absence d effet de la stratégie publicitaire (au niveau α = 1%). Test de l hypothèse H AB 0 (pas d interactions) la statistique de test prend la valeur = 8.36 cette valeur est supérieure au quantile d ordre 0.99 d une F 4,18 : F 4,18;0.99 = 4.58 on rejette donc l hypothèse d absence d interactions (au niveau α = 1%). ch.8-p.18i
234 Plan du chapitre 9 9 Modèles de régression. Le modèle linéaire général. Régression simple Estimation des paramètres Inférence relative à β 0 et β 1 La variable explicative est-elle significative? Qualité de l ajustement Régression multiple Estimation des paramètres Théorème de GAUSS-MARKOV Procédures de test ch.9-p.19i
235 Plan du chapitre 9 9 Modèles de régression. Le modèle linéaire général. Régression simple Estimation des paramètres Inférence relative à β 0 et β 1 La variable explicative est-elle significative? Qualité de l ajustement Régression multiple Estimation des paramètres Théorème de GAUSS-MARKOV Procédures de test ch.9-p.1i
236 Régression simple Le modèle La variable d intérêt Y est appelée variable dépendante La variable connue dite variable indépendante, variable explicative, régresseur ou covariable, et traitées comme des constantes (des grandeurs non aléatoires) connues. Exemple : Quels sont les facteurs expliquant les prix d inscription à un MBA (Master in Business Administration) dont l objectif est de dispenser une formation poussée à la gestion et au commerce à des jeunes cadres diplômés faisant déjà partie du monde du travail [ Which MBA? Making the right choice of Executive education par The Economist.] Variable dépendante Y : coût de l inscription ($) Variable explicative : score minimum au GMAT (critère d admission) Variable dépendante Y : coût de l inscription ($) Variable explicative : âge moyen des étudiants (AGE) Variable dépendante Y : coût de l inscription ($) Variable explicative : % d étudiants de sexe féminin (PFEM) ch.9-p.1i
237 Régression simple Echantillon : 72 MBA non-us NOM PRIX PFEM AGE GMAT Adolfo Ibanez University Al Akhawayn University Amsterdam School of Business Antwerp Management School Asian Institute of Technology Bar Ilan University Bath (University of) Business School Lausanne Business School Netherlands Cambridge (University of) CEU Graduate School of Business Chicago - Barcelona Vlerick Leuven Gent Management School Warwick (University of) Webster University - Leiden Wirtschaftsuniversitaet Wien Witwatersrand (University of) ch.9-p.2i
238 Régression simple 8 x MBA non US P Pourcentage d etudiantes ch.9-p.3i
239 Régression simple Definition Les observations Y 1,..., Y n satisfont aux hypothèses du modèle de régression simple si elles satisfont à une équation de la forme Y i = β 0 + β 1 x i + ε i i = 1,..., n x 1,..., x n sont des réels (non tous égaux entre eux) ( ) β 0 β = R 2 est un paramètre (inconnu) : le paramètre de régression, β 1 composé d une pente β 1 et d une ordonnée à l origine β 0 ε 1,..., ε n sont des variables aléatoires non observées : les "erreurs". Dans le cas dit général, on fait sur les erreurs l hypothèse que E[ε i ] = 0 i et { σ 2 i = j E[ε i ε j ] = 0 i j. Dans le cas dit gaussien, on renforce cette hypothèse en ε i i.i.d. N (0, σ 2 ), i = 1,..., n. ch.9-p.4i
240 Régression simple Remarques sur les hypothèses de Gauss-Markov Linéarité : Le modèle appartient à la classe des modèles linéaires : la moyenne de l observation Y i E[Y i ] = E[β 0 + β 1 x i + ε i ] = β 0 + β 1 x i + E[ε i ] = β 0 + β 1 x i est une fonction linéaire du paramètre β Une augmentation d une unité de x i correspond une augmentation de β 1 unités de E[Y i ]. Homoscédasticité : La variance σ 2 est la même pour toutes les observations (et ne dépend donc pas des x i ) Var(Y i ) = Var(ε i ) = σ 2 pour tout i. La violation de cette hypothèse sera appelée problème d hétéroscédasticité. Non-corrélation : Les observations sont mutuellement non corrélées (surtout important pour des séries temporelles) Cov(Y i, Y j ) = Cov(ε i, ε j ) = 0 pour tout couplei j. Cette non-corrélation se transforme en indépendance dans le cas gaussien. La violation de cette hypothèse sera appelée problème d autocorrélation. ch.9-p.5i
241 Régression simple Le modèle de régression simple (cas gaussien) : la densité de l observation Y i est une densité normale de moyenne β 0 + β 1 x i et de variance σ 2 y y = β 0 + β 1x β 0 + β 1x 3 β 0 + β 1x 2 β 0 + β 1x 1 x 1 x 2 x 3 x ch.9-p.6i
242 Régression simple Estimation des paramètres La méthode du maximum de vraisemblance s impose dans le cas gaussien. Puisque les Y i sont indépendants, et que Y i N (β 0 + β 1 x i, σ 2 ), la vraisemblance L β0,β 1,σ 2(Y) s écrit (Y := (Y 1,..., Y n) ) L β0,β 1,σ 2(Y) = (2πσ2 ) n/2 exp [ 1 2σ 2 ] n (Y i β 0 β 1 x i ) 2. i=1 L annulation des dérivées (par rapport à β 0 et β 1, d une part, à σ 2 d autre part) de log L β0,β 1,σ 2(Y) conduit (notation usuelles : x := 1 n n i=1 x i et Ȳ := 1 n n i=1 Y i) aux 3 équations de vraisemblance (exercice) : n (x i x) 2 β 1 = i=1 n (x i x)(y i Ȳ ) i=1 Ȳ = β 0 + β 1 x nσ 2 = i (Y i β 0 β 1 x i ) 2 ch.9-p.7i
243 Régression simple dont les solutions sont β 1 = β 0 = Ȳ β 1 x n i=1 (x i x)(y i Ȳ ) n i=1 (x = m 11, i x) 2 sx 2 σ 2 = 1 (Y i n β 0 β 1 x i ) 2 = 1 ε 2 i := 1 n n SC rés. i avec les notations usuelles : s 2 x = 1 n n i=1 (x i x) 2 et m 11 = 1 n n i=1 (x i x)(y i Ȳ ) Les estimateurs β 0 et β 1 sont donc les coefficient de la droite de régression (au sens des moindres carrés) de la série empirique (x i, Y i ) La droite de régression passe par le point ( x, Ȳ ) (ce qu exprime la seconde équation) σ 2 est ce qui, dans le chapitre d analyse descriptive du cours de BA1, était appelé variance résiduelle. i ch.9-p.8i
244 Régression simple Dans le cas général, la méthode des moindres carrés remplace la méthode du maximum de vraisemblance, et consiste à minimiser (par rapport à β 0 et β 1 ) la somme des carrés d écarts n (Y i β 0 β 1 x i ) 2 = i=1 n ε 2 i. Cette minimisation conduit à la même solution (pour β 0 et β 1 ) que la méthode du maximum de vraisemblance gaussien (voir dans le cours de BA1 pour la démonstration). Elle ne fournit pas d estimateur pour σ 2. La valeur obtenue pour le minimum (avec les estimateurs des moindres carrés) est SC rés. i=1 ch.9-p.9i
245 Régression simple Exemple MBA : Modèle théorique : PRIX = β 0 + β 1 PFEM + ε Estimation à partir d un échantillon de 72 MBA non US : PRIX i = β 0 + β 1 PFEM i i = 1,..., 72. L erreur réalisée par le modèle s appelle le résidu : ε i = PRIX i PRIX i i = 1,..., 72. Ecriture matricielle : Vecteur Y de dimension (72 1)et matrice X de dimension (72 2) : ( ) β 0 X =, Y =, β = β ch.9-p.10i
246 Régression simple On calcule Y i = i i i x 2 i = Y 2 i = x i = 25.45, i x i Y i = (x i x) 2 = ( ) xi x i = = , i i i (x i x)(y i Ȳ ) = ( ) x i Y i 1 x i Y i = , 72 i i i i (Y i Ȳ )2 = , i ce qui nous donne les estimations n i=1 β 1 = (x i x)(y i Ȳ ) n i=1 (x = = i x) i β 0 = Ȳ β 1 x = = ch.9-p.11i
247 Régression simple 8 x MBA non US P Pourcentage d etudiantes ch.9-p.12i
248 Régression simple Ecriture du problème sous la forme matricielle Modèle : Y = Xβ + ε La méthode des moindres carrés consiste à minimiser (par rapport à β 0 et β 1 ) la somme des carrés d écarts n n (Y i β 0 β 1 x i ) 2 = = ε ε = (Y Xβ) (Y Xβ) i=1 i=1 = Y Y β X Y Y Xβ + β X Xβ = Y Y 2β X Y + β X Xβ Pour minimiser cette quantité, nous devons la dériver par rapport à β. Or on peut facilement démontrer que : ce qui implique que ε 2 i (β X Y) = X Y β β X Xβ = 2X Xβ β (Y Xβ) (Y Xβ) = 2X Y + 2X Xβ = β = (X X) 1 X Y β ch.9-p.13i
249 Régression simple Inférence relative à β 0 et β 1 : Quelques propriétés de ( β 0, β 1 ) Non-biais : On calcule aisément que E[ β 0 ] = β 0 et E[ β 1 ] = β 1. En effet, E[ β] = E[(X X) 1 X Y] = E[(X X) 1 X (Xβ + ε)] = E[(X X) 1 X Xβ + (X X) 1 X ε] = E[β] + E[(X X) 1 X ε] = β + (X X) 1 X E[ε] = β Remarque : ainsi β = (X X) 1 X Y = (X X) 1 X (Xβ + ε) = (X X) 1 X Xβ + (X X) 1 X ε = β + (X X) 1 X ε, β β = (X X) 1 X ε. ch.9-p.14i
250 Régression simple Variance : On peut montrer facilement sous forme matricielle que : Var( β) = E[( β β)( β β) ] = E[(X X) 1 X εε X(X X) 1 ] = (X X) 1 X E[εε ]X(X X) 1 Or on sait qu on a les hypothèses suivantes : E[ε i ] = 0 i et { σ 2 i = j E[ε i ε j ] = 0 i j. Donc E[εε ] = σ 2 I n n. Ainsi, Var( β) = (X X) 1 X σ 2 I n nx(x X) 1 = σ 2 (X X) 1 X I n nx(x X) 1 = σ 2 (X X) 1 Et comme, on a que [ X X = x 1... x n ] 1 x 1 1 x n = [ n i x i i x i i x i 2 ] ch.9-p.15i
251 Régression simple Le déterminant de X X est donné par : det(x X) = n i x 2 i ( i (X X) 1 = 1 n 2 s 2 x x i ) 2 = n 2 [ 1 n où sx 2 = 1 n n i=1 (x i x) 2. Donc X X est inversible [ i x i 2 i x 2 i i x 2 i ] ( 1 x i ) 2 = n 2 sx 2 0, n i x i n Leurs variances (sous forme non matricielle) sont ainsi données par : Var( β 0 ) = σ2 i x i 2 = 1 ( n 2 sx 2 n σ2 1 + x ) 2 et Var( β sx 2 1 ) = σ2 nsx 2 Pour le paramètre de nuisance, on obtient E[ σ 2 ] = n 2 n σ2 Cet estimateur est donc biaisé, et on définit l estimateur sans biais S 2 = 1 n 2 SC rés. i ] ch.9-p.16i
252 Régression simple Lois échantillonnées exactes (cas gaussien) Dans le cas gaussien, β = (X X) 1 X Y étant une transformation linéaire du vecteur normal Y N (Xβ, σ 2 I), est également normal, de moyenne E[ β] = β et de variance Var( β) = σ 2 (X X) 1. On a donc β N ( β, σ 2 (X X) 1). Donc la loi jointe de β 0 et β 1 est asymptotiquement normale bivariée : ) (( ) ( ( β0 β 0 σ β 2 n i=1 = N, x i 2 )) n i=1 x i β 1 β 1 n 2 sx 2 n i=1 x i n On obtient ainsi les résultats suivants : β 0 N (β 0, (1 σ2 + x )) 2 n sx 2 ) β 1 N (β 1, σ2 De surcroît, on peut montrer que n σ 2 σ 2 ns 2 x = 1 σ 2 SC rés χ 2 n 2; et que le couple ( β 0, β 1 ) et l estimateur de la variance σ 2 sont indépendants. ch.9-p.17i
253 Régression simple Afin de se débarrasser du paramètre de nuisance, on peut utiliser l opération suivante : β 1 β 1 1 sx = = n = β 1 β 1 S 2 S/s x n β 1 β 1 σ sx n n σ 2 σ 2 (n 2) β 1 β 1 1 sx n n σ 2 (n 2) Donc β 1 β 1 S/s x n t n 2 Et on obtiens le résultat suivant de la même manière S β 0 β 0 1+ x2 sx 2 n t n 2. ch.9-p.18i
254 Régression simple Les résultats sur les lois échantillonnées permettent (cas gaussien) de construire des intervalle de confiance pour β 0, β 1 et σ 2 construire des tests individuels pour β 0 et β 1 (et σ 2 ). Exemple : un intervalle de confiance peut être construit pour pour β 0, et un autre pour β 1, sur base des résultats suivants : S β 0 β 0 ( ) 1+ x2 sx 2 n t n 2 et β 1 β 1 S/s x n t n 2. Une démarche en tous points semblable à celle qui a été suivie dans cas d une moyenne µ fournit, au niveau de confiance (1 α), [ ] 1 β 0 ± t n 2;α/2 S n + x 2 i (x i x) 2 et [ ] S β 1 ± t n 2;α/2 i (x. i x) 2 ch.9-p.19i
255 Régression simple Intervalle de confiance pour la valeur moyenne de Y associée à x 0 une valeur donnée de x, c est à dire pour β 0 + β 1 x 0. Puisque ( β0 β 1 ) est normale bivariée, β 0 + β 1 x 0 est normale : - moyenne : E[ β 0 + β 1 x 0 ] = β 0 + β 1 x 0 - variance : On obtient ainsi Var[ β 0 + β 1 x 0 ] = Var[ β 0 ] + x0 2 Var[ β 1 ] + 2x 0 Cov[ β 0, β 1 ] = σ2 2 x (1 + ) + x 2 σ 2 1 σ 2 n i=1 n sx 2 0 2x x i n sx 2 0 n nsx 2 = (1 σ2 + (x ) 0 x) 2. n s 2 x β 0 + β 1 x 0 (β 0 + β 1 x 0 ) t n 2 1 S (1 + (x 0 x) 2 ) n s 2 x au niveau de confiance (1 α) l intervalle de confiance pour β 0 + β 1 x 0 [ ] β 0 + β 1 1 x 0 ± t n 2;α/2 S n (1 + (x 0 x) 2 ) s 2 ch.9-p.20i
256 Régression simple Intervalle de prédiction : intervalle dans lequel se trouvera, avec probabilité (1 α), la valeur d une observation future faite pour x 0 une valeur donnée x de la variable explicative. On peut partir du fait que (notons Y cette observation future) Y = β 0 + β 1 x 0 + ε = β 0 + β [ 1 x 0 + (β 0 + β 1 x 0 ) ( β 0 + β ] 1 x 0 ) + ε où (β 0 + β 1 x 0 ) ( β 0 + β 1 x 0 ) N (0, (1 σ2 + (x )) 0 x) 2 et ε N (0, σ 2 ). n Ces deux normales sont indépendantes, car β 0 et β 1 est fonction des observations passées, et ε est une réalisation future du bruit. Donc Y ( β 0 + β 1 x 0 ) N (0, (n σ (x )) 0 x) 2 n et, par la méthode usuelle de construction des variables de Student, s 2 x Y ( β 0 + β 1 x 0 ) ( ) t n 2, 1 S n (x 0 x) 2 n sx 2 Ceci dernier résultat donne l intervalle de prédiction [ β 0 + β 1 x 0 ± t n 2;α/2 S 1 n s 2 x ( n (x 0 x) 2 s 2 x ) ]. ch.9-p.21i
257 Régression simple La variable explicative est-elle significative? L équivalent de l hypothèse d absence d effet-facteur est l hypothèse d absence d effet de la variable explicative, c est-à -dire l hypothèse de nullité de la pente β 1 : { H0 : β 1 = 0 H : β 1 0. Première approche : Test de Student. On a vu que (sous les hypothèses gaussiennes) : β 1 β 1 S/ ns 2 x t n 2 On peut donc construire le test suivant : Statistique de test : T = β 1 S/s x n Loi sous H 0 : T t n 2 Règle de comportement : RH 0 si T / [±t n 2;α/2 ]. ch.9-p.22i
258 Régression simple Cette règle de décision peut s exprimer, de façon équivalent, sous la forme RH 0 si T 2 = β 2 1 S 2 /nsx 2 > t 2 n 2;α/2 Or distrib. t n 2 = N (0, 1) χ 2n 2 /(n 2) ; donc t 2 n 2 distrib. = distrib. = (N (0, 1))2 /(n 2) χ 2 n 2 χ 2 1/1 χ 2 n 2 /(n 2) distrib. = F 1,n 2. ch.9-p.23i
259 Régression simple Le même test peut donc être décrit de la façon suivante : Statistique de test : T 2 = β 2 1 S 2 /nsx 2 Loi sous H 0 : T 2 F 1,n 2 Règle de comportement : RH 0 si T 2 > F 1,n 2;1 α. Notons que T 2 = ( 1 n n i=1 (x i x)(y i Ȳ ) s 2 x ) 2 ns2 x S 2 = ( n i=1 (x i x)(y i Ȳ )) 2 ns 2 xs 2 ch.9-p.24i
260 Régression simple Deuxième approche : Test de Fisher. La méthode générale de construction des test de Fisher s applique également dans ce cadre. Dans le modèle non contraint, on a vu que la somme des carrés résiduels vaut SC rés = n ε 2 i = i=1 n (Y i Ŷi) 2 = i=1 n (Y i β 0 β 1 x i ) 2. i=1 Dans le modèle contraint, β 1 = 0, et on a Y i = β 0 + ε i, où les ε i sont i.i.d. N (0, σ 2 ). Les Y i sont donc i.i.d. N (β 0, σ 2 ). Par conséquent, l estimateur maximum de vraisemblance contraint de β 0 est simplement la moyenne empirique Ȳ des Y i, et SC 0 rés = n (Y i Ȳ )2 =: SC Tot. i=1 La SC Tot se décompose en SC Tot = SC expl. + SC rés où SC expl. =: (SC Tot SC rés ) ch.9-p.25i
261 Régression simple Le test de Fisher a donc la forme suivante. Statistique de test : F = (SC Tot SC rés )/1 SC rés /(n 2) Loi sous H 0 : F F 1,n 2 Règle de comportement : RH 0 si F > F 1,n 2;1 α. En réalité, il s agit de la même statistique de test que plus haut (Première approche : test de Student). En effet, le dénominateur vaut et le numérateur SC rés n 2 = S2, SC Tot SC rés =: SC expl. = r 2 SC Tot = = ( i (x i x)(y i Ȳ )) 2 ns 2 x ( 1 n i (x i x)(y i Ȳ )) 2 s 2 xs 2 Y ns 2 y ch.9-p.26i
262 Régression simple Qualité de l ajustement Le coefficient de détermination est défini comme le % de la variance de la variable Y explique par la droite de régression : R 2 = SC expl. SC Tot = 1 SC n rés i=1 = 1 (Y i β 0 β 1 x i ) 2 SC n Tot i=1 (Y i Ȳ )2 Remarque : Dans le cas de la régression linéaire, on peut montrer que : R 2 = r 2. Y R2=0.93 R2=0.58 R2= X ch.9-p.27i
263 Plan du chapitre 9 9 Modèles de régression. Le modèle linéaire général. Régression simple Estimation des paramètres Inférence relative à β 0 et β 1 La variable explicative est-elle significative? Qualité de l ajustement Régression multiple Estimation des paramètres Théorème de GAUSS-MARKOV Procédures de test ch.9-p.28i
264 Régression multiple Le modèle Le modèle de régression multiple est une extension naturelle du modèle de régression simple au cas de plusieurs variables explicatives. Exemples Y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ε i Y i = β 0 + β 1 x i + β 2 x 2 i + ε i Y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i1 x i2 + β 4 x 2 i1 + β 5x 2 i2 + ε i ; La linéarité exigée par le modèle est une linéarité en les paramètres β i, pas en les covariables. Exemple : Quels sont les facteurs expliquant les prix d inscription à un MBA (Master in Business Administration)? [ Which MBA? Making the right choice of Executive education par The Economist.] Variable dépendante Y : coût de l inscription ($) Variables explicatives a) % d étudiants de sexe féminin (PFEM) b) âge moyen des étudiants (AGE) c) score minimum au GMAT (critère d admission) ch.9-p.28i
265 Régression multiple Definition Un vecteur (n 1) Y = (Y 1,..., Y n) d observations satisfait aux hypothèses du modèle de régression multiple (aux hypothèses du modèle linéaire de rang maximum) s il existe une matrice réelle (n K ) (de rang maximum K n) x 11 x 1K X =.. x n1 x nk de constantes (connues), un vecteur (K 1) β = (β 1,, β K ) R K de paramètres β = (β 1,, β K ) R K, et un vecteur aléatoire (n 1) non observable ε = (ε 1,..., ε n) tels que Y = Xβ + ε et (i) cas général : E[ε i ] = 0 et E[ε i ε j ] = { σ 2 i = j 0 i j (ii) cas gaussien : ε N (0, σ 2 I). ch.9-p.29i
266 Régression multiple Remarque 1 : On parle de modèle linéaire général car il englobe, comme cas particuliers, les modèles d Analyse de la Variance et les modèles de régression. Exemple : Analyse de la Variance à un facteur : X ij = µ i + ε ij i = 1... I j = 1... n i s écrit sous la forme : Y = Xβ + ε avec Y = (X 11,..., X 1n1, X 21,..., X I 1,nI 1, X I1,..., X I,nI ), X = (n i 1 consécutifs dans la i ème colonne), β = (µ 1,..., µ I ) et ε = (ε 11,..., ε 1n1,...,..., ε ini ). ch.9-p.30i
267 Remarque 2 Pour obtenir un terme constant dans l équation du modèle, il suffit de définir dans X une colonne de 1 : 1 x 12 x 1K X =... 1 x n2 x nk ou (en redéfinissant les indices) 1 x 11 x 1(K 1) X =... ; 1 x n1 x n(k 1) le vecteur β s écrit alors naturellement sous la forme β = (β 0, β 1,..., β (K 1) ), les dimensions de X étant n K et celles de β étant K 1. ch.9-p.31i
268 Régression multiple Estimation des paramètres Les résultats obtenus sous forme matricielle pour la régression linéaire simple restent valables pour la régression linéaire multiple (estimateur de maximum de vraisemblance dans le cas gaussien, des moindres carrés dans le cas général) : β = (X X) 1 X Y avec comme matrice de variance-covariance associée : Var( β) = σ 2 (X X) 1 De surcroît, le maximum de vraisemblance fournit en outre, pour σ 2, l estimateur σ 2 = 1 n (Y X β) (Y X β) = 1 n Y X β 2 = 1 n SC rés. ch.9-p.32i
269 Régression multiple Cas général : le Théorème de GAUSS-MARKOV Dans le cas général, la moyenne et la matrice de covariance obtenues pour β dans le cas gaussien restent correctes, mais on ne peut plus rien affirmer sur les lois échantillonnées exactes. Le théorème suivant (que nous donnons sans démonstration) vient justifier cependant le recours à l estimateur des moindres carrés. Théorème (Gauss-Markov). L estimateur des moindres carrés β est BLUE (Best Linear Unbiased), c est-à -dire que, parmi tous les estimateurs linéaires (de la forme β = M Y) et sans biais (E[ β] = β) de β, β est celui dont la variance est minimale, au sens où la différence E [ ( β β)( β β) ] E [ ( β β)( β β) ] entre les matrices de covariance de β et β est semi-définie négative ; en particulier les variances des β sont inférieures à celles des β (éléments diagonaux). ch.9-p.33i
270 Régression multiple Tests simples Pour tester la significativité d une variable explicative, on utilisera : Le test de student dans le cas gaussien L approximation normale dans le cas général Tests d hypothèses linéaires Les hypothèses linéaires sont les hypothèses nulles de la forme H 0 : Hβ = 0 où H : r K de rang r K ; une telle hypothèse place sur les valeurs du paramètre β un ensemble de r contraintes linéaires. Ces problèmes de test se traitent par la méthode générale de construction des tests de Fisher. Plus précisément, on procède selon les étapes habituelles : 1 calcul de β = estimateur maximum de vraisemblance sans contraintes, auquel correspond une somme de carrés résiduelle SC rés = Y X β 2. 2 calcul de β = estimateur maximum de vraisemblance sous contraites (les r contrainte Hβ = 0) ; il y correspond une somme de carrés résiduelle SC 0 rés = Y X β 2. ch.9-p.34i
271 Régression multiple Le test procède alors de la façon suivante : Statistique de test : F = (SC0 rés SC rés )/r SC rés /(n K ) Loi sous H 0 : F F r;n K Règle de comportement : RH 0 si F > F r;n K ;1 α. ch.9-p.35i
272 Régression multiple Un cas particulier important est le cas du test de la significativité globale du modèle. Notons (β 0 β 1 β K 1 ) = β, où β 0 est l ordonnée à l origine. L hypothèse nulle s écrit H 0 : β 1 = β 2 = = β K 1 = 0 (r = K 1 contraintes). On obtient β = (X X) 1 X Y et SC rés = Y X β 2. De même, sous H 0, β = ( β 0, 0,..., 0) = (Ȳ, 0,..., 0) et SC 0 rés = SC Tot = n (Y i Ȳ )2. i=1 La statistique de test est donc F = (SC Tot SC rés )/(K 1), SC rés /(n K ) à comparer à la valeur critique F K 1,n K ;1 α. ch.9-p.36i
273 Références I Anderson, D., Sweeney, D., et Williams, T. (2001). Statistiques pour l Economie et la Gestion. Bruxelles, De Boeck Université. Dagnelie, P. (1998). Statistique Théorique et Appliquée. Tome 2 : Inférence Statistique à Une et Deux Dimensions. Bruxelles, De Boeck Université. Dehon, C., Droesbeke, J.J., et Vermandele, C. (2007). Eléments de Statistique. Bruxelles : Editions de l Université de Bruxelles. Hasset, M.J., et Stewart, D.G. (2006). Probability for Risk Management. ACTEX Publications, Inc., Winsted, Connecticut. Isaac, R. (1995). The Pleasures of Probability. Springer, New York. ch.9-p.37i
274 Références II Stirzaker, D. (2003). Probability and Random Variables. Cambridge University Press (Virtual Publishing). Stirzaker, D. (2003). Elementary Probability. Cambridge University Press, New York. Tijms, H. (2007). Understanding Probability. Chance Rules in Everyday Life. Cambridge University Press, New York. Wackerly, D.D., Mendenhall, W., et Scheaffer, R.L. (2008). Mathematical Statistics with Applications. Duxbury Press, 7ème édition. ch.9-p.38i
Moments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Méthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Précision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7
Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Estimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Théorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Baccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Chapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Simulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison
Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence
Fonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Probabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Image d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
4 Distributions particulières de probabilités
4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli
Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Programmes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques
Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.
Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences
Les indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Filtrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Programmation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Texte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Table des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Loi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Cours de Tests paramétriques
Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Cours Fonctions de deux variables
Cours Fonctions de deux variables par Pierre Veuillez 1 Support théorique 1.1 Représentation Plan et espace : Grâce à un repère cartésien ( ) O, i, j du plan, les couples (x, y) de R 2 peuvent être représenté
Le modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Quantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Chapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
TSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Théorie de l estimation et de la décision statistique
Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014 Quelques références Decision and estimation theory
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Intégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Continuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au
Calcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Introduction à la Statistique Inférentielle
UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique
Limites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Économetrie non paramétrique I. Estimation d une densité
Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer
Modèles et Méthodes de Réservation
Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E
Chapitre 2. Eléments pour comprendre un énoncé
Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données
Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision
Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous
Correction de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
CAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Soutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
I. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Théorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : [email protected] Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
PROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Suites numériques 3. 1 Convergence et limite d une suite
Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
3. Caractéristiques et fonctions d une v.a.
3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions
M2 IAD UE MODE Notes de cours (3)
M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de
Commun à tous les candidats
EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN
Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Correction du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes
IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de
Dualité dans les espaces de Lebesgue et mesures de Radon finies
Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention
Introduction à l étude des Corps Finis
Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur
* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours
Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Baccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Le modèle de régression linéaire
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Développement décimal d un réel
4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce
Exercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Etude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Introduction à la théorie des files d'attente. Claude Chaudet [email protected]
Introduction à la théorie des files d'attente Claude Chaudet [email protected] La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux
PRIME D UNE OPTION D ACHAT OU DE VENTE
Université Paris VII - Agrégation de Mathématiques François Delarue) PRIME D UNE OPTION D ACHAT OU DE VENTE Ce texte vise à modéliser de façon simple l évolution d un actif financier à risque, et à introduire,
Le produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Température corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Travaux dirigés d introduction aux Probabilités
Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien
Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Chapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
