Probabilités & statistiques quelques brefs rappels Arthur Charpentier, 2008/2009 Master 1 Ingénierie économique et financière Master 1 Statistique & économétrie http ://blogperso.univ-rennes1.fr/arthur.charpentier/index.php/category/rappels-stat-m1-08-09 1
Plan du cours Introduction, la modélation statistique Rappels de probabilité Fonctions usuelles, P, F, f, E, V ar Lois uselles, discètes et continues Conditionnement, espérance conditionnelle et mélanges Convergence, approximations et théorèmes limites Loi(s) des grands nombres Théorème central limite Rappels de statistique (mathématique) De la statistique descriptive à la statistique mathématique Inférence et estimation ponctuelle Estimateur du maximum de vraisemblance, propriétés Estimateur des moments, propriétés Comparaison d estimateurs, quelques exemples Intervalle de confiance Théorie des tests 2
La modélisation statistique Les actions rapportent-elles plus - en moyenne - que les obligations détat, i.e. E(X) > r? Il est possible qu une banque perde la trace de transactions électroniques, i.e. P(perte) > 0.01%? Les actions en France sont plus risquées qu en Allemagne, i.e. V ar(y X = France) V ar(y X = Allemagne)? Un portefeuille d actions, de pondérations a = (a 1,, a k ) est-il efficient, i.e. V ar(a X) σ sachant que E(a X) µ? Les jeunes hommes ont-ils plus d accident que les jeunes femmes, i.e. E(Y X = homme) E(Y X = femme)? Le risque perte d exploitation est-il assurable, i.e. E(X) <? 3
La modélisation statistique Question oui/non formalisée sous forme probabiliste/statistique échantillon estimation test statistique {x 1,, x n } θ n = ϕ(x 1,, x n ) H 0 : θ 0 = κ modèle propriétés loi sous H 0 de T n probabiliste de l estimateur intervalle de confiance X i i.i.d. E( θ n ) T n [a, b] de loi F θ0 V ar( θ n ) θn [α, β] où F θ0 {F θ, θ Θ} (asymptotiques ou κ [α, β] : accepte H 0 distance finie) κ / [α, β] : rejette H 0 4
L espace de probabilité On suppose être dans un espace de probabilité (Ω, A, P). Ω est l espace fondamental, Ω = {ω i, i I} est l ensemble de tous les résultats possible d une expérience aléatoire. A est la tribu des évènements, ou l ensemble des parties de Ω, i.e. l ensemble des évènements. P est une mesure de probabilité sur Ω, i.e. P(Ω) = 1 pour tout évènement A de Ω, 0 P(A) 1, pour tous A 1,, A n disjoints (A i A j = ), P( A i ) = P(A i ). Rappelons qu une variable aléatoire X est une fonction Ω R. 5
Quelques rappels sur les fonctions usuelles Definition 1. Soit X une variable aléatoire. La fonction de répartition, cumulative distribution function (cdf) de X est F (x) = P(X x), pour tout x R. Formellement, F (x) = P({ω Ω X(ω) x}). Notons que F est une fonction croissante sur R, lim F (x) = 0 et lim x F (x) = 1. x + On dira que X et Y sont égales en loi, X L = Y si pour tout x F X (x) = P(X x) = P(Y x) = F Y (x). On appelle fonction de survie F (x) = 1 F (x) = P(X > x). 6
Sous R, pexp() ou ppois() renvoient les fonctions de répartition des lois exponentielle (E(1)) et de Poisson. Fonction de répartition 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de répartition 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 0 2 4 6 8 Fig. 1 Fonction de répartition F (x) = P(X x). 7
Quelques rappels sur les fonctions usuelles Definition 2. Soit X une variable aléatoire. La fonction quantile de X est Q(p) = F 1 (p) = inf{x R tel que F (x) > p}, pour tout p [0, 1]. Probabilité p 0.0 0.2 0.4 0.6 0.8 1.0 Valeur x 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Valeur x 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité p 8
Sous R, qexp() ou qpois() renvoient quantiles des lois exponentielle (E(1)) et de Poisson. Fonction quantile 0 1 2 3 4 5 6 Fonction quantile 0 2 4 6 8 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Fig. 2 Fonction quantile Q(p) = F 1 (p). 9
Quelques rappels sur les fonctions usuelles Definition 3. Soit X une variable aléatoire. La fonction de densité ou la fonction de probablité de X est df (x) = F (x) dans le cas continu, x R f(x) = dx P(X = x) dans le cas discret, x N F étant croissante, une densité est toujours positive. Dans le cas continu, il est possible d avoir f(x) > 1. x x Aussi, F (x) = f(s)ds dans le cas continu, F (x) = f(s) dans le cas discret. s=0 10
Sous R, dexp() ou dpois() renvoient les densités des lois exponentielle (E(1)) et de Poisson. Fonction de densité 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de densité 0.00 0.05 0.10 0.15 0.20 0 1 2 3 4 5 0 2 4 6 8 10 12 Fig. 3 Fonction de densité f(x) = F (x) ou f(x) = P(X = x). 11
P(X [a, b]) = b a f(s)ds ou b f(s). s=a Fonction de densité 0.0 0.2 0.4 0.6 0.8 1.0 Fonction de densité 0.00 0.05 0.10 0.15 0.20 0 1 2 3 4 5 0 2 4 6 8 10 12 Fig. 4 Probabilité P(X [1, 3[). 12
Quelques rappels sur les vecteurs aléatoires Definition 4. Soit Z = (X, Y ) un vecteur aléatoire. La fonction de répartition de Z est F (z) = F (x, y) = P(X x, Y y), pour tout z = (x, y) R R. Definition 5. Soit Z = (X, Y ) un vecteur aléatoire. La fonction de densité de Z est F (x, y) dans le cas continu, z = (x, y) R R f(z) = f(x, y) = x y P(X = x, Y = y) dans le cas discret, z = (x, y) N N 13
Quelques concepts sur les vecteurs aléatoires Etant donné un vecteur aléatoire Z = (X, Y ) de fonction de répartition F et de densité f, on peut en déduire les lois marginales de X (ou de Y ) en notant simplement que F X (x) = P(X x) = P(X x, Y + ) = lim F (x, y), y f X (x) = P(X = x) = f X (x) = P(X = x, Y = y) = y=0 f(x, y), dans le cas discret y=0 f(x, y)dy dans le cas continu 14
La loi conditionnelle Y X De plus, on peut définir loi conditionnelle de Y sachant X = x, dont la fonction de densité est donnée par la formule de Bayes P(Y = y X = x) = P(X = x, Y = y) P(X = x) dans le cas discret, f Y X=x (y) = f(x, y), dans le cas continu. f X (x) On peut également considérer la fonction de répartition P(Y y X = x) = y P(Y = t X = x) = t=0 y t=0 P(X = x, Y = t) P(X = x) dans le cas discret, F Y X=x (y) = x f Y X=x (t)dt = 1 f X (x) x f(x, t)dt, dans le cas continu. 15
Quelques concepts sur les vecteurs aléatoires Definition 6. Soient X et Y deux variables aléatoires. On dira que X et Y sont indépendantes si une des conditions suivantes est satisfaite F (x, y) = F X (x)f Y (y) pour tout x, y, ou P(X x, Y y) = P(X x) P(Y y), f(x, y) = f X (x)f Y (y) pour tout x, y, ou P(X = x, Y = y) = P(X = x) P(Y = y), F Y X=x (y) = F Y (y) pour tout x, y, ou f Y X=x (y) = f Y (y), F X Y =y (y) = F X (x) pour tout x, y, ou f X Y =y (y) = f X (x). On notera X Y pour signifier l indépendance. 16
Etude de l indépendance Les tableaux suivants donnent les valeurs de P(X =, Y = ) X = 0 X = 1 Y = 0 0.15 0.2 Y = 1 0.45 0.2 ooo X = 0 X = 1 Y = 0 0.15 0.1 Y = 1 0.45 0.3 Dans les deux cas, P(X = 0) = P(X = 0, Y = 0) + P(X = 0, Y = 1) = 0.15 + 0.45 = 0.6, i.e. X B(0.4) Dans le premier cas, X et Y ne sont pas indépendantes, mais le sont dans le second. 17
Notion d indépendance conditionnelle On dira que X et Y sont conditionnellement indépendantes sachant Z si pour tout z tel que P(Z z) > 0, P(X x, Y y Z = z) = P(X x Z = z) P(Y y Z = z) 18
Quelques rappels sur les moments Definition 7. Soit X une variable aléatoire. L espérance (expected value) de X est E(X) = x f(x)dx ou x P(X = x) Definition 8. Soit Z = (X, Y ) un vecteur aléatoire. L espérance de Z est E(Z) = E(X) E(Y ) x=0 Proposition 9. L espérance de Y = g(x), où X a pour densité f, est E(g(X)) = + g(x) f(x)dx. Notons que si g n est pas linéaire, E(g(X)) g(e(x)). 19
Quelques rappels sur l espérance Proposition 10. Soient X et Y deux variables aléatoires d espérance finie, E(αX + βy ) = αe(x) + βe(y ), pour tout α, β, i.e. l espérance est linéaire, E(XY ) E(X) E(Y ) de manière générale, mais l égalité est vérifié si X Y. L espérance d une variable aléatoire une un nombre réel. Exemple Considérons une loi uniforme sur [a, b], de densité f(x) = 1 1(x [a, b]), b a E(X) = xf(x)dx = 1 b xdx = 1 [ x 2 b a b a 2 = R 1 b a b 2 a 2 2 = 1 b a a (b a)(a + b) 2 ] b a = a + b 2. 20
Il existe des variables aléatoires dont l espérance n existe pas (ou est infinie). Example 11 (Paradoxe de Saint Peterbrourg). Considérons un jeu de pile ou face où les gains sont doublés à chaque lancer, et le jeu est arrêté au 1er pile. E(X) = 1 P(pile au 1er lancer) +1 2 P(1er pile au 2ème lancer) +2 2 P(1er pile au 3ème lancer) +4 2 P(1er pile au 4ème lancer) +8 2 P(1er pile au 5ème lancer) +16 2 P(1er pile au 6ème lancer) +32 2 P(1er pile au 7ème lancer) + = 1 2 + 2 4 + 4 8 + 8 16 + 16 32 + 32 64 + =. 21
L espérance conditionnelle Definition 12. Soient X et Y deux variables aléatoires. L espérance conditionnelle (conditional expectation) de Y sachant X = x est l espérance associée à la loi conditionnelle Y X = x, E(Y X = x) = y f Y X=x (y)dy ou y P(Y = y X = x). x=0 E(Y X = x) est donc fonction de x, E(Y X = x) = ϕ(x). Par abus de notation, on appellera E(Y X) la variable aléatoire ϕ(x). Proposition 13. E(Y X) étant une variable aléatoire, notons que E[E(Y X)] = E(Y ). 22
Démonstration. E (E(X Y )) = y = y = y = x = x = x E(X Y = y) P(Y = y) ( ) x P(X = x Y = y) P(Y = y) x x P(X = x Y = y) P(Y = y) x x P(Y = y X = x) P(X = x) y x P(X = x) x P(X = x) = E(X). ( ) P(Y = y X = x) y 23
Quelques rappels sur les moments Pour travailler sur le moment d ordre 2, rappelons que E(g(X)) = + g(x) f(x)dx E(g(X, Y )) = + + g(x, y) f(x, y)dxdy. Definition 14. Soit X une variable aléatoire. La variance (variance) de X est V ar(x) = E[(X E(X)) 2 ] = (x E(X)) 2 f(x)dx ou (x E(X)) 2 P(X = x). x=0 Une écriture équivalente est V ar(x) = E[X 2 ] (E[X]) 2 La variance mesure la dispersion des valeurs prises par X autour de E(X), c est un nombre réel. V ar(x) est appelé écart-type (standard deviation), ou volatilité. 24
Quelques rappels sur les moments Definition 15. Soit Z = (X, Y ) un vecteur aléatoire. La matrice de variance-covariance (variance-covariance matrix) de Z est V ar(x) Cov(X, Y ) V ar(z) = Cov(Y, X) V ar(y ) où V ar(x) = E[(X E(X)) 2 ] et Cov(X, Y ) = E[(X E(X)) (Y E(Y ))] = Cov(Y, X). Definition 16. Soit Z = (X, Y ) un vecteur aléatoire. La corrélation entre X et Y est corr(x, Y ) = cov(x, Y ) V ar(x) V ar(y ) = E[(X E(X)) (Y E(Y ))] E[(X E(X))]2 E[(Y E(Y ))] 2. 25
Quelques rappels sur la variance Proposition 17. La variance est toujours positive, et V ar(x) = 0 si et seulement si X est une constante. Proposition 18. La variance n est pas linéaire, mais V ar(αx + βy ) = α 2 V ar(x) + 2αβCov(X, Y ) + β 2 V ar(y ). Une conséquence est que V ar ( n ) X i = n Cov(X i, X j ) = n Cov(X i, X j ). i=1 i=1 V ar (X i )+ j i i=1 V ar (X i )+2 j>i Proposition 19. La variance n est pas linéaire, mais V ar(α + βx) = β 2 V ar(x). 26
Quelques rappels sur la covariance Proposition 20. Pour toutes variables aléatoires X, X 1, X 2 et Y, Cov(X, Y ) = E(XY ) E(X)E(Y ), Cov(αX 1 + βx 2, Y ) = αcov(x 1, Y ) + βcov(x 2, Y ). Cov(X, Y ) = ω Ω[X(ω) E(X)] [Y (ω) E(Y )] P(ω) Un interprétation heuristique d une covariance positive est qu il doit y avoir une majorité d évènements ω pour lesquels [X(ω) E(X)] [Y (ω) E(Y )] 0 X(ω) E(X) et Y (ω) E(Y ), i.e. X et Y prennent ensemble des grandes valeurs, X(ω) E(X) et Y (ω) E(Y ), i.e. X et Y prennent ensemble des petites valeurs. Proposition 21. Si X et Y sont indépendantes (X Y ), alors Cov(X, Y ) = 0, mais la réciproque n est généralement pas vraie. 27
La variance conditionnelle Definition 22. Soient X et Y deux variables aléatoires. La variance conditionnelle (conditional variance) de Y sachant X = x est la variance associée à la loi conditionnelle Y X = x, V ar(y X = x) = [y E(Y X = x)] 2 f Y X=x (y)dy. V ar(y X = x) est donc fonction de x, E(Y X = x) = ψ(x). Par abus de notation, on appellera V ar(y X) la variable aléatoire ψ(x). 28
Proposition 23. V ar(y X) étant une variable aléatoire, notons que V ar(y ) = V ar[e(y X)] + E[V ar(y X)], formule dite de décomposition de la variance (ou théorème de Pythagore). Démonstration. L idée est de faire un développement de la forme suivante V ar(y ) = E[(Y E(Y )) 2 ] = E[(Y E(Y X) + E(Y X) E(Y )) 2 ] = E[([Y E(Y X)] + [E(Y X) E(Y )]) 2 ] = E[([Y E(Y X)]) 2 ] + E[([E(Y X) E(Y )]) 2 ] +2E[[Y E(Y X)] [E(Y X) E(Y )]] On note alors que E[([Y E(Y X)]) 2 ] = E ( E((Y E(Y X)) 2 X) ) = E[V ar(y X)], E[([E(Y X) E(Y )]) 2 ] = E[([E(Y X) E(E(Y X))]) 2 ] = V ar[e(y X)]. Et l espérance du produit croisé est nulle (en conditionnant par X). 29
Un tout petit peu de géométrie Si L 2 désigne l ensemble des variables aléatoires de variance finie, < X, Y >= E(XY ) est un produit scalaire, X = E(X 2 ) est une norme (parfois notée 2 ). E(X) est la projection orthogonale de X sur l ensemble des constante, E(X) = argmin a R { X a 2 = E([X a] 2 )}. La corrélation est le cosinus de l angle entre X E(X) et Y E(Y ) : si corr(x, Y ) = 0 on dira que les variables sont orthogonales, X Y (et non pas indépendantes, X Y ). Si L 2 X désigne l ensemble des variables aléatoires engendrées par X (de la forme ϕ(x)) de variance finie, E(Y X) est la projection orthogonale de Y sur l ensemble L 2 X E(Y X) = argmin ϕ { Y ϕ(x) 2 = E([Y ϕ(x)] 2 )}. E(Y X) est la meilleure approximation de Y par une fonction de X. 30
L espérance conditionnelle De manière générale, E(Y X) = ϕ(x). En économétrie, on cherche à expliquer Y par X. économétrie linéaire, EL(Y X) = β 0 + β 1 X. économétrie nonlinéaire, E(Y X) = ϕ(x). ou plus gééralement on cherche à expliquer Y par X. économétrie linéaire, EL(Y X) = β 0 + β 1 X 1 + + β k X k. économétrie nonlinéaire, E(Y X) = ϕ(x) = ϕ(x 1,, X k ). En séries temporelle, on cherche à expliquer X t par X t 1, X t 2,. séries temporelles linéaires, EL(X t X t 1, X t 2, ) = β 0 + β 1 X t 1 + + β k X t k (forme autorégressive). séries temporelles nonlinéaires, E(X t X t 1, X t 2, ) = ϕ(x t 1, X t 2, ). 31
Un petit complément sur l espérance conditionnelle L espérance conditionnelle n est pas un réel, mais une variable aléatoire. Formellement, on ne conditionne pas par rapport à une variable aléatoire X, mais la tribu engendrée par X, E(Y X) = E(Y σ(x)). Plus généralement, on peut conditionner par une tribu quelconque F, qui sera interpr tée comme de l information disponible pour expliquer Y. En finance ou en séries temporelles, on dispose d une suite de variables aléatoires X 1, X 2,, X n,. On note F n l information disponible à la date n, i.e. F n = σ(x 1,, X n ), et on cherchera E(X n+1 F n ). Si E(X n+1 F n ) = X n 1, on parlera de martingale. 32
Additionner des variables aléatoires Proposition 24. Soient X et Y sont deux variables discrètes indépendantes. Alors la loi de S = X + Y est P(S = s) = P(X = k) P(Y = s k). k=0 Soient X et Y sont deux variables continues indépendantes. Alors la loi de S = X + Y est f S (s) = f X (x) f Y (s x)dx. On notera f S = f X f Y où est l opérateur de convolution. 33
Montrer que pour X positive et dans L 1 Un petit exercice E (X) = = = 0 0 P (X > x) dx (1 F (x)) dx pour une variable continue, P (X > k) pour une variable discrète. k=0 En effet, dans le cas continue, 0 (1 F (x)) dx = = 0 0 { x { f (t) } f (t) dt dx = t 0 } dx dt = 0 0 { t 0 } f (t) dx dt f (t) tdt = E (X), 34
en intervertissant les signes sommes (théorème de Tonelli). Et dans le cas discret, { } { i } P (X > k) = P (X = i) = P (X = i) k=0 = k=0 i=k+1 { P (X = i) i=1 } i 1 = k=1 en utilisant le même argument que précédemment. i=1 k=1 ip (X = i) = E (X), En fait, l intégration par partie ne peut pas être utilisé pour la raison suivante : on aurait souhaité écrire, dans le cas continue, E (X) = 0 xf (x) dx = [x (F (x) 1)] 0 i=1 (F (x) 1) dx, en dérivant x, et en prenant comme primite de f (x) F (x) 1 (afin d avoir au moins la nullité en +, sinon l intégrale de droite n aurait aucune chance de converger). Le problème est que rien ne garantie, a priori, que x (F (x) 1) 0 quand x. 0 35
Quelques rappels sur les moments On définit le moment d ordre n d une variable aléatoire X comme µ n = E[X n ], si cette valeur est finie. On notera également µ n les moments centrés (et éventuellement réduits). Certains moments sont utiles pour caractériser une variable aléatoire : Le moment d ordre un de la variable : µ = E[X] correspond à l espérance Le moment d ordre deux de la variable centrée : µ 2 = E [(X µ) 2] correspond à la variance. Le moment [ d ordre trois de la variable centrée-réduite : (X ) ] 3 µ µ 3 = E correspond au coefficient d asymétrie, la skewness. σ Le moment [ d ordre quatre de la variable centrée-réduite : (X ) ] 4 µ µ 4 = E correspond à la kurtosis. σ 36
Quelques rappels sur les lois de probabilité La loi de Bernoulli B(p), p (0, 1) P(X = 0) = 1 p et P(X = 1) = p. Alors E(X) = p et V ar(x) = p(1 p). 37
Quelques rappels sur les lois de probabilité La loi Binomiale B(n, p), p (0, 1) et n N ( n P(X = k) = k ) p k (1 p) n k où k = 0, 1,, n, ( ) n k = n! k!(n k)! Alors E(X) = np et V ar(x) = np(1 p). Notons que si X 1,, X n B(p) sont indépendantes, alors X = X 1 + + X n B(n, p). 38
Sous R, dbinom(x, size, prob), qbinom() et pbinom() désigne respectivement la fonction de répartition, la fonction quantile et la loi de probabilité. Fonction de densité 0.00 0.05 0.10 0.15 0.20 0 2 4 6 8 10 12 Fig. 5 Loi binomiale, B(n, p). 39
Quelques rappels sur les lois de probabilité La loi de Poisson P(λ), λ > 0 Alors E(X) = λ et V ar(x) = λ. P(X = k) = exp( λ) λk k! où k = 0, 1, De plus, si X 1 P(λ 1 ) et X 2 P(λ 2 ) sont deux variables indépendantes, alors X 1 + X 2 P(λ 1 + λ 2 ) On peut noter que cette loi vérifie une relation de récurence de la forme P (X = k + 1) P (X = k) = λ k + 1 pour k 1 40
Sous R, dpois(x, lambda), qpois() et ppois() désigne respectivement la fonction de répartition, la fonction quantile et la loi de probabilité. Fonction de densité 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 12 Fig. 6 Loi de Poisson, P(λ). 41
Quelques rappels sur les lois de probabilité La loi de géométrique a G(p), p ]0, 1[ P (X = k) = p (1 p) k 1 pour k = 1, 2, dont la fonction de répartition est P (N k) = 1 p k. On peut noter que cette loi vérifie une relation de récurence de la forme P (X = k + 1) P (X = k) = 1 p (= constante) pour k 1 Les premiers moments sont alors E (X) = 1 p et V ar (X) = 1 p p 2. a Il est également possible de définir cette loi sur N, et non pas comme ici sur N\ {0}. 42
Quelques rappels sur les lois de probabilité La loi exponentielle E(λ), λ > 0 F (x) = P(X x) = e λx où x 0, f(x) = λe λx. Alors E(X) = 1/λ et V ar(x) = 1/λ 2. Cette loi est parfois dite sans mémoire, i.e. P(X > x + t X > x) = P(X > t). 43
Sous R, dexp(x, rate), qexp() et pexp() désigne respectivement la fonction de répartition, la fonction quantile et la densité. Fonction de densité 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 Fig. 7 Loi exponentielle, E(λ). 44
Quelques rappels sur les lois de probabilité La loi Gaussienne (ou normale) N (µ, σ 2 ), µ R et σ > 0 ( ) 1 f(x) = exp (x µ)2 2πσ 2 2σ 2, pour x R. Alors E(X) = µ et V ar(x) = σ 2. Notons que si Z N (0, 1), X = µ + σz N (µ, σ 2 ). 45
Sous R, dnorm(x, mean, sd), qnorm() et pnorm() désigne respectivement la fonction de répartition, la fonction quantile et la densité. Fonction de densité 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Fig. 8 Loi normale, N (0, 1). 46
Sous R, dnorm(x,mean=a,sd=b) (N (a, b)). densité 0.0 0.2 0.4 0.6 0.8 1.0 µ X = 0, σ X = 1 µ Y = 2, σ Y = 0.5 2 0 2 4 Fig. 9 Densités de lois normales X N (0, 1) et X N (2, 0.5). 47
Quelques rappels sur les lois de probabilité Le vecteur Gaussien N (µ, Σ), X = (X 1,..., X n ) est un vecteur gaussien de moyenne E (X) = µ et de matrice de variance covariance Σ = E ( (X µ) (X µ) ) non dégénéré (Σ est inversible) si et seulement si sa densité s écrit f (x) = 1 (2π) n/2 det Σ exp ( 1 ) 2 (x µ) Σ 1 (x µ), x R d, ou de façon équivalente, si sa fonction caractéristique φ (t) = exp (it X), s écrit ( φ (t) = exp it µ 1 ) 2 t Σt, t R d. Proposition 25. Soit X = (X 1,..., X n ) un vecteur aléatoire à valeurs dans R d, alors X sera dit être un vecteur gaussien si et seulement si, pour tout a = (a 1,..., a n ) R d, a X = a 1 X 1 +... + a n X n est une variable gaussienne. 48
Quelques rappels sur les lois de probabilité Soit X un vecteur gaussien, alors pour tout i, X i suit une loi Gaussienne. Mais la réciproque est fausse : si les X i sont des variables gaussiennes, alors X = (X 1,..., X n ) n est pas nécessairement un vecteur gaussien. Proposition 26. Si X = (X 1,..., X n ) est un vecteur gaussien de moyenne E (X) = µ et de matrice de variance covariance Σ, et A est une matrice k n, et b R k, alors Y = AX + b est un vecteur gaussien de R k, de loi N (Aµ, AΣA ). Notons que si (X 1, X 2 ) est un vecteur gaussien, alors X 1 et X 2 sont des variables indépendantes si et seulement si cov (X 1, X 2 ) = E ((X 1 E (X 1 )) (X 2 E (X 2 ))) = 0, cette équivalence étant en général fausse dans un cadre non-gaussien. 49
Quelques rappels sur les lois de probabilité Soit X un vecteur gaussien, alors pour tout i, X i suit une loi Gaussienne. Mais la réciproque est fausse : si les X i sont des variables gaussiennes, alors X = (X 1,..., X n ) n est pas nécessairement un vecteur gaussien. Proposition 27. Si X = (X 1, X 2 ) est un vecteur gaussien de moyenne E (X) = µ = µ 1 et de matrice de variance covariance Σ = Σ 11 Σ 12, alors µ 2 Σ 21 Σ 22 X 2 X 1 = x 1 N ( µ 1 + Σ 12 Σ 1 22 (x 1 µ 2 ), Σ 11 Σ 12 Σ 1 22 Σ 21). Considérons une série temporelle définie par X t = ρx t 1 + ε t, avec X 0 = 0, ε 1,, ε n i.i.d. N (0, σ 2 ), i.e. ε = (ε 1,, ε n ) N (0, σ 2 I). Alors X = (X 1,, X n ) N (0, Σ), Σ = [Σ i,j ] = [Cov(X i, X j )] = [ρ i j ]. 50
Quelques rappels sur les lois de probabilité En dimension 2, pour un vecteur (X, Y ) centré (i.e. µ = 0) ( ( 1 f(x, y) = 2πσ x σ exp 1 x 2 y 1 ρ 2 2(1 ρ 2 ) σx 2 + y2 σy 2 2ρxy )) (σ x σ y ) où la matrice de variance-covariance Σ est Σ = σ2 x ρσ x σ y ρσ x σ y σ 2 y. 51
Densité du vecteur Gaussien, r=0.7 Densité du vecteur Gaussien, r=0.0 Densité du vecteur Gaussien, r= 0.7 Courbes de niveau du vecteur Gaussien, r= 0.7 Courbes de niveau du vecteur Gaussien, r=0.0 Courbes de niveau du vecteur Gaussien, r=0.7 Fig. 10 Les courbes de niveau du vecteur Gaussien. 52
Quelques rappels sur les lois de probabilité La loi du chi-deux χ 2 (ν), ν N admet pour densité Notons que E(X) = ν et V ar(x) = 2ν. (1/2) k/2 Γ(k/2) xk/2 1 e x/2, x [0; + [. Si X 1,, X ν N (0, 1) sont indépendantes, alors Y = ν i=1 X2 i χ2 (ν). 53
Sous R, dchisq(x, df), qchisq() et pchisq() désigne respectivement la fonction de répartition, la fonction quantile et la densité. Fonction de densité 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 Fig. 11 Loi du chi-deux, χ 2 (ν). 54
Quelques rappels sur les lois de probabilité La loi de Student St(ν), de densité f(t) = Γ( ν+1 2 ) νπ Γ( ν 2 ) ( 1 + t2 ν ) ( ν+1 2 ), où Γ désigne la fonction Gamma (Γ(n + 1) = n!). Notons que ν E(X) = 0 et V ar(x) ν 2 pour ν > 2. Si X N (0, 1) et Y χ 2 (ν) sont indépendantes, alors T = X Y/ν St(ν). 55
Quelques rappels sur les lois de probabilité Soient X 1,, X n des variables N (µ, σ 2 ) indépendantes. Posons X n = (X 1 + + X n )/n et S n 2 = 1 n 1 n ( ) 2 Xi X n. i=1 Alors (n 1)S 2 n/σ 2 suit une loi χ 2 (n 1), et on peut montrer que T = X n µ S n / n St(n 1). 56
Sous R, dt(x, df), qt() et pt() désigne respectivement la fonction de répartition, la fonction quantile et la densité. Fonction de densité 0.0 0.1 0.2 0.3 4 2 0 2 4 Fig. 12 Loi de Student, St(ν). 57
Quelques rappels sur les lois de probabilité La loi de Fischer F(d 1, d 2 ), admet pour densité f(x) = ( ) d1 /2 ( d 1 x d 1 x+d 2 1 d 1 x x B(d 1 /2, d 2 /2) d 1 x+d 2 ) d2 /2 for x 0 pour d 1, d 2 N et où B désigne la fonction beta. Notons que E(X) = d 2 d 2 2 pour d 2 > 2 et V ar(x) = 2 d2 2 (d 1 + d 2 2) d 1 (d 2 2) 2 (d 2 4) pour d 2 > 4. Si X F(ν 1, ν 2 ), alors 1 X F (ν 2, ν 1 ). Si X 1 χ 2 (ν 1 ) et X 2 χ 2 (ν 2 ) sont indépendantes, alors Y = X 1/ν 1 X 2 /ν 2 F(ν 1, ν 2 ). 58
Sous R, df(x, df1, df2), qf() et pf() désigne respectivement la fonction de répartition, la fonction quantile et la densité. Fonction de densité 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 2 4 6 8 Fig. 13 Loi de Fisher, F(d 1, d 2 ). 59
Les lois conditionnelles Mélange de deux lois de Bernoulli B(Θ) Soit Θ une variable aléatoire pouvent prendre deux valeurs, θ 1, θ 2 [0, 1] avec probabilité p 1 et p 2 (p 1 + p 2 = 1). Supposons que La loi non-conditionnelle de X est alors X Θ = θ 1 B(θ 1 ) et X Θ = θ 2 B(θ 2 ). P(X = x) = θ P(X = x, Θ = θ) = θ P(X = x Θ = θ) P(Θ = θ) = P(X = x Θ = θ 1 ) p P(X = 0) = P(X = 0 Θ = θ 1 ) p 1 +P(X = 0 Θ = θ 2 ) p 2 = (1 θ 1 )p 1 +(1 θ 2 )p 2 = 1 θ 1 p 1 P(X = 1) = P(X = 1 Θ = θ 1 ) p 1 + P(X = 1 Θ = θ 2 ) p 2 = θ 1 p 1 + θ 2 p 2 i.e. X B(θ 1 p 1 + θ 2 p 2 ). 60
Notons que E(X) = θ 1 p 1 + θ 2 p 2 = E(X Θ = θ 1 )P(Θ = θ 1 ) + E(X Θ = θ 2 )P(Θ = θ 2 ) = E(E(X Θ)) V ar(x) = [θ 1 p 1 + θ 2 p 2 ][1 θ 1 p 1 θ 2 p 2 ] = θ 2 1p 1 + θ 2 2p 2 [θ 1 p 1 + θ 2 p 2 ] 2 + [θ 1 (1 θ 1 )]p 1 + [θ 2 (1 θ 2 )]p 2 = E(X Θ = θ 1 ) 2 P(Θ = θ 1 ) + E(X Θ = θ 2 ) 2 P(Θ = θ 2 ) [E(X Θ = θ 1 )P(Θ = θ 1 ) + E(X Θ = θ 2 )P(Θ = θ 2 )] 2 + V ar(x Θ = θ 1 )P(Θ = θ 1 ) + V ar(x Θ = θ 2 )P(Θ = θ 2 ) = E([E(X Θ)] 2 ) [E(E(X Θ))] 2 +E(V ar(x Θ) } {{ } V ar(e(x Θ)) 61
Les lois conditionnelles Mélange de deux lois de Poisson P(Θ) Soit Θ une variable aléatoire pouvent prendre deux valeurs, θ 1, θ 2 [0, 1] avec probabilité p 1 et p 2 (p 1 + p 2 = 1). Supposons que X Θ = θ 1 P(θ 1 ) et X Θ = θ 2 P(θ 2 ). Alors P(X = x) = e θ 1 θ1 x x! Il ne s agit pas d une loi connue. p 1 + e θ 2 θ x 2 x! p 2, 62
Les lois conditionnelles Mélange continu de lois de Poisson P(Θ) Soit Θ une variable aléatoire à valeurs dans ]0, [, de densité u. Supposons que X Θ = θ P(θ) pour tout θ > 0 Alors De plus, P(X = x) = 0 P(X = x Θ = θ)u(θ)dθ. E(X) = E(E(X Θ)) = E(Θ) V ar(x) = V ar(e(x Θ)) + E(V ar(x Θ)) = V ar(θ) + E(Θ) > E(Θ). Remarque Les lois mélanges sont la base de la statistique bayésienne. 63
Les lois conditionnelles, mélange et hétérogénité f(x) = f(x Θ = θ 1 ) P(Θ = θ 1 ) + f(x Θ = θ 2 ) P(Θ = θ 2 ). 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 6 4 2 0 2 4 6 Fig. 14 Mélange de lois normales. 64
Les lois conditionnelles et l hétérogénéité La prise en compte de l hétérogénéité est la base des méthodes économétriques. On suppose en économétrie que Y suit une loi f θ où θ est fonction de X. économétrie linéaire, Y X = x N (β x, σ 2 ). économétrie des variables qualitatives (logit/probit), Y X = x B(ϕ[β x]). régression Poissonienne, Y X = x P(exp[β x]). E.g. Y X 1 = homme B(p h ) et Y X 1 = femme B(p f ). 65
Un peu de convergence La suite (X n ) converge presque sûrement vers X, noté X n p.s. X, si lim X n (ω) = X (ω) pour tout ω A, n où P (A) = 1. On dit aussi que (X n ) converge vers X avec probabilité 1 - on parle p.s. également de convergence trajectorielle. Notons que X n X si et seulement si ε > 0, P (lim sup { X n X > ε}) = 0. Il est aussi possible de contrôler les accroissements de la suite (X n ) : soit (ε n ) telle que n 0 P ( X n X > ε n ) < où n 0 ε n <, alors (X n ) converge presque sûrement vers X. 66
Un peu de convergence La suite (X n ) converge dans L p vers X, ou en moyenne d ordre p, noté X n L p X, si lim E ( X n X p ) = 0. n Pour p = 1 on parle de convergence en moyenne, et pour p = 2, on parle de convergence en moyenne quadratique. p.s. Supposons que X n X et qu il existe une variable aléatoire Y telle que pour n 0, X n Y P-presque sûrement, avec Y L p, alors X n L p L et X p n X (théorème dit de la convergence dominé). 67
Un peu de convergence La suite (X n ) converge en probabilité vers X, noté X n P X, si ε > 0, lim P ( X n X > ε) = 0. n Soit f : R R (ce résultat reste toutefois vrai pour des fonctions f : R p R q ) P une application continue, si X n X alors f (Xn ) P f (X). De plus, si X n p.s. X ou si X n L 1 X alors X n P X. Enfin, si Xn P X, il existe une sous-suite (X nk ) qui converge vers X presque sûrement. Attention X n P c n implique pas forcément E(Xn ) c Une condition suffisante pour que X n P a est que lim EX n = a et n lim V ar(x n) = 0 n 68
Un peu de convergence Loi forte des grands nombres On suppose que les variables X i sont i.i.d. et qu elles admettent une moyenne p.s. µ = E(X i ). Alors S n µ lorsque n. Loi faible des grands nombres On suppose que les variables X i sont i.i.d. et qu elles admettent une moyenne µ = E(X i ) finie. Alors S n = (1/n) n i=1 X i, alors S n P µ quand n +. 69
Un peu de convergence (iv) La suite (X n ) converge en loi vers X, noté X n continue bornée, lim E (f (X n)) = E (f (X)). n L X, si pour toute font f La convergence en loi est équivalente à la convergence (simple) des fonctions de L répartition : X n X si et seulement si pour tout t R où FX est continue lim F X n (t) = F X (t). n 70
Un peu de convergence Soit f : R R (ce résultat reste toutefois vrai pour des fonctions f : R p R q ) L une application continue, si X n X alors f (Xn ) L P f (X). De plus, si X n X L alors X n X (la réciproque n étant vraie que si (Xn ) converge en loi vers une constante). Théorème central limite Soient X 1, X 2... i.i.d. de moyenne µ et de variance σ 2, alors : S n E(S n ) = ( ) Sn µ L n X où X N (0, 1) V ar(sn) σ 71
Illustration de la convergence Fréquence des pile 0.0 0.2 0.4 0.6 0.8 1.0 0 10 20 30 40 50 Nombre de lancers de pile/face Fig. 15 Convergence de la moyenne empirique. 72
Illustration de la convergence Fréquence des pile 0.0 0.2 0.4 0.6 0.8 1.0 0 10 20 30 40 50 Nombre de lancers de pile/face Fig. 16 Convergence de la moyenne empirique. 73
Illustration de la convergence Fréquence des pile 0.0 0.2 0.4 0.6 0.8 1.0 0 10 20 30 40 50 Nombre de lancers de pile/face Fig. 17 Convergence en loi. 74
Illustration de la convergence Fréquence des pile 0.0 0.2 0.4 0.6 0.8 1.0 0 10 20 30 40 50 Nombre de lancers de pile/face Fig. 18 Convergence en loi. 75
Illustration de la convergence Fréquence des pile 0.0 0.2 0.4 0.6 0.8 1.0 0 10 20 30 40 50 Nombre de lancers de pile/face Fig. 19 Convergence en loi. 76
Cas de la variance infinie? Dans le cas où les X i sont variance infinie, il est possible de généraliser le théorème central limite. On cherche une normalisation (a n ) et (b n ) telles que S n a n bn L Z de loi non-dégénérée. Les lois limites sont appelées lois α-stables. 77
Convergence? Moyenne empirique 2 1 0 1 2 0 20 40 60 80 100 Taille de l'échantillon Fig. 20 Convergence de la moyenne x, cas espérance et variance finies. 78
Convergence? Moyenne empirique 5 10 15 20 25 0 20 40 60 80 100 Taille de l'échantillon Fig. 21 Convergence de la moyenne x, cas espérance finie et variance infinie. 79
Convergence? Variance empirique 0 1 2 3 4 0 20 40 60 80 100 Taille de l'échantillon Fig. 22 Convergence de la variance empirique s 2, cas variance finie. 80
Convergence? Variance empirique 0 20 40 60 80 0 20 40 60 80 100 Taille de l'échantillon Fig. 23 Convergence de la variance empirique s 2, cas variance infinie. 81
Convergence? Variance empirique 0 10 20 30 40 50 0 500 1000 1500 2000 Taille de l'échantillon Fig. 24 Convergence de la variance empirique s 2, cas variance infinie. 82
De la convergence aux approximations Proposition 28. Soit (X n ) une suite i.i.d. de variables B(n, p). Alors si L np, X n X où X P(λ), et λ = np Démonstration. Ce résultat découle de l approximation suivante, ( n )p k [1 p] n k exp[ np] [np]k k k! La loi de Poisson P(np) est une approximation de la loi Binomiale B(n, p) pour n suffisement grand, avec np (et donc p petit). En pratique l approximation est valide pour n > 30 et np < 5. 83
De la convergence aux approximations Proposition 29. Soit (X n ) une suite i.i.d. de variables B(n, p). Alors si np, [X n np]/ np(1 p) L X où X N (0, 1). En pratique l approximation est valide pour n > 30 et np > 5 et n(1 p) > 5. La loi de Normale N (np, np(1 p)) est une approximation de la loi Binomiale B(n, p) pour n suffisement grand, avec np, n(1 p). 84
De la convergence aux approximations P(X = x) 0.00 0.10 0.20 0.00 0.04 0.08 0.12 0 2 4 6 8 10 0 5 10 15 20 P(X = x) 0.00 0.04 0.08 0.00 0.02 0.04 0.06 10 20 30 40 x 20 30 40 50 60 x Fig. 25 Approximation de la de Poisson par une loi normale. 85
Lois de transformations de variables aléatoires Soit X une v.a. absolument continue de densité f(x), on cherche à connaître la densité de probabilité de Y = φ(x). Proposition 30. si la fonction φ est dérivable et bijective : La variable Y admet une densité g telle que g(y) = f(φ 1 (y)) φ (φ 1 (y)) Démonstration. 86
Exemple de transformation de variables aléatoires Proposition 31. Soit X une variable aléatoire continue de fonction de répartition F, i.e. F (x) = P(X x). Alors Y = F (X) suit une loi uniforme sur [0, 1]. Démonstration. Proposition 32. Soit X une variable aléatoire uniforme sur [0, 1] et F une fonction de répartition. Alors Y = F 1 (X) admet pour fonction de répartition F. Démonstration. Remarque Cette propriété est la base des méthodes de Monte Carlo. 87
Lois de transformations de variables aléatoires Soit (X, Y ) un couple de variables aléatoires continues, la loi du couple admet une densité de probabilité f(x, y). Soit (U, V ) = φ (X, Y ). Si on note J φ le Jacobien associé, i.e. J φ = det U/ X V/ X U/ Y V/ Y alors la loi de (U, V ) est donnée par la densité : g (u, v) = 1 J φ f ( φ 1 (u, v) ) 88
Quelques exercices? Soit (U, V ) un couple de variables aléatoires indépendantes, uniformément distribuées sur [0, 1] respectivement. Montrer que les variables X = 2 log U cos (2πV ) Y = 2 log U sin (2πV ) sont indépendantes et de même loi N (0, 1). si h est une fonction borélienne, si l on peut écrire E (h (X)) = h (x) f (x) dx = yg (y) dy alors g sera la densité de h (X). Soit h une application borélienne de R 2 dans R. ( ( )) E (h (X, Y )) = E h 2 log U cos (2πV ), 2 log U sin (2πV ) Considérons le changement de variable 89
T : (u, v) (x, y) = ( ) 2 log u cos (2πv), 2 log u sin (2πv), s inversant en ( T 1 (x, y) = (u, v) = exp [ x2 + y 2 ] 1, 2 2π arctan y ) x dont le Jabobien est x exp J = 1 2π ( x2 +y 2 2 ) y exp y x 2 +y 2 1 2π ( x2 +y 2 x x 2 +y 2 2 ) = 1 ( 2π exp x2 + y 2 ) 2 ( 0). (ce calcul permet de vérifier que le changement de variable correspond effectivement à un C 1 -difféomorphisme de [0, 1] dans R 2 ). D où finallement, ( ( )) E (h (X, Y )) = E h 2 log U cos (2πV ), 2 log U sin (2πV ) = h (x, y) 1 ( R 2π exp x2 + y 2 ) dxdy. 2 2 90
Aussi, (X, Y ) admet pour densité f (x, y) = 1 ( 2π exp x2 + y 2 ) 2 = 1 ) exp ( x2 2π 2 1 ) exp ( y2. 2π 2 Aussi, les variables X et Y sont indépendantes, et de même loi N (0, 1). 91
Lois de transformations de variables aléatoires Nous avions noté que E(g(X)) g(e(x)), ormis dans le cas où g est une application linéaire. L inégalité de Jensen permet d avoir des résultats dans certains cas, Proposition 33. Soit g une fonction convexe, alors E(g(X)) g(e(x)). Considérons le cas où X prend deux valeurs avec probabilité 1/2. 2 4 6 8 10 0 1 2 3 4 5 Fig. 26 L inégalité de Jensen, g(e(x)) versus E(g(X)). 92
L estimateur comme variable aléatoire En statistique descriptive, on construit des estimateurs comme des fonctions des valeurs de l échantillon, e.g. X = x 1 + + x n n En statistique mathématique, on suppose que x i = X i (ω), i.e. la réalisation d un variable aléatoire sous-jacente X = X 1 + + X n n X 1,..., X n étant des variables aléatoires, X devient une variable aléatoire. Exemple : supposons que nous disposons d un échantillon de n = 20 valeurs tirées suivant une loi uniforme sur [0, 1]. 93
Distribution de la moyenne d'un échantillon U([0,1]) Fréquence 0 50 100 150 200 250 300 0.457675 0.0 0.2 0.4 0.6 0.8 1.0 Fig. 27 Distribution de la moyenne de {X 1,, X 10 }, X i U([0, 1]). 94
Distribution de la moyenne d'un échantillon U([0,1]) Fréquence 0 50 100 150 200 250 300 0.567145 0.0 0.2 0.4 0.6 0.8 1.0 Fig. 28 Distribution de la moyenne de {X 1,, X 10 }, X i U([0, 1]). 95
L estimateur comme variable aléatoire Si l échantillon change, l estimateur n est pas le même. Constituons 1000 échantillons de manière aléatoire. En moyenne, l estimateur vaut 1/2. Aussi, la moyenne empirique est un estimateur sans biais de 1/2, l espérance mathématique de la loi uniforme sur [0, 1]. Cet estimateur a une variance, et aussi une loi (en l occurence une densité). Ici, la moyenne empirique suit (presque) une loi normale. 96
Modèle paramétrique On dispose d un échantillon {x 1,, x n }, de n observations indépendantes. On suppose que les x i sont des réalisations d une variable aléatoire X dont la loi F est inconnue. Le but est de déterminer F. En statistique paramétrique, on suppose que F appartient nécessairement à une famille caractérisée par un paramètre θ Θ. X suit une loi de Bernoulli, X B(p), θ = p (0, 1), X suit une loi de Poisson, X P(λ), θ = λ R +, X suit une loi normale, X N (µ, σ), θ = (µ, σ) R R +, On cherche donc une valeur de θ, notée θ, telle que l on supposera que X suit une loi F θ. Remarque On supposera souvent que Θ est un ouvert, il est délicat d estimer sur les bords. 97
On dispose d un échantillon Exemple : jeu de pile ou face {pile, pile, face, pile, face, pile, face, face, pile, face, pile, f ace} que l on interprêtera en posant X = 1 si pile 0 si face. On dispose de l échantillon {1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0} On peut supposer ici que X suite une loi binomiale, X B(p), de paramètre p inconnu (mais que l on va chercher à estimer). 98
Inférence statistique Quelle est la vraie valeur de p, que l on ne connaît pas? Quelle est la valeur de p la plus vraisemblable? Sur n lancers, la probabilité d obtenir précisément l échantillon {x 1,, x n } est P(X 1 = x 1,, X n = x n ), où X 1,, X n sont n versions indépendentes de X, supposées suivre la loi B(p). Aussi, P(X 1 = x 1,, X n = x n ) = car p x i (1 p) 1 x i = n P(X i = x i ) = i=1 p si x i vaut 1 1 p si x i vaut 0 n p x i (1 p) 1 x i, i=1 99
Inférence statistique Aussi, P(X 1 = x 1,, X n = x n ) = p n i=1 x i (1 p) n i=1 1 x i. Cette fonction, qui dépend de p mais aussi de {x 1,, x n } est appelée vraisemblance de l échantillon, et sera notée L (likelihood), L(p; x 1,, x n ) = p n i=1 x i (1 p) n i=1 1 x i. Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en déduit les vraisemblances suivante en fonction de l échantillon. 100
Valeur de p L(p; x 1,, x n ) 0.1 5.314410e-06 0.2 8.388608e-05 0.3 2.858871e-04 0.4 4.777574e-04 0.5 4.882812e-04 0.6 3.185050e-04 0.7 1.225230e-04 Vraisemblance L 0e+00 1e 04 2e 04 3e 04 4e 04 5e 04 0.8 2.097152e-05 0.9 5.904900e-07 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité p La valeur la plus vraisemblance pour p est obtenue au maximum de la vraisemblance, i.e. 0.4545. 101
Inférence statistique Peut-on utiliser la moyenne empirique? Rappelons que l on dispose de l échantillon {1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0} Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait être légitime de considérer comme estimateur de p la version empirique de E(X), i.e. x. Un estimateur naturel de p serait donc x 5/11 = 0.4545. 102
Le maximum de vraisemblance Formellement, si f θ désigne la vraie loi (inconnue) de X, df (x) la densité de X si X est continue, i.e. f θ (x) = = F (x), dx la loi de probabilité de X si X n est pas continue, i.e. f θ (x) = P(X = x), La vraisemblance s écrit, comme les X i sont i.i.d. L(θ; x 1,, x n ) = P(X 1 = x 1,, X n = x n ) = n f θ (x i ) Un estimateur naturel pour θ est obtenu au maximum de la vraisemblance, θ argmax{l(θ; x 1,, x n ), θ Θ}. i=1 Petite remarque pratique : pour toute fonction croissante h, θ argmax{h (L(θ; x 1,, x n )), θ Θ}. 103
Le maximum de vraisemblance 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 0 1 2 3 4 5 Fig. 29 Invariance de la position du maximum par transformation croissante. 104
Le maximum de vraisemblance Prenons le cas particulier de la fonction h = log θ argmax{log (L(θ; x 1,, x n )), θ Θ}. i.e. on cherche le maximum de la log-vraisemblance, qui s écrit simplement log L(θ; x 1,, x n ) = n log f θ (x i ) i=1 et pour chercher le maximum, la condition du 1er ordre impose de calculer des dérivées (et la dérivée d une somme est plus simple à calculer que la probabilité d un produit), si θl(θ; x) est dérivable. 105
Vraisemblance L 0e+00 1e 04 2e 04 3e 04 4e 04 5e 04 Log vraisemblance L 30 25 20 15 10 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité p 0.0 0.2 0.4 0.6 0.8 1.0 Probabilité p Fig. 30 Fonction de vraisemblance et de log-vraisemblance. 106
Le maximum de vraisemblance Les quations de vraisemblance sont alors condition du premier ordre si θ R k, log (L(θ; x 1,, x n )) θ = 0 θ= θ si θ R, log (L(θ; x 1,, x n )) θ = 0 θ= θ condition du second ordre si θ R k, 2 log (L(θ; x 1,, x n )) θ θ θ= θ si θ R, 2 log (L(θ; x 1,, x n )) θ est définie négative < 0 θ= θ La fonction log (L(θ; x 1,, x n )) θ vraisemblance, le score est nul. est appelé fonction score : au maximum de 107
La notion d information de Fisher Un estimateur θ de θ sera dit exhaustif s il fournit autant d information sur θ que l ensemble des observations {x 1,, x n }. L information de Fisher associée à une densité f θ, θr est ( ) 2 d I(θ) = E dθ log f θ(x) où X a pour loi f θ, I(θ) = V ar ( ) d dθ log f θ(x) ( ) d 2 = E dθ 2 log f θ(x). Notons que l information de Fisher est simplement la variance du score. Pour parle aussi d information de Fisher pour un observation unique. Dans le cas d un échantillon X 1,, X n de densité f θ, l information est I n (θ) = n I(θ). 108
Notions d efficacité et d optimalité Si θ est une estimateur sans biais de θ, alors V ar( θ) 1. Un estimateur qui ni(θ) atteint cette borne sera dit efficace. Mais la borne n est pas toujours atteignable. Un estimateur θ sans biais sera dit optimal s il est de variance minimale parmi tous les estimateurs sans biais. La notion d information de Fisher en dimension plus grande L information de Fisher est la matrice k k I = [I i,j ] où ( I i,j = E ln f θ (X) ) ln f θ (X). θ i θ j 109
Exemple de calcul d information de Fisher Soit X suivant une loi P(θ), log f θ (x) = θ + x log θ log(x!) et d2 dθ 2 log f θ(x) = x θ 2 ( ) d 2 I(θ) = E dθ 2 log f θ(x) = E ( Xθ ) 2 = 1 θ Pour une loi B(n, θ), I(θ) = n θ(1 θ) Pour une loi BN (θ, σ 2 ), I(θ) = 1 σ 2 Pour une loi BN (µ, θ), I(θ) = 1 2θ 2 110
Le maximum de vraisemblance Definition 34. Soit {x 1,, x n } un échantillon de loi f θ, où θ Θ. On appelle estimateur du maximum de vraisemblance θ n de θ θ n argmax{l(θ; x 1,, x n ), θ Θ}. Proposition 35. Sous quelques conditions techniques, θ n converge presque sûrement vers θ, θ p.s. n θ. Proposition 36. Sous quelques conditions techniques, θ n est un estimateur asymptotiquement efficace de θ, n( θn θ) L N (0, I 1 (θ)). L estimateur du maximum de vraisemblance n a aucune raison d être sans biais. 111
Le maximum de vraisemblance, cas N (µ, σ 2 ) Soit {x 1,, x n } un échantillon indépendant, distribué suivant la loi N (µ, σ 2 ), de densité ) f(x µ, σ 2 1 (x µ)2 ) = exp ( 2π σ 2σ 2. La vraisemblance est alors n f(x 1,..., x n µ, σ 2 ) = f(x i µ, σ 2 ) = ou encore i=1 f(x 1,..., x n µ, σ 2 ) = ( ) n/2 ( n 1 i=1 2πσ 2 exp (x i µ) 2 ) 2σ 2, ( ) n/2 ( n 1 i=1 2πσ 2 exp (x i x) 2 + n( x µ) 2 ) 2σ 2. 112
Le maximum de vraisemblance, cas N (µ, σ 2 ) Le maximum de vraisemblance en µ est obtenu à l aide de la condition du premier ordre, ( ( ) n/2 ( n 1 µ log i=1 2πσ 2 exp (x i x) 2 + n( x µ) 2 ) ) 2σ 2 ( ) = µ = 0 log ( 1 2πσ 2 2n( x µ) 2σ 2 = 0. qui donne µ = x = n i=1 x i/n. ) n/2 n i=1 (x i x) 2 + n( x µ) 2 2σ 2 113
La seconde condition du premier ordre s écrit ( ( 1 σ log 2πσ 2 = σ ( ( n 1 2 log 2πσ 2 ) n/2 ( n i=1 exp (x i x) 2 + n( x µ) 2 2σ 2 ) n i=1 (x i x) 2 + n( x µ) 2 ) 2σ 2 = n σ + n i=1 (x i x) 2 + n( x µ) 2 σ 3 = 0. Le maximum est alors obtenu pour σ 2 = n i=1 (x i µ) 2 /n. Par substitution de µ, on peut écrire σ 2 = 1 n n (x i x) 2 = 1 n i=1 n x 2 i 1 n 2 i=1 n i=1 ] On peut noter facilement que E [ µ] = µ, mais aussi E [ σ2 n x i x j. j=1 = n 1 n σ2. ) ) 114
Le maximum de vraisemblance, cas uniforme sur [0, θ] La densité des X i est ici f θ (x) = 1 1(0 x θ). θ La vraisemblance s écrit alors L(θ; x 1,, x n ) = 1 n θ n i=1 1(0 x i θ) = 1 θ n 1(0 inf{x i} sup{x i } θ). Cette fonction n est pas dérivable en θ, mais on note que L est maximale pour θ le plus petit possible, i.e. θ = sup{x i }. 0.000 0.001 0.002 0.003 0.004 0.0 0.5 1.0 1.5 2.0 2.5 3.0 115
Le maximum de vraisemblance Notons que l estimateur du maximum de vraisemblance n est par nécessairement unique. Supposons que {x 1,, x n } soient uniformént distribuées sur [θ, θ + 1]. Si θ = sup{x i } 1 < inf{x i } = θ + Alors tout estimateur θ [ θ, θ + ] est un estimateur du maximum de vraisemblance de θ. Enfin l estimateur du maximum de vraisemblance n est pas forcément sans biais. Dans le cas de la loi exponentielle θ = 1/x. En utilisant des propriétés de la loi inverse-gamma, onm peut montrer que E( θ) = n n 1 θ > θ. 116
Le maximum de vraisemblance, aspects numériques Pour les lois usuelles, sous R, library(mass) permet de calculer le maximum de vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,"normal") pour estimer les paramètres d une loi normale pour un échantillon x. Si on souhaite utiliser des méthodes numériques sous R, LV <- function(theta){-sum(log(dexp(x,theta)))} puis optim(2,lv) permet de calculer numériquement le maximum de la fonction de log-vraisemblance. Parfois, obtenir le maximum de la vraisemblance peut être difficile, ou impossible. On peut alors utiliser des méthodes de type Newton-Rahpson ou la méthode du score pour approcher numériquement le maximum. Soit S(x, θ) = θ log f(x, θ) la fonction score. On pose S n (θ) = n S(X i, θ). i=1 117
En faisant un développement de Taylor, de S n au voisinage de θ 0, En x = θ n, S n (x) = S n (θ 0 ) + (x θ 0 )S n(y) pour y [x, θ 0 ] S n ( θ n ) = 0 = +( θ n θ 0 )S n(y) pour y [θ 0, θ n ] Aussi, θ n = θ 0 S n(θ 0 ) S n(y) pour y [θ 0, θ n ] 118
Le maximum de vraisemblance, aspects numériques Construisons la suite (Newton-Raphson) θ (i+1) n = θ (i) n S n( θ n (i) ) S n( θ n (i) ), à partir d une valeur initiale θ (0) n bien choisie. Construisons la suite (méthode du score) θ (i+1) n = θ (i) n S n( θ n (i) ) ni( θ n (i) ), à partir d une valeur initiale θ (0) n bien choisie. 119
La méthode des moments La méthode des moments est la méthode la plus simple et la plus intuitive pour estimer un paramètre θ. Si E(X) = g(θ), on cherche θ tel que x = g( θ). Exemple Dans le cas d une loi exponentielle sur E(θ), P(X x) = 1 e θx, E(X) = 1/θ, donc θ = 1/x. Exemple Dans le cas d une loi uniforme sur [0, θ], E(X) = θ/2, donc θ = 2x. Si θ R 2, on utilise également soit V ar(x), soit E(X 2 ). 120
Quelques propri tés de l estimateur de la moyenne Proposition 37. Pour un échantillon i.i.d. de variance finie, E(X) = E(X i ) et V ar(x) = V ar(x i). n Par exemple, pour un échantillon i.i.d. suivant une loi B(p) E(X) = p et V ar(x) = p(1 p). n Proposition 38. Pour un échantillon i.i.d.suivant une loi N (µ, σ) n X µ σ N (0, 1) Démonstration. Car la somme de variables gaussiennes indépendantes est encore gaussienne. 121
Proposition 39. Pour un échantillon i.i.d. de variance finie n X µ σ N (0, 1) Démonstration. Théorème central limite. De manière générale, pour un paramètre θ R, on utilise l estimateur suivant Definition 40. Si E(X) = g(θ) avec g bijective, alors l estimateur des moments de θ est θ = g 1 (X) Dans ce cas, notons que l estimateur n est - en général - pas sans biais, E( θ) = E(g 1 (X)) g 1 (E(X)) = g 1 (E(X)) = g 1 (g(θ)) = θ. 122
Si g est linéaire, l estimateur est sans biais. Si g est convexe, l estimateur a un biais positif et si g est concave, l estimateur a un biais négatif. Néanmoins, la normalité asymptotique reste valide ( method), Proposition 41. Si un estimateur α de α est asymptotiquement normal, n( α α) N (0, σ 2 ), alors θ = ϕ( α) est un estimateur asymptotiquement normal de θ = ϕ(α), i.e. n( θ θ) = n(ϕ( α) ϕ(α)) N (0, ϕ (α)σ 2 ), Exemple : Considérons un échantillon i.i.d. {x 1,, x n } de loi exponentielle, i.e. E(X) = 1/λ. Alors θ = 1/x n. θ est un estimateur biaisé de θ, E( θ) = n θ, mais n 1 P 1 X n θ et ( n X n 1 ) L N (0, 1θ ) θ 2. 123
Soit g(x) = 1/x sur ]0, [, alors g(x n ) P g ( ) 1 θ et n ( g(x n ) g ( )) 1 θ L N ( 0, 1 ( ) ) 2 1 θ 2 g, θ aussi, θ P θ et n ( θ θ ) L N ( 0, θ 2 ). De manière encore plus générale, pour un paramètre θ R 2, on utilise l estimateur suivant Proposition 42. Si (E(X), V ar(x)) = g(θ) avec g un C 1 difféomorphisme, alors l estimateur des moments de θ est θ = g 1 (X, S 2 X) 124
Moments empiriques pour un échantillon N (µ, σ 2 ) Soit {x 1,, x n } un échantillon i.i.d. de loi N (µ, σ 2 ). la moyenne (empirique) X = 1 n X i n E(X) = µ et V ar(x) = σ2 n la variance (empirique) S 2 = 1 n E(S 2 ) = n 1 n σ2 et V ar(s 2 ) = E( S 2 ) = σ 2 et V ar( S 2 ) = i=1 n (X i X) 2 et S 2 = 1 n 1 i=1 2σ4 (n 1) 2 2(n 1) n 2 σ 4 n (X i X) 2 i=1 125
Estimateur des moments Supposons que {x 1,..., x n } soit un échantillon i.i.d. de loi Gamma, de densité f(x; α, β) = xα 1 e x/β β α Γ(α) pour x 0. On cherche à estimer θ = (α, β). Rappelons que E(X) = αβ et E(X 2 ) = β 2 α(α + 1). Aussi αβ = m 1 β 2 α(α + 1) = m 2 soit α = m 2 1 m 2 m 2 1 et β = m 2 m 2 1 m 1. Aussi, α = ˆm 2 1 ˆm 2 ˆm 2 1 ˆm 1 = X 1 + + X n n et β = ˆm 2 ˆm 2 1 ˆm 1 où et ˆm 2 = X2 1 + + X 2 n n. 126
Comparer des estimateurs Parmi les propriétés usuelles des estimateurs, sans biais, E( θ n ) = θ, convergent, θ P n θ, quand n asymptotiquement normal, n( θ θ) L N (0, σ 2 ) quand n, efficace optimal Soient T 1 et T 2 deux estimateurs sans biais, alors T 1 sera dit plus efficace que T 2 s il est de variance plus faible. Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le meilleur estimateur aura la variance la plus faible. 127
Comparer des estimateurs, biais vs. variance 0.0 0.2 0.4 0.6 0.8 1.0 2 1 0 1 2 3 4 Fig. 31 Choisir un estimateur, θ 1 versus θ 2. 128
Comparer des estimateurs, biais vs. variance θ 1 estime avec biais θ (E( θ 1 ) E(θ)), θ 2 estime sans biais θ (E( θ 2 ) = E(θ)), V ar( θ 1 ) V ar( θ 2 ). L estimateur θ 1 peut être intéressant dès lors que l on peut estimer correctement le biais. Mais le biais est souvent une fonction de θ (qui est inconnu), le biais est souvent une fonction compliquée de θ. 129
Estimation de l écart-type et de la variance Considérons le cas o u X N (µ, σ 2 ). Un estimateur naturel de σ est σ = σ 2 = 1 n (x i x) n 1 2 On peut alors montrer que i=1 E( σ) = 2 n 1 Γ(n/2) Γ([n 1]/2) σ σ Notons toutefois que σ p.s. σ et n( σ σ) L N ( 0, σ ) 2 130
Estimation de l écart-type et de la variance Biais (multiplicatif) 0.93 0.95 0.97 0.99 0 50 100 150 Taille de l'échantillon (n) Fig. 32 Biais lors de l estimation de l écart-type. 131
Exemple : la loi de Pareto Considérons la loi de Pareto, de fonction de répartition ( ) α θ F (x) = P(X x) = 1, pour x θ, θ > 0, α 0. x le maximum de vraisemblance, Le paramètre θ s estime simplement, en notant que θ = min{x 1,, x n }, et n ( ) αθ α log L(x 1,, x n, α, θ) = log i=1 dont le maximum (en α) est obtenu pour ( 1 n α = n x α+1 i = n log α + αn log θ (α + 1) i=1 log x i θ ) 1 n log x i, i=1 132
Il est possible de montrer que E( α) = n α. Posons alors n 1 ( ) 1 α 1 = n 1 n α = 1 n log x i. n 1 θ Alors De plus, E( θ) = nθα nα 1 V ar( θ) = la méthode des moments, Pour la loi de Pareto E(X) = αθ α 1 i=1 E( α 1 ) = α et V ar( α 1 ) = pour n > 1/α, et α2 n 2. nθα 2, pour n > 2/α. (nα 1)(nα 2) et V ar(x) = θ 2 α (α 1) 2, pour α > 2. (α 2) 133
Si θ est supposé connu, l estimateur des moments de α est α 2 = X X θ. Les moments asymptotiques de cet estimateur sont E( α 2 ) α et V ar( α 2 ) α(α 1)2 n(α 2). utilisation d une régression linéaire, Initiallement, la loi de Pareto a été introduite de telle sorte que le logarithme de la fonction de survie log[1 F (x)] soit une fonction linéraire de log x, i.e. log[1 F (x)] = log F (x) = β 0 + β 1 log x, soit Y i = log[1 F (X i )] = log F (X i ) = β 0 + β 1 log X i + ε i. 134
Alors l estimateur par moindres carrés de β = (β 0, β 1 ) est β 1 = α 3 = n n i=1 log X i log F (X i ) + n i=1 log X i n i=1 log F (X i) n n i=1 [log X i] 2 [ n i=1 log X i] 2 Problème F est inconnue, mais peut être remplacée par un estimateur simple et naturel, F (x) = 1 n 1(X i > x) n i=1 de telle sorte que F (X j ) vaut 1 rang(x j )/n. utilisation de quantiles empiriques, On peut parfois souhaiter que deux quantiles coincident avec des quantiles empiriques, par exemple ( ) α θ 0.10 = 1 q ( 10% 0.90 = 1 ) α θ q 90% 135
où q 10% et q 10% sont les quantiles empiriques 10% et 90% respectivement. Notons qu alors ( q90% q 10% ) α = 0.9/0.1 = 9, ce qui donne comme estimateur α 4 = utilisation de l indice de Gini, log 9 log q 90% log q 10%. Dans le cas d une loi de Pareto, G = 1 2 1 0 1 (1 u) 1 1/α du = 1 2α 1 Aussi, si γ désigne la version empirique de l indice de Gini, α 5 = 1 + γ 2γ. 136
Mise en oeuvre pratique dans le cas d une loi de Pareto Coût des sinistres 0 50 150 250 0 500 1000 1500 2000 Coût des sinistres (échelle log) 1 5 20 100 0 500 1000 1500 2000 Probabilité 0.0 0.4 0.8 Probabilité 0.0 0.4 0.8 0 50 100 150 200 250 1 2 5 10 20 50 100 200 Coût des sinistres Coût des sinistres (échelle log) Fig. 33 Coûts de sinistres incendies entreprise, au Danemark. 137
Mise en oeuvre pratique dans le cas d une loi de Pareto Probabilité de survie (échelle log) 5e 04 5e 03 5e 02 5e 01 1 2 5 10 20 50 100 200 Coût des sinistres (échelle log) Fig. 34 Coûts de sinistres incendies entreprise, au Danemark. 138
Mise en oeuvre pratique dans le cas d une loi de Pareto Log vraisemblance 4000 3800 3600 3400 0.5 1.0 1.5 2.0 Paramètre de puissance Fig. 35 Coûts de sinistres incendies entreprise, au Danemark. 139
Mise en oeuvre pratique dans le cas d une loi de Pareto L estimateur du maximum de vraisemblance vaut ici α 1 1.2707. > summary(danish) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 1.321 1.778 3.385 2.967 263.300 > quantile(danish,c(0.1,.9)) 10% 90% 1.113173 5.541526 > mean(danish) [1] 3.385088 > var(danish) [1] 72.37674 > gini(danish) [1] 0.5064539 En posant θ = min{x 1,, x n } = 1, on peut utiliser l estimateur des moments pour estimer α, α 2 = X 3.385 = X θ 3.385 1 1.4193. 140
L estimateur obtenu en faisant une régression linéaire vaut ici α 3 1.4193 Un estimateur basé sur les quantiles à 10% et 90% donne α 4 = log 9 log q 90% log q 10% = log 9 log 5.541526 log 1.113173 1.298034. Enfin, un estimateur basé sur l indice de Gini α 5 == 1 + γ 2γ 1.487257. Remarque Il est possible d utiliser n importe quelle information sur l échantillon les moments empiriques les quantiles empiriques des mesures d inégalité empiriques (Gini, Theil) des mesures de dispersion empiriques (variance, skewness) 141
Petit complément, la statistique bayésienne En statistique classique, θ est un paramètre inconnu, de l on cherche a estimer a l aide d un échantillon {x 1,, x n }, en supposant que les x i sont des réalisations indépendants de variables X i, dont la loi est F θ. Supposons que les X i N (θ, σ 2 ). Un estimateur naturel de θ, a partir de l échantillon est θ = x = x 1 + + x n. n En statistique bayésienne, Θ est un paramètre aléatoire. On se donne a priori une loi pour Θ, et on étudie la loi a posteriori, conditionnellement a X = (X 1,, X n ). Dans l exemple précédant, on suppose - par exemple - que Θ suit a priori une loi normale N (0, 1). On a ainsi X Θ N (Θ, σ 2 I) Θ N (α, β), loi a priori 142
A l aide de la famille de Bayes, on peut en d eduire la loi (non-conditionnelle) de X mais surtout la loi conditionnelle de Θ sachant X, appelée loi a posteriori.ici f(θ X = x) = f(θ, x) f(x) = f(θ) f(x Θ = θ). f(x) Afin de pouvoir méner les calculs en entiers, on peut réécrire cette expression f(θ X = x) = f(θ) f(x θ)f(θ)dθ f(x Θ = θ). En poursuivant les calculs, on peut alors obtenir simplement que ( θ X = x N ( α n β 2 + i=1 x i σ 2 )/( 1 β 2 + n σ 2 ), ( 1 β 2 + n ) σ 2 ) 1. L estimateur proposé est alors θ = E(θ X = (x 1,, x n )). 143
Distribution conditionnelle, estimation bayésienne 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 0 1 2 Fig. 36 Distribution a priori de Θ, i.e. N (0, 1) 144
Distribution conditionnelle, estimation bayésienne 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 0 1 2 Fig. 37 Distribution a posteriori de Θ sachant x 1 145
Distribution conditionnelle, estimation bayésienne 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 0 1 2 Fig. 38 Distribution a posteriori de Θ sachant x 1,, x 4 146
Distribution conditionnelle, estimation bayésienne 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 0 1 2 Fig. 39 Distribution a posteriori de Θ sachant x 1,, x 20 147
Distribution conditionnelle, estimation bayésienne 0.0 0.5 1.0 1.5 2.0 2.5 3.0 1 0 1 2 Fig. 40 Distribution a posteriori de Θ sachant x 1,, x 50 148
Les intervalles de confiance Pour l instant, nous avons essayé de trouver une valeur pour le paramètre θ. On parle alors d estimation ponctuelle. Mais cela apporte parfois peu d information, car on ne connaît pas la qualité de l estimateur. On peut alors préférer avoir un intervalle de confiance, avec un seuil de tolérance. Pour Θ R, on cherche alors IC θ = [θ, θ + ] tel que P(θ IC θ ) = 1 α avec α petit. 149
Intervalle de confiance Supposons que l on dispose d un échantillon {x 1,, x n } i.i.d. où X N (µ, σ 2 ). Rappelons que si X 1,, X n sont n variables i.i.d. de loi N (µ, σ 2 ), X 1 + + X n N ( nµ, nσ 2), et donc X = X 1 + + X n n N ) (µ, σ2. n En effet, V ar ( ) X1 + + X n n = 1 n 2 V ar(x 1 + + X n ) = nσ2 ) n 2. On peut réecrire cette formule sous la forme Z = n X µ σ N (0, 1). 150
Soit α ]0, 1[ (petit), par exemple 5% ou 10%. On cherche dans un premier temps un intervalle [a, b] tel que 95% P(Z [a, b]) = 1 α = 90% Problème : un tel intervalle n est en général pas unique. Problème : σ est en général inconnue. 151
0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Fig. 41 Intervalle [a, b] tel que P(Z [a, b]) = 90% où S N (0, 1). 152
0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Fig. 42 Intervalle [a, b] tel que P(Z [a, b]) = 90% où S N (0, 1). 153
Intervalle de confiance Quand on parlera de l intervalle de confiance de µ à un niveau de confiance 1 α (e.g. 95%), il s agira du plus petit intervallle I tel que P(µ I) = 1 α. Si u α/2 désigne le quantile de la loi N (0, 1) au niveau α/2, i.e. u α/2 = u 1 α/2 vérifie Φ(u α/2 ) = α/2 alors de Z = n X µ N (0, 1), σ on peut en déduire que P(Z [u α/2, u 1 α/2 ]) = 1 α, et donc P ( µ [ X + u α/2 σ, X + u ]) 1 α/2 σ n n = 1 α. 154
Intervalle de confiance, moyenne d un échantillon normal si α = 10%, u 1 α/2 = 1.64 et donc, avec une probabilité de 90%, X 1.64 n σ µ X + 1.64 n σ, si α = 5%, u 1 α/2 = 1.96 et donc, avec une probabilité de 95%, X 1.96 n σ µ X + 1.96 n σ, 155
Intervalle de confiance, variance d un échantillon normal Pour la variance, rappelons que s 2 = 1 n Notons que ( n (x i x) 2 = 1 n n i=1 ns 2 = n i=1 (x i x) 2 = n i=1 (x i E(X)) 2 n(x E(X)) 2 qui peut se récrire ns2 σ 2 = n i=1 x i E(X) } {{ σ } N (0,1) } {{ } loi du χ 2 (n) 2 i=1 x E(X) σ/ n } {{ } N (0,1) 2 } {{ } loi du χ 2 (1) Le théorème de Cochrane permet de conclure que ns2 σ 2 χ2 (n 1). x 2 i. ) x 2. 156
Intervalle de confiance, moyenne d un échantillon normal Il est de plus possible de montrer que X et S 2 sont indépendantes Aussi, T = n 1 X µ S = X µ σ/ n St(n 1). ns 2 (n 1)σ 2 Si t (n 1) α/2 désigne le quantile de la loi St(n 1) au niveau α/2, i.e. t (n) α/2 = t(n 1) 1 α/2 vérifie T (t(n 1) α/2 ) = α/2 alors de T = n 1 X µ s St (n 1). 157
on peut en déduire que P(T [t (n 1) α/2, t (n 1) 1 α/2 ]) = 1 α, et donc P µ X + t(n 1) α/2 σ, X + t(n 1) 1 α/2 σ n 1 n 1 = 1 α. 158
Intervalle de confiance, moyenne d un échantillon normal si n = 10 et α = 10%, u 1 α/2 = 1.833 et donc, avec une probabilité de 90%, X 1.833 n σ µ X + 1.833 n σ, si n = 10 et si α = 5%, u 1 α/2 = 2.262 et donc, avec une probabilité de 95%, X 2.262 n σ µ X + 2.262 n σ, Intervalle de confiance 0.0 0.1 0.2 0.3 0.4 IC 90% IC 95% 3 2 1 0 1 2 3 Quantiles Fig. 43 Quantiles pour n = 10, σ connue ou inconnue. 159
Intervalle de confiance, moyenne d un échantillon normal si n = 20 et α = 10%, u 1 α/2 = 1.729 et donc, avec une probabilité de 90%, X 1.729 n σ µ X + 1.729 n σ, si n = 20 et si α = 5%, u 1 α/2 = 2.093 et donc, avec une probabilité de 95%, X 2.093 n σ µ X + 2.093 n σ, Intervalle de confiance 0.0 0.1 0.2 0.3 0.4 IC 90% IC 95% 3 2 1 0 1 2 3 Quantiles Fig. 44 Quantiles pour n = 20, σ connue ou inconnue. 160
Intervalle de confiance, moyenne d un échantillon normal si n = 100 et α = 10%, u 1 α/2 = 1.660 et donc, avec une probabilité de 90%, X 1.660 n σ µ X + 1.660 n σ, si n = 100 et si α = 5%, u 1 α/2 = 1.984 et donc, avec une probabilité de 95%, X 1.984 n σ µ X + 1.984 n σ, Intervalle de confiance 0.0 0.1 0.2 0.3 0.4 IC 90% IC 95% 3 2 1 0 1 2 3 Quantiles Fig. 45 Quantiles pour n = 100, σ connue ou inconnue. 161
La lecture des tables Fonction de répartition de la loi normale X N (0, 1), P(X u) = Φ(u) = Example P(X 1, 96) = 0, 975. u 1 2π e y2 /2 dy 162
Intervalle de confiance 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Fréquence empirique Fig. 46 Intervalle de confiance pour une proportion p, n = 10. 163
Intervalle de confiance 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Fréquence empirique Fig. 47 Intervalle de confiance pour une proportion p, n = 100. 164
Les intervalles de confiance 0 10 20 30 40 50 2 1 0 1 2 Intervalle de confiance (90%) de la moyenne Fig. 48 Moyenne sur 5 tirages indépendants N (0, 1), α = 90%. 165
Les intervalles de confiance Intervalle de confiance (99%) de la moyenne 3 2 1 0 1 2 3 0 10 20 30 40 50 Fig. 49 Moyenne sur 5 tirages indépendants N (0, 1), α = 99%. 166
Un peu de tests Considérons un échantillon de taille n x 1,..., x n i.i.d. de loi F θ, de paramètre θ Θ inconnu. On suppose Θ = Θ 0 Θ 1 avec Θ 0 Θ 1 =. On cherche à test H 0 contre H 1, H 0 : θ Θ 0 H 1 : θ Θ 1 H 0 est appelée hypothèse nulle et H 1 hypothèse alternative. Au vu des observations, on prend une des décisions suivantes d 0 : θ Θ 0 d 1 : θ Θ 1 167
Un peu de tests Le lien entre la décision est la vraie valeur peut être représenté par le tableau ci-dessous H 0 vraie H 1 vraie Décision d 0 Bonne décision erreur de seconde espèce Décision d 1 erreur de première espèce Bonne décision On appelle puissance du test φ la probabilité de refuser avec raison H 0, i.e. P(d 1 Θ Θ 1 ). 168
Résumons les principaux tests usuels Considérons un test d égalité de moyenne sur un échantillon H 0 : µ = µ 0 H 0 : µ µ 0 La statistique de test est T = n x µ 0 s qui vérifie, sous H 0, T St(n 1). où s 2 = 1 n 1 n (x i x) 2, i=1 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 169
Un exemple de test classique Considérons un test d égalité de moyenne sur deux échantillons. On dispose de deux échantillons, {x 1,, x n } et {y 1,, y m }. On souhaite tester H 0 : µ X = µ Y H 0 : µ X µ Y On rajoute une hypothèse, X N (µ X, σx 2 ) et Y N (µ Y, σy 2 ( ) ( ) X N µ X, σ2 X et Y N µ Y, σ2 Y n m ), i.e. 170
0.0 0.5 1.0 1.5 2.0 1 0 1 2 171
Par indépendance entre X et Y, notons que = X Y suit une loi normale, E( ) = µ X µ Y et V ar( ) = σ2 X n + σ2 Y m Donc sous H 0, µ X µ Y = 0 et donc ( ) D N 0, σ2 X n + σ2 Y, m i.e. = X Y σ 2 X n + σ2 Y m N (0, 1). Problème σ X et σ Y sont inconnus : on les remplace par des estimateurs σ X et σ Y, X Y i.e. = St(ν), σ 2 X n + σ2 Y m où ν est une fonction (compliquée) de n 1 et n 2. 172
On se donne un seuil d acceptation α [0, 1] (e.g. 10%), on accepte H 0 si t α/2 δ t 1 α/2 on accepte H 0 si δ < t α/2 ou δ > t 1 α/2 0.0 0.1 0.2 0.3 0.4 0.5 REJET ACCEPTATION REJET 2 1 0 1 2 173
On peut se demander la probabilité p d obtenir une valueur au moins aussi grande que δ si H 0 est vraie, p = P( Z > δ H 0 vraie) = P( Z > δ Z St(ν)). 0.0 0.1 0.2 0.3 0.4 0.5 34.252 % 2 1 0 1 2 174
Sous R, t.test(x, y, alternative = c("two.sided", "less", "greater"), mu = 0, var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux chantillons x et y sont égales (mu=0), contre H 1 : µ X µ Y ("two.sided"). 0.0 0.5 1.0 1.5 2.0 2 1 0 1 2 175
0.0 0.1 0.2 0.3 0.4 0.5 REJET ACCEPTATION REJET 2 1 0 1 2 176
0.0 0.1 0.2 0.3 0.4 0.5 2.19 % 2 1 0 1 2 177
Résumons les principaux tests usuels Considérons un test d égalité de moyenne sur un échantillon H 0 : µ = µ 0 H 0 : µ µ 0 La statistique de test est T = n x µ 0 s qui vérifie, sous H 0, T St(n 1). où s 2 = 1 n 1 n (x i x) 2, i=1 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 178
Résumons les principaux tests usuels Considérons un test d égalité de moyenne sur un échantillon H 0 : µ = µ 0 H 0 : µ µ 0 La statistique de test est T = n x µ 0 s qui vérifie, sous H 0, T St(n 1). où s 2 = 1 n 1 n (x i x) 2, i=1 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 179
Résumons les principaux tests usuels Considérons un test d égalité de variance sur un échantillon H 0 : σ 2 = σ0 2 H 0 : σ 2 σ0 2 La statistique de test est T = (n 1)s2 σ 2 0 où s 2 = 1 n 1 n (x i x) 2, i=1 qui vérifie, sous H 0, T χ 2 (n 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 180
Résumons les principaux tests usuels Considérons un test d égalité de variance sur un échantillon H 0 : σ 2 = σ0 2 H 0 : σ 2 σ0 2 La statistique de test est T = (n 1)s2 σ 2 0 où s 2 = 1 n 1 n (x i x) 2, i=1 qui vérifie, sous H 0, T χ 2 (n 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 181
Résumons les principaux tests usuels Considérons un test d égalité de variance sur un échantillon H 0 : σ 2 = σ0 2 H 0 : σ 2 σ0 2 La statistique de test est T = (n 1)s2 σ 2 0 où s 2 = 1 n 1 n (x i x) 2, i=1 qui vérifie, sous H 0, T χ 2 (n 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 182
Résumons les principaux tests usuels Considérons un test d égalité de moyennes sur deux échantillons H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 La statistique de test est T = n1 n 2 [x 1 x 2 ] [µ 1 µ 2 ] n 1 + n 2 s où s 2 = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2, qui vérifie, sous H 0, T St(n 1 + n 2 2). 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 183
Résumons les principaux tests usuels Considérons un test d égalité de moyennes sur deux échantillons H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 La statistique de test est T = n1 n 2 [x 1 x 2 ] [µ 1 µ 2 ] n 1 + n 2 s où s 2 = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2, qui vérifie, sous H 0, T St(n 1 + n 2 2). 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 184
Résumons les principaux tests usuels Considérons un test d égalité de moyennes sur deux échantillons H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 La statistique de test est T = n1 n 2 [x 1 x 2 ] [µ 1 µ 2 ] n 1 + n 2 s où s 2 = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2, qui vérifie, sous H 0, T St(n 1 + n 2 2). 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 185
Résumons les principaux tests usuels Considérons un test d égalité de variances sur deux échantillons H 0 : σ1 2 = σ2 2 H 0 : σ1 σ 2 2 2 La statistique de test est T = s2 1 s 2, si s 2 1 > s 2 2, 2 qui vérifie, sous H 0, T F(n 1 1, n 2 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 186
Résumons les principaux tests usuels Considérons un test d égalité de variances sur deux échantillons H 0 : σ1 2 = σ2 2 H 0 : σ1 σ 2 2 2 La statistique de test est T = s2 1 s 2, si s 2 1 > s 2 2, 2 qui vérifie, sous H 0, T F(n 1 1, n 2 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 187
Résumons les principaux tests usuels Considérons un test d égalité de variances sur deux échantillons H 0 : σ1 2 = σ2 2 H 0 : σ1 σ 2 2 2 La statistique de test est T = s2 1 s 2, si s 2 1 > s 2 2, 2 qui vérifie, sous H 0, T F(n 1 1, n 2 1). 0.00 0.02 0.04 0.06 0.08 0.10 0 10 20 30 40 188
Résumons les principaux tests usuels Considérons un test d égalité de proportions sur deux échantillons H 0 : p 1 = p 2 H 0 : p 1 p 2 La statistique de test est T = n1 n 2 n 1 + n 2 [p 1 p 2 ] p(1 p) où p = n 1p 1 + n 2 p 2 n 1 + n 2, qui vérifie, sous H 0, T N (0, 1), pour n 1 et n 2 suffisement grands ( 30). 0.0 0.1 0.2 0.3 0.4 6 4 2 0 2 4 6 189
Un mot sur les tests d aujstement Si l on fait de l estimation paramétrique on cherche la loi qui - dans cette famille - s ajuste le mieux aux données (suivant un critère). Mais rien ne garantit que l ajustement soit bon. L idée des tests d ajustement (goodness of fit tests) est d introduire une distance entre la loi ajustée F θ une loi théorique F θ0 190
Densité 0.0 0.2 0.4 0.6 Densité 0.0 0.4 0.8 1.2 2 1 0 1 2 3 2 1 0 1 2 3 Densité 0.0 0.2 0.4 0.6 Densité 0.0 0.4 0.8 1.2 2 1 0 1 2 2 1 0 1 2 Fig. 50 Etude de l ajustement, estimation par maximum de vraisemblance. 191
Le test du chi-deux (comme test d ajustement) Les valeurs connues doivent tre rparties entre diverses classes. En supposant l indpendance des n, valeurs considres regroupes dans m classes, l effectif de chaque classe i, est une variable alatoire dfinie par la loi multinomiale. La loi de probabilit teste permet de dfinir galement pour chaque classe la probabilit p i (n i np i ) 2 np i Les effectifs mesurs tant n i, la quantit m i=1 manire, la distance entre les donnes et la loi de probabilit suppose reprsente, d une certaine 192
Test d ajustement à une loi F 0 La fonction de répartition empirique F n pour un échantillon {x 1,, x n } est F n (x) = 1 n n 1(X i x). i=1 La statistique de Kolmogorov-Smirnov pour une fonction de répartition F 0 (x) est D n = sup F n (x) F 0 (x), x R Le théorème de Glivenko-Cantelli assure que si F 0 est la (vraie) distribution de p.s. X alors D n 0. Sous R, ks.test(x,"pweibull", shape=2,scale=1) permet par exemple de tester l ajustement d une loi de Weibull de paramètres 2 et 1 pour un échantillon x. 193
Test d ajustement à une loi F 0 0.0 0.2 0.4 0.6 0.8 1.0 2 1 0 1 2 Fig. 51 Distance entre F 0 et F n 194
Test d ajustement à une loi F 0 La statistique de Cramér-von-Mises est donné par T = nw 2 = n Si x 1 x 2 x n alors T = 1 12n + n i=1 [F n (x) F 0 (x)] 2 df 0 (x) [ ] 2 2i 1 2n F 0(x i ). 195
Les tests de normalité Pour l instant, on considère un test de la forme H 0 : F = F θ0 contre H 1 : F F θ0 en introduisant une distance entre la loi ajustée F θ et une loi théorique F θ0. Parfois, on souhaite faire un test différent, de la forme suivante H 0 : F F contre H 1 : F / F, où F est une classe de lois (e.g. loi normale, loi exponentielle). 196
PP et QQ plots Deux tests d ajustement graphiques sont particulièrement utiles le PP plot (probability-probability plot), où on compare F et F 0, le QQ plot (quantile-quantile plot), où on compare F 1 et F 1 0, test d ajustement à une loi normale (F 0 N (0, 1)). Si les {x 1,, x n } étaient distribués suivant une loi N (0, 1), on devrait avoir et en particulier F (x) = 1 n F (x j ) = 1 n n 1(x i x) F 0 (x) pour tout x R, i=1 n 1(x i x j ) F 0 (x j ) pour tout j = 1,, n. i=1 Notons que F (x j ) correspond au rang de x j au sein de {x 1,, x n }, divisé par n. 197
Si (x i:n ) désigne la statistique d ordre associée min{x 1,, x n } = x 1:n x 2:n x i:n x n:n = max{x 1,, x n } on repr esente le nuage de points (appelé PP plot) {( )} i n, F 0(x i:n ) i=1,,n. Si ces points sont alignés sur la première diagonale, c est que F F 0. 198
Si les {x 1,, x n } étaient distribués suivant une loi N (0, 1), on devrait avoir F 1 (p) F 1 0 (p) pour tout p ]0, 1[, et en particulier F 1 ( j n ) = x j:n F 1 0 ( ) j n pour tout j = 1,, n. On repr esente le nuage de points (appelé PP plot) {( ( ))} j x j:n, F0 1 n j=1,,n. Si ces points sont alignés sur la première diagonale, c est que F 1 F 1 0, et donc F F 0. 199
probabilité théorique, loi N(0,1) 0.0 0.2 0.4 0.6 0.8 1.0 quantile théorique, loi N(0,1) 2 1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 probabilité empirique 2 1 0 1 2 quantile empirique Fig. 52 PP et QQ plots, cas N (0, 1). 200
probabilité théorique, loi N(0,1) 0.0 0.2 0.4 0.6 0.8 1.0 quantile théorique, loi N(0,1) 2 1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 probabilité empirique 4 2 0 2 4 quantile empirique Fig. 53 PP et QQ plots, cas N (0, 1). 201
Test de normalité La statistique de Jarque-Bera est JB = n 6 (S 2 + (K 3)2 4 ), où S est la skewness empirique, et K la kurtosis empirique S = µ 3 σ 3 = µ 3 (σ 2 ) 3/2 = ( 1 n 1 n n i=1 (x i x) 3 n i=1 (x i x) 2) 3/2 K = µ 4 σ 4 = µ 1 4 (σ 2 ) 2 = n ( Si X suit une loi normale, alors JB χ 2 (2). 1 n n i=1 (x i x) 4 n i=1 (x i x) 2) 2 202