Statistique Mathématique 2 (MATH-F-309, Chapitre #6)

Documents pareils
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Le Modèle Linéaire par l exemple :

Principe de symétrisation pour la construction d un test adaptatif

1 Complément sur la projection du nuage des individus

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Probabilités III Introduction à l évaluation d options

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Le modèle de régression linéaire

Apprentissage non paramétrique en régression

Résolution d équations non linéaires

I. Polynômes de Tchebychev

Econométrie et applications

PRIME D UNE OPTION D ACHAT OU DE VENTE

Introduction à la théorie des files d'attente. Claude Chaudet

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

3. Conditionnement P (B)

Amphi 3: Espaces complets - Applications linéaires continues

3 Approximation de solutions d équations

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Programmation linéaire et Optimisation. Didier Smets

Pierre Thérond Année universitaire

Chapitre 2 Le problème de l unicité des solutions

Espérance conditionnelle

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Intégration et probabilités TD1 Espaces mesurés Corrigé

2008/03. La concentration des portefeuilles : perspective générale et illustration

Programmation Linéaire - Cours 1

L Econométrie des Données de Panel

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Simulation de variables aléatoires

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Moments des variables aléatoires réelles

Calcul fonctionnel holomorphe dans les algèbres de Banach

Le modèle de Black et Scholes

NON-LINEARITE ET RESEAUX NEURONAUX

Etude de fonctions: procédure et exemple

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

MÉTHODE DE MONTE CARLO.

Image d un intervalle par une fonction continue

Programmes des classes préparatoires aux Grandes Ecoles

Introduction à l étude des Corps Finis

Leçon N 4 : Statistiques à deux variables

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Cours 02 : Problème général de la programmation linéaire

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

C algèbre d un certain groupe de Lie nilpotent.

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

DOCM Solutions officielles = n 2 10.

Chapitre 3. Les distributions à deux variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Intégration sur des espaces produits

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Méthodes de Simulation

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Calcul différentiel sur R n Première partie

Analyse de la variance Comparaison de plusieurs moyennes

Sur certaines séries entières particulières

Cours 9 : Plans à plusieurs facteurs

MATHÉMATIQUES FINANCIÈRES I

STATISTIQUES. UE Modélisation pour la biologie

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Introduction à la Statistique Inférentielle

Dualité dans les espaces de Lebesgue et mesures de Radon finies

La sophistication de la gestion des risques génère elle-même des risques

M2 IAD UE MODE Notes de cours (3)

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

MODELE A CORRECTION D ERREUR ET APPLICATIONS

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Notes de cours Statistique avec le logiciel R

Le produit semi-direct

Température corporelle d un castor (une petite introduction aux séries temporelles)

Construction d un cercle tangent à deux cercles donnés.

Econométrie La régression linéaire simple et multiple

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes


AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Calcul Stochastique pour la finance. Romuald ELIE

4. Martingales à temps discret

Cours de méthodes de scoring

Dossier Logique câblée pneumatique

Suites numériques 3. 1 Convergence et limite d une suite

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

Fonctions de plusieurs variables

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Théorie et codage de l information

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Modèles et Méthodes de Réservation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Intégration et probabilités TD1 Espaces mesurés

Transcription:

Statistique Mathématique 2 (MATH-F-309, Chapitre #6) Thomas Verdebout Université Libre de Bruxelles 2015/2016

Plan du cours 1. Vecteurs aléatoires. 2. Loi normale multivariée. 3. Inférence dans les modèles gaussiens. 4. Méthodes classiques de l analyse multivariée. 5. Données directionelles. 6. Modèle linéaire

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

L hypothèse linéaire Définition Soit Y un n-vecteur aléatoire avec EY = µ. Un modèle linéaire de dimension k est une hypothèse pour µ de la forme H 0 : µ L, où L est un sous-espace linéaire de R n avec dim(l) = k. Pour une base donnée X = (x 1,..., x k ) de L, ceci veut donc dire que sous H 0 il existe un vecteur de coefficients β = (β 1,..., β k ) tel que Autrement exprimé, µ = k β ix i = Xβ. i=1 Y = Xβ + ε, où Eε = 0 (et assez souvent on suppose que Var(ε) = σ 2 I n).

L hypothèse linéaire Il est à remarquer que d après la manière dont ce modèle est défini, on ne l attribue en général pas au domaine de l analyse multivariée. La raison en est que Y = (Y 1,..., Y n) constitue notre échantillon (univarié). Il existe aussi une version multivariée du modèle linéaire général. Alors les Y i des p-vecteurs aléatoires et nous avons une hypothèse de la forme où M R n p, X R n q et B R q p. EY = M = XB, sont

L hypothèse linéaire Exemples. Les Y i sont i.i.d. de moyenne µ. Alors X = (1,..., 1) et β = µ. L estimation et l inférence se réduisent à des procédures bien connues. La moyenne de Y i dépend de plusieurs variables (connues) (variables indépendantes, régresseurs) x 1,..., x k de façon linéaire: Y i = x 1iβ 1 + x 2iβ 2 + + x ki β k + ε i.

L hypothèse linéaire Principaux objectifs: Estimer les paramètres inconnus β (ou µ respectivement) et σ 2 si Var(ε) = σ 2 I n. Etablir la distribution des paramètres quand Y est un vecteur multinormal. Tester différentes hypothèses pour β (ou µ respectivement). P.ex. β l = 0 v.s. β l 0 ou β 1 = β 2 = = β k v.s. ils ne sont pas tous égaux ou µ L 2 v.s. µ L 1\L 2... Verifier si le modèle est approprié.

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

MLE Supposons que Y N n(µ, σ 2 I n). Alors la fonction de vraisemblance est donnée par ( ) n ( 1 l(µ, σ Y ) = exp 1 ) 2πσ 2 2σ (Y 2 µ) (Y µ) ( ) n ( 1 = exp 1 ) 2πσ 2 2σ Y 2 µ 2. Si le modèle linéaire tient pour Y N n(xβ, σ 2 I n) alors le MLE pour (β, σ 2 ) équivaut à ( ) n ( ( ˆβ, ˆσ 2 1 ) = argmax β,σ 2 exp 1 ) 2πσ 2 2σ Y 2 Xβ 2.

MLE Notons que ( ˆβ, ˆσ 2 ) = argmax β,σ 2 = argmin β,σ 2 ( ) n ( 1 exp 1 2πσ 2 2σ 2 Y Xβ 2 ) ( n 2 log(σ2 ) + 1 2σ 2 Y Xβ 2 ). Si nous fixons σ 2 pour le moment, alors nous devons trouver ˆβ = argmin β Y Xβ 2. En posant Y Xβ 2 / β = 0, on obtient facilement (exercice) que ˆβ = (X X) 1 X Y.

MLE Afin d obtenir ˆσ 2 nous déterminons argmin s>0 ( n log(s) 2 Des calculs directs (exercice) montrent que + 1 2s Y X ˆβ 2 ) ˆσ 2 = 1 n Y X ˆβ 2..

MLE Théorème Supposons qu on a un modèle linéaire de la forme Y N n(xβ, σ 2 I n). Alors le MLE est donné par ˆβ = (X X) 1 X Y et ˆσ 2 = 1 n Y X ˆβ 2. Le maximum de la vraisemblance est donné par ( ) 1 n/2 (ˆσ ) 2 n/2. 2πe

MLE Remarque. Les estimateurs ˆβ = (X X) 1 X Y et ˆσ 2 = 1 n Y X ˆβ 2 ne sont pas sans intérêt quand Y n est pas normalement distribué. L estimateur ˆβ est aussi appelé estimateur des moindres carrés. Le vecteur ˆε := Y X ˆβ est appelé vecteur des résidus. Nous notons la somme des carrés des résidus. SSR = Y X ˆβ 2

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

Une approche par projection Une autre manière d obtenir le MLE pour β consiste à écrire ˆµ = X ˆβ = argmin µ L Y µ, où L est l espace linéaire engendré par les vecteurs (x 1,..., x k ). Par définition ˆµ = p L (Y ), la projection de Y sur L. Notons que la projection p L (Y ) est caractérisée comme l unique élément dans L tel que Y p L (Y ), x = 0 pour tout x L Y p L (Y ), x j = 0 pour tout j {1,..., k} X (Y p L (Y )) = 0.

Une approche par projection Il est limpide que X(X X) 1 X Y L et on voit facilement que X (Y X(X X) 1 X Y ) = 0. D où nous avons que ˆµ = p L (Y ) = X(X X) 1 X Y = X ˆβ. La matrice H = X(X X) 1 X est appelée matrice de projection ou matrice chapeau. Elle est (exercice) symétrique: H = H, et idempotente: H 2 = H.

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

Théorie distributionnelle La proposition suivante tient sans hypothèse de normalité. Proposition Supposons que Y est un modèle linéaire de dimension k de la forme Y = µ + ε = Xβ + ε ε (0, σ 2 I n). Soient ˆµ, ˆβ et ˆσ 2 définis comme avant. Alors E ˆβ = β et E ˆµ = µ; Var( ˆβ) = σ 2 (X X) 1 et Var(ˆµ) = σ 2 H; E ˆσ 2 = n k σ 2. n

Théorie distributionnelle Preuve. La moyenne et la variance de ˆβ et ˆµ sont simples. Nous allons calculer l espérance de ˆσ 2. En ayant recours à H = H et H 2 = H, nous obtenons que la même chose est vraie pour I n H. Notez aussi que Hµ = µ et donc (I n H)µ = 0. Par conséquent E ˆσ 2 = 1 n E (In H)Y 2 = 1 E (In H)ε 2 n = 1 n Etr(ε (I n H) (I n H)ε) = 1 n tr(eεε (I n H)) = σ2 tr(in H). n La preuve suit alors du fait que tr(h) = tr(x(x X) 1 X ) = tr(x X(X X) 1 ) = k.

Théorie distributionnelle Proposition Supposons que Y est un modèle linéaire de dimension k de la forme Y = µ + ε = Xβ + ε ε N n(0, σ 2 I n). Soient ˆµ, ˆβ et ˆσ 2 définis comme avant. Alors (i) ˆβ N p(β, σ 2 (X X) 1 ); (ii) (iii) (iv) ˆµ N n(µ, σ 2 H); ˆσ 2 σ2 n χ2 n k; ˆσ 2 et ˆβ (ou ˆµ, respectivement) sont indépendants.

Théorie distributionnelle Preuve de (i) et (ii). Les vecteurs ˆβ et ˆµ sont des transformations linéaires du vecteur normal Y. Donc par les résultats du Chapitre 2, ˆβ et ˆµ sont de nouveau normalement distribués. Par la proposition ci-dessus, nous connaissons leur moyenne et variance appropriées. Nous obtenons (i) et (ii). Les relations (iii) et (iv) suivront des considérations ci-dessous.

Théorie distributionnelle Sous-espaces orthogonaux. Deux sous-espaces linéaires L 1 et L 2 de R n sont appelés orthogonaux si x y pour tout x L 1 et y L 2. Alors nous définissons L 1 L 2 = {x + y x L 1 et y L 2}. L 1 L 2 = {x L 1 x L 2} (en supposant que L 2 L 1). Lemme Supposons que L 2 L 1 sont des sous-espaces linéaires de R n. Alors (i) L 1 L 2 est une sous-espace linéaire; (ii) L 1 L 2 L 2; (iii) (L 1 L 2) L 2 = L 1 (= L L = R n ); (iv) p L (v) = v p L (v).

Théorie distributionnelle Proposition Soient L 1, L 2,..., L r des sous-espaces orthogonaux de R n avec dim(l i) = k i et L 1 L 2 L r = R n et soit ε N n(0, σ 2 I n). Alors (a) p L1 (ε),..., p Lr (ε) sont indépendants. (b) p Li (ε) 2 σ 2 χ 2 k i 1 i r.

Théorie distributionnelle Preuve de (a). Comme L 1, L 2,..., L r sont des sous-espaces orthogonaux de R n avec dim(l i) = k i et L 1 L 2 L r = R n, nous avons une base orthonormale (BON) {e ij, 1 j k i, 1 i r} de R n tel que E i = {e ij, 1 j k i} est une BON de L i. Il s ensuit de E i E i = I ki p Li (ε) = E i(e i E i) 1 E i ε = E ie i ε. Donc, comme E i E j = 0 pour i j, nous obtenons Cov(p Li (ε), p Lj (ε)) = E ie i Cov(ε, ε)e je j = 0. que

Théorie distributionnelle Preuve de (b). Nous déduisons par le théorème de Pythagore que k i p Li (ε) 2 = e ij, ε e ij 2 j=1 k i = e ij, ε 2. j=1 Puisque les e ij sont orthonormaux, il suit que les variables e ij, ε sont des variables aléatoires indépendantes de loi normale. Leur moyenne est 0 et la variance σ 2.

Théorie distributionnelle Preuve de (iii) et (iv) de la proposition précédente. Rappelons que ˆσ 2 = 1 n Y ˆµ 2. Nous rappelons que Y ˆµ 2 = (I n H)ε 2. Par le point (iv) du lemme précédent il découle que (I n H)v = p L (v), la projection de v sur l espace L = {x R n x L = span(x 1,..., x k )}. Comme dim(l ) = n k, la preuve de (iii) suit du point (b) de la proposition précédente.

Théorie distributionnelle Comme et ˆµ = HY = Xβ + Hε = Xβ + p L (ε) ˆσ 2 = 1 n (In H)ε 2 = 1 n p L (ε) 2, nous concluons du point (a) de la proposition précédente que ˆµ et ˆσ 2 sont indépendants. L indṕendance de ˆβ et ˆσ 2 decoule de ˆβ = (X X) 1 X ˆµ.

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

Inférence Pour un modèle linéaire Y N n(µ, σ 2 I n), nous allons tester des hypothèses de la forme suivante: k H 0 : µ = x iβ i, contre H 1 : µ = Ou de manière plus générale i=1 l x iβ i, k < l n. H 0 : µ L 2 contre H 1 : µ L 1\L 2 (L 2 L 1). Nous supposons dans la suite que dim(l 1) = k 1 et dim(l 2) = k 2 k 1. i=1

Inférence Le rapport de vraisemblance est donné par Λ(Y ) = sup µ 2 L 2,σ 2 >0 l(µ, σ Y ) sup µ1 L 1,σ 1 >0 l(µ, σ Y ). Rappelons que le maximum de la vraisemblance pour le modèle L est proportionnel à Y p L (Y ) n ; la statistique du test de rapport de vraisemblance est donnée par ( ) Y pl1 (Y ) 2 n/2 Λ(Y ) =, Y p L2 (Y ) 2 et rejette l hypothèse nulle si Λ(Y ) est trop petit.

Inférence Maintenant comme Y p L2 (Y ) 2 = Y p L1 (Y ) + p L1 (Y ) p L2 (Y ) }{{} L 1 nous obtenons par le théorème de projection et le théorème de Pythagore que Y p L2 (Y ) 2 = Y p L1 (Y ) 2 + p L1 (Y ) p L2 (Y ) 2. Donc le test de rapport de vraisemblance est équivalent au test qui rejette l hypothèse nulle si est trop grand. F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) 2

Inférence Maintenant sous H 0 : µ L 2 nous avons F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) = p L 1 (ε) p L2 (ε)/(k 1 k 2) 2 ε p L1 (ε) 2 /(n k 1) = p L 1 L 2 (ε) 2 /(k 1 k 2). p L (ε) 2 /(n k 1 1) Comme R n = L 1 (L 1 L 2) L 2 nous concluons que p L1 L 2 (ε) 2 χ 2 k 1 k 2 p L 1 (ε) 2 χ 2 n k 1.

Inférence Théorème Supposons qu on a un modèle linéaire de la forme Y N n(µ, σ 2 I n). Le test de rapport de vraisemblance pour H 0 : µ L 2 contre H 1 : µ L 1 est équivalent à un test F. La statistique de test F (Y ) = p L 1 (Y ) p L2 (Y ) 2 /(k 1 k 2) Y p L1 (Y ) 2 /(n k 1) suit une distribution F de k 1 k 2 et n k 1 degrés de liberté. Pour un test de niveau α, nous rejetons H 0 si F (Y ) F k1 k 2,n k 1 ;1 α.

Inférence Remarque. Définissons σ 2 1 = 1 n k 1 Y p L1 (Y ) 2. Remarquons que ceci est un estimateur sans biais pour σ 2 pour le modèle L 1, et que sous H 0 aussi bien que sous H 1 il converge vers σ 2. Alors nous pouvons écrire 1 ˆµ 1 ˆµ 2 2 F (Y ) =, k 1 k 2 où les ˆµ i sont les MLE sous le modèle L i. σ 2 1 Asymptotiquement nous voyons que ˆµ 1 ˆµ 2 2 σ 2 χ 2 k 1 k 2.

6. Modèles linéaires. 6.1. Hypothèse de linéarité. 6.2. MLE. 6.3. Une approche par projection. 6.4. Théorie distributionnelle. 6.5. Inférence. 6.6. Analyse des residus.

Analyse des résidus L idée générale de l analyse des résidus réside dans l étude de divers plots de résidus afin d évaluer à quel point un modèle donné est proche des/fitte les données. Nous sommes donc amenés à d abord étudier la distribution des résidus afin de savoir comment ils sont censés se comporter. Supposons avoir un modèle linéaire Y N n(µ, σ 2 I n), avec µ L sous H 0. Le vecteur de résidus est Donc montrant que R = Y ˆµ = Y HY = (I n H)Y = (I n H)(µ + ε) H 0 = (I n H)ε. ER = 0 et Var(R) = σ 2 (I n H), R N n(0, σ 2 (I n H)). Remarquons que ˆµ et R sont indépendants.

Analyse des résidus Remarquons que R est dans un certain sens un estimateur pour l erreur statistique non-observée ε. Comme ε R = Hε, nous avons (nous utilisons encore une fois le fait que H est idempotent) que Var(ε R) = σ 2 H.

Analyse des résidus Exemple. Considérons le modèle de régression linéaire simple Y i = β 0 + β 1x i + ε i, ε i iid N(0, σ 2 ), où 1 i n. Nous pouvons réécrire ceci comme Y i = α 0 + β 1t i + ε i, où α 0 = β 0 + β 1 x et t i = x i x. Alors t = 0. Notons t + = t 2 i. En forme vectorielle notre modèle correspond à Y = Xβ + ε, avec X = (1 n, t) et β = (α 0, β 1), où 1 n = (1,..., 1) R n. Notons que 1 nt = n t = 0.

Analyse des résidus Exemple, suite. ( ) n 0 Dans cet exemple X X =. Ceci montre (pourquoi?) que ˆα 0 et 0 t ˆβ 1 sont + indépendants. De plus nous avons (( )) H = X(X X) 1 X 1 n = n + titj. t + i,j=1 Si nous supposons que les x i sont des nombres aléatoires iid, de moyenne m x et de variance σ 2 x, alors par la loi des grands nombres H ij = O P ( n 1 ) pour tout 1 i j n. En particulier les éléments diagonaux de H, ε i R i, seront très proches de zéro si n est grand, montrant que les résidus devraient se comporter similairement que ε.

Analyse des résidus Exemple, suite. De plus, comme nous voyons que Var(R) = σ 2 (I n H), cov(r i, R j) { σ 2 si i = j 0 autrement quand n est grand. Ceci est en accord avec Var(ε) = σ 2 I n.