M LA REGRESSION : HYPOTHESES ET TESTS Avril 009 I LES HYPOTHESES DE LA MCO. Hypothèses sur la variable explicative a. est o stochastique. b. a des valeurs xes das les différets échatillos. c. Quad ted vers l'ii, la variace de ted vers ue limite ie.. Hypothèses cocerat le terme d'erreur a. L'espérace de i ; E ( i ) est ulle pour tout i (E ( i i ) 0) b. La variace V ( i ) E ( i E ( i )) est costate pour tout i; soit V ( i ) : Cette hypothèse de variace costate est l'hypothèse d'homoscédasticité ; o parle alors de série homoscédastique (par oppositio à hétéroscédastique). c. Abscece d'autocorrélatio des erreurs : Cov ( i ; j ) 0 pour i 6 j: Le terme d'erreur 'est pas autocorrélé : la valeur du terme d'erreur i 'est pas corrélé à celle de j : d. Chaque i suit ue loi ormale, cette hypothèse état justiée par le Théorème cetral limite, les i résultat de l'iuece combiée d'u grad ombre de variables idépedates o itégrées das le modèle de régréssio. e. E coclusio : les erreurs suivet ue loi ormale : i, N (0; ) et sot idépedates car o sait que deux variables ormales de covariace ulle sot idépedates. Les erreurs sot ormalemet et idépedammet distribuées, o ote : i, N id (0; ) : II LES PROPRIETES DES ESTIMATEURS MCO. Rappel : ba x i y i xi i y i Y i Y. Ils sot liéaires : x i y i a. ba et ba 0 Y ba, où les variables x i et y i sot cetrées : : O rappelle que : x i y i 0: x i Y i Y x i Y i Y x i x i Y i car x i 0 ; e posat w i x i ; o obtiet alemet : ba w i Y i : Cette expressio motre que l'estimateur ba est liéaire, car il s'exprime liéairemet e foctio des Y i (les valeurs des i sot traitées comme des costates). b. Propriétés des w i w i x i, de x i 0; o déduit : w i 0: De plus w i x i et de même w i i w i x i + w i x i + w i w i x i : 3. Ils sot sas biais a. Calcul préalable ba w i Y i w i (a 0 + a i + i ) a 0 w i + a page w i i + w i i a + w i i ; UFR4
LA REGRESSION : HYPOTHESES ET TESTS soit ba a + w i i b. Il reste à predre l'espérace de ba : E (ba ) E a + w i i E (a ) + E w i i a + E ailleurs, les w i ; comme les i e sot pas stochastiques et peuvet être traités comme des costates et o a : E (ba ) a + w i E ( i ) a ; car E ( i ) 0 pour tout i: c. O démotre de même que ba 0 est sas biais. Le lecteur fatigué peut sauter cette démostratio... ba 0 Y ba Y i w i Y i w i Y i soit : w i (a 0 + a i + i ) a 0 + w i i et e preat l'espérace : E (ba 0 ) E a 0 + w i i a 0 + w i E ( i ) a 0. CQFD. 4. Ils sot BUE (best ubiased estimator) : sas biais et de variace miimale a. Les estimateurs MCO sot efcaces, c'est-à dire sas biais et de variace miimale. Nous admettros cette propriété b. Calcul des variaces w i i ; par i. O démotre que : V (ba ) Pour amateurs : V a + w i i V w i i E 4 3 w i i 5 soit : E w + w + ::: + w + w w + ::::: + w w ; l'espérace est liéaire, E i et E ( i j ) 0 pour tout i 6 j; ce qui permet de coclure : V (ba ) wi car w i : ii. De même o démotre que : V (ba 0 ) i iii. Covergece O déduit des expressios précédetes que si ted vers l'ii, V (ba ) et V (ba 0 ) tedet vers 0; les estimateurs ba et ba 0 sot covergets. 5. Théorème de Gauss-Markov Si les hypothèses de la MCO sot vériées, les estimateurs ba et ba 0 sot BLUE (Best Liear Ubiased Estimator). III DISTRIBUTION DES ESTIMATEURS. Rappel loi ormale D'après l'expressio ba a + w i i ; ba est ue combiaiso liéaire des variables ormales idépedates i et suit doc ue UFR4
M LA REGRESSION : HYPOTHESES ET TESTS 8 >< loi ormale ; il e est de même pour ba 0 : O peut doc e déduire que : >: ba a ba, N (0; ) ba 0 a 0 ba0, N (0; ). Estimateurs des écart-type Comme ous l'avos vu plus haut (4b), les variaces des estimateurs ba et ba 0 dépedet de ; malheureusemet, la variace du terme d'erreur est icoue, mais u estimateur sas biais de cette variace est : S e i ; soit SCR ; la moyee des carrés résiduels. Aussi ous obtiedros des estimateurs des écart-type de ba et ba 0 e remplaçat ; par S das l'expressio de leurs variaces : Sba S et S ba 0 i 3. Vers la loi de Studet a. La somme des carrés de variables aléatoires idépedates et suivat ue loi ormale cetrée réduite suit ue loi du Khi, avec degrés de liberté. Ce résultat prouve que e déduit que e i b. La loi de Studet i. O démotre que : ii. Preuve (pour amateurs) i suit ue loi du Khi avec ( S :,, mais esuite e remplaçat les i par les e i ; o perd deux ddl et o ) degrés de liberté. ba a S ba et ba 0 a 0 S ba0 suivet ue loi de Studet avec ( ) degrés de liberté. (a). Rappel : si suit la loi ormale stadard et si Y suit la loi du Khi avec degrés de liberté, la variable T Studet à degrés de liberté. : p Y suit la loi de (b). v u t ba a (ba ) e i ( ) ba a mais v ba u t e i ( ) suit la loi de Studet à ( ba a ba p S ba a ba q S ba ba ) degrés de liberté, ba a S ba car S S ba ba ; CQFD. IV INTERVALLES DE CONFIANCE. Rappel : Nous savos qu'u itervalle de coace est du type : estimatio poctuelle (valeur critique)(erreur stadard de l'estimatio), les valeurs critiques t ; et t ; du t état lues das la table du t au seuil de sigicatio et avec u ddl de :. Résultats a. Pour ba, o obtiet : I ba t ; S ba ; ba + t ; S ba ; avec P ba t ; S ba a ba + t ; S ba ; les valeurs critiques t et t état lues das la table de Studet. page 3 UFR4
4 LA REGRESSION : HYPOTHESES ET TESTS Pour ba 0 ( la costate), o obtiet : I ba 0 t ; S ba0 ; ba 0 + t ; S ba0 3. Exemple : a. Repreos l'exemple de la cosommatio ( Y ) et du reveu () du polycopié d'itroductio à la régressio 3 4 5 6 7 8 9 0 80 00 0 40 60 80 00 0 40 60 Y 55 74 90 80 5 40 36 60 75 78 b. Solutio détaillée avec Excel O a obteu ba ' 0:7 et ba 0 ' 0:3939 ; détermios l'itervalle de coace à 95% pour a : Nous avos l'estimatio poctuelle ba ' 0:7; précisos la valeur t ; ; pour 0:05 et u ddl 8; doc ici t 0:05 ;8 :306; il reste à calculer v e S ba S i et doc à calculer S u : L'utilitaire d'aalyse d'excel doe tous ces résultats, mais ous allos les t e i vérier ici : o trouve : S 80:955 ' 00: 43 9; 8 33000 et pour l'erreur type de ba, v S ba S 0:5 00: 43 9 0:05 5: O a alors pour l'itervalle de coace : u 33000 t I ba t ; S ba ; ba + t ; S ba [0:7 :306 0:05 5 ; 0:7 + :306 0:05 5] soit eviro : [0:584 ; 0:838 3] ; la marge d'erreur est :306 0:05 5 ' 0:7 ; o peut dire que 95% des échatillos de taille 0 de cette populatio doerot pour ba ue valeur située à au maximum 0:7 de la vraie valeur icoue de a ; il 'est pas déraisoable de peser que otre échatillo fasse partie de ces 95% de "bos échatillos" ; sous cette hypothèse, o peut dire que a appartiet à l'itervalle [0:584 ; 0:838 3] : 4 UFR4
M LA REGRESSION : HYPOTHESES ET TESTS c. Solutio TGV : utilitaire d'aalyse d'excel V TESTS DE SIGNIFICATION. Test sur a a. Repreos l'équatio Y a 0 + a + ; la valeur de a est la variatio attedue de Y cosécutive à ue variatio de ue uité de ; il est clair qu'ue valeur ulle de a sigie que 'a pas d'iuece sur Y; Y ayat alors pour valeur attedue a 0 ; valeur dot il e peut s'écarter que par u terme d'erreur o ul ; par cotre ue valeur de a différete de zéro traduit ue iuece de sur Y: Nous allos doc tester si iuece Y e testat l'hypothèse ulle a 0 cotre l'hypothèse alterative a 6 0 : H0 : a 0 ( 'iuece pas Y ) : Sous l'hypothèse H H : a 6 0 0 ; t ba ba ; appelé le ratio de Studet, suit ue distributio de S ba ba Studet avec ( ) degrés de liberté ; ici 0:7 : 9 ; il reste à choisir u seuil de sigicatio, par exemple S ba 0:05 5 0:05 et à comparer ce quotiet avec la valeur lue das la table de Studet, de t ; soit ici : t 0:05 ; 8 :306. La valeur du ba quotiet est supérieure au t de la table, o e déduit doc que l'o rejette l'hypothèse H 0 et doc ba sufsammet différet S ba de zéro pour afrmer que a est sigicativemet différet de zéro. Cette coclusio est cohérete avec l'itervalle de coace [0:584 ; 0:838 3] ; qui e cotiet pas 0: b. Règle de décisio O déi le t de Studet calculé du coefciet ba ; déi par t ba ba S ba : Si jt ba j t ; ; o e rejette pas H 0 ; au seuil de 00% ; la variable 'est pas sigicative et 'a pas d'iuece sur Y: Si jt ba j > t ; ; o rejette H 0 ; au seuil de 00% ; la variable est sigicative et a ue iuece sur Y: Cas particulier importat : si l'o xe le seuil de sigicatio à 5% et si le ombre de ddl est supérieur ou égal à 0; l'hypothèse ulle a 0 peut être rejetée si jt ba j > :. Flash- Back Aalyse de la variace : F page 5 UFR4
6 LA REGRESSION : HYPOTHESES ET TESTS a. Rappel Source de variatio ddl Somme des carrés Moyee des carrés (variaces) Régressio SCE P b Yi Y SCE Résiduelle SCR P (Y i b Yi ) SCR ( ) Totale SCT P Y i Y b. Statistique F SCE F SCR ( ) ba P x i. O démotre et ous l'admettros que si les résidus sot ormalemet distribués, sous e i l'hypothèse ulle H 0 : a 0; la variable aléatoire F suit la loi de Fisher avec pour degrés de liberté et : Ce résultat viet du fait que le rapport F de deux lois de Khi idépedates et respectivemet divisées par leurs degrés de liberté chacue divisée par so degré de liberté et ; suit la loi de Fisher-Sedecor F (; ): Le ratio F fourit u test d'hypothèse permettat de tester l'hypothèse ulle H 0 : a 0: c. Régle de décisio : O choisit u seuil de sigicatio, puis : Si F F (; ) ; o e rejette pas H 0 ; la variable 'est pas sigicative. Si F > F (; ) ; o rejette H 0 ; la variable est sigicative et cotribue à l'esplicatio de Y: d. Exemple : Repreos otre exemple reveu cosommatio, l'utilitaire d'aalyse ous doe das le tableau ci-dessus (itervalle de coace 3b) : F 66:5 avec 8 ; preos le seuil de 5%; et comparos cette valeur calculée du F avec la valeur critique de F doée par la table : F (;8) 5:3 (a 5%). O rejette clairemet H 0 ; la variable est sigicative. 3. Test sur a 0 O rappelle que : V () i E (), doc que : i +E () 33000+070 3000; doc : S ca 0 i S 00: 43 9 0 33000 3000 97: 84 doc S ca 0 ' 97:84 0:5 ba 0 9: 890 ; 0:3939 S 9: 890 3: 98 8 0 ba0 ; pour u iveau de coace de 5%; la table de la loi de Studet doe pour u ddl de 8, e test bilatéral, t 0:05;8 ' :306; t 3: 98 8 0 se trouve das la zoe d'acceptatio de H 0 ; o e peut rejeter H 0 ; l'hypothèse d'ue ordoée à l'origie ulle. O dira que la statistique est o sigicative. Cette coclusio est cohérete avec l'itervalle de coace à 95%; pour ba 0 ; à savoir, [ :4; 3:0] qui cotiet 0: VI PREVISIONS. Estimatio poctuelle Supposos que ous ayos établi à partir d'u échatillo, l'équatio de régressio de l'échatillo Y b ba 0 + ba et qu'ue ouvelle valeur 0 de se présete, alors Y b 0 ba 0 + ba 0 est u estimateur de E (Y 0 ) ; repreos l'exemple précédet cosommatio reveu, et supposos que l'o désire estimer la cosommatio d'ue ouvelle famille de reveu 0 300: E utilisat otre équatio, otre estimatio sera : Y0 b 0:3939 + 0:7 300 3: 75. O démotre que Y b 0 est u estimateur BLUE. L'estimatio obteue diffère de la vraie valeur Y 0 a 0 + a 0 + 0 ; l'erreur de prédictio est alors Y 0 Y0 b (a 0 ba 0 ) + (a ba ) 0 + 0. Cette erreur est la coséquece des erreurs d'échatilloage (a 0 ba 0 ) et (a ba ) das l'estimatio des paramètres icous et de l'erreur 0 associée à la ouvelle valeur 0 : Si l'o ote f (a 0 ba 0 ) + (a ba ) 0 + 0 ;l 0 erreur d'estimatio associée à ue ouvelle valeur 0 de ; cette erreur déped de l'échatillo ; par ailleurs f est ue combiaiso liéaire de variables ormales et est doc elle même de distributio ormale. De plus E (f) (a 0 E ( ba 0 )) + (a E ( ba )) 0 + E ( + ) 0; l'estimateur Y b 0 est o biaisé.. Itervalle de coace a. La variace de l'erreur de prévisio 6 UFR4
M LA REGRESSION : HYPOTHESES ET TESTS La variace de f est doée par : f B @ + 0 + (0 ) C A ; où est la moyee de l'échatillo de taille d'origie. état icou, ous obtiedros (résultat admis) u estimateur sas biais de l'erreur de prédictio : Sf S B @ + 0 + (0 ) ; alors f S f suit ue loi de Studet avec u ddl de ( ) : O peut doc obteir pour E (Y 0 ) u itervalle de coace. b. Remarques sur l'erreur de prévisio La variace de l'erreur de prévisio coditioe l'amplitude de l'itervalle de coace. Cette variace sera d'autat plus faible que la partie aléatoire de la relatio liat Y à sera faible (S ) Elle est d'autat plus faible que, la taille de l'échatillo d'origie est grade. Elle est d'autat plus faible que la variabilité de est grade. Elle est d'autat plus faible que la ouvelle valeur 0 est proche de : c. Exemple Repreos0 l'exemple reveu-cosommatio avec Y b 0 0:3939 + 0:7 300 3: 75. Par ailleurs, S f S B @ + + (0 ) C A 00: 43 9 + 0 l'itervalle de coace à 95% pour la prévisio : I (300 70) + 33000 [3:75 :306 : 7 ; 3:75 + :306 : 7] [84: 44 ; 43: 06]. ' 6: 6 et S f h by0 t ; S f ; b Y 0 + t ; S f i soit ici : ' p 6: 6 ' : 7 O e déduit d. Bade de coace O otera que même sas ouvelle valeur de ; o peut détermier pour chaque valeur de u itervalle de coace et mettre e évidece ue bade de coace. Exemple : O cosidère u échatillo de 5 familles, représetat leur cosommatio totale (e cetaie de dollars) et Y leur cosommatio cosacrée à la ourriture. Nous avos détermié la droite de régréssio de Y e et la bade de coace (avec l'effet trompette) C A page 7 UFR4
8 LA REGRESSION : HYPOTHESES ET TESTS VIIRETOUR SUR LE TERME D'ERREUR. Homoscédasticité et hétéroscédasticité Images extraites de l'ouvrage : Ecoometrie, de Damodar N.Gujarati (de boeck Editios). Homoscédasticité Hétéroscédasticité Das le schéma de gauche, la variace coditioelle de u i (le terme d'erreur) pour i est costate, ous l'avos otée das ce cours ; o e déduit que quelle que soit i ; la variace des valeurs de Y est la même. Das le schéma de droite, il est clair que la variace coditioelle de Y varie avec ; ceci est dû au fait que la variace du terme d'erreur 'est pas costate ; o parle d'hétéroscédasticité.. Corrélatio des erreurs : statistique de Durbi et Watso 8 UFR4
M LA REGRESSION : HYPOTHESES ET TESTS Ue des hypothèses de la méthode MCO, est l'idépedace des erreurs ; ous devos pouvoir vérier si cette hypothèse est satisfaite et remédier au problème si tel 'est pas le cas. Les termes d'erreur peuvet être corrélés du fait d'ue erreur de spécicatio du modèle ; il arrive que l'o soit icertai sur la spécicatio de l'équatio de régréssio : liéaire ou o liéaire? Si après avoir établi ue équatio de régressio et détermié les résidus, o observe ue tedace, avec des séries de résidus positifs et des séries de résidus égatifs, o doit s'itérroger sur ue évetuelle erreur de spécicatio. U cas fréquet est celui où les erreurs i sot distribuées suivat u processus autorégressif du premier ordre, c'est-à-dire lorsque l'o a ue relatio du type : i i + u i, cas sur lequel ous reviedros. Durbi et Watso ot mis au poit u test permettat de déceler cette liaiso ; ce test est basé sur la statistique suivate : dw P i (e i e i ) P e i Exercice : Repreos l'exemple des 5 familles utilisé das le paragraphe précédet (Fichier Mtd_dw.xls sur le site). a. Tracer le uage de poits das u repère. b. Estimer les paramètres du modèle de régressio liéaire, état la variable explicative et Y la variable expliquée. Tracer la droite de régressio de Y e das le même repère. Détermier le coéfciet de détermiatio. c. Détermier les résidus et calculer la statistique de Durbi-Watso et vérier que dw ' :09: d. O pose? l et Y? l Y: i. Estimer les paramètres du modèle de régressio liéaire,? état la variable explicative et Y? la variable expliquée. Calculer le coefciet de détermiatio ii. Déduire du modèle précédet, l'estimatio obteue, b Y f (). Représeter das u ouveau repère, la courbe de régressio et le uage. iii. Calculer les résidus et la statistique de Durbi-Watso. e. Coclusio Il est clair que si les résidus sot corrélés, et que le graphique met e évidece des séries de résidus positifs et égatifs, alors le umérateur de dw aura tedace à être petit, du fait de la proximité de e i et de e i, et dw sera proche de zéro ; ceci est le cas du modèle liéaire qui 'est pas ue boe spécicatio du modèle ici ; par cotre si le modèle est bie spécié, ous motreros plus tard que dw pred des valeurs proches de :O voit que le modèle Y 9:404 0:3637 costitue ue meilleur spécicatio du modèle. f. Règle : ue valeur de dw plus proche de 0 que de laisse présager ue mauvaise spécicatio de l'équatio de régressio. Nous reviedros sur cette statistique. page 9 UFR4