Fiches de Cours. CQLS : Jean-François Coeurjolly & Rémy Drouilhet Jean-Francois.Coeurjolly@upmf-grenoble.fr, Remy.Drouilhet@upmf-grenoble.



Documents pareils
Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 3. Les distributions à deux variables

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Évaluation de la régression bornée

Introduction à l approche bootstrap

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

1 Complément sur la projection du nuage des individus

La classification automatique de données quantitatives

Relation entre deux variables : estimation de la corrélation linéaire

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Données longitudinales et modèles de survie

Analyse de la variance Comparaison de plusieurs moyennes

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Modèles pour données répétées

Les indices à surplus constant

Transmission d informations sur le réseau électrique

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

3 Approximation de solutions d équations

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Modèles Estimés sur Données de Panel

Cours de Tests paramétriques

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Régression linéaire. Nicolas Turenne INRA

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Introduction aux Statistiques et à l utilisation du logiciel R

Estimation et tests statistiques, TD 5. Solutions

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

1 Définition de la non stationnarité

Etude des propriétés empiriques du lasso par simulations

Chapitre 1 : Évolution COURS

TABLE DES MATIERES. C Exercices complémentaires 42

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire

NON-LINEARITE ET RESEAUX NEURONAUX

Un exemple de régression logistique sous

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Principe d un test statistique

Correction de l examen de la première session

23. Interprétation clinique des mesures de l effet traitement

Simulation de variables aléatoires

Le théorème des deux fonds et la gestion indicielle

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Économetrie non paramétrique I. Estimation d une densité

données en connaissance et en actions?

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Introduction à la statistique non paramétrique

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Résolution de systèmes linéaires par des méthodes directes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Imputation du salaire d ego dans TeO

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Chapitre 3 : INFERENCE

Suites numériques 4. 1 Autres recettes pour calculer les limites

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MCMC et approximations en champ moyen pour les modèles de Markov

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Leçon N 4 : Statistiques à deux variables

Chapitre 5 : Flot maximal dans un graphe

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Exercices Corrigés Premières notions sur les espaces vectoriels

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Notion de fonction. Résolution graphique. Fonction affine.

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

TSTI 2D CH X : Exemples de lois à densité 1

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

LE PROBLEME DU PLUS COURT CHEMIN

Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple

Probabilités Loi binomiale Exercices corrigés

Théorie Financière 2. Valeur actuelle Evaluation d obligations

Apprentissage par renforcement (1a/3)

3. Conditionnement P (B)

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

LES TOUT PREMIERS PAS

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Exercices de dénombrement

Rappels sur les suites - Algorithme

Modèle GARCH Application à la prévision de la volatilité

Les modèles de choix binaire

Complément d information concernant la fiche de concordance

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Gestion obligataire passive

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Transcription:

Fiches de Cours CQLS : Jean-François Coeurjolly & Rémy Drouilhet Jean-Francois.Coeurjolly@upmf-grenoble.fr, Remy.Drouilhet@upmf-grenoble.fr

2

Table des matières 1 Phénomène de colinéarité 5 1.1 Appréhension du phénomène via l étude d un jeu de données........... 5 1.2 Définition et principaux effets............................. 8 1.3 Appréhension des conséquences via l A.E.P..................... 9 1.4 Détection de la colinéarité à partir d un unique jeu de données.......... 9 1.5 Correction des effets de colinéarité.......................... 11 2 Analyse des résidus et données influentes 13 2.1 Tracé des résidus bruts................................. 13 2.2 Mesure de consistance................................. 13 2.3 Mesures d influence................................... 13 2.3.1 Effet Levier................................... 13 2.3.2 Effet de la suppression d une observation.................. 13 3 Modèles linéaires avec bruit coloré 15 3.1 Qu entend-on par bruit coloré?............................ 15 3.1.1 Définition mathématique........................... 15 3.1.2 Quelques exemples............................... 16 3.1.3 Peut-on faire comme si de rien n était?................... 19 3.2 Moindres carrés généralisés.............................. 19 3.2.1 Fondement mathématique........................... 19 3.2.2 Propriétés.................................... 20 3.2.3 Retour sur les exemples............................ 21 3.3 Que faire lorsque la nature du bruit coloré est inconnue?.............. 22 3.3.1 Continuer à utiliser l estimateur des M.C.O.................. 22 3.3.2 Méthode des moindres carrés quasi-généralisés (M.C.Q.G.)........ 23 3.4 Détection d un bruit coloré.............................. 25 3.4.1 Pourquoi?.................................... 25 3.4.2 Un moyen universel : tracé des résidus M.C.O................ 25 3.4.3 Test de détection d hétéroscédasticité.................... 28 3.4.4 Test de détection de l autocorrélation d ordre 1 du bruit : test de Durbin- Watson..................................... 29 3.5 Pratique sur des jeux de données........................... 30 3.5.1 Données agrégées................................ 30 3.5.2 Exemple de bruit AR(1)............................ 32 3

4 TABLE DES MATIÈRES 4 Modèles Logit et Probit 35 4.1 Introduction....................................... 35 4.2 Modèles Logit et Probit et leurs interprétations................... 36 4.2.1 Modèlisation via une variable latente..................... 36 4.2.2 Identifiabilité des paramètres......................... 36 4.2.3 Comparaison entre Logit et Probit...................... 38 4.3 Estimation des paramètres............................... 39 4.3.1 Généralités sur la méthode du maximum de vraisemblance........ 39 4.3.2 Applications aux modèles Logit et Probit.................. 39 4.3.3 Propriétés des estimateurs et comportements aléatoires.......... 40 4.4 Qualité du modèle................................... 40 4.4.1 Déviance.................................... 40 4.4.2 Critère AIC................................... 40 4.4.3 Outil de discrimination............................ 40 4.4.4 Analyse des résidus............................... 40 4.5 Une application pratique................................ 40

Chapitre 1 Phénomène de colinéarité 1.1 Appréhension du phénomène via l étude d un jeu de données Concentrons-nous sur le jeu de données suivant décrivant le prix de 10 voitures en fonction de leur âge du nombre de km. Pour tenter d expliquer le prix d une voiture, on envisage un modèle linéaire en intégrant les deux régresseurs. On fera l hypothèse certainement abusive que le bruit est gaussien : > voiture age km prix 1 1 8.1 5.45 2 2 17.0 4.80 3 2 12.6 5.00 4 3 18.4 4.00 5 3 19.5 3.70 6 4 29.2 3.20 7 6 40.4 3.15 8 7 51.6 2.69 9 8 62.6 1.90 10 10 80.1 1.47 > attach(voiture) > summary(lm(prix ~ age + km, data = voiture)) Call: lm(formula = prix ~ age + km, data = voiture) Residuals: Min 1Q Median 3Q Max -0.59142-0.21317 0.08918 0.28038 0.38024 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.56844 0.26768 20.803 1.49e-07 *** 5

6 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ age -0.66388 0.37462-1.772 0.120 km 0.03009 0.04663 0.645 0.539 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.3898 on 7 degrees of freedom Multiple R-Squared: 0.9317, Adjusted R-squared: 0.9122 F-statistic: 47.75 on 2 and 7 DF, p-value: 8.326e-05 A première vue, aucun des deux régresseurs ne semble être significatif au seuil de 5% (pas même à 10% d ailleurs) ce qui n est pas très encourageant quant au caractère informatif de chacun des régresseurs. Pourtant à y regarder de plus près, le modèle semble assez prédictif puisque le R 2 est de l ordre de 93%. Continuons l analyse avec les deux régressions simples suivantes : > summary(lm(prix ~ age, data = voiture)) Call: lm(formula = prix ~ age, data = voiture) Residuals: Min 1Q Median 3Q Max -0.5903-0.2093 0.1666 0.2189 0.3882 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.48562 0.22615 24.26 8.90e-09 *** age -0.42383 0.04185-10.13 7.72e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.3753 on 8 degrees of freedom Multiple R-Squared: 0.9276, Adjusted R-squared: 0.9186 F-statistic: 102.6 on 1 and 8 DF, p-value: 7.724e-06 > summary(lm(prix ~ km, data = voiture)) Call: lm(formula = prix ~ km, data = voiture) Residuals: Min 1Q Median 3Q Max -0.58739-0.29500 0.01059 0.34880 0.56982 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 5.301368 0.249062 21.285 2.50e-08 *** km -0.051999 0.006092-8.536 2.73e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1

1.1. APPRÉHENSION DU PHÉNOMÈNE VIA L ÉTUDE D UN JEU DE DONNÉES 7 Residual standard error: 0.4388 on 8 degrees of freedom Multiple R-Squared: 0.9011, Adjusted R-squared: 0.8887 F-statistic: 72.86 on 1 and 8 DF, p-value: 2.731e-05 En conséquence, les deux variables prises séparément apportent de l information dans l explication du prix et semblent ne plus en apporter lorsqu elles sont présentes ensemble dans le modèle. On remarquera facilement que ceci est dû au fait que les écarts-types estimés de chaque estimateur ont fortement augmenté lorsque les deux régresseurs sont intégrés dans le modèle comme le rappelle le petit tableau suivant : Le modèle à deux régresseurs Les deux modèle à un régresseur prix age+km prix age prix km age km age km Paramètre estimé 0.664 0.030 0.424 0.052 Ecart-type estimé 0.375 0.047 0.042 0.006 Avec le graphique suivant, on comprend un peu plus d où pourrait provenir le problème : les deux régresseurs sont pratiquement linéairement liés entre eux.

8 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ 1.2 Définition et principaux effets Considérons le modèle de régression linéaire multiple suivant : Y = β 0 + β 1 x 1 +... + β p x P + ε Lorsque l on parle de phénomène de colinéarité, on peut en distinguer de deux types : colinéarité stricte et colinéarité statistique. colinéarité stricte : ce phénomène intervient lorsqu il existe exactement une combinaison linéaire entre les régresseurs, i.e. s il existe λ 0, λ 1,..., λ p p réels (non simultanément tous égaux à 0) tels que : λ 1 x 1 +... + λ p x p = λ 0 Un résultat mathématique montre que s il existe une telle combinaison linéaire, alors la matrice x t x n est plus inversible. Et de ce fait, on ne peut définir les estimations issues de la méthode M.C.O. puisqu ils sont justement définis à partir de la matrice inverse de x t x. Cette situation ne survient en pratique que si les régresseurs ont été mal choisis par l utilisateur : par exemple si on souhaitait expliquer la productivité d une entreprise,par un modèle linéaire, on ne peut choisir comme régresseurs simultanément les recettes, les dépenses et les bénéfices de l entreprise, ces trois variables étant strictement colinéaires (bénéfices=recettes-dépenses). colinéarité statistique : il s agit d une situation qui intervient souvent en pratique lorsqu il existe approximativement une combinaison linéaire entre deux (variables age et km de l exemple précdédent) ou plusieurs régresseurs. La matrice x t x devient inversible. En revanche, ses coefficients peuvent devenir très élevés. Or, il faut se rappeler que la matrice de covariance des estimateurs issus de la méthode M.C.O. s écrit : Σ bβ = σ 2 ( x t x ) 1 (1.1) D où la remarque générale suivante : en présence de colinéarité, la variance des estimateurs des paramètres infectés par la colinéarité peut devenir très élevée. Rappelons maintenant que la statistique du test de significativité locale d un paramètre β i s écrit sous H 0 : u 0 (Y x) = β i (Y x) σ bβi (Y x) St(n p 1). Même si le régresseur x i semble très informatif pour expliquer Y (par exemple le régresseur age pour l explication de prix, de l exemple précédent), s il est colinéaire à un ou plusieurs autres régresseurs, la variance estimée de l estimateur donc son écart-type estimé peuvent être très élevés, tellement élevés que la statistique de test peut devenir très petite. Et de ce fait la p valeur du test peut devenir très élevée et ne plus traduire l hypothèse que l on avait a priori sur la qualité du régresseur x i pour expliquer Y. Il s agit d une situation fort désagréable puisque sans attention particulière, à la seule lecture des résultats de régression on pourra confondre les régresseurs qui n apportent aucune information pour expliquer Y de ceux qui en possèdent. Il conviendra donc de savoir détecter puis corriger ces effects de colinéarité à partir d un unique jeu de données.

1.3. APPRÉHENSION DES CONSÉQUENCES VIA L A.E.P. 9 1.3 Appréhension des conséquences via l A.E.P. Essayons de visualiser les conséquences d un phénomène de colinéarité en appliquant l A.E.P. sur modèle linéaire qui présenterait ce genre de pathologie. Considérons le modèle : Y = β 0 + β 1 x 1 + β 2 x 2 + ε, que nous allons générer pour n = 50 données. Choisissons les régresseurs x 1 et x 2 tels que x 1 = v 1 et x 2 = v 2 + k v 1, où les vecteurs v 1 et v 2 sont deux vecteurs de n points choisis au hasard sur [0, 1] indépendants (donc non colinéaires). Ainsi si k = 0 les régresseurs x 1 et x 2 sont indépendants ; et plus k est grand (positif ou négatif) plus les régresseurs sont colinéaires. bruit gaussien avec σ = 0.5 Moyenne des m = 1000 estimations du paramètre Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = 0 2.002-0.003 4.003 β = (2, 3, 4) t, k = 0 2.003 3.008 3.987 β = (2, 3, 4) t, k = 5 2.000 3.001 3.999 β = (2, 3, 4) t, k = 10 1.998 3.007 3.999 Variance des m = 1000 estimations du paramètre Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = 0 0.016 0.031 0.035 β = (2, 3, 4) t, k = 0 0.015 0.030 0.031 β = (2, 3, 4) t, k = 5 0.016 0.806 0.0313 β = (2, 3, 4) t, k = 10 0.017 3.286 0.033 Proportion parmi les m = 1000 simulations que le paramètre a été considéré différent de 0 au seuil de 5% Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = 0 100% 4.7% 100% β = (2, 3, 4) t, k = 0 100% 100% 100% β = (2, 3, 4) t, k = 5 100% 91.8% 100% β = (2, 3, 4) t, k = 10 100% 37.7% 100% 1.4 Détection de la colinéarité à partir d un unique jeu de données Conditionnement de la matrice x t x : le conditionnement d une matrice inversible est défini comme étant le rapport entre la plus grande et la plus petite valeur propre. Une matrice est dite bien conditionnée si son conditionnement est proche de 1 et mal conditionnée si ce rapport est élevé. Dans ce dernier cas, la matrice inverse peut avoir des coefficients très élevés. Application : > x <- cbind(1, age, km) > valpropres <- eigen(t(x) %*% x)$values > max(valpropres)/min(valpropres)

10 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ [1] 19483.41 Variance Inflation Factor : pour détecter d éventuelles corrélations entre régresseurs une idée très simple consiste à régresser chaque régresseur sur l ensemble des autres. Cette idée naturelle trouve également son fondement dans la magnifique formule suivante qui permet de réécrire la variance théorique de β j (Y x) estimateur de β j (pour j = 1,..., p) : ) σ 2 βj b := (Σ bβ jj = σ2 n s 2 j 1 1 Rj 2, (1.2) Nous précisions un peu avant que cette formule était riche en information car on comprend aisément quels sont les acteurs qui influent sur la précision des estimateurs : σ 2 : plus le niveau du bruit est élevé et moins les estimateurs seront précis. n : plus la taille d échantillon est grande et plus la variance est faible, jusqu à tendre vers 0 lorsque n + (ce qui fait que les estimateurs sont consistants). s 2 j : ce terme ne dépend que du j-ème régresseur. Il exprime le fait que plus le support de ce régresseur est étendu, plus sa variance est élevée et plus les estimateurs seront précis. 1 1 R 2 j : dans la communauté statistique ce terme est appelé variance inflation factor (notée dans les logiciels VIF). Et l on comprend aisément pourquoi. Plus x j est colinéaire aux autres régresseurs, plus Rj 2 est proche de 1, donc plus le terme 1 1 Rj 2 est élevé ; la variance de l estimateur β j est alors très élevée. A l inverse, plus Rj 2 est proche de 0 plus le VIF associé est proche de 1 (le minimum). Ainsi, plus x j est indépendant des autres régresseurs, et moins les estimateurs seront détériorés. La précision ne dépend alors que du support, du niveau du bruit et de la taille d échantillon. En pratique, on estime (de manière tout à fait arbitraire) qu un régresseur est fortement colinéaire aux autres si son VIF associé est supérieur à 10. Application : > vif(lm(prix ~ age + km)) age km 74.27853 74.27853 > 1-1/vif(lm(prix ~ age + km)) age km 0.9865372 0.9865372 Matrice de corrélation et sa représentation graphique. Application : > cor(voiture) age km prix age 1.0000000 0.9932458-0.9631406 km 0.9932458 1.0000000-0.9492412 prix -0.9631406-0.9492412 1.0000000 > plot(voiture)

1.5. CORRECTION DES EFFETS DE COLINÉARITÉ 11 10 20 30 40 50 60 70 80 age 2 4 6 8 10 10 20 30 40 50 60 70 80 km prix 2 3 4 5 2 4 6 8 10 2 3 4 5 1.5 Correction des effets de colinéarité Face à la découverte d un problème de colinéarité, on peut observer notamment trois stratégies différentes : sélectionner un modèle par une méthode pas à pas ascendante ou descendante selon un certain critère comme celui de la significativité locale des régresseurs (mais il en existe bien d autres!!! Il ne s agit donc là que d une recette de cuisine). L inconvénient de la précédente stratégie est de potentiellement éliminer des variables qui ont de l information pour expliquer Y. Une stratégie pourrait être la suivante : à partir de deux (ou plus) variables colinéaires, on en construit une qui est combinaison linéaire de ces variables et on effectue la régression en utilisant cette nouvelle variable. Le problème revient alors de définir correctement la combinaison linéaire. Si le spécialiste n est pas satisfait par ces stratégies, on lui laisse les résultats tels qu ils sont en lui précisant que vous suspectez un problème de colinéarité et qu il vous est difficile d interpréter les estimations ainsi que les différents tests mis en place. Néanmoins si son objectif n est que d entreprendre une prévision ceci peut être amplement suffisant.

12 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ

Chapitre 2 Analyse des résidus et données influentes Deux objectifs : vérifier des hypothèses mises en place. détecter des observations influentes pour la régression. 2.1 Tracé des résidus bruts 2.2 Mesure de consistance 2.3 Mesures d influence 2.3.1 Effet Levier 2.3.2 Effet de la suppression d une observation Distance de Cook Distance de Welsh-Kuh 13

14 CHAPITRE 2. ANALYSE DES RÉSIDUS ET DONNÉES INFLUENTES

Chapitre 3 Modèles linéaires avec bruit coloré 3.1 Qu entend-on par bruit coloré? 3.1.1 Définition mathématique Les n observations d un modèle linéaire classique sont les réalisations du modèle : Y i = β 0 + β 1 x i1 +... + β p x ip + ε i, i = 1,..., n où l on suppose (entre autres) que les variables aléatoires ε 1,..., ε n sont centrées, indépendantes et identiquement distribuées de variance σ 2 et non corrélées avec les régresseurs. A priori, on ne fera pas d hypothèse sur la distribution du bruit. Le modèle linéaire est dit homoscédastique et le bruit est alors appelé bruit blanc. La matrice de covariance du vecteur ε s écrit : σ 2 0... 0 0 σ 2.... Σ ε =....... 0 0... 0 σ 2 1 0... 0. = σ 2 0 1... = σ 2 I....... n 0 0... 0 1 Dans certains domaines d applications (cf section suivante), il semblerait que cette hypothèse ne soit pas toujours adaptée. Il peut arriver que l on préfère modéliser le bruit différemment en le colorant i.e. soit en relâchant la contrainte que les variances sont identiques soit que les variables sont indépendantes, soit les deux. Comment pourrait-on décrire (le plus généralement possible) la matrice de covariance du bruit en fonction de ces trois situations? Les v.a. ε 1,..., ε n ne sont plus de variance identique mais restent indépendantes (on parle de modèle hétéroscédastique) : σ 2 1 0... 0 0 σ 2... 2. Σ ε =....... 0 0... 0 σ 2 n 15

16 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ sont homoscédastiques mais plus indépendantes entre elles (très fréquent lorque l on s intéresse à un phénomène temporel) : σ 2 ρ 1,2... ρ 1,n ρ 1,2 σ 2.... Σ ε =....... ρn 1,n ρ 1,n... ρ n 1,n σ 2 ne sont plus de variance constante et ne sont plus indépendantes : σ 2 1 ρ 1,2... ρ 1,n ρ 1,2 σ 2... 2. Σ ε =....... ρn 1,n ρ 1,n... ρ n 1,n σ 2 n Ces trois situations rentrent dans le même cadre mathématique à savoir : il existe une matrice Ω telle que : Σ ε = σ 2 Ω avec Ω I n (3.1) Dans la suite du cours, nous supposerons que nos données sont les réalisations du modèle : Y = xβ + ε (3.2) où ε est un bruit coloré dont la matrice de covariance vérifie (3.1) non corrélé avec les régresseurs. 3.1.2 Quelques exemples Nous présentons ici trois types de situations où pourrait intervenir un bruit coloré. Cette partie ne vise pas à traiter des jeux de données mais à présenter des situations où la matrice de covariance du bruit ne correspond plus à celle d un bruit blanc. Exemple 1 (un modèle aggrégé) : Imaginons qu on souhaite étudier le modèle linéaire très classique reliant la consommation individuelle au revenu individuel : C i = β 0 + β 1 R i + ε i (3.3) pour une certaine catégorie sociale d individus. On modélise souvent ceci par un modèle dont la variance du bruit est constante : Var(ε i ) = σ 2 pour i = 1,..., n (où n est le nombre d individus total interrogés). On suppose également qu il n y a pas de dépendance entre les consommations des individus, et donc que Cov(ε i1, ε i2 ) = 0 pour i 1 i 2. Cependant (supposons que) les données dont on dispose ne sont pas individuelles mais globalisées (sommées) pour des individus d une même région, et ce pour 20 régions de taille n j (j = 1,..., 20) différentes. Le modèle correspondant à ces données devrait donc plutôt s écrire : C j = β 0 + β 1 R j + ε j, j = 1,..., 20

3.1. QU ENTEND-ON PAR BRUIT COLORÉ? 17 où C j (resp. R j et ε j ) représente la consommation globale (resp. revenu global et bruit global) pour la j-ème région. Nous allons montrer que ce nouveau modèle appelé naturellement en statistiques modèle aggrégé constitue un modèle avec bruit coloré. Pour cela, calculons Var(ε j) = Var ε i i région j = Var(ε i ) i région j = n j Var(ε 1 ) = σ 2 n j Par ailleurs puisque les consommations individuelles sont indépendantes on a aussi : Cov(ε j 1, ε j 2 ) = 0 pour j 1 j 2. En rassemblant ces informations, on s aperçoit que la matrice de covariance du bruit s écrit n 1 0... 0. Σ ε =σ 2 0 n.. 2........ 0 } 0... {{ 0 n 20 } σ 2 Ω Exemple 2 (deux groupes d individus) : Imaginons qu on souhaite étudier le même modèle que précédemment (modèle (3.3) liant la consommation individuelle au revenu mais que nos données correspondent à deux groupes d individus. Parmi les n individus interrogés, n 1 ont un revenu compris entre 1200 et 1500 euros et n 2 ont un salaire supérieur à 5000 euros. Il est assez naturel de penser que les fluctuations de la consommation ne soit pas les mêmes selon le revenu individuel. Pour des salaires modérés, on peut penser que la consommation fluctue en moyenne de + 200 euros alors que cette fluctuation pourrait être de + 1000 euros pour des gens ayant de gros revenus. Pour prendre en compte cette différence de fluctuations (assez naturelle dans l exemple étudié), on peut par exemple modéliser la variance de ε t de la manière suivante : Var(ε t ) = { σ 2 1 t = 1,..., n 1 σ 2 2 t = n 1 + 1,..., n 2 si nos données ont été ordonnées de telle sorte que les n 1 premières correspondent au premier groupe d individus (revenu compris entre 1200 et 1500) et les n 2 secondes au second groupe (revenu supérieur à 5000 euros). Autrement dit, ceci revient à modéliser le bruit via sa matrice

18 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ de covariance de la manière suivante : σ 2 1 0...... 0. 0.......... σ 2 1 0 Σ ε = 0 σ 2... 2........ 0 } 0...... {{ 0 σ 2 2 } σ 2 Ω Remarque : on pourrait aussi pourquoi pas modéliser la perturbation individuelle σ 2 i du revenu individuel par exemple de la manière suivante : σ 2 i = σ2 R i. en fonction Exemple 3 (autocorrélation d ordre 1 du bruit) : Le cas d autocorrélation des réalisations du bruit apparaît principalement dans des modèles faisant intervenir des séries chronologiques. Par exemple, le taux de chômage en 2004 ne sera pas sans rapport avec la valeur observée en 2003. Il est donc raisonnable de penser que les perturbations d un modèle estimé sur des séries chronologiques soient corrélées entre elles. Une des manières (les plus simples mais comprenez bien qu il en existe une infinité) de modéliser la corrélation entre les v.a. ε 1,..., ε n est de les définir via un processus AR(1) lui-même défini par : ε t = ρε t 1 + η t, t = 2,..., n avec ρ < 1 (3.4) Précisons que ε 1 = η 1. Pour tout t, η t est une v.a. centrée, de variance σ 2 η et non corrélée avec le passé de ε t. Calculons les coefficients de la matrice Σ ε. Commençons par les termes diagonaux : Var(ε t ) = Var(ρε t 1 + η t ) = ρ 2 Var(ε t 1 ) + Var(η t ) = ρ 2 Var(ε t ) + σ 2 η d où Var(ε t ) = σ2 η 1 ρ 2. Poursuivons, Cov(ε t, ε t 1 ) = Cov(ρε t 1 + η t, ε t 1 ) = ρ σ 2 η 1 ρ 2 En itérant ce calcul, on montre facilement que : Cov(ε t, ε t k ) = ρ k complètement la matrice Σ ε : 1 ρ... ρ n 1 Σ ε = σ 2 1. ρ 1... η }{{} 1 ρ 2....... σ ρ 2 } ρ n 1... {{ ρ 1 } Ω σ 2 η 1 ρ 2. Et ainsi, on décrit

3.2. MOINDRES CARRÉS GÉNÉRALISÉS 19 3.1.3 Peut-on faire comme si de rien n était? La question abordée est : supposons que le vrai modèle soit un modèle linéaire avec bruit coloré, peut-on encore utiliser la méthode des M.C.O. pour estimer les paramètres. Les estimateurs gardent-ils les mêmes propriétés que lorsque le modèle est homoscédastique? On peut montrer que l estimateur M.C.O. dont nous rappelons qu il est calculé de la manière suivante : β MCO (Y x) = ( x T x ) 1 x T Y reste un estimateur sans biais mais ce n est plus le meilleur estimateur (au sens meilleur estimateur linéaire des observations non biaisé). Sachant cela, on peut se dire qu à près tout ça n est peut être pas si grave que ce ne soit pas le meilleur tant que l on parvient encore à estimer la précision des estimateurs (ces quantités sont importantes car rappelons qu elles sont à la base des tests de significativité locale entre autres). Or, le mathématicien nous précise que : Σ bβ MCO = σ 2 ( x T x ) 1 x T Ω x ( x T x ) 1 (3.5) A titre de rappel : la variance de β j (Y x) est le j ème élément diagonal de cette dernière matrice. La précision des estimateurs de la méthode des M.C.O. dépend donc de la nature du bruit coloré. Que cela signifie-t-il en pratique, i.e. en carricaturant si je tape la commande > summary(lm(y~x1+x2)) ## exemple à deux régresseurs alors que le vrai modèle liant Y à x 1 et x 2 est un modèle avec bruit coloré sans appliquer de correction ou de pré-traitement? les estimations que j obtiendrais seront relativement bonnes mais la précision des estimateurs n est pas bien estimée puisque l estimateur de la variance de β(y x) issu de l instruction précédente s écrit : σ 2 ( x T x ) 1 qui n est pas est un estimateur convergent de (3.5). Et donc si la précision des estimateurs n est pas bien estimée, les tests de significativité sont faussés et on peut faire une mauvaise interprétation quant à la significativité des régresseurs!!! Ce qui est plutôt gênant, convenons-en. Les sections suivantes tentent d apporter des solutions pratiques, des méthodologies pour résoudre ce problème. 3.2 Moindres carrés généralisés 3.2.1 Fondement mathématique Dans la précédente section, nous précisions que l estimateur M.C.O. n est plus le meilleur estimateur lorsque le bruit est coloré. Comment doit-on procéder pour définir dans ces conditions le meilleur estimateur (linéaire non biaisé) lorsque le bruit est coloré? Rappelons qu il est bien connu que l estimateur des M.C.O. est le meilleur estimateur lorsque le bruit est blanc. Donc la méthode que nous allons mettre en oeuvre consiste à réaliser une transformation linéaire du modèle initial (3.2) pour se ramener à un bruit blanc. Définissons la matrice racine carrée de Ω 1/2 comme étant la matrice symétrique telle que : Ω 1/2 Ω 1/2 = Ω. On ne détaillera pas ici comment l on calcule la racine carrée d une matrice mais sachez qu il existe des algorithmes numériques performants implémentés dans de nombreux

20 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ logiciels de statistiques (et en particulier dans R). Regardons ce que donne le modèle initial transformé par la matrice Ω 1/2 (racine carrée inverse) : 1/2 x Ω 1/2 Y =Ω } {{ } } {{ } Y x β+ Ω 1/2 ε } {{ } ε Autrement dit on se ramène au nouveau modèle linéaire suivant : Calculons alors la matrice de covariance de ε : = E (Ω 1/2 ε T ε Ω 1/2) Σ ε Y = x β + ε (3.6) = Ω 1/2 σ 2 Ω Ω 1/2 = σ 2 I n (3.7) le bruit ε est un bruit blanc! Et donc très simplement, le meilleur estimateur de β du modèle (3.2) est l estimateur M.C.O. du modèle (3.6). Cette procédure s appelle la méthode des moindres carrés généralisés (méthode M.C.G.) et se résume brillamment par l équation ci-dessous : β MCG (Y x) = β MCO (Y x ) = β MCO ( ) Ω 1/2 Y Ω 1/2 x Matriciellement, l estimateur est donc défini par : β MCG (Y x) = ( x T x ) 1 x T Y = ( x T Ω 1 x ) 1 x T Ω 1 Y (3.8) Remarque : à la différence de l estimateur M.C.O., l estimateur des M.C.G. dépend de la nature du bruit coloré!! Et par conséquent pour être appliquée telle qu elle est il est nécessaire que la matrice Ω soit connue. 3.2.2 Propriétés L estimateur des M.C.G. est évidemment sans biais et de variance minimale parmi tous les estimateurs non biaisés qui sont linéaires en les observations. Il est également possible d obtenir mathématiquement l expression de son niveau de précision, de sa matrice de covariance : Σ bβ MCG = σ 2 ( x T Ω 1 x ) 1 (3.9) On peut estimer le niveau du bruit σ 2 comme dans un modèle linéaire classique σ 2 (Y x) = 1 n p 1 mais cette fois-ci les résidus sont calculés comme suit : ε = Ω 1/2 Y Ω 1/2 x β MCG. On peut alors estimer la variance de β MCG j très facilement n i=1 σ 2 MCG β b (Y x) = σ 2 (Y x) ( x T Ω 1 x ) 1 j ε 2 i

3.2. MOINDRES CARRÉS GÉNÉRALISÉS 21 et on peut encore montrer (entre autres) que bβ MCG j (Y x) β j bσ bβ MCG(Y x) j St(n p 1) si le vecteur ε est supposé gaussien approx. St(n p 1) si n est grand ce qui permet à nouveau d envisager des tests de significativité locale. Comment ça marche en R L implémentation dans R du calcul des estimations, des précisions des estimateurs, de la p valeur des tests de significativité locale,...est extrêmement simple car tout est basé sur le fait que la méthode des M.C.G. n est rien d autre qu un changement de variables. ## pour l exemple on a part d un modèle linéaire y~x1+x2 ## pour rappel les estimateurs issus de la méthode M.C.O. > summary(lm(y~x1+x2)) ## si le bruit est modélisé par une matrice de covariance Omega ## et que la matrice Omega^{-1/2} a été calculée au préalable ## et stockée dans une matrice M > x <- cbind(1,x1,x2) > summary(lm(m%*%y~m%*%x-1)) 3.2.3 Retour sur les exemples Ici, nous souhaitons détailler comment s effectue la procédure des moindres carrés généralisés pour les trois exemples présentés et plus spécialement comment s écrit la matrice inverse de la matrice Ω nécessaire pour évaluer l expression (3.8). Pour faire ceci, nous supposons que la matrice de covariance du bruit est connue (l applicabilité sera discutée plus tard). Exemple 1 (modèle aggrégé) : La matrice Ω étant diagonale, il n y a pas de problème pour établir que 1 n1 0... 0 1. 0 Ω 1/2.. = n2........ 0 1 0... 0 n20 Exemple 2 (modèle aggrégé) : Idem, la matrice Ω étant diagonale, 1 σ 1 0...... 0. 0....... Ω 1/2... 1 σ = 1 0 1. 0.. σ 2........ 0 1 0...... 0 σ 2

22 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ Exemple 3 (autocorrélation d ordre 1 du bruit) : Cet exemple pourrait a priori poser des problèmes étant donnée la complexité de la matrice Ω et pourtant les mathématiciens savent calculer exactement cette matrice inverse (car il s agit d une forme de matrice bien connue appelée matrice de Vaan der Monde). On obtient ainsi 1 ρ 0... 0. 0 1 ρ... Ω 1/2 =.......... 0.... 1 ρ 0...... 0 1 ρ 2 3.3 Que faire lorsque la nature du bruit coloré est inconnue? Pourquoi une telle section? C est bien simple parfois la modélisation que l on fait du bruit dépend de paramètres inconnus en pratique ou même parfois on ne sait pas modéliser le bruit tout en ayant conscience qu il n est certainement pas blanc. C est le cas des exemples 2 et 3 présentés précédemment. Remarquons que pour l exemple 1 (modèle agrégé) la matrice Ω ne dépend que des nombres d individus dans chacune des régions qui sont évidemment connus. Et donc cet exemple ne rentre pas dans cette section car la procédure des moindres carrés s adapte sans aucun problème. 3.3.1 Continuer à utiliser l estimateur des M.C.O. Comme nous l avons vu en introduction, l estimateur des M.C.O. n est pas tant détérioré que cela lorsque le bruit est de nature coloré puisque certes il n est plus de variance minimale, mais reste sans biais. Le problème réside dans le fait que si le bruit du modèle est coloré et que l on n en tient pas compte la précision des estimateurs n est pas bien estimée. C est sur ce point qu est dédié cette section. Précisons que tout ce qui suit n est possible que si le bruit est hétéroscédastique (le cas d autocorrélation ne peut être traité comme suit). Mathématiquement le problème consiste donc à trouver un estimateur de Σ bβ MCO = σ 2 ( x T x ) 1 x T Ω x ( x T x ) 1 MacKinnon et White (1985) ont proposé plusieurs estimateurs de cette matrice en utilisant les résidus estimés issus de la méthode des M.C.O. Nous présentons simplement celui que Long et Ervin (1998) ont jugé (par une étude de simulation assez complète) le meilleur quand le jeu de données est de taille inférieure à 250 (ce qui est tout de même la pluart du temps le cas). Ils proposent simplement d estimer la matrice σ 2 Ω (qui est diagonale puisque nous supposons que le bruit est hétéroscédastique) par la matrice diagonale de composantes : bε 2 i (1 H ii) 2 pour i = 1,..., n où H ii est le i ème élément diagonal de la matrice H = x ( x T x ) 1 x T et où le vecteur ε est le vecteur des résidus estimés issus de la méthode M.C.O. Ils proposent de noter l estimateur de la matrice de covariance associé par HC3 (third version of heteroskedastic correction covariance matrix) : HC3 = ( x T x ) ( ) 1 x T ε 2 i diag (1 H ii ) 2 x ( x T x ) 1

3.3. QUE FAIRE LORSQUE LA NATURE DU BRUIT COLORÉ EST INCONNUE? 23 Comment ça marche en R Comme d habitude tout pourrait paraître compliqué si R ne savait intégrer cette correction sur les précisions estimées des estimateurs. La fonction réalisant la correction des variances est hccm(...) et se trouve dans le package car (> require(car) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant un modèle dont vous suspectez être porteur d un bruit hétéroscédastique : ## matrice de cov des estimateurs MCO estimée ## correction de l hétéroscédasicité > hccm(lm(f),type="hc3") ## ce qui n est pas fait : le calcul des nouvelles p-valeurs ## des tests de significativité locale. 3.3.2 Méthode des moindres carrés quasi-généralisés (M.C.Q.G.) Généralités En pratique, on ne connaît pas toujours la matrice Ω, ce qui rend la méthode M.C.G. inapplicable en l état. Le principe de la méthode M.C.Q.G. est extrêmement simple puisqu elle consiste à remplacer Ω par une estimation de cette matrice. Elle se décompose donc en deux étapes : 1. estimation de la matrice de covariance du bruit Ω. 2. calcul de l estimateur M.C.G. en remplaçant Ω par Ω. Un peu comme précédemment, on pourrait résumer la méthode par la (très belle) formule suivante : β MCQG (Y x) = β MCO ( Ω 1/2 Y Ω 1/2 x ) Ce qui donne matriciellement (en remplaçant Ω 1 par Ω 1 dans l expression (3.8) : β MCG (Y x) = ( x T Ω 1 x ) 1 x T Ω 1 Y (3.10) Attention : les dernières formules cachent une difficulté qu il faut de suite mettre en exergue : comment faire pour estimer la matrice Ω 1? Si on ne paramètrise pas la matrice Ω on s aperçoit de la chose suivante : si le modèle est hétéroscédastique : on peut avoir n paramètres à estimer. si les v.a. ε 1,..., ε n sont homoscédastiques mais non indépendantes : on peut avoir n(n 1) 2 paramètres à estimer. si les v.a. ε 1,..., ε n sont hétéroscédastiques et non indépendantes : on peut avoir n(n+1) 2 paramètres à estimer. Inutile d en dire beaucoup plus, si on ne paramétrise pas la matrice de covariance du bruit, on a au moins n paramètres à estimer avec n observations tâche qu un statisticien se refuse de faire. L idée est donc de paramétriser Ω par un vecteur de paramètres disons θ ayant un faible nombre de composantes. Illustrons cette notion sur les exemples : Exemple 1 (modèle aggrégé) : Ω est connue. Exemple 2 (deux groupes d individus) : Ω est paramétrée par θ = ( σ 2 1, σ 2 2) T. Exemple 3 (autocorrélation d ordre 1) : Ω n est paramétrée que par ρ. Si l on ne fait pas d hypothèse sur la distribution du bruit, il n existe pas de méthode standard pour estimer le vecteur θ (dans le cas contraire par exemple où l on spécifie que le bruit est

24 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ gaussien on peut utiliser une méthode type maximum de vraisemblance, pas toujours facile à mettre en oeuvre) et cela dépend en grande partie de comment est paramétrée la matrice de covariance. Outrepassons ce problème et supposons que l on sache définir pour une problématique donnée un bon estimateur de θ disons θ (il faut mathématiquement que θ converge en probabilité vers θ ce qui est le cas pour les exemples considérés) permettant de définir Ω 1. Dans ces conditions, MCG on peut estimer la variance de β j : σ 2 MCG β b (Y x) = σ ) 1 2 (Y x) (x T Ω 1 x j où désormais σ 2 est calculé à partir des résidus eux-mêmes évalués avec l estimateur M.C.Q.G. Et on peut ainsi montrer (entre autres) que lorsque n est grand bβ MCQG j (Y x) β j bσ bβ MCG(Y x) j approx. St(n p 1) ce qui permet à nouveau d envisager des tests de significativité locale. La méthode en action pour les exemples Exemple 1 (modèle agrégé) : Z avez pas suivi ou quoi, on a dit qu il n y en avait pas besoin car la méthode des M.C.G. peut s appliquer directement. Exemple 2 (deux groupes d individus) : Il s agit d estimer σ 2 1 et σ 2 2. Une des manières (mais il peut en exister bien d autres) consiste à les estimer séparément en considérant deux régressions linéaires simples différentes mais chacune avec bruit blanc. Autrement dit, on pourrait les définir comme on le ferait pour un modèle linéaire avec bruit blanc : σ 2 1 = 1 n 1 2 σ 2 2 = 1 n 2 2 n 1 ε 2 t,1 t=1 n 2 ε 2 t,2 t=1 où le vecteur ε 1 (resp. ε 2 ) représente le vecteur des résidus en régressant la consommation sur le revenu uniquement pour les individus du premier groupe (resp. deuxième groupe) via la méthode des M.C.O. Et ainsi trivialement, Ω 1 = 1 cσ 2 1 0.. 0...... 0.......... 1 cσ 2 1 0 0 1 cσ 2 2.......... 0 0...... 0 1 cσ 2 2

3.4. DÉTECTION D UN BRUIT COLORÉ 25 Exemple 3 (autocorrélation d ordre 1 du bruit) : Une des idées pour estimer le paramètre ρ résulte de la définition du processus AR(1) (3.4). Si l on disposait des observations du vecteur ε on pourrait estimer ρ en régressant ε t sur ε t 1 pour t = 2,..., n. Comme on ne dispose pas de ε on le remplace par le vecteur des résidus ε MCO obtenus par M.C.O. En résumé une estimation de ρ est donnée par : ρ = n t=2 εmco t n t=2 ( ε MCO t 1 ε MCO t 1 ) 2 Et ainsi tout comme l exemple précédent on estime facilement la matrice inverse de la matrice Ω : 1 ρ 0... 0 ρ 1 + ρ 2. ρ.... Ω 1 0............ =............. 0....... 1 + ρ 2 ρ 0...... 0 ρ 1 Comment ça marche en R Voir la partie méthode des M.C.G. L implémentation ne change pas car il suffit de remplacer Omega par son estimation. 3.4 Détection d un bruit coloré 3.4.1 Pourquoi? Une détection peut être utile si l on soupçonne une forme particulière d hétéroscédasticité et/ou d autocorrélation, ceci en vue de corriger les estimations (et donc les tests de significativité locale) par une méthode M.C.Q.G. ne servir à rien si l on ne parvient pas à définir un a priori sur la nature du bruit coloré que l on voudra tester et que l on applique en automatique la correction type White pour estimer la précision des estimateurs M.C.O. 3.4.2 Un moyen universel : tracé des résidus M.C.O. Rappelons pour commencer que nous définissons les résidus M.C.O. par : ε = y x β MCO Le tracé des résidus issus de la méthode des M.C.O. est une idée assez triviale car les résidus sont les estimations des ε i non observées et pourtant souvent révélatrices de beaucoup d informations. En effet, en traçant les résidus, on peut espérer repérer retrouver de l information sur le fait que les ε i n aient pas été générées avec la même variance ou que ces ε i sont dépendantes.

26 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ Examinons quelques exemples. Commençons par illustrer la figure Fig. 3.1 exhibant quelques cas qui pourraient survenir en pratique et traduire un phénomène d hétéroscédasticité. Dans ces 4 graphiques, nous avons volontairement omis de présenter en fonction de quoi ont été tracés les résultats, cette question étant laissé au soin du praticien qui choisira soit les valeurs prédites (de la variable expliquée ŷ), soit un régresseur qu il soupçonne être porteur de la maladie (comme le régresseur revenu dans l exemple 2). Ceci étant dit, revenons à l analyse. La question est donc : supposons que nos données et le modèle envisagé soit tels que le tracé des résidus M.C.O. ressemble à tel ou tel grpahique comment dois-je interpréter? graphique (a) : les résidus semblent sans structure apparente et relativement homogènes en terme de variabilité. L hypothèse d homoscédasticité et d indépendance des ε i ne semble (tout ceci n est que visuel) pas déraisonnée. graphique (b) : les résidus semblent clairement ne pas avoir été générés avec la même variance : forte variabilité pour les premières observations puis très faible variabilité pour les dernières observations. graphique (c) : l homoscédasticité du modèle n est pas appropriée ; la variance du bruit semble augmenter en fonction de la quantité définissant l abscisse. graphique (d) : à nouveau l hypothèse d homoscédasticité ne semble pas adaptée puisque l on décèle à l oeil trois niveaux de variabilité différente. Fig. 3.1 Exemples de tracés de résidus permettant une détection visuelle d un phénomène d hétéroscédasticité. Illustrons à présent le cas où les données sont temporelles, figure Fig. 3.2. Dans ce cas tracer les résidus en fonction du temps peut faire apparaître une structure sur les résidus. Commençons par regarder les graphiques (a), (b) et (c) représentant des résidus tracés en fonction du temps. Au contraire du graphique (a) les graphiques (b) et (c) semblent très structurés. Pour le graphique (b), une valeur au temps t semble positivement corrélée à (i.e. semble aller dans

3.4. DÉTECTION D UN BRUIT COLORÉ 27 le même sens que ) la précedente. En ce qui concerne, le graphique (c), une valeur au temps t semble corrélée négativement (i.e. semble aller dans le sens opposé ) à la précédente. Ainsi l hypothèse d indépendance des ε i ne semble pas déraisonnée pour l exemple (a) mais relativement infondée pour les exemples (b) et (c). Regardons à présent les graphiques (a-bis), (b-bis) et (c-bis) qui peuvent donner une idée de modélisation pour le bruit comme alternative au bruit blanc. En effet, il existe un moyen graphique pour savoir si une modélisation de type AR(1) serait adéquate. Celui-ci résulte de la définition du processus AR(1) : ε t ρε t 1. En remplaçant les ε t par les résidus M.C.O., on peut avoir espoir que si on trace les résidus en t en fonction des résidus en (t-1) ceux-ci soient approximativement alignés autour d une droite.c est justement ce qui semble se produire pour les exemples (b) et (c). Le graphique (b-bis) (associé vous l aurez compris à l exemple (b)) suggère de modéliser le bruit par un AR(1) avec un coefficient ρ > 0. Le graphique (c-bis) suggère plutôt de modéliser l exemple (c) par un AR(1) avec un coefficient ρ < 0. Le graphique (a-bis) quant à lui tout comme le graphique (a) semble sans structure. Fig. 3.2 Exemple de tracés de résidus permettant une détection visuelle de la corrélation entre les ε i. En bref, on peut tracer les résidus en fonction des valeurs prédites ou en fonction d une des variables explicatives que l on soupçonne d induire de l hétéroscédasticité. en fonction du temps s il s agit de données temporelles pour détecter une éventuelle dépendance des résidus. Comment ça marche en R Dans l exemple ci-dessous formule est une formule R classique définissant le modèle. > summary(regression <- lm(f) ) > resid <- residuals(regression)

28 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ ## tracé des résidus bruts (en fonction de l indice d observation) : > plot(resid) ## en fonction des valeurs prédites : > plot(resid)~fitted(reg)) ## si x1 est un régresseur dont on soupconne qu il engendre une hétéroscédasticité : > plot(resid~x1 ) ## relier les points par un segment (utile si les données sont temporelles) : > plot(resid,type= l ) ## tracé des résidus en t en fonction des résidus en t-1 : > plot(resid[-1]~resid[-length(resid)],type= l ) 3.4.3 Test de détection d hétéroscédasticité Il existe une multitude de procédures pour tester l hétéroscédasticité. Chacun d entre eux correspond à une hypothèse que l on fait a priori sur la nature de l hétéroscédasticité, sa paramétrisation. Test de Goldfeld et Quandt Ce test repose sur l idée que la variance des perturbations peut être une fonction croissante d une (et une seule) variable observée. Comment ça marche en R? La fonction réalisant le test est gqtest(...) et se trouve dans le package lmtest (> require(lmtest) pour y avoir accès). Dans l exemple ci-dessous formule est une formule R classique définissant le modèle. ## test de Goldfeld-Quandt > gqtest(formule, point=t) ## T : indice d observation où l échantillon est coupé en deux. ## Rmq : si T<1 i.e. exprimé comme un pourcentage de n, ## l échantillon est coupé à n*t Test de Breusch et Pagan Ce test suppose que l hétéroscédasticité est de la forme : σ 2 i = g ( x T Q,i θ), où g est une fonction positive non spécifiée, x Q,i un ensemble de q régresseurs observés pour le i-ème individu, et où θ est un vecteur de dimension q de paramètres inconnus. En supposant cette forme paramétrique, le test s écrit : H 0 : θ 1 = θ 2 =... = θ q = 0 contre H 1 : i Q, θ i 0. La statistique de test à calculer N Rbε 2, où R2 bε est le coefficient de détermination multiple des résidus issus de la méthode des M.C.O. sur les variables x Q. Breusch et Pagan ont alors montré que sous H 0 : N Rbε 2 χ2 q 1, lorsque N +

3.4. DÉTECTION D UN BRUIT COLORÉ 29 Comment ça marche en R? La fonction réalisant le test est bptest(...) et se trouve dans le package lmtest (> require(lmtest) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant le modèle. ## test de Breusch-Pagan : l ensemble Q = tous les régresseurs. > bptest(formule) ## test de Breusch-Pagan : l ensemble Q = peut etre spécifié par une ## deuxième formule (disons formule2) dans le paramètre varformula > bptest(formule, varformula=formule2) 3.4.4 Test de détection de l autocorrélation d ordre 1 du bruit : test de Durbin-Watson Durbin et Watson ont mis en place un test en 1950 pour détecter l autocorrélation d ordre 1. Les hypothèses sont très simples à établir : en effet si on suppose que le bruit est issu d un processus AR(1), la dépendance des variables ne dépend que de ρ et on sait (sinon référez vous à la définition du processus) que l indépendance est caractérisée par le fait que ρ = 0. D où les hypothèses suivantes : H 0 : ρ = 0 contre H 1 : ρ 0 La statistique de test appelée statistique de Durbin-Watson est calculée comme suit : D-W = ( ) 2 n 1 t=1 ε MCO t+1 ε MCO t ) 2 n t=1 ( ε MCO t où le vecteur ε MCO est le vecteur des résidus obtenus par la méthode des M.C.O. Le comportement aléatoire de D W ne correspond à aucune loi standard. Durbin et Watson à l origine sont parvenus à encadrer cette v.a. entre deux v.a. dont la loi était plus standard et à évaluer ainsi des zones d acceptation. Cependant avec le progés des ordinateurs, tout logiciel statistique digne de ce nom (donc R!!!) sait évaluer approximativement (par simulations) la p valeur du test de Durbin-Watson. Comment ça marche en R? La fonction réalisant le test est durbin.watson(...) et se trouve dans le package car (> require(car) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant le modèle. ## test de durbin watson : p-valeur simulée par bootstrap <=> pas d hypothèse ## sur la distribution du bruit : > durbin.watson(lm(formule)) ## si on suppose que les données sont gaussiennes. > durbin.watson(lm(formule),method="normal") ## pour tester rho>0 > durbin.watson(lm(formule),alternative="positive")

30 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ ## pour tester rho<0 > durbin.watson(lm(formule),alternative="negative") 3.5 Pratique sur des jeux de données 3.5.1 Données agrégées 1 > exemple1 2 consoglob revenuglob nbreregion 3 1 1326.201 1606.036 144 4 2 1300.831 1554.352 55 5 3 1300.603 1606.012 112 6 4 1325.322 1611.103 83 7... 8 46 1322.520 1595.205 507 9 47 1314.014 1594.114 683 10 48 1329.364 1600.660 752 11 49 1325.063 1607.199 607 12 50 1334.050 1609.153 568 13 > ## méthode MCO 14 > summary(regmco <- lm(consoglob~revenuglob)) 15 16 Call: 17 lm(formula = consoglob ~ revenuglob) 18 19 Residuals: 20 Min 1Q Median 3Q Max 21-24.5606-5.5909-0.4168 4.9568 23.6829 22 23 Coefficients: 24 Estimate Std. Error t value Pr(> t ) 25 (Intercept) 48.81618 111.61739 0.437 0.664 26 revenuglob 0.79473 0.06958 11.421 2.74e-15 *** 27 --- 28 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 29 30 Residual standard error: 9.358 on 48 degrees of freedom 31 Multiple R-Squared: 0.731, Adjusted R-squared: 0.7254 32 F-statistic: 130.4 on 1 and 48 DF, p-value: 2.739e-15 33 > plot(residuals(regmco),xlab="région",ylab="résidus MCO") 34 35 > ## correction des écarts-types des estimateurs MCO 36 > sqrt(diag(hccm(regmco))) 37 (Intercept) revenuglob 38 153.33339544 0.09571015 39 40 > ## méthode MCG 41 > M<-diag(sqrt(nbreRegion)) 42 > x <- cbind(1,revenuglob)

3.5. PRATIQUE SUR DES JEUX DE DONNÉES 31 43 > summary(regmcg<-lm(m%*%consoglob~m%*%x-1)) 44 > ## super R2!!!!!!!!!!!!!!!! 45 > plot(residuals(regmcg),xlab="région",ylab="résidus MCG") 46 47 48

32 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ 3.5.2 Exemple de bruit AR(1) 1 > investment 2 year inv gnp priceind 3 1 1963 90.9 596.7 0.7167 4 2 1964 97.4 637.7 0.7277 5 3 1965 113.5 691.1 0.7436 6 4 1966 125.7 756.0 0.7676 7 5 1967 122.8 799.6 0.7906 8 6 1968 133.3 873.4 0.8254 9 7 1969 149.3 944.0 0.8679 10 8 1970 144.2 992.7 0.9145 11 9 1971 166.4 1077.6 0.9601 12 10 1972 195.5 1185.9 1.0000 13 11 1973 229.8 1326.4 1.0575 14 12 1974 228.7 1434.2 1.1508 15 13 1975 206.1 1549.2 1.2579 16 14 1976 257.9 1718.0 1.3234 17 15 1977 324.1 1918.3 1.4005 18 16 1978 386.6 2163.9 1.5042 19 17 1979 423.0 2417.8 1.6342 20 18 1980 401.9 2631.7 1.7842 21 19 1981 474.9 2954.1 1.9514 22 20 1982 414.5 3073.0 2.0688 23 > n <- nrow(investment) 24 > realinv <- inv/priceind 25 > realgnp <- gnp/priceind 26 > summary(lm(realinv~realgnp)->regmco) 27 28 Call: 29 lm(formula = realinv ~ realgnp) 30 31 Residuals: 32 Min 1Q Median 3Q Max 33-36.9297-5.7071 0.1375 8.9945 27.5754 34 35 Coefficients: 36 Estimate Std. Error t value Pr(> t ) 37 (Intercept) -11.67809 21.15627-0.552 0.588 38 realgnp 0.16761 0.01739 9.638 1.57e-08 *** 39 --- 40 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 41 42 Residual standard error: 16.33 on 18 degrees of freedom 43 Multiple R-Squared: 0.8377, Adjusted R-squared: 0.8287 44 F-statistic: 92.9 on 1 and 18 DF, p-value: 1.570e-08 45 > plot(residuals(regmco),xlab="temps",ylab="résidus MCO",type="l") 46 47 > ## correction des écarts-types des estimateurs MCO

3.5. PRATIQUE SUR DES JEUX DE DONNÉES 33 48 > sqrt(diag(hccm(regmco))) 49 (Intercept) realgnp 50 20.78775566 0.01968629 51 52 > ## test de Durbin-Watson 53 > require(lmtest) 54 > durbin.watson(regmco) 55 lag Autocorrelation D-W Statistic p-value 56 1 0.2257665 1.264177 0.034 57 Alternative hypothesis: rho!= 0 58 59 > ## estimation de rho 60 > resid <- residuals(regmco) 61 > rhoest<-as.vector(lm( resid[-n]~resid[-1])$coeff[2]) 62 > rhoest 63 [1] 0.2254003 64 65 > ## construction de M=OmegaChapo^(-1/2) 66 > M <- toeplitz(c(1,-rhoest,rep(0,n-2))) 67 > M[n,n] <- sqrt(1-rhoest^2) 68 69 > ## estimation MCG 70 > x <- cbind(1,realgnp) 71 > summary(regmcg <- lm(m%*%realinv~m%*%x-1)) 72 73 Call: 74 lm(formula = M %*% realinv ~ M %*% x - 1) 75 76 Residuals: 77 Min 1Q Median 3Q Max 78-34.810-3.786 2.840 10.125 20.511 79 80 Coefficients: 81 Estimate Std. Error t value Pr(> t ) 82 M %*% x -12.60329 31.22295-0.404 0.691 83 M %*% xrealgnp 0.16691 0.02572 6.489 4.2e-06 *** 84 --- 85 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 86 87 Residual standard error: 14.98 on 18 degrees of freedom 88 Multiple R-Squared: 0.9833, Adjusted R-squared: 0.9815 89 F-statistic: 531.1 on 2 and 18 DF, p-value: < 2.2e-16 90 > ## a faire super R2 91 > plot(residuals(regmcg),xlab="temps",ylab="résidus MCG",type="l") 92 93 > ## test de Durbin-Watson sur les résidus MCG 94 > durbin.watson(regmcg) 95 lag Autocorrelation D-W Statistic p-value 96 1-0.04936899 1.798906 0.44