La régression linéaire multiple

Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

Programmes des classes préparatoires aux Grandes Ecoles

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Quantification Scalaire et Prédictive

3 Approximation de solutions d équations

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Exemples d application

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Espérance conditionnelle

Analyse en Composantes Principales

Le Modèle Linéaire par l exemple :

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Résolution de systèmes linéaires par des méthodes directes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Programmation linéaire et Optimisation. Didier Smets

Exercice : la frontière des portefeuilles optimaux sans actif certain

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

3. Conditionnement P (B)

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Simulation de variables aléatoires

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Programmation linéaire

Soutenance de stage Laboratoire des Signaux et Systèmes

1 Définition de la non stationnarité

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Résolution d équations non linéaires

Cours d analyse numérique SMI-S4

Introduction au Data-Mining

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Fonctions de plusieurs variables

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Apprentissage non paramétrique en régression

Analyse de la variance Comparaison de plusieurs moyennes

Exercices Corrigés Premières notions sur les espaces vectoriels

Chapitre 3. Les distributions à deux variables

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Modèles et Méthodes de Réservation

Évaluation de la régression bornée

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Projet de Traitement du Signal Segmentation d images SAR

FORMULAIRE DE STATISTIQUES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours de méthodes de scoring

Probabilités III Introduction à l évaluation d options

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction au Data-Mining

Température corporelle d un castor (une petite introduction aux séries temporelles)

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Approximations variationelles des EDP Notes du Cours de M2

Econométrie et applications

Principe de symétrisation pour la construction d un test adaptatif

Data mining II. Modélisation Statistique & Apprentissage

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Licence STS mention Mathématiques Parcours Ingénieur Télécom Bretagne (ITB)

NON-LINEARITE ET RESEAUX NEURONAUX

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction à la Statistique Inférentielle

Correction de l examen de la première session

Contributions aux méthodes d estimation en aveugle

4.2 Unités d enseignement du M1

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

données en connaissance et en actions?

Etude des propriétés empiriques du lasso par simulations

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Cours 02 : Problème général de la programmation linéaire

Équations non linéaires

CCP PSI Mathématiques 1 : un corrigé

Correction du Baccalauréat S Amérique du Nord mai 2007

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Commun à tous les candidats

Optimisation, traitement d image et éclipse de Soleil

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Théorie et codage de l information

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Intérêt du découpage en sous-bandes pour l analyse spectrale

Fonctions de deux variables. Mai 2011

Programmation Linéaire - Cours 1

Méthodes de Simulation

Cours d Analyse. Fonctions de plusieurs variables

Modèles Estimés sur Données de Panel

Calcul différentiel sur R n Première partie

I. Polynômes de Tchebychev

Econométrie La régression linéaire simple et multiple

Transcription:

Plan La régression linéaire multiple - Chapitre V - Notes de cours Modélisation Statistique L3 MIASHS - Université de Bordeaux - Chapitre V - L3 MIASHS- La régression linéaire multiple 1/46

Plan Plan 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 2/46

Plan Ecriture du modèle et estimation des paramètres Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 3/46

Première écriture du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Le modèle de régression linéaire multiple s écrit sous la forme : p Y = β 0 + β k X (k) + ε (1) k=1 - les p variables explicatives X (k) sont non aléatoires réelles, - l erreur ε est aléatoire, - la variable à expliquer Y est donc aléatoire. L objectif : estimer les p + 1 paramètres β 0,..., β p. - Chapitre V - L3 MIASHS- La régression linéaire multiple 4/46

Seconde écriture du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On se donne deux n-échantillons (X n ) et (Y n ) qui ne sont pas mutuellement indépendants où : - (X n ) forme une suite de vecteurs de dimension p 1, - X i = (X (1) i,..., X (p) i ) est la ième composante de (X n ). Le modèle s écrit alors : Y i = β 0 + p k=1 β k X (k) i + ε i i = 1,..., n. (2) - Chapitre V - L3 MIASHS- La régression linéaire multiple 5/46

Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Les hypothèses sont celles de la régression linéaire simple : (1) E[ε i ] = 0, i = 1,..., n : les erreurs sont centrées, E[Y i ] = β 0 + p k=1 β kx (k) i. (2) V(ε i ) = σ 2, i = 1,..., n : la variance des erreurs est constante, on parle d homogénéité des variances ou encore d homoscédasticité, V(Y i ) = σ 2. Remarque : σ 2 est un autre paramètre inconnu à estimer. (3) Cov(ε i, ε l ) = 0, i l : les erreurs sont non corrélées, Cov(Y i, Y l ) = 0. Remarque : Lorsqu on ajoute une hypothèse de normalité sur les ε i, les ε i sont indépendants. (ε n ) est alors un bruit blanc gaussien. - Chapitre V - L3 MIASHS- La régression linéaire multiple 6/46

Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Sous les hypothèses (1) à (3), l estimateur des moindres carrées de β = (β 0, β 1,..., β p ) t aura de bonnes propriétés. En ajoutant l hypothèse de normalité des erreurs, on pourra définir l estimateur du maximum de vraisemblance de β et effectuer des tests sur la nullité des paramètres. En pratique, il conviendra de vérifier si ces hypothèses sont vérifiées. - Chapitre V - L3 MIASHS- La régression linéaire multiple 7/46

Ecriture matricielle du modèle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Le modèle (2) s écrit : où Y = X β + ε (3) Y 1 1 X (1) 1 X (2) 1... X (p) 1 β 0 ε 1 Y 2 Y =., X = 1 X (1) 2 X (2) 2... X (p) 2 β...., β = 1 ε., ε = 2.. Y n 1 X n (1) X n (2)... X n (p) β p ε n - Chapitre V - L3 MIASHS- La régression linéaire multiple 8/46

Ecriture matricielle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Les 3 hypothèses précédentes peuvent alors s écrire sous la forme : (1 ) E(ε) = 0 n E(Y ) = X β R n. (2 ) V(ε) = σ 2 I n V(Y ) = σ 2 I n. où 0 n est le vecteur nul de dimension n et I n est la matrice identité de dimension n n. On suppose en outre que p + 1 < n, rang(x ) = p + 1, c est-à-dire qu il n existe pas de liaison linéaire entre les X (k). - Chapitre V - L3 MIASHS- La régression linéaire multiple 9/46

Ecriture matricielle Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Il est important de bien faire la différence entre l expression E(Y i ) = β 0 + p k=1 β kx (k) i (qui désigne l espérance d une variable aléatoire scalaire), et l expression E(Y ) = X β (qui désigne l espérance d une variable aléatoire vectorielle) : on obtient dans un cas un scalaire, dans l autre cas un vecteur de R n. l expression V(Y i ) = σ 2 (qui désigne la variance d une variable aléatoire scalaire), et l expression V(Y ) = σ 2 I n (qui désigne la covariance d une variable aléatoire vectorielle) : on obtient dans un cas un scalaire (σ 2 ), dans l autre cas une matrice carrée (σ 2 I n ) de dimension n n. - Chapitre V - L3 MIASHS- La régression linéaire multiple 10/46

Estimateur des moindres carrés de β Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On cherche l équation de la droite de régression en dimension p + 1 pour laquelle les erreurs quadratiques (ε 2 n) sont les plus faibles. On cherche alors à minimiser n ε 2 i = i=1 n i=1 (Y i β 0 β 1 X (1) i β 2 X (2) i... β p X (p) i ) 2 = ε t ε On remarque que ε = Y X β, ce qui nous conduit à ε t ε = (Y X β) t (Y X β) = Y t Y 2 Y t X β + β t X t X β - Chapitre V - L3 MIASHS- La régression linéaire multiple 11/46

Estimateur des moindres carrés de β Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Ainsi, par dérivation (vectorielle...) par rapport à β, ε t ε β = 2 X t Y + 2 X t X β. Chercher à annuler cette dérivée revient à choisir l estimateur β tel que X t X β = X t Y et donc Exercice 1 (facile). β = (X t X ) 1 X t Y. (4) Cela nous contraint en outre à supposer que la matrice X t X de dimension (p + 1) (p + 1) est bien inversible. - Chapitre V - L3 MIASHS- La régression linéaire multiple 12/46

Prédictions et résidus Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Une fois que β a été estimé, nous pouvons reconstruire nos données à l aide de notre modélisation. On construit les prédictions et les résidus Ŷ i = β 0 + p k=1 β k X (k) i ou encore Ŷ = X β, ε i = Y i Ŷi ou encore ε = Y Ŷ. Remarque. Ŷ i estime E(Y i ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 13/46

Propriétés de ˆβ Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Sous les hypothèses retenues, on peut montrer que : Exercice 2 (facile). E( ˆβ) = β V( ˆβ) = σ 2 (X t X ) 1 On peut également montrer que ˆβ est l estimateur sans biais de variance minimale ou encore estimateur BLUE (Best Linear Unbiased Estimator). - Chapitre V - L3 MIASHS- La régression linéaire multiple 14/46

Estimation de σ 2 Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Selon la stratégie usuelle, on considère l estimateur σ 2 = 1 n p 1 n i=1 ε 2 i = t ε ε n p 1 Sous les hypothèses retenues on peut montrer que : Exercice 3 (difficile). E[ σ 2 ] = σ 2. - Chapitre V - L3 MIASHS- La régression linéaire multiple 15/46

Estimation de σ 2 Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On en déduit un estimateur sans biais de V( ˆβ) ; ˆV( ˆβ) = ˆσ 2 (X t X ) 1. Pour débiaiser l estimateur de σ 2 nous retrouvons une normalisation par n p 1 lorsque l estimation concerne p + 1 paramètres. - Chapitre V - L3 MIASHS- La régression linéaire multiple 16/46

Interprétation géométrique Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique On munit l espace R n des variables de la métrique D = 1 n I n. On note W le sous-espace de R n de dimension p + 1 engendré par les colonnes de X. On montre alors que : Ŷ est la projection D-orthogonale de Y sur W. La preuve est directe en écrivant : Ŷ = P W Y, avec P W = X (X t DX ) 1 X t D l opérateur de projection sur W. - Chapitre V - L3 MIASHS- La régression linéaire multiple 17/46

Plan Ecriture du modèle et estimation des paramètres 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 18/46

Hypothèse supplémentaire On ajoute l hypothèse de normalité des erreurs : ε i N (0, σ 2 ) Y i N (βx i, σ 2 ), ou encore matriciellement : (3 ) ε N (0 n, σ 2 I n ) Y N (βx, σ 2 I n ). Remarques. Sous l hypothèse de normalité, V(ε) = V(Y ) = σ 2 I n implique que le ε i et les Y i sont indépendants. Les hypothèses (1 ), (2 ) (3 ) (ε n ) est un bruit blanc de loi N (0, σ 2 ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 19/46

Estimateurs du maximum de vraisemblance de β et de σ 2 La fonction de vraisemblance est la densité conjointe des Y i notée L(β, σ 2 ). Les estimateurs β et σ 2 qui maximisent L(β, σ 2 ) sont : β = (X t X ) 1 X t Y = ˆβ σ 2 = 1 n (Y X ˆβ) t (y X ˆβ) = 1 n ˆεt ˆε ˆσ 2 Exercice 4 (facile). Remarque. σ 2 est biaisé. - Chapitre V - L3 MIASHS- La régression linéaire multiple 20/46

Propriétés de β et σ 2 Sous les hypothèses (1 ), (2 ) et (3 ) on montre que : 1 β N ( β, σ 2 (X t X ) 1) ˆβ N ( β, σ 2 (X t X ) 1). 2 n σ2 σ 2 χ 2 (n p 1) (n p 1) ˆσ2 σ 2 χ 2 (n p 1). 3 β et σ 2 indépendants ˆβ et ˆσ 2 indépendants. Exercice 5 (difficile). - Chapitre V - L3 MIASHS- La régression linéaire multiple 21/46

Plan Ecriture du modèle et estimation des paramètres Définition Interprétation 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 22/46

Définition Ecriture du modèle et estimation des paramètres Définition Interprétation On définit R comme le coefficient de corrélation linéaire entre les Y i et les Ŷ i. Son carré s interprète en terme de variance expliquée : n R 2 i=1 = (Ŷi Ȳ n ) 2 n i=1 (Y i Ȳ n ) 2 = SCE SCT = 1 SCR SCT. avec la décomposition : n n n (Y i Ȳ n ) 2 = (Y i Ŷn) 2 + (Ŷi Ȳ n ) 2 i=1 } {{ } SCT i=1 } {{ } SCR i=1 } {{ } SCE Remarque. R 2 = 1 l ajustement est parfait : i, Ŷi = Y i. - Chapitre V - L3 MIASHS- La régression linéaire multiple 23/46

Interprétation Définition Interprétation Interprétation géométrique : R est le cosinus de l angle formé par (Y Ȳ ) et (Ŷ Ȳ ) où Ȳ = (Ȳ n,..., Ȳ n ) t R n. Interprétation statistique : R 2 peut être utilisé pour tester l ajustement de Y par Ŷ. On peut montrer que sous H 0 : β 1 =... = β q = 0 (ou H 0 : R 2 = 0 ) : F n = SCE/p SCR/(n p 1) = R 2 /p (1 R 2 F (p, n p 1) )/(n p 1) Exercice 6 (facile). On rejette H 0 si F n > f p, n p 1, 1 α. - Chapitre V - L3 MIASHS- La régression linéaire multiple 24/46

Plan Ecriture du modèle et estimation des paramètres Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 25/46

Test de significativité du modèle Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Nous avons vu que l on peut utiliser la statistique de test pour tester l hypothèse F n = SCE/p SCR/(n p 1) H 0 : β 1 =... = β p = 0 contre H 1 : j {1,..., p}, β j 0. La zone de rejet associé à cette statistique est : R = ]f p, n p 1, 1 α, + [. - Chapitre V - L3 MIASHS- La régression linéaire multiple 26/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k On veut tester H 0 : β k = 0 contre H 1 : β k 0 construire une statistique de test dont on connaît la loi sous H 0. On peut montrer que β k β k σ c kk t(n p 1) où c 00, c 11,..., c pp sont les éléments diagonaux de (X t X ) 1 Exercice 7 Remarque. ˆV( ˆβ k ) = ˆσ 2 c kk. - Chapitre V - L3 MIASHS- La régression linéaire multiple 27/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k On utilise donc la statistique de test T n = β k σ c kk pour tester les hypothèses H 0 : β k = 0 contre H 1 : β k 0 La zone de rejet associé à cette statistique est : R = ], t n p 1, 1 α/2 [ ] t n p 1, 1 α/2, + [. - Chapitre V - L3 MIASHS- La régression linéaire multiple 28/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Test de significativité d un coefficient β k Rejeter H 0 signifie : que la variable explicative X (k) joue un rôle dans le modèle de régression, c est-à-dire que X (k) apporte de l information quant à la reconstruction de Y, que le coefficient β k est significativement non nul, que β k s interprète comme le taux d accroissement moyen de Y en fonction d une variation de X (k) lorsque tous les autres régresseurs X (1),..., X (k 1), X (k+1),..., X (p) restent fixés. - Chapitre V - L3 MIASHS- La régression linéaire multiple 29/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Contribution jointe d un ensemble de régresseurs On cherche à tester la nullité des q p premiers paramètres : H 0 : β 1 =... = β q = 0 contre H 1 : k {1,..., q}, β k 0. Cela revient à comparer deux modèles : le modèle complet à p regresseurs (modèle 1) pour lequel on évalue la somme des carrés des résidus SCR 1, le modèle réduit à p q regresseurs (modèle 0) pour lequel on évalue la somme des carrés des résidus SCR 0. - Chapitre V - L3 MIASHS- La régression linéaire multiple 30/46

Test de significativité du modèle Test de significativité d un coefficient β k Contribution jointe d un ensemble de régresseurs Contribution jointe d un ensemble de régresseurs On peut montrer que sous H 0 : (SCR 0 SCR 1 )/q F (q, n p 1). SCR 1 /(n p 1) Nous en déduisons la zone de rejet associée à cette statistique de test : R = ]f q, n p 1, 1 α, + [. Remarque. Ce test est utile pour faire de la modélisation pas à pas et sélectionner un ensemble optimal de régresseurs nécessaires à la reconstruction de Y. - Chapitre V - L3 MIASHS- La régression linéaire multiple 31/46

Plan Ecriture du modèle et estimation des paramètres Intervalle de prédiction Intervalle de confiance 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 32/46

Intervalle de prédiction Intervalle de confiance Objectif : prévoir à l aide du modèle la valeur de Y pour une nouvelle observation notée (X (1) 0,..., X (p) 0 ). D après le modèle, on a : où X 0 = (1, X (1) 0,..., X (p) 0 ) t, Deux possibilités : Y 0 = X t 0β + ε 0, Construire un intervalle qui contient la prédiction Ŷ 0 = Ê(Y 0 ) avec une probabilité 1 α (intervalle de prédiction). Construire un intervalle de confiance de E(Y 0 ) de niveau 1 α. - Chapitre V - L3 MIASHS- La régression linéaire multiple 33/46

Intervalle de prédiction Intervalle de prédiction Intervalle de confiance La prédiction pour une nouvelle observation est donc : On montre que Ŷ 0 = X t 0 ˆβ. Exercice 8. Y 0 Ŷ0 ˆσ 1 + X t 0 (X t X ) 1 X 0 T (n p 1). On en déduit l intervalle de prédiction qui est : [ ] Ŷ 0 ± t n p 1,1 α/2 ˆσ 1 + X t0 (X t X ) 1 X 0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 34/46

Intervalle de confiance Intervalle de prédiction Intervalle de confiance On veut construire un intervalle de confiance du paramètre E(Y 0 ) = X t 0β On sait que Ŷ 0 N (X t 0 β, σ2 X t 0 (X t X ) 1 X 0 ) doù Ŷ 0 X t 0 β ˆσ X t 0 (X t X ) 1 X 0 T (n p 1). On en déduit l intervalle de confiance qui est : [ ] Ŷ 0 ± t n p 1,1 α/2 ˆσ X t0 (X t X ) 1 X 0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 35/46

Plan Ecriture du modèle et estimation des paramètres Les critères de choix Les procédures de sélection de variables 1 Ecriture du modèle et estimation des paramètres 2 3 4 5 6 - Chapitre V - L3 MIASHS- La régression linéaire multiple 36/46

Les critères de choix Les procédures de sélection de variables Objectif : Sélectionner parmi les p variables explicatives, les q p variables qui donnent le meilleur modèle pour prédire Y. Il va donc falloir : Définir un critère qui permet de comparer deux modèles n ayant pas nécessairement le même nombre de variables explicatives. Définir un procédure qui permet d optimiser ce critère parmi tous les modèles. On parle de procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 37/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le coefficient R 2 = 1 SCR SCT mesure l ajustement du modèle aux données, augmente lorsque le nombre de variables incluses dans le modèle augmente, permet de comparer des modèles ayant le même nombre de variables Ce critère ne peut pas être utilisé dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 38/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le coefficient Rajusté 2 = 1 SCR/(n p 1) SCT /(n 1) Estime le Rpopulation 2 = 1 V(ε) V(Y ) = 1 σ2, σy 2 peut prendre des valeurs négatives, n augmente pas forcément lorsque le nombre de variables introduites dans le modèle augmente. Ce critère peut être utilisé dans une procédure de choix de modèle (à maximiser). - Chapitre V - L3 MIASHS- La régression linéaire multiple 39/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Le C q de Mallows : C q = SCR 0 n + 2(q + 1) SCR1/(n p 1) où SCR 1 est évalué pour le modèle complet à p variables, SCR 0 est évalué pour le modèle réduit à q variables. Ce critère doit être comparé à q + 1 dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 40/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Les critères de vraisemblance pénalisée : AIC (Akaike Information Criterion) AIC = 2 ln(l) + 2k, BIC (Bayesian Information Criterion) : BIC = 2 ln(l) + k ln(n), où L est la vraisemblance du modèle estimé (vraisemblance maximisée), k est le nombre de paramètres du modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 41/46

Les critères de choix Les critères de choix Les procédures de sélection de variables Les critères de AIC et BIC en régression multiple : k = q + 1 (paramètres β 1,..., β q et σ), 2 ln(l) = n [ln(2π σ) + 1] où σ = SCR n souvent remplacé par ˆσ = SCR n p 1. Les critères AIC et BIC peuvent alors être simplifiés : AIC = n ln(scr) + 2k AIC = n ln(ˆσ) + 2k BIC = n ln(scr) + k ln(n) BIC = n ln(ˆσ) + k ln(n) Ces critères doivent être minimisés dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 42/46

Les critères de choix Les procédures de sélection de variables Procédure exhaustive de sélection de variables Il s agit d évaluer avec l un des critères précédent tous les modèles de régression à q p variables et retenir le meilleur mais, le nombre de modèles à q variables est C q p = p! q!(p q)!, le nombre total de modèles à considérer est p Cp q = 2 p 1. q=1 Le nombre de modèles croît exponentiellement avec p. Par exemple, si 30 variables sont à disposition, on devrait considérer 2 30 = 10 9 modèles... Impossible en pratique dès que p grandit. - Chapitre V - L3 MIASHS- La régression linéaire multiple 43/46

Procédure leaps and bounds Les critères de choix Les procédures de sélection de variables Procédure basée sur l algorithme de Furnival et Wilson : algorithme de type branch and bound, permet de trouver, pour q fixé, le meilleur modèle c est à dire le meilleur sous-ensemble de q variables. Pour q fixé, on a : min AIC min BIC max R 2 max Rajusté 2 min SCR. En pratique : 1 La procédure fournit le meilleur modèle à 1, 2,..., p variables, 2 Choisir q {1,..., p} qui fournit le meilleur modèle avec l un des critères de choix (sauf R 2 et SCR). Remarque. Efficace mais limitée à une trentaine de variables. - Chapitre V - L3 MIASHS- La régression linéaire multiple 44/46

Les critères de choix Les procédures de sélection de variables Procédure pas à pas ascendante (forward stepwise) 1 On effectue p régressions linéaires simple et on sélectionne la variable qui donne le meilleur modèle c est à dire : le modèle qui maximise R 2 minimise SCR... ou de manière équivalente la variable qui a la p-value du test de contribution marginale la plus petite. 2 On effectue p 1 régressions linéaires avec 2 variables explicatives en gardant celle sélectionnée à l étape 1 et on sélectionne celle qui ajoutée à la première : apporte la plus grande augmentation du R 2 maximise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus petite (variable la plus significative). 3 On recommence jusqu à ce qu aucune variable significative ne puisse être ajoutée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 45/46

Les critères de choix Les procédures de sélection de variables Procédure pas à pas descendante (backward stepwise) 1 On effectue une régression linéaire multiple avec les p variables explicatives disponibles. 2 On effectue p 1 régressions linéaires en supprimant une variable et on sélectionne la variable qui : apporte la plus grande diminuation du R 2 minimise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus grande (variable la moins significative). 3 On recommence jusqu à ce qu aucune variable non significative ne puisse être retirée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 46/46