La régression linéaire. Formation Fondamentale

Formation Fondamentale

Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests

Modélisation Variable à expliquer Y Variable explicatives X 1, X 2,...., X p On suppose que les variations de Y sont inuencées par les variables explicatives Le modèle permet d'exprimer sous la forme d 'une relation mathématique la liaison supposée La connaissance de ces variables permettent à l 'aide du modèle de prédire Y Estimer les valeurs de Y ponctuellement et par intervalle Le modèle permet de mesurer l 'impact ou l 'eet d 'une variable explicative sur Y

Exemples Ecacité des budgets publicitaires Y : ventes en valeurs X 1 : budget radio X 2 : budget journaux X 3 : budget gratuits Forfaits de ski Population : stations de ski françaises Y : prix du forfait hebdomadaire X : Kms de pistes Consommation des ménages Population : ménages Y : Budget consacré à la consommation du ménage X 1 : Revenu du foyer X 2 : Taille du foyer

Relation déterministe - statistique Relation déterministe Relation Statistique Une seule valeur de Y pour une valeur de X Plusieurs valeurs de Y pour une valeur de X Pas de fonction mathématique pour exprimer la relation Probabiliser Y pour une valeur xée de X

Relation statistique A chaque valeur x de X correspond une distribution de Y Loi de Y conditionnée par X = x : Y x Espérance (moyenne) conditionnelle de Y : µ x La loi centrée conditionnelle ε x = Y x µ x La fonction x f (x) = µ x est la courbe de régression ε x est l'erreur de régression (E (ε x ) = 0) On écrira (abusivement) Y = f (X ) + ε X

Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests

La fonction f est une fonction linéaire des variables explicatives : Régression simple : une seule variable explicative X Y = β 0 + β 1 X + ε X Pour toute valeur x de X : Y x = β 0 + β 1 x + ε x Régression multiple : plusieurs variables explicatives Y = β 0 + β 1 X 1 + β 2 X 2 + + β X p + ε X Pour toutes valeurs x 1 de X 1, x 2 de X 2,, x p de X p : Y x1,x2, xp = β 0 + β 1 x 1 + β 2 x 2 + + β p X p + ε x Hypothèses de la régression linéaire Les variables aléatoires ε x ε x de x sont toutes de même loi de loi normale de moyenne 0 et d'écart-type σ indépendant

La démarche de la régression A partir d'un échantillon de valeurs pour la variable à expliquer Y et les variables explicatives X i 1 Vérier la possibilité d'une liaison linéaire entre Y et chacune des variables X i 1 représentation graphique 2 coecient de corrélation 2 Estimation des paramètres 1 coecients β i (b i ) 2 de l'écart-type σ (écart-type de la régression) 3 Validation du modèle 1 indice de qualité R 2 2 validité globale F de Fisher 3 validité marginale t de student 4 étude des résidus, détection des points atypiques

Liaison entre variables

Estimation Estimation des coecients - Méthode des moindres carrés (y i, x 1,i, x 2,i,, x i,p) µ x i = β 0 + β 1 x i,1 + β 2 x 2,i + + β p x p,i e i = y i µ x i Les valeurs estimées (b 0, b 1, b 2,, b p ) des coecients minimisent Notation valeur observée : y i h = n e 2 i i=1 valeur prédite : valeur estimée de µ x i = ŷ i = b 0 + b 1 x 1,i + b 2 x 2,i + + b p x p,i valeur résiduelle : résidu : ê i = y i ŷ i

Décomposition des carrés La somme des résidus est nulle Valeurs observées et valeurs prédites ont la même moyenne La somme des carrés totale = la somme des carrés modélisée (de la régression) + la somme des carrés résiduelle n i=1 SCT = ê i = 0 y = ŷ n i=1 n SCE = i=1 n SCR = ê 2 i i=1 (y i y) 2 (ŷ i y) 2 SCT = SCE + SCR

Exemple de la décomposition

Indices de qualité Coecient de détermination R 2 Coecient de corrélation multiple Corrélation entre les valeurs observées et modélisées R 2 = SCE SCT 0 R 2 1 R = R 2 R 2 augmente avec le nombre de variables explicatives (= 1 si p = n 1) Si R 2 = 0 absence de liaison linéaire

Ecart-type des résidus Estimation de la variance des résidus L 'écart-type des résidus évalue la dispersion des résidus autour de 0 évalue la dispersion des valeurs de Y autour de la moyenne précision des prédictions σ 2 = Var (ε) SCR n p 1 s = s 2 s 2 = s est appélée "Erreur standard de l'estimation"

Test global Objectif : déterminer si au moins une des variables choisies est signicativement explicative (linéairement). On pose le test H 0 : β 1 = 0, β 2 = 0,, β p = 0 H 1 : i [1 ; p] β i 0 On se xe un risque de première espèce α Statistique associée au test : Carré moyen expliqué / Carré moyen résiduel SCE/p f c = SCR/(n p 1) Signicativité sig = probabilité d'observer un telle valeur sous H 0. Si sig < α on rejette H 0

Test Global - Exemple

Tests partiels Objectif : évaluer l'apport marginal de chacune des variables à la régression Test associé à la variable k H 0 : β k = 0, les autres variables étant dans la régression H 1 : β k 0 On se xe un risque de première espèce α On calcule le t k associé à la variable X k t k = b k s(b k ) où s (B k ) désigne l'écart-type estimé de l'estimateur du coecient β k Si la signicativité de t k est inférieur à α, on rejette H 0 sinon cette variable peut être otée de la régression textitattention : une seule variable à la fois

Test partiel - Exemple