Régression sur variables qualitatives Analyse de la variance ENSAI Deuxième année - Modèles de régression 2010-2011
Introduction Dans ce chapitre, on étudie des cas particuliers de régression linéaire où : La variable à expliquer Y est quantitative, La ou les variables explicatives potentielles sont qualitatives très fréquent en pratique Exemples des données du Cirad et d Air Breizh
Cas d une variable à expliquer quantitative Y et d une variable explicative qualitative potentielle Objectif : déterminer si la variable explicative qualitative considérée a un effet - significatif - sur Y Définition La variable qualitative considérée est souvent appelée facteur On suppose qu elle prend ses valeurs dans un ensemble fini à I éléments appelés niveaux (du facteur) Une première analyse graphique : boîtes à moustaches (boxplot)
Données du Cirad Hauteur des eucalyptus 15 20 25 1 2 3 Bloc
Données d Air Breizh (1996 1998) Concentration maximale ozone 40 60 80 100 120 140 E N S W Direction du vent
Données d Air Breizh (1996 1998) Concentration maximale ozone 40 60 80 100 120 140 Ensoleillé Nuageux Nébulosité
Pour i = 1 I, on note n i le nombre d observations de Y correspondant au ième niveau du facteur, et pour j = 1 n i, y ij désigne la jème observation de Y pour le ième niveau du facteur Soit n = I i=1 n i le nombre total d observations Définition Si n i > 0 pour tout i, on dira que le plan d expérience est complet Si n 1 = = n I, on dira que le plan d expérience est équilibré
Modèle d ANOVA à un facteur Les observations y ij, i = 1I, j = 1 n i sont supposées être issues du modèle { i = 1 I Y ij = µ + α i + ε ij,, j = 1 n i où les variables ε ij vérifient les conditions standards : - (C 1 ) E[ε ij ] = 0, - (C 2 ) cov(ε ij,ε i j ) = 0, - (C 3 ) var(ε ij ) = σ 2
Ecriture sous forme matricielle Recodage (disjonctif complet) du facteur en variables indicatrices (dummy variables) Matrice d incidence : A = (½ 1, ½ 2,, ½ I ) ie A = 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1
Modèle : Y = Xβ + ε avec - Y = (Y 11,,Y 1n1,,Y I1,,Y InI ) - β = (µ,α 1,,α I ) - ε = (ε 11,,ε 1n1,,ε I1,,ε InI ), - X = (½,A), ie X = 1 1 0 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1
Identifiabilité et contraintes Problème : le modèle n est pas identifiable Contre-exemple pour l unicité La matrice X n est pas de plein rang Solution : contrainte linéaire identifiante sur les cœfficients reparamétrisation du modèle 1 Contrainte de type analyse par cellule : µ = 0 On pose alors β = (α 1,,α I ) et X = A 2 Contrainte de type cellule de référence : α ir = 0 pour un i r choisi dans {1,,I } Choix de SAS et R par défaut 3 Contrainte d orthogonalité : I i=1 n iα i = 0 4 Contrainte de type somme : I i=1 α i = 0
Contrainte µ = 0 Modèle : Y = Xβ + ε avec β = (α 1,,α I ) et X = A 1 n 1 0 0 n 1 0 0 X 0 n 2 0 1 X = et (X X) 1 0 n = 2 0 0 0 n 1 I 0 0 n I Estimateur des moindres carrés ordinaires de β ˆβ = (X X) 1 X Y = (ˆα 1,, ˆα I ) où ˆα i = Ȳ i = 1 n i ni j=1 Y ij pour tout i
Remarque : l estimateur ˆβ est intuitif! Proposition ˆβ est un estimateur sans biais de β de variance σ 2 diag ( 1 n 1,, 1 n I ) minimale parmi les estimateurs linéaires sans biais de β Le vecteur des valeurs ajustées est défini par Ŷ = (Ȳ1,,ȲI ), et celui des résidus par : ˆε ij = Y ij Ȳi Proposition L estimateur sans biais de la variance σ 2 est σ 2 = 1 I ni n I i=1 j=1 ˆε2 ij = 1 I ni n I i=1 j=1 (Y ij Ȳ i ) 2
Contrainte α ir = 0 Modèle : Y = Xβ + ε avec β = (µ,α 1,,α ir 1,α ir+1,,α I ) et X = (½, ½ 1,, ½ ir 1, ½ ir+1,, ½ I ) Estimateur des moindres carrés ordinaires de β ˆβ = (X X) 1 X Y = (ˆµ, ˆα 1,, ˆα ir 1, ˆα ir+1,, ˆα I ), avec ˆµ = Ȳi r, ˆα i = Ȳi Ȳi r pour i {1,,i r 1,i r + 1,,I } Remarques : - Vecteur des valeurs ajustées inchangé car E(X) inchangé ie Ŷ = (Ȳ1,,ȲI ) - Vecteur des résidus et estimateur sans biais de σ 2 : idem aussi
Contrainte I i=1 n iα i = 0 (α I = 1 n I I 1 i=1 n iα i ) Modèle ( : Y = Xβ + ε avec β = (µ,α 1 ),,α I 1 ) et X = ½, ½ 1 n 1 n I ½ I,, ½ I 1 n I 1 n I ½ I Estimateur des moindres carrés ordinaires de β ˆβ = (ˆµ, ˆα 1,, ˆα I 1 ), avec ˆµ = Ȳ = 1 n I i=1 n iȳi, ˆα i = Ȳ i Ȳ pour i {1,,I 1} Remarque : vecteur des valeurs ajustées, vecteur des résidus et estimateur sans biais de σ 2 inchangés (E(X) inchangé)
Contrainte I i=1 α i = 0 (α I = I 1 i=1 α i) Modèle : Y = Xβ + ε avec β = (µ,α 1,,α I 1 ) et X = (½, ½ 1 ½ I,, ½ I 1 ½ I ) Estimateur des moindres carrés ordinaires de β ˆβ = (ˆµ, ˆα 1,, ˆα I 1 ), avec ˆµ = 1 I I i=1 Ȳi, ˆα i = Ȳ i 1 I I i=1 Ȳi pour i {1,,I 1} Remarque : vecteur des valeurs ajustées, vecteur des résidus et estimateur sans biais de σ 2 inchangés (E(X) inchangé)
On rappelle ici l équation d analyse de la variance usuelle : SCT = SCE + SCR Elle s exprime ici, puisque ½ E(X) quelle que soit la contrainte, sous la forme : Interprétation : Y Ȳ ½ 2 = Ŷ Ȳ ½ 2 + Y Ŷ 2 SCE = variabilité inter cellules, dispersion des moyennes empiriques par cellules autour de la moyenne empirique globale SCR = variabilité intra cellules
On suppose (C 4 ) vérifiée : ε suit une loi gaussienne Test d effet du facteur (H 0 ) : α 1 = = α I = 0 contre (H 1 ) : (i,i ),α i α i Cas particulier de test de validité de sous-modèle Statistique de test : F(Y ) = SCE/(I 1) SCR/(n I) = I i=1 ni(ȳi Ȳ )2 /(I 1) I ni i=1 j=1 (Y ij Y i ) 2 /(n I) Loi sous (H 0 ) : F(Y ) (H0 ) F(I 1,n I) Région critique du test de niveau α : {y, F(y) > f I 1,n I (1 α)}
Tableau d analyse de la variance Variation ddl SC CM F Pr(> F) Facteur I 1 SCE SCE/(I 1) Résiduelle n I SCR SCR/(n I) Totale n 1 SCT SCE/(I 1) SCR/(n I)
Cas d une variable à expliquer Y quantitative et de deux variables explicatives qualitatives potentielles = deux facteurs dont le premier à I niveaux, et le deuxième à J niveaux Objectif : déterminer si les facteurs considérés ont un effet - significatif - sur Y Une première analyse graphique : tracé des moyennes empiriques par cellules (profils)
Exemple des données d Air Breizh Concentration maximale ozone moyenne 70 80 90 100 110 Nébulosité Ensoleillé Nuageux E N S W Direction du vent
Introduction Exemple des données d Air Breizh Concentration maximale ozone moyenne 70 80 90 100 110 Vent E S N W Ensoleillé Nuageux Nébulosité
Pour tout i = 1 I, j = 1 J, on note n i,j le nombre d observations de la variable Y correspondant aux ième et jème niveaux des deux facteurs considérés, et y ijk la kième observation de Y correspondant aux ième et jème niveaux des facteurs On suppose que y ijk est l observation d une variable aléatoire Y ijk Notations utiles : n = I J i=1 j=1 n i,j nombre total d observations, Ȳ ij = 1 ni,j n i,j k=1 Y ijk, 1 Ȳ i = J ni,j J j=1 n j=1 i,j Ȳ j = 1 I i=1 n i,j I i=1 Ȳ = 1 n I i=1 J j=1 k=1 Y ijk, ni,j k=1 Y ijk, ni,j k=1 Y ijk
Modèle d ANOVA à deux facteurs Les observations y ijk, i = 1 I, j = 1 J, k = 1 n i,j sont supposées être issues du modèle Y ijk = µ + α i + η j + γ ij + ε ijk, i = 1 I j = 1 J k = 1 n i,j, où les variables ε ijk vérifient les conditions standards : - (C 1 ) E[ε ijk ] = 0, - (C 2 ) cov(ε ijk,ε i j k ) = 0, - (C 3 ) var(ε ijk ) = σ 2 On considère dans la suite seulement le cas d un plan d expérience équilibré ie n i,j = K pour tout (i,j)
Ecriture sous forme matricielle Recodage des facteurs en variables indicatrices Matrices d incidences : A = (½ 1, ½ 2,,½ I ), B = (½ 1, ½ 2,, ½ J ), C = (½ 11, ½ 12,, ½ 1J,, ½ I1,,½ IJ ) Modèle : Y = Xβ + ε avec Y = (Y ijk ) i=1i,j=1j,k=1k, ε = (ε ijk ) i=1i,j=1j,k=1k, β = (µ,α 1,,α I,η 1,,η J,γ 11,,γ 1J,,γ I1,,γ IJ ), X = (½,A,B,C)
Identifiabilité et contraintes Problème : Le modèle n est pas identifiable La matrice X est de taille n (1 + I + J + IJ), mais rang(x) = IJ Solution : ensemble de 1 + I + J contraintes linéaires identifiantes sur les cœfficients linéairement indépendantes reparamétrisation du modèle 1 Contrainte de type analyse par cellule : µ = 0, α i = 0 i, η j = 0 j, 2 Contrainte de type cellule de référence : α ir = η jr = 0 et γ ijr = γ irj = 0 i = 1I, j = 1 J 3 Contrainte de type somme : I i=1 α i = J j=1 η j = 0 et I i=1 γ ij = J j=1 γ ij = 0 i = 1I, j = 1 J
Contrainte de type analyse par cellule i = 1 I Modèle : Y ijk = γ ij + ε ijk j = 1 J k = 1K Estimateurs des moindres carrés ordinaires des cœfficients ˆγ ij = Ȳ ij pour tout i = 1 I, j = 1 J Valeurs ajustées : Ŷ ijk = Ȳ ij, résidus : ˆε ijk = Y ijk Ȳ ij Estimateur sans biais de la variance σ 2 = SCR n IJ = 1 n IJ I i=1 J j=1 K k=1 (Y ijk Ȳ ij ) 2
Contrainte de type somme Modèle : Y ijk = µ + α i + η j + γ ij + ε ijk i = 1 I j = 1 J k = 1K, avec I i=1 α i = J j=1 η j = I i=1 γ ij = J j=1 γ ij = 0 i = 1 I, j = 1 J Estimateurs des moindres carrés ordinaires des cœfficients ˆµ = Ȳ, ˆα i = Ȳ i Ȳ, ˆη j = Ȳ j Ȳ, ˆγ ij = Ȳ ij Ȳ i Ȳ j + Ȳ Remarque : Valeurs ajustées, résidus et estimateur sans biais de la variance inchangés
On rappelle l équation d analyse de la variance usuelle : SCT = SCE + SCR La somme des carrés expliquée peut se décomposer par Pythagore en : SCE = SCE A + SCE B + SCE C, où SCE A = JK I i=1 ˆα2 i, SCE B = IK J j=1 ˆη2 j, SCE C = K I i=1 J j=1 ˆγ2 ij L équation d analyse de la variance devient alors : SCT = SCE A + SCE B + SCE C + SCR
On suppose (C 4 ) vérifiée : ε suit une loi gaussienne Test de l interaction (H 0 ) C : (i,j) γ ij = 0 contre (H 1 ) C : (i,j), γ ij 0 Cas particulier de test de validité de sous-modèle Statistique de test : F C (Y ) = SCE C /((I 1)(J 1)) SCR/(n IJ) Loi sous (H 0 ) C : F C (Y ) (H0 ) C F((I 1)(J 1),n IJ) Région critique du test de niveau α : {y, F C (y) > f (I 1)(J 1),n IJ (1 α)}
Remarque : Si on rejette (H 0 ) C, les facteurs ont un effet significatif, on ne teste donc pas les effets individuels de chaque facteur Si on ne rejette pas (H 0 ) C, on suppose que (i,j) γ ij = 0 et on teste les effets individuels de chaque facteur On suppose dans la suite (C 4 ) vérifiée : ε suit une loi gaussienne, et (i,j) γ ij = 0
Test de l effet du facteur A (H 0 ) A : i α i = 0 contre (H 1 ) A : i,α i 0 Par précaution, on choisit généralement d estimer σ 2 dans le modèle complet ie avec interaction (choix usuel des logiciels) Test de validité de sous-modèle Statistique de test : F A (Y ) = SCE A/(I 1) SCR/(n IJ) Loi sous (H 0 ) A : F A (Y ) (H0 ) A F(I 1,n IJ) Région critique du test de niveau α : {y, F A (y) > f I 1,n IJ (1 α)}
Test de l effet du facteur B (H 0 ) B : j η j = 0 contre (H 1 ) B : j,η j 0 Test de validité de sous-modèle Statistique de test : F B (Y ) = SCE B/(J 1) SCR/(n IJ) Loi sous (H 0 ) B : F B (Y ) (H0 ) B F(J 1,n IJ) Région critique du test de niveau α : {y, F B (y) > f J 1,n IJ (1 α)}
Tableau d analyse de la variance Variation ddl SC CM F Pr(> F) Facteur A I 1 SCE A SCE A I 1 Facteur B J 1 SCE B SCE B J 1 Interaction (I 1)(J 1) SCE C SCE C (I 1)(J 1) Résiduelle n IJ SCR SCR n IJ Totale n 1 SCT SCE A /(I 1) SCR/(n IJ) SCE B /(J 1) SCR/(n IJ) SCE C /((I 1)(J 1)) SCR/(n IJ)
Autres tests et intervalles de confiance par extension de la régression linéaire multiple générale Plans d expérience plus complexes Remarque fondamentale : une analyse de la variance doit être complétée comme toute analyse de modèle de régression par la recherche d éventuels écarts au modèle analyse des résidus, données atypiques, etc Pour une présentation plus complète de l analyse de la variance : Scheffé (1959) Mélange de variables quantitatives et qualitatives : ANCOVA (cf cours de Modèles de régression 2)