Master 1 de Santé Publique. UE de biostatistique : cours 8. Régression linéaire

Master 1 de Santé Publique UE de biostatistique : cours 8 Régression linéaire 1. Définition, estimation et test M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Liaison entre variables X et Y selon leur nature X qualitative (0 / 1) et Y qualitative (0 /1) Comparaison de pourcentages : test du χ exemples : X = fumeur (oui / non) X = traitement (A / B) X = population (1 / ) Y = malade (oui / non) Y = guéri (oui / non) Y = hypertension (oui / non) X qualitative (0 / 1) et Y quantitative Comparaison de moyennes : test Z ou Student (t) exemples : X = exposé (oui / non) X = régime (A / B) X = population (1 / ) Y = poids de naissance Y = variation de poids Y = taille X quantitative et Y quantitative : régression linéaire M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1

Liaison entre variables X et Y selon leur nature X qualitative (0 / 1) et Y qualitative (0 /1) Comparaison de pourcentages : test du χ X qualitative (0 / 1) et Y quantitative Comparaison de moyennes : test Z ou Student (t) X quantitative et Y quantitative : régression linéaire variable Y Dichotomique Qualitative à plus de classes Quantitative variable X Dichotomique Qualitative à plus de classes comparaison de pourcentages test du χ comparaison de plusieurs distributions test du χ comparaison de moyennes test t de Student ou Z comparaison de plusieurs moyennes Analyse de la variance Quantitative Régression linéaire M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 3

Liaison entre variables quantitatives Objectif général Décrire au mieux la façon dont Y varie en fonction de X. <=> connaître la distribution de Y pour chaque valeur de X. Sous cette forme, le problème est trop complexe. => simplification de façons : 1. On caractérise la distribution de Y à X fixé par : µ Y x = moyenne de Y pour X=x moyenne conditionnelle, notée E(Y x) σ Y x = variance de Y pour X=x variance conditionnelle, notée V(Y x). On étudie le lien entre X et µ Y x Définition : la régression de Y en X est la fonction f qui lie X et µ Y x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 4

Exemple : Y = poids de naissance ; X = terme de naissance Observations 3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) Régression de Y en X C'est la fonction f qui lie X et µ Y x : E(Y x) = µ Y x = f(x) 3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 5

3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) En général, on ne cherche pas la forme exacte de la fonction f(x) On se limite à quelques fonctions "simples" -> modélisation de la réalité M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 6

Exemples de fonctions f possibles pour représenter les observations Linéaire Quadratique 3500 Moyenne du poids de naissance 3500 Moyenne du poids de naissance 500 500 000 1500 y = - 3115,6 + 16,3x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Polynomiale 000 1500 y = - 6555 + 36,77x -,8639 x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Logarithmique 3500 Moyenne du poids de naissance 3500 Moyenne du poids de naissance 500 500 000 y = - 1454400 + 06391 x 1500-1160 x + 34,44 x3-4,4883 x4 + 0,046 x5 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance 000 1500 y = - 17347 + 5616, Ln(x) 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Le choix de f est un compromis entre : une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µ Y x. la possibilité d'interpréter les coefficients de la fonction f pour répondre à la question initiale : y a-t-il un lien entre X et Y? M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 7

Régression linéaire Très souvent, on choisit pour f une fonction linéaire. f(x) = α + βx => on représente la liaison entre X et Y sous la forme d'une droite 3500 Moyenne du poids de naissance 500 000 1500 Y= a + b x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance On va voir les problèmes suivants : Estimation Comment estimer α et β à partir de données sur un échantillon? Test La pente β de la droite est-elle différente de 0? (Si oui, c'est qu'il existe un lien entre X et Y) Le problème restant est : Test de linéarité Y a-t-il adéquation entre le choix d'une droite et les observations? M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 8

Estimation de α et β Méthode des moindres carrés Exemple : X = Poids maternel Y = Poids de naissance Observations : n paires (x 1,y 1 ),..., (x n,y n ) N Y X N Y X N Y X 1 3850 83 300 45 43 150 40 4400 50 3 3400 50 44 3800 66 3 950 70 4 3550 6 45 4450 68 4 3350 64 5 400 9 46 3750 59 5 3550 50 6 3450 55 47 3150 65 6 3700 54 7 400 70 48 3050 58 7 3550 47 8 4100 73 49 3450 55 8 3400 48 9 4300 55 50 3300 53 9 4350 67 30 850 40 51 3150 51 10 3500 55 31 3300 60 5 4650 68 11 3100 63 3 3500 50 53 3650 48 1 3550 64 33 3400 55 54 3500 6 13 3500 71 34 700 58 55 3150 70 14 3300 70 35 750 46 56 3100 63 15 4350 66 36 350 50 57 3300 60 16 1750 6 37 3300 60 58 900 65 17 400 40 38 3100 55 59 3050 54 18 750 46 39 3650 6 60 3300 6 19 3600 47 40 4400 50 61 3400 70 0 700 46 41 3300 55 6 300 50 1 700 47 4 350 40 63 3100 64 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 9

Représentation graphique des observations 1. Nuage de points 5000 Poids de naissance Y 9 (X, Y ) 9 9 000 X 30 40 50 9 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 10

Représentation graphique des observations. Droites 5000 Poids de naissance Droite 1 Droite Droite 3 000 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 11

Droite des moindres carrés (1) Définition : la droite des moindres carrés est la droite qui permet le mieux de prédire la valeur de Y quand on connaît X. Valeur observée de Y : y i Valeur prédite par la droite : ŷ i = a + bx i => Ecart : y i ŷ i 5000 Poids de naissance (x i, y i ) (x, ^ i y i ) ^ (y - y ) i i 000 droite : Y= a + b X 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Droite des moindres carrés () 5000 Poids de naissance (x i, y i ) (x, ^ i y i ) ^ (y - y ) i i 000 droite : Y= a + b X 30 40 50 60 70 80 90 100 Poids maternel SCE = somme des carrés des écarts n ( ) = y i ŷ i = y i a bx i i=1 n i=1 ( ) La droite des moindres carrés est celle pour laquelle SCE est minimum. M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 13

Calcul de a et b Données : (x i, y i ) Inconnues : a et b a et b doivent être telles que SCE = minimum n ( y i a bx i ) i=1 soit a 1500 1500 000 000 b 5 0 15 0 SCE 30 513 750 51 776 800 35 74 950 1 806 800 On montre que les valeurs a et b qui correspondent à SCE minimum sont : b = x i y i 1 n ( x i)( x i 1 n ( x i ) y i ) et a = y i n b x i n = m y b m x On trouve : a = 006 et b = 3,8 (SCE = 18 500 067) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 14

b = x i y i 1 n ( x i)( x i 1 n ( x i ) y i ) et a = y i n b x i n = m y b m x a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression. La droite de régression s'écrit : ŷ = 006 + 3,80x Expressions équivalentes de b : b = ( ) ( x i m x ) y i m y ( x i m x ) ou b = x i y i n m x m y (n 1)s x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 15

Interprétation de la droite de régression Régression du poids de naissance (Y) en fonction du poids maternel (X) Echantillon de 63 nouveau-nés La régression de Y en fonction de X serait la courbe qui relie les poids de naissance moyens : 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel On choisit de représenter la régression par une droite La droite de régression s'écrit : ŷ = 006 + 3,80 x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 16

Interprétation des coefficients de la droite de régression 5000 Poids de naissance 000 Valeurs individuelles Poids de naissance moyen 30 40 50 60 70 80 90 100 Poids maternel ŷ= a + b x = 006 + 3,80 x Ce qui figure dans l'équation, c'est ŷet non pas y => - on "prédit" la valeur moyenne de Y en fonction de X - on ne peut pas en déduire "facilement" la régression de X en fonction de Y b = 3,80 = variation moyenne de poids de naissance pour une variation de poids maternel de 1 kg a = 006 = poids de naissance moyen des nouveau-nés dont la mère pèse 0 kg (??) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 17

Test de la pente de la droite de régression (1) La droite de régression vraie est : ŷ= α + β x Les hypothèses testées sont : H o : β = 0 H 1 : β 0 H o correspond à l'absence d'association entre X et Y Les observations faites sur un échantillon sont les couples de valeurs (x i, y i ) d'où on déduit les coefficients estimés a et b. Pour faire le test, il faut déterminer quelle est la valeur attendue de b si H o est vraie. Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y. M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 18

Test de la pente de la droite de régression () Hypothèses nécessaires La régression doit être linéaire À X fixé, les valeurs de Y doivent être de distribution normale et de variance constante. Pour X = x 1, Y a une distribution normale Pour X = x, Y a une distribution normale On suppose donc que : σ Y x1 = σ Y x =... de moyenne ŷ 1 et de variance σ Y x1 de moyenne ŷ et de variance σ Y x Y σ Y x y ^ 3 y ^ 1 y ^ X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 19

Parenthèse sur la variance liée σ Y x σ Y x : variance de Y à x fixé variance conditionnelle variance liée variance résiduelle L'hypothèse faite est qu'elle ne dépend pas de x. Si la régression est linéaire, on montre que son estimation est : s Y x = n 1 n (s y b s x ) σ Y x σ Y Y σ Y x y ^ 3 y ^ 1 y ^ σ Y X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 0

Si la droite de régression est horizontale (β = 0), σ Y x = σ Y Y σ Y x y ^ 1 ^ y y^ 3 σ Y X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Test de la pente de la droite de régression (3) Fluctuations d'échantillonnage de b Si les hypothèses précédentes sont satisfaites, Régression linéaire Distributions de Y à X fixé normales et de variance constante et si H o est vraie, b (pente observée) a une distribution normale de moyenne 0 et dont la variance est : s b = s Y x s x (n 1) = s y s x b n Donc : T = b 0 s b = b s b suit une loi de Student On montre que ddl = n- Test A partir des valeurs x i et y i, on calcule t 0 = b s b et on compare la valeur obtenue à la valeur seuil d'une loi de Student à n- ddl : t n-;α/ M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1

Exemple Poids de naissance (Y) en fonction du poids maternel (X) 5000 Poids de naissance ŷ= 006 + 3,80 x 000 Hypothèses testées : H o : β = 0 H 1 : β 0 30 40 50 60 70 80 90 100 Poids maternel s x = 108,5 s y = 359 851,51 t o = 3,80 45,07 -> s b = 359851,51 108,5 3,80 61 = 45,07 = 3,55 à 61 ddl (significatif avec p < 0,001) Conclusions : - on rejette H 0 : la pente de la droite de régression est différente de 0 - le degré de signification est p < 0,001 - on observe que la pente est positive : le poids de naissance moyen augmente lorsque le poids maternel augmente M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 3

Interprétation du test de la pente Ho : β = 0 Si H o n'est pas rejetée, cela signifie que la pente de la droite de régression ne s'écarte pas significativement de l'horizontale Deux possibilités : Pas de lien entre X et Y (Figure 1) Lien entre X et Y, mais la régression de Y en X n'est pas linéaire et la droite des moindres carrés est horizontale (Figure ) Figure 1 Figure M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 4

Si H o est rejetée, cela signifie que la droite de régression n'est pas horizontale Deux possibilités : La liaison entre X et Y est linéaire avec une pente non nulle (Figure 3) La liaison entre X et Y n'est pas linéaire, mais sa "composante linéaire" est non horizontale (Figure 4) Figure 3 Figure 4 Quand le test est significatif, il y a toujours un lien entre X et Y (au risque d'erreur α près) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 5

Remarques sur l'hypothèse de linéarité de la régression Test de la pente T = b s b suit une loi de Student à (n-) ddl Hypothèses nécessaires La régression doit être linéaire À X fixé, les valeurs de Y doivent avoir des distributions normales et de variance constante. Si la régression n'est pas linéaire, on peut quand même représenter la relation entre X et Y par une droite, mais on s y s b montre que s b = x surestime la variance de b. n La valeur de t 0 = b s b est donc sous-estimée -> perte de puissance du test de l'association entre X et Y M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 6

Comment se rendre compte si la régression est linéaire? 1. Test (pas au programme). Graphique 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 7

M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 8