STAT-I301 Chapitre V: Corrélation et régression linéaire Caroline Verhoeven
Table des matières 1 Association de 2 variables quantitatives 2 Corrélation linéaire Coefficient de corrélation Inférence pour la corrélation 3 Régression linéaire Formule pour la droite de régression Inférence pour la régression 4 Lien entre la corrélation et la régression 5 Les problèmes Ne pas extrapoler Un graphique dit beaucoup Caroline Verhoeven STAT-I301 2 / 43
1. Association de 2 variables quantitatives Le nuage de points I Exemple 1 L association de la taille et du poids d un individu a beaucoup été étudié. Ici on considère la taille et le poids des médaillés d or masculins français aux JO de Sidney (2000) Nom taille poids Andrieux 192 97 Asloum 165 63 Bette 186 70 Douillet 196 125 Dumoulin 171 64 Estanguet 182 75 Ferrari 187 83 Gané 176 79 Martinez 164 50 Rousseau 182 85 Caroline Verhoeven STAT-I301 3 / 43
1. Association de 2 variables quantitatives Le nuage de points II Comment voir le lien entre 2 variables quantitatives visuellement? poids 120 100 80 60 40 165 170 175 180 185 190 195 taille La taille : coordonnées x, le poids : coordonnées y Caroline Verhoeven STAT-I301 4 / 43
Relation linéaire 1. Association de 2 variables quantitatives Si on regarde le graphique, il paraît étiré le long d une droite poids 120 100 80 60 40 165 170 175 180 185 190 195 taille On dit qu il y a une relation linéaire entre les 2 variables Caroline Verhoeven STAT-I301 5 / 43
1. Association de 2 variables quantitatives Relation linéaire positive et négative Relation linéaire positive : y grandit avec x y 7 6 5 4 3 2 1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x Relation linéaire négative : y diminue quand x augmente y 6 5 4 3 2 1 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x Caroline Verhoeven STAT-I301 6 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : définition Le coefficient de corrélation r : donne l intensité d une relation linéaire dit si cette relation est positive ou négative 1 r 1 Caroline Verhoeven STAT-I301 7 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation et non linéarité Coefficient de corrélation : donne l intensité de la relation linéaire 0 0.1 0.2 0.3 0.4 0.5 0.6 r = 0 0.7 0.8 0.9 1 1 0.5 0 0.5 1 Caroline Verhoeven STAT-I301 8 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : calcul I Formule pour le coefficient de corrélation de Pearson : r = 1 N 1 N ( )( ) xi x yi y i=1 1 = (N 1)s x s y s x s y N (x i x)(y i y) i=1 Caroline Verhoeven STAT-I301 9 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : calcul II Exemple 1 Nom x i y i x i x y i y (x i x)(y i y) Andrieux 192 97 11,9 17,9 213,01 Asloum 165 63-15,1-16,1 243,11 Bette 186 70 5,9-9,1-53,69 Douillet 196 125 15,9 45,9 729,81 Dumoulin 171 64-9,1-15,1 137,41 Estanguet 182 75 1,9-4,1-7,79 Ferrari 187 83 6,9 3,9 26,91 Gané 176 79-4,1-0,1 0,41 Martinez 164 50-16,1-29,1 468,51 Rousseau 182 85 1,9 5,9 11,21 Total 1768,9 x = 180,1 y = 79,1 s x = 10,91 s y = 20,85 r = 0,864 Caroline Verhoeven STAT-I301 10 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : Interprétation graphique poids 120 100 80 60 40 165 170 175 180 185 190 195 taille Haut-droite : contribution positive Bas-gauche : contribution positive Haut-gauche : contribution négative Bas-droite : contribution négative x y Contribution du sujet i : ( )( ) xi x yi y s x s y x i x y i y (x i x)(y i y) + + + - - + - + - + - - Caroline Verhoeven STAT-I301 11 / 43
2. Corrélation linéaire 1. Coefficient de corrélation Corrélation causalité Exemple 2 Des chercheurs allemands (Sies, 1998 ; Höffer, 2004) ont trouvé une forte corrélation entre le nombre de nids de cigognes et le taux de natalité à Brandbourg. Le nombre de nids et le taux de naissance ont baissé simultanément entre 1965 et 1980 Cela démontre-t-il la théorie des cigognes? NON! Une explication alternative pour ces 2 phénomènes : l urbanisation Caroline Verhoeven STAT-I301 12 / 43
2. Corrélation linéaire 2. Inférence pour la corrélation Quand il y a-t-il corrélation? ρ : coefficient de corrélation de Pearson entre 2 variables au sein d une population Les 2 variables sont elles corrélées? Problème : en général on ne connaît pas ρ On connaît r : coefficient de corrélation pour 1 échantillon Comment utiliser r pour répondre à notre question? Caroline Verhoeven STAT-I301 13 / 43
2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : exemple Exemple 1 Retour à nos médaillés d or Le poids et la taille de médaillés d or masculins sont ils corrélés à un taux α = 0,05? On a un échantillon de N = 10 médaillés d or masculins On a calculé r = 0,864 Caroline Verhoeven STAT-I301 14 / 43
2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : Principe Formulation d hypothèses H 0 : ρ = 0 H a : ρ 0 Calcul de la statistique T t(df = N 2) t = r s r, s r = 1 r 2 N 2 Caroline Verhoeven STAT-I301 15 / 43
2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : Résolution de l exemple Exemple 1 Le poids et la taille de médaillés d or masculins sont ils corrélés à un taux α = 0,05? N = 10, r = 0,864 Calcul de la statistique : 1 r s r = 2 N 2 = 0,178 t = r = 4,86 s r Calcul de la valeur p : p = 2P(T 4,86) = 0,0013 < α = 0.05 On rejette H 0 0,3 0,2 0,1 p 2 6 4 2 2,31 t Caroline Verhoeven STAT-I301 16 / 43
2. Corrélation linéaire 2. Inférence pour la corrélation Conditions Les échantillons doivent être aléatoires simple Les 2 variables doivent avoir une distribution normale Caroline Verhoeven STAT-I301 17 / 43
3. Régression linéaire Régression Régression : Méthode pour prédire la valeur d une variable quantitative à partir de la valeur d une autre. On déterminer une fonction y = f(x) modélisant la relation entre Y et X. La fonction la plus simple : une droite régression linéaire. Caroline Verhoeven STAT-I301 18 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Exemple I Exemple 2 Quelle est la relation entre la fréquence cardiaque maximum (FCM) et l âge chez des coureurs? Les valeurs de ces 2 variables ont été mesurées chez 13 hommes s entraînant régulièrement et participant à des petites compétitions âge FCM âge FCM 40 187 55 185 36 195 55 189 51 180 23 201 49 190 49 189 47 185 52 185 51 183 35 195 32 195 Caroline Verhoeven STAT-I301 19 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Exemple II Exemple 2 L exemple des coureurs nous donne ce nuage de points : FCM 200 195 190 185 180 25 30 35 40 45 50 55 Age Quelle est la meilleure droite passant à travers ces points? Caroline Verhoeven STAT-I301 20 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Calcul I Equation d une droite y = b 0 + b 1 x b 0 : l ordonnée à l origine b 1 : pente b 0? b 1? Caroline Verhoeven STAT-I301 21 / 43
Droite de régression : Calcul II 3. Régression linéaire 1. Formule pour la droite de régression FCM 192 188 d 1 184 d 2 d3 d 4 180 40 45 50 55 Age La meilleure droite : celle qui minimise y i : valeur d Y pour le sujet i ŷ i = b 0 + b 1 x i d i = y i ŷ i : résidu Q = N i=1 d 2 i Caroline Verhoeven STAT-I301 22 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Calcul III b 0 b 1 tel qu on minimise y = b 0 + b 1 x b 0,b 1? Solution : Q = N i=1 d 2 i = N (y i ŷ i ) 2 = (y i b 0 b 1 x i ) 2 i=1 N i=1 b 1 = (x i x)(y i y) N i=1 (x i x) 2 b 0 = y b 1 x Remarque 3 y = b 0 + b 1 x : La droite de régression passe toujours par le point (x,y) Caroline Verhoeven STAT-I301 23 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Résolution de l exemple I Exemple 2 x i y i (x i x) (y i y) (x i x)(y i y) (x i x) 2 40 187-4,23-2,15 9,11 17,90 36 195-8,23 5,85-48,11 67,75 51 180 6,77-9,15-61,96 45,82 49 190 4,77 0,85 4,04 22,75 47 185 2,77-4,15-11,50 7,67 51 183 6,77-6,15-41,66 45,82 32 195-12,23 5,85-71,50 149,59 55 185 10,77-4,15-44,73 115,98 55 189 10,77-0,15-1,66 115,98 23 201-21,23 11,85-251,50 450,75 49 189 4,77-0,15-0,73 22,75 52 185 7,77-4,15-32,27 60,36 35 195-9,23 5,85-53,96 85,21-606,41 1208,31 x = 44,23 y = 189,15 Caroline Verhoeven STAT-I301 24 / 43
3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Résolution de l exemple II Exemple 2 b 1 = N i=1 (x i x)(y i y) N i=1 (x i x) 2 = 606,41 1208,31 = 0,50 b 0 = y b 1 x = 189,15+0,50 44,23 = 211,35 x 200 Equation de la droite de régression : y = 211,35 0,50x FCM 195 190 185 25 30 35 40 45 50 55 Age y Caroline Verhoeven STAT-I301 25 / 43
Inférence statistique 3. Régression linéaire 2. Inférence pour la régression 2 variables ont une relation linéaire dans 1 population avec une droite de régression y = β 0 +β 1 x β 0, β 1? On connaît b 0 et b 1 Trouver de l info sur β 0,β 1 à partir de b 0,b 1 Caroline Verhoeven STAT-I301 26 / 43
Conditions 3. Régression linéaire 2. Inférence pour la régression d i = y i ŷ i N(0,σ 2 ) σ : indépendant de x Homocédasticité FCM 20 15 10 5 0 0 1 2 3 4 5 Age FCM Les mesures doivent être indépendantes 25 20 15 10 5 Hétérocedasticité 0 0 1 2 3 4 5 Age Caroline Verhoeven STAT-I301 27 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Exemple Exemple 2 Considérons à nouveau l exemple avec les coureurs? Quelle est la droite de régression reliant l âge et la fréquence cardiaque maximum pour des coureurs s entrainant régulièrement et participant à des petites compétitions? On ne connaît pas cette droite On connaît la droite de régression pour un échantillon Quel est l intervalle de confiance pour la pente β 1 et l ordonnée à l origine β 0? Caroline Verhoeven STAT-I301 28 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : La variance résiduelle Pour chaque point (x i,y i ) la déviation totale par rapport à y est : y i y = (y i ŷ i ) +(ŷ i y) déviation totale d i = y i ŷ i : le résidu déviation expliquée déviation résiduelle La variance résidu σ 2 res de la population n est pas connue Cette variance est estimée par : s 2 res = 1 N 2 N i=1 d 2 i Caroline Verhoeven STAT-I301 29 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance pour la pente Estimation de la variance de la pente b 1 : s 2 b 1 = s 2 res N i=1 (x i x) 2 L intervalle de confiance de 95% pour β 1 [ b1 t N 2;0,975 s b1 ; b 1 + t N 2;0,975 s b1 ] t N 2;97,5 : 97,5ème centile pour la distribution t (df = N 2) L intervalle de confiance de niveau 1 α [ b1 t N 2;1 α/2 s b1 ; b 1 + t N 2;1 α/2 s b1 ] t N 2;1 α/2 : 100(1 α/2) centile pour la distribution t (df = N 2) Caroline Verhoeven STAT-I301 30 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance pour l ordonnée à l origine Estimation de la variance de l ordonnée à l origine b 0 : ( ) sb 2 0 = sres 2 1 N + x 2 N i=1 (x i x) 2 L intervalle de confiance de 95% pour β 0 [ b0 t N 2;0,975 s b0 ; b 0 + t N 2;0,975 s b0 ] t N 2;97,5 : 97,5ème centile pour la distribution t (df = N 2) L intervalle de confiance de niveau 1 α [ b0 t N 2;1 α/2 s b0 ; b 0 + t N 2;1 α/2 s b0 ] t N 2;1 α/2 : 100(1 α/2) centile pour la distribution t (df = N 2) Caroline Verhoeven STAT-I301 31 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Résolution de l exemple I Exemple 2 x i y i ŷ i (y i ŷ i ) (y i ŷ i ) 2 40 187 191,28-4,28 18,30 36 195 193,28-1,72 2,94 51 180 185,76-5,76 33,14 49 190 186,76 3,24 10,50 47 185 187,76-2,76 7,64 51 183 185,76-2,76 7,60 32 195 195,29-0,29 0,09 55 185 183,75 1,25 1,57 55 189 183,75 5,25 27,58 23 201 199,81 1,19 1,42 49 189 186,76 2,24 5,02 52 185 185,25-0,25 0,07 35 195 193,79 1,21 1,47 117,30 x = 44,23 y = 189,15 N (x i x) 2 = 1208,31 i=1 s 2 res = 117,30 11 = 10,66 s 2 b 1 = 10,66 1208,31 = 0,0088 s 2 b 0 = 10,66 18,09 ( ) 1 13 + (44,23)2 = 1208,31 Caroline Verhoeven STAT-I301 32 / 43
3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Résolution de l exemple II Exemple 2 Intervalle de confiance de 95% pour β 1 : b 1 = 0,50, s b1 = 0,0088 = 0,09, t 11;0,975 = 2,20 Et donc [b 1 t N 2;0,975 s b1 ; b 1 + t N 2;0,975 s b1 ] = [ 0,71; 0,30] Intervalle de confiance de 95% pour β 0 : b 0 = 211,35, s b0 = 18,09 = 4,25, t 11;0,975 = 2,20 Et donc [b 0 t N 2;0,975 s b0 ; b 0 + t N 2;0,975 s b0 ] = [201,99; 220,71] Caroline Verhoeven STAT-I301 33 / 43
3. Régression linéaire 2. Inférence pour la régression Test de conformité pour β 1 Test de conformité pour β 1... mais on ne connaît pas β 1??? On suppose une certaine valeur β 1c pour β 1 et on regarde si c est conforme avec le b 1 qu on a. Formulation des hypothèses H 0 : β 1 = β 1c H a : β 1 β 1c Calcul de la statistique t = b 1 β 1c s b1, T t(df = N 2) Caroline Verhoeven STAT-I301 34 / 43
3. Régression linéaire 2. Inférence pour la régression Test de conformité pour β 1 : Exemple Exemple 2 Peut on dire que la fréquence cardiaque maximale change avec l âge avec un taux α = 0,05? Formulations des hypothèses H 0 : β 1 = 0 H a : β 1 0 Calcul de la statistique Calcule de la valeur p : t = b 1 s b1 = 5,34, T t(df = 11) p = 2P(T 5,34) = 0,0002 < α = 0,05 On rejette H 0 Caroline Verhoeven STAT-I301 35 / 43
4. Lien entre la corrélation et la régression Lien entre le coefficient de corrélation et la pente ou b 1 = = N i=1 (x i x)(y i y) N i=1 (x i x) 2 = 1 N N 1 i=1 (x i x)(y i y) sx 2 = = s y s x 1 (N 1)s x s y N i=1 1 N N 1 i=1 (x i x)(y i y) N i=1 (x i x) 2 1 N 1 1 (N 1)s 2 x N (x i x)(y i y) i=1 (x i x)(y i y) = s y s x r. r = s x s y b 1 Caroline Verhoeven STAT-I301 36 / 43
4. Lien entre la corrélation et la régression Coefficient de détermination Le coefficient de détermination r 2 = variance expliquée variance totale = 1 N 1 1 N 1 N i=1 (ŷ i y) 2 N N i=1 (y i y) = i=1 (ŷ i y) 2 2 N i=1 (y i y) 2 0 r 2 1 Pourquoi note-t-on r 2? Parce que c est le carré du coefficient de corrélation Caroline Verhoeven STAT-I301 37 / 43
4. Lien entre la corrélation et la régression Coefficient de détermination et de corrélation On a que (ŷ i y) 2 = (b 0 + b 1 x i y) 2 = (y b 1 x + b 1 x i y) 2 = b1 2 (x i x) 2 Et donc r 2 = N i=1 (ŷ i y) 2 N N i=1 (y i y) = b2 1 i=1 (x i x) 2 2 N i=1 (y i y) 2 N i=1 (x i x) 2 = b1 2 N i=1 (y i y) = 2 b2 1 = b1 2 sx 2 sy 2 1 N 1 1 N 1 N i=1 (x i x) 2 N i=1 (y i y) 2 Caroline Verhoeven STAT-I301 38 / 43
Extrapolation : Exemple I 5. Les problèmes 1. Ne pas extrapoler Exemple 3 En 1995, Heathcote a mesuré la longueur des oreilles d un échantillon d adultes d au moins 30 ans. Une régression linéaire entre l âge (en années) et la longueurs des oreilles (en mm) nous donne : y = 55,9+0,22x Longueur oreille 80 75 70 65 60 55 50 0 20 40 60 80 100 Age Caroline Verhoeven STAT-I301 39 / 43
5. Les proble mes 1. Ne pas extrapoler Extrapolation : Exemple II y = 55,9 + 0,22x De la re gression : un nouveauxne aurait des oreilles longues de 55.9mm. Il aurait l air de Dumbo Conclusion : On ne peut pas extrapoler le re sultat pour des adultes vers des enfants Caroline Verhoeven STAT-I301 40 / 43
5. Les problèmes 1. Ne pas extrapoler Ne jamais extrapoler! Il ne faut pas utiliser les résultats de la régression si : Si le x est plus petit que le plus petit des x i utilisés pour la régression Si le x est plus grand que le plus grand des x i utilisés pour la régression Caroline Verhoeven STAT-I301 41 / 43
5. Les problèmes 2. Un graphique dit beaucoup Les chiffres ne disent pas tout Toujours faire un graphique avant de commencer Pour tous le 4 : x = 9 y = 7,50 r = 0,816 b 0 = 0,500 b 1 = 3,00 Caroline Verhoeven STAT-I301 42 / 43
5. Les problèmes 2. Un graphique dit beaucoup Plot résiduel On fait un graphique de y i ŷ i en fonction des x i Haut-gauche : ok Les autres : pas ok Caroline Verhoeven STAT-I301 43 / 43