STAT-I301 Chapitre V: Corrélation et régression linéaire. Caroline Verhoeven

Documents pareils
Régression linéaire. Nicolas Turenne INRA

Chapitre 3. Les distributions à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Les algorithmes de base du graphisme

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cours de méthodes de scoring

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Biostatistiques : Petits effectifs

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exemples d application

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

données en connaissance et en actions?

Introduction à la statistique non paramétrique

Logiciel XLSTAT version rue Damrémont PARIS

Analyse en Composantes Principales

VI. Tests non paramétriques sur un échantillon

OPTIMISATION À UNE VARIABLE

Analyse de la variance Comparaison de plusieurs moyennes

Résumé du Cours de Statistique Descriptive. Yves Tillé

Modélisation géostatistique des débits le long des cours d eau.

Théorie des sondages : cours 5

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

MODELE A CORRECTION D ERREUR ET APPLICATIONS

TABLE DES MATIERES. C Exercices complémentaires 42

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

L Econométrie des Données de Panel

Calculating Greeks by Monte Carlo simulation

Du bon usage de gnuplot

3. Caractéristiques et fonctions d une v.a.

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Introduction au pricing d option en finance

23. Interprétation clinique des mesures de l effet traitement

Le Modèle Linéaire par l exemple :

Cours 7 : Utilisation de modules sous python

Enquête auprès des parents

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Pourquoi l apprentissage?

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Statistique Descriptive Élémentaire

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Probabilités III Introduction à l évaluation d options

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Tutoriel première utilisation ICEM-CFD. Couche limite et modification du maillage en 2D

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Quantification Scalaire et Prédictive

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Calcul différentiel. Chapitre Différentiabilité

Coup de Projecteur sur les Réseaux de Neurones

Travaux Pratiques d Optique

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Chapitre 2 Le problème de l unicité des solutions

Cours de Tests paramétriques

M2 IAD UE MODE Notes de cours (3)

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction aux Statistiques et à l utilisation du logiciel R

Lire ; Compter ; Tester... avec R

Optimisation, traitement d image et éclipse de Soleil

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Équations non linéaires

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

FORMULAIRE DE STATISTIQUES

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

La classification automatique de données quantitatives

Caractéristiques techniques

1. Vocabulaire : Introduction au tableau élémentaire

Lagrange, où λ 1 est pour la contrainte sur µ p ).

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

NOTES DE COURS STT1700. Introduction à la statistique. David Haziza

Note:... Q1 :... Q2 :... Q3 :... Q4 :... Bonus :... Total :...

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Comment bien régresser: La statistique peut-elle se passer d artefacts?

MABioVis. Bio-informatique et la

Evaluation des modèles non-linéaires à effets mixtes

La place de SAS dans l'informatique décisionnelle

Théorie et codage de l information

Introduction à la Statistique Inférentielle

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

Intérêt du découpage en sous-bandes pour l analyse spectrale

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

manuellement. Le prototype ayant obtenu des résultats satisfaisants aux différents essais de labour est validé sur le plan suivant :

T2- COMMENT PASSER DE LA VITESSE DES ROUES A CELLE DE LA VOITURE? L E T U N I N G

Revenu net 2,509, , , , ,401

Statistique inférentielle TD 1 : Estimation

Transcription:

STAT-I301 Chapitre V: Corrélation et régression linéaire Caroline Verhoeven

Table des matières 1 Association de 2 variables quantitatives 2 Corrélation linéaire Coefficient de corrélation Inférence pour la corrélation 3 Régression linéaire Formule pour la droite de régression Inférence pour la régression 4 Lien entre la corrélation et la régression 5 Les problèmes Ne pas extrapoler Un graphique dit beaucoup Caroline Verhoeven STAT-I301 2 / 43

1. Association de 2 variables quantitatives Le nuage de points I Exemple 1 L association de la taille et du poids d un individu a beaucoup été étudié. Ici on considère la taille et le poids des médaillés d or masculins français aux JO de Sidney (2000) Nom taille poids Andrieux 192 97 Asloum 165 63 Bette 186 70 Douillet 196 125 Dumoulin 171 64 Estanguet 182 75 Ferrari 187 83 Gané 176 79 Martinez 164 50 Rousseau 182 85 Caroline Verhoeven STAT-I301 3 / 43

1. Association de 2 variables quantitatives Le nuage de points II Comment voir le lien entre 2 variables quantitatives visuellement? poids 120 100 80 60 40 165 170 175 180 185 190 195 taille La taille : coordonnées x, le poids : coordonnées y Caroline Verhoeven STAT-I301 4 / 43

Relation linéaire 1. Association de 2 variables quantitatives Si on regarde le graphique, il paraît étiré le long d une droite poids 120 100 80 60 40 165 170 175 180 185 190 195 taille On dit qu il y a une relation linéaire entre les 2 variables Caroline Verhoeven STAT-I301 5 / 43

1. Association de 2 variables quantitatives Relation linéaire positive et négative Relation linéaire positive : y grandit avec x y 7 6 5 4 3 2 1 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x Relation linéaire négative : y diminue quand x augmente y 6 5 4 3 2 1 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x Caroline Verhoeven STAT-I301 6 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : définition Le coefficient de corrélation r : donne l intensité d une relation linéaire dit si cette relation est positive ou négative 1 r 1 Caroline Verhoeven STAT-I301 7 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation et non linéarité Coefficient de corrélation : donne l intensité de la relation linéaire 0 0.1 0.2 0.3 0.4 0.5 0.6 r = 0 0.7 0.8 0.9 1 1 0.5 0 0.5 1 Caroline Verhoeven STAT-I301 8 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : calcul I Formule pour le coefficient de corrélation de Pearson : r = 1 N 1 N ( )( ) xi x yi y i=1 1 = (N 1)s x s y s x s y N (x i x)(y i y) i=1 Caroline Verhoeven STAT-I301 9 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : calcul II Exemple 1 Nom x i y i x i x y i y (x i x)(y i y) Andrieux 192 97 11,9 17,9 213,01 Asloum 165 63-15,1-16,1 243,11 Bette 186 70 5,9-9,1-53,69 Douillet 196 125 15,9 45,9 729,81 Dumoulin 171 64-9,1-15,1 137,41 Estanguet 182 75 1,9-4,1-7,79 Ferrari 187 83 6,9 3,9 26,91 Gané 176 79-4,1-0,1 0,41 Martinez 164 50-16,1-29,1 468,51 Rousseau 182 85 1,9 5,9 11,21 Total 1768,9 x = 180,1 y = 79,1 s x = 10,91 s y = 20,85 r = 0,864 Caroline Verhoeven STAT-I301 10 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Coefficient de corrélation : Interprétation graphique poids 120 100 80 60 40 165 170 175 180 185 190 195 taille Haut-droite : contribution positive Bas-gauche : contribution positive Haut-gauche : contribution négative Bas-droite : contribution négative x y Contribution du sujet i : ( )( ) xi x yi y s x s y x i x y i y (x i x)(y i y) + + + - - + - + - + - - Caroline Verhoeven STAT-I301 11 / 43

2. Corrélation linéaire 1. Coefficient de corrélation Corrélation causalité Exemple 2 Des chercheurs allemands (Sies, 1998 ; Höffer, 2004) ont trouvé une forte corrélation entre le nombre de nids de cigognes et le taux de natalité à Brandbourg. Le nombre de nids et le taux de naissance ont baissé simultanément entre 1965 et 1980 Cela démontre-t-il la théorie des cigognes? NON! Une explication alternative pour ces 2 phénomènes : l urbanisation Caroline Verhoeven STAT-I301 12 / 43

2. Corrélation linéaire 2. Inférence pour la corrélation Quand il y a-t-il corrélation? ρ : coefficient de corrélation de Pearson entre 2 variables au sein d une population Les 2 variables sont elles corrélées? Problème : en général on ne connaît pas ρ On connaît r : coefficient de corrélation pour 1 échantillon Comment utiliser r pour répondre à notre question? Caroline Verhoeven STAT-I301 13 / 43

2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : exemple Exemple 1 Retour à nos médaillés d or Le poids et la taille de médaillés d or masculins sont ils corrélés à un taux α = 0,05? On a un échantillon de N = 10 médaillés d or masculins On a calculé r = 0,864 Caroline Verhoeven STAT-I301 14 / 43

2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : Principe Formulation d hypothèses H 0 : ρ = 0 H a : ρ 0 Calcul de la statistique T t(df = N 2) t = r s r, s r = 1 r 2 N 2 Caroline Verhoeven STAT-I301 15 / 43

2. Corrélation linéaire 2. Inférence pour la corrélation Test de conformité pour r : Résolution de l exemple Exemple 1 Le poids et la taille de médaillés d or masculins sont ils corrélés à un taux α = 0,05? N = 10, r = 0,864 Calcul de la statistique : 1 r s r = 2 N 2 = 0,178 t = r = 4,86 s r Calcul de la valeur p : p = 2P(T 4,86) = 0,0013 < α = 0.05 On rejette H 0 0,3 0,2 0,1 p 2 6 4 2 2,31 t Caroline Verhoeven STAT-I301 16 / 43

2. Corrélation linéaire 2. Inférence pour la corrélation Conditions Les échantillons doivent être aléatoires simple Les 2 variables doivent avoir une distribution normale Caroline Verhoeven STAT-I301 17 / 43

3. Régression linéaire Régression Régression : Méthode pour prédire la valeur d une variable quantitative à partir de la valeur d une autre. On déterminer une fonction y = f(x) modélisant la relation entre Y et X. La fonction la plus simple : une droite régression linéaire. Caroline Verhoeven STAT-I301 18 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Exemple I Exemple 2 Quelle est la relation entre la fréquence cardiaque maximum (FCM) et l âge chez des coureurs? Les valeurs de ces 2 variables ont été mesurées chez 13 hommes s entraînant régulièrement et participant à des petites compétitions âge FCM âge FCM 40 187 55 185 36 195 55 189 51 180 23 201 49 190 49 189 47 185 52 185 51 183 35 195 32 195 Caroline Verhoeven STAT-I301 19 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Exemple II Exemple 2 L exemple des coureurs nous donne ce nuage de points : FCM 200 195 190 185 180 25 30 35 40 45 50 55 Age Quelle est la meilleure droite passant à travers ces points? Caroline Verhoeven STAT-I301 20 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Calcul I Equation d une droite y = b 0 + b 1 x b 0 : l ordonnée à l origine b 1 : pente b 0? b 1? Caroline Verhoeven STAT-I301 21 / 43

Droite de régression : Calcul II 3. Régression linéaire 1. Formule pour la droite de régression FCM 192 188 d 1 184 d 2 d3 d 4 180 40 45 50 55 Age La meilleure droite : celle qui minimise y i : valeur d Y pour le sujet i ŷ i = b 0 + b 1 x i d i = y i ŷ i : résidu Q = N i=1 d 2 i Caroline Verhoeven STAT-I301 22 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Calcul III b 0 b 1 tel qu on minimise y = b 0 + b 1 x b 0,b 1? Solution : Q = N i=1 d 2 i = N (y i ŷ i ) 2 = (y i b 0 b 1 x i ) 2 i=1 N i=1 b 1 = (x i x)(y i y) N i=1 (x i x) 2 b 0 = y b 1 x Remarque 3 y = b 0 + b 1 x : La droite de régression passe toujours par le point (x,y) Caroline Verhoeven STAT-I301 23 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Résolution de l exemple I Exemple 2 x i y i (x i x) (y i y) (x i x)(y i y) (x i x) 2 40 187-4,23-2,15 9,11 17,90 36 195-8,23 5,85-48,11 67,75 51 180 6,77-9,15-61,96 45,82 49 190 4,77 0,85 4,04 22,75 47 185 2,77-4,15-11,50 7,67 51 183 6,77-6,15-41,66 45,82 32 195-12,23 5,85-71,50 149,59 55 185 10,77-4,15-44,73 115,98 55 189 10,77-0,15-1,66 115,98 23 201-21,23 11,85-251,50 450,75 49 189 4,77-0,15-0,73 22,75 52 185 7,77-4,15-32,27 60,36 35 195-9,23 5,85-53,96 85,21-606,41 1208,31 x = 44,23 y = 189,15 Caroline Verhoeven STAT-I301 24 / 43

3. Régression linéaire 1. Formule pour la droite de régression Droite de régression : Résolution de l exemple II Exemple 2 b 1 = N i=1 (x i x)(y i y) N i=1 (x i x) 2 = 606,41 1208,31 = 0,50 b 0 = y b 1 x = 189,15+0,50 44,23 = 211,35 x 200 Equation de la droite de régression : y = 211,35 0,50x FCM 195 190 185 25 30 35 40 45 50 55 Age y Caroline Verhoeven STAT-I301 25 / 43

Inférence statistique 3. Régression linéaire 2. Inférence pour la régression 2 variables ont une relation linéaire dans 1 population avec une droite de régression y = β 0 +β 1 x β 0, β 1? On connaît b 0 et b 1 Trouver de l info sur β 0,β 1 à partir de b 0,b 1 Caroline Verhoeven STAT-I301 26 / 43

Conditions 3. Régression linéaire 2. Inférence pour la régression d i = y i ŷ i N(0,σ 2 ) σ : indépendant de x Homocédasticité FCM 20 15 10 5 0 0 1 2 3 4 5 Age FCM Les mesures doivent être indépendantes 25 20 15 10 5 Hétérocedasticité 0 0 1 2 3 4 5 Age Caroline Verhoeven STAT-I301 27 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Exemple Exemple 2 Considérons à nouveau l exemple avec les coureurs? Quelle est la droite de régression reliant l âge et la fréquence cardiaque maximum pour des coureurs s entrainant régulièrement et participant à des petites compétitions? On ne connaît pas cette droite On connaît la droite de régression pour un échantillon Quel est l intervalle de confiance pour la pente β 1 et l ordonnée à l origine β 0? Caroline Verhoeven STAT-I301 28 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : La variance résiduelle Pour chaque point (x i,y i ) la déviation totale par rapport à y est : y i y = (y i ŷ i ) +(ŷ i y) déviation totale d i = y i ŷ i : le résidu déviation expliquée déviation résiduelle La variance résidu σ 2 res de la population n est pas connue Cette variance est estimée par : s 2 res = 1 N 2 N i=1 d 2 i Caroline Verhoeven STAT-I301 29 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance pour la pente Estimation de la variance de la pente b 1 : s 2 b 1 = s 2 res N i=1 (x i x) 2 L intervalle de confiance de 95% pour β 1 [ b1 t N 2;0,975 s b1 ; b 1 + t N 2;0,975 s b1 ] t N 2;97,5 : 97,5ème centile pour la distribution t (df = N 2) L intervalle de confiance de niveau 1 α [ b1 t N 2;1 α/2 s b1 ; b 1 + t N 2;1 α/2 s b1 ] t N 2;1 α/2 : 100(1 α/2) centile pour la distribution t (df = N 2) Caroline Verhoeven STAT-I301 30 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance pour l ordonnée à l origine Estimation de la variance de l ordonnée à l origine b 0 : ( ) sb 2 0 = sres 2 1 N + x 2 N i=1 (x i x) 2 L intervalle de confiance de 95% pour β 0 [ b0 t N 2;0,975 s b0 ; b 0 + t N 2;0,975 s b0 ] t N 2;97,5 : 97,5ème centile pour la distribution t (df = N 2) L intervalle de confiance de niveau 1 α [ b0 t N 2;1 α/2 s b0 ; b 0 + t N 2;1 α/2 s b0 ] t N 2;1 α/2 : 100(1 α/2) centile pour la distribution t (df = N 2) Caroline Verhoeven STAT-I301 31 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Résolution de l exemple I Exemple 2 x i y i ŷ i (y i ŷ i ) (y i ŷ i ) 2 40 187 191,28-4,28 18,30 36 195 193,28-1,72 2,94 51 180 185,76-5,76 33,14 49 190 186,76 3,24 10,50 47 185 187,76-2,76 7,64 51 183 185,76-2,76 7,60 32 195 195,29-0,29 0,09 55 185 183,75 1,25 1,57 55 189 183,75 5,25 27,58 23 201 199,81 1,19 1,42 49 189 186,76 2,24 5,02 52 185 185,25-0,25 0,07 35 195 193,79 1,21 1,47 117,30 x = 44,23 y = 189,15 N (x i x) 2 = 1208,31 i=1 s 2 res = 117,30 11 = 10,66 s 2 b 1 = 10,66 1208,31 = 0,0088 s 2 b 0 = 10,66 18,09 ( ) 1 13 + (44,23)2 = 1208,31 Caroline Verhoeven STAT-I301 32 / 43

3. Régression linéaire 2. Inférence pour la régression Intervalle de confiance : Résolution de l exemple II Exemple 2 Intervalle de confiance de 95% pour β 1 : b 1 = 0,50, s b1 = 0,0088 = 0,09, t 11;0,975 = 2,20 Et donc [b 1 t N 2;0,975 s b1 ; b 1 + t N 2;0,975 s b1 ] = [ 0,71; 0,30] Intervalle de confiance de 95% pour β 0 : b 0 = 211,35, s b0 = 18,09 = 4,25, t 11;0,975 = 2,20 Et donc [b 0 t N 2;0,975 s b0 ; b 0 + t N 2;0,975 s b0 ] = [201,99; 220,71] Caroline Verhoeven STAT-I301 33 / 43

3. Régression linéaire 2. Inférence pour la régression Test de conformité pour β 1 Test de conformité pour β 1... mais on ne connaît pas β 1??? On suppose une certaine valeur β 1c pour β 1 et on regarde si c est conforme avec le b 1 qu on a. Formulation des hypothèses H 0 : β 1 = β 1c H a : β 1 β 1c Calcul de la statistique t = b 1 β 1c s b1, T t(df = N 2) Caroline Verhoeven STAT-I301 34 / 43

3. Régression linéaire 2. Inférence pour la régression Test de conformité pour β 1 : Exemple Exemple 2 Peut on dire que la fréquence cardiaque maximale change avec l âge avec un taux α = 0,05? Formulations des hypothèses H 0 : β 1 = 0 H a : β 1 0 Calcul de la statistique Calcule de la valeur p : t = b 1 s b1 = 5,34, T t(df = 11) p = 2P(T 5,34) = 0,0002 < α = 0,05 On rejette H 0 Caroline Verhoeven STAT-I301 35 / 43

4. Lien entre la corrélation et la régression Lien entre le coefficient de corrélation et la pente ou b 1 = = N i=1 (x i x)(y i y) N i=1 (x i x) 2 = 1 N N 1 i=1 (x i x)(y i y) sx 2 = = s y s x 1 (N 1)s x s y N i=1 1 N N 1 i=1 (x i x)(y i y) N i=1 (x i x) 2 1 N 1 1 (N 1)s 2 x N (x i x)(y i y) i=1 (x i x)(y i y) = s y s x r. r = s x s y b 1 Caroline Verhoeven STAT-I301 36 / 43

4. Lien entre la corrélation et la régression Coefficient de détermination Le coefficient de détermination r 2 = variance expliquée variance totale = 1 N 1 1 N 1 N i=1 (ŷ i y) 2 N N i=1 (y i y) = i=1 (ŷ i y) 2 2 N i=1 (y i y) 2 0 r 2 1 Pourquoi note-t-on r 2? Parce que c est le carré du coefficient de corrélation Caroline Verhoeven STAT-I301 37 / 43

4. Lien entre la corrélation et la régression Coefficient de détermination et de corrélation On a que (ŷ i y) 2 = (b 0 + b 1 x i y) 2 = (y b 1 x + b 1 x i y) 2 = b1 2 (x i x) 2 Et donc r 2 = N i=1 (ŷ i y) 2 N N i=1 (y i y) = b2 1 i=1 (x i x) 2 2 N i=1 (y i y) 2 N i=1 (x i x) 2 = b1 2 N i=1 (y i y) = 2 b2 1 = b1 2 sx 2 sy 2 1 N 1 1 N 1 N i=1 (x i x) 2 N i=1 (y i y) 2 Caroline Verhoeven STAT-I301 38 / 43

Extrapolation : Exemple I 5. Les problèmes 1. Ne pas extrapoler Exemple 3 En 1995, Heathcote a mesuré la longueur des oreilles d un échantillon d adultes d au moins 30 ans. Une régression linéaire entre l âge (en années) et la longueurs des oreilles (en mm) nous donne : y = 55,9+0,22x Longueur oreille 80 75 70 65 60 55 50 0 20 40 60 80 100 Age Caroline Verhoeven STAT-I301 39 / 43

5. Les proble mes 1. Ne pas extrapoler Extrapolation : Exemple II y = 55,9 + 0,22x De la re gression : un nouveauxne aurait des oreilles longues de 55.9mm. Il aurait l air de Dumbo Conclusion : On ne peut pas extrapoler le re sultat pour des adultes vers des enfants Caroline Verhoeven STAT-I301 40 / 43

5. Les problèmes 1. Ne pas extrapoler Ne jamais extrapoler! Il ne faut pas utiliser les résultats de la régression si : Si le x est plus petit que le plus petit des x i utilisés pour la régression Si le x est plus grand que le plus grand des x i utilisés pour la régression Caroline Verhoeven STAT-I301 41 / 43

5. Les problèmes 2. Un graphique dit beaucoup Les chiffres ne disent pas tout Toujours faire un graphique avant de commencer Pour tous le 4 : x = 9 y = 7,50 r = 0,816 b 0 = 0,500 b 1 = 3,00 Caroline Verhoeven STAT-I301 42 / 43

5. Les problèmes 2. Un graphique dit beaucoup Plot résiduel On fait un graphique de y i ŷ i en fonction des x i Haut-gauche : ok Les autres : pas ok Caroline Verhoeven STAT-I301 43 / 43