Statistiques à deux variables Ajustements affines Christophe ROSSIGNOL Année scolaire 2009/2010 Table des matières 1 Série statistique à deux variables 2 1.1 Définition Nuage de points...................................... 2 1.2 Point moyen................................................ 3 1.3 Ajustement d une série statistique à deux variables.......................... 3 2 Ajustement par la méthode des moindres carrés 3 2.1 Principe de la méthode.......................................... 4 2.2 Ajustement affine............................................. 4 Table des figures 1 Nuage de points............................................. 2 2 Méthode des moindres carrés...................................... 4 3 Droite de régression de y en x...................................... Liste des tableaux 1 Part consacré au logement dans un foyer................................ 2 2 Part consacré au logement dans un foyer (bis)............................. 5 3 Calcul de la covariance et de la variance................................ 5 Ce cours est placé sous licence Creative Commons BY-SA http://creativecommons.org/licenses/by-sa/2.0/fr/ 1
1 SÉRIE STATISTIQUE À DEUX VARIABLES Rappels de première : 1, 3 page 47 1 5 page 47 2 4 page 47 3 [Déclic] 1 Série statistique à deux variables 1.1 Définition Nuage de points Définition : On appelle série statistique à deux variables (ou série statistique doubles) une série statistique où deux caractères sont étudiés simultanément. 1. Dans ce chapitre, on n étudiera que des séries statistiques doubles dont les deux caractères étudiés sont quantitatifs. Si,pour chacun des n individus de la population, on note x i et y i les valeurs prises par les deux caractères, on peut alors présenter la série statistique sous la forme d un tableau : Caractère x x 1 x 2... x n Caractère y y 1 y 2... y n 2. Si l un des deux caractères étudiés est une mesure de temps, on parle de série chronologique. Définition : Dans un repère orthogonal, l ensemble des points M i de coordonnées (x i ; y i ) constitue le nuage de points associé à la série statistique à deux variables. Exemple : Le tableau 2 donne la part en % consacré au logement dans le budget d un foyer. Année (x i ) 1978 1984 1992 1994 2000 2004 Part en % (y i ) 4,4 5,2 4,3 3,2 3,3 2,8 Tab. 1 Part consacré au logement dans un foyer Le nuage de points associé à cette série statistique est représenté sur la figure 1. Fig. 1 Nuage de points 1 Moyenne, Écart-type. 2 Médiane, quartiles. 3 Utilisation des listes de la calculatrice. 2
2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 1.2 Point moyen Remarque : On peut utiliser la calculatrice ou un tableur pour représenter un nuage de points. Voir la feuille annexe. Exercice : 11 page 48 et 18 page 49 4 [Déclic] 1.2 Point moyen Définition : Le point moyen d un nuage de points est le point G de coordonnées (x ; y) où : x représente la moyenne des x i : x = x 1 + x 2 + + x n n = 1 n x i y représente la moyenne des y i : y = y 1 + y 2 + + y n n Exemple : On reprend les données de l exemple précédent. = 1 n y i x = 1978 + 1984 + 1992 + 1994 + 2000 + 2004 y = Le point moyen est donc G (1992 ; 3, 9). 4, 4 + 5, 2 + 4, 3 + 3, 2 + 3, 3 + 2, 8 3, 87 = 1992 1. On peut utiliser la calculatrice ou un tableur pour calculer les coordonnées du point moyen. Voir la feuille annexe. 2. Changements d échelle : Si on remplace les valeurs de x i par t i = x i 1978 (ce qui correspond au rang de l année), on obtiendra comme moyenne t = x 1978 = 14 Si on remplace les valeurs de y i par z i = 0, 01 y i (ce qui correspond aux pourcentages donnés sous forme décimale), on obtiendra comme moyenne z = 0, 01 y 0, 0387. Exercices : 9 page 48 5 13 page 48 et 14, 15, 1 page 49 17 page 49 7 [Déclic] 1.3 Ajustement d une série statistique à deux variables Effectuer un ajustement de y en x d un nuage de points consiste à trouver une fonction f telle que la courbe d équation y = f (x) passe «au plus près» des points du nuage (voir exercice 25 page 51[Déclic]). Remarque : Dans la suite de ce chapitre, on s intéressera aux ajustements affines, c est-à-dire le cas où la série statistique peut être ajustée par une fonction affine (ce qui n est pas toujours le cas). 2 Ajustement par la méthode des moindres carrés Activités : 1 page 39 8 et 2 page 39 9 [Déclic] 4 Nuage de points, changement d origine et d échelle. 5 Vrai-Faux. Points Moyens. 7 Lecture d un nuage de points. 8 Modéliser par une fonction affine. 9 Choisir la meilleure droite. 3
2.1 Principe de la méthode 2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 2.1 Principe de la méthode Effectuer un ajustement de y en x d un nuage de points par la méthode des moindres carrés consiste à trouver la fonction f du modèle retenu qui minimise la somme des carrés des écarts entre les valeurs y i observées et les valeurs f (x i ) données par le modèle. La fonction f doit donc minimiser l expression n (y i f (x i )) 2. Interprétation graphique : (voir figure 2) Fig. 2 Méthode des moindres carrés Cela revient à minimiser la somme des carrés des distances «verticales» entre la courbe et les points du nuage : (M 1 P 1 ) 2 + (M 2 P 2 ) 2 + + (M n P n ) 2 1. Pour une valeur x 0 donnée du caractère x, la fonction f permet donc de prévoir le résultat correspondant de la variable y. On supposera que y 0 = f (x 0 ). 2. Si x 0 appartient est compris entre x 1 et x n, on parle d interpolation. 3. Si x 0 est en dehors de l intervalle d observation du caractère x, on parle d extrapolation. 2.2 Ajustement affine par la méthode des moindres carrés Définition : On appelle covariance de x et de y le nombre : cov (x, y) = 1 n (x i x) (y i y) Rappel : la variance du caractère x est : V (x) = 1 n (x i x) 2 Elle est utilisée pour le calcul de l écart type : σ (x) = V (x). On eut remarquer que V (x) = cov (x, x). 4
2 AJUSTEMENT PAR LA MÉTHODE DES MOINDRES CARRÉS 2.2 Ajustement affine Théorème : (admis) Lors d un ajustement affine par la méthode des moindres carrés, la droite d servant à l ajustement de y en x : a comme coefficient directeur : cov (x, y) a = V (x) passe par le point moyen du nuage G (x ; y). 1. Ces deux données sont suffisantes pour déterminer une équation de cette droite (voir exemple). 2. Cette droite est aussi appelé droite de régression de y en x. Exemple : On reprend l exemple précédent, mais en remplaçant la variable x par t = x 1978 (ce qui revient à prendre le rang des années, voir tableau 2) Année 1978 1984 1992 1994 2000 2004 Rang des années (x i ) 0 14 1 22 2 Part en % (y i ) 4,4 5,2 4,3 3,2 3,3 2,8 Tab. 2 Part consacré au logement dans un foyer (bis) On a déjà vu que, dans ce cas, x = 14 et y 3, 87. Pour calculer la variance et la covariance, on peut utiliser le mode «Liste» de la calculatrice ou un tableur (voir tableau 3) : Liste 1 Liste 2 Liste 3 Liste 4 Liste 5 Liste 0 4,4-14 19 0,53-7,47 5,2-8 4 1,33-10,7 14 4,3 0 0 0,43 0 1 3,2 2 4-0,7-1,33 22 3,3 8 4-0,57-4,53 2 2,8 12 144-1,07-12,8 Total 472-3,8 Tab. 3 Calcul de la covariance et de la variance La liste 1 (L1) contient les x i La liste 2 (L2) contient les y i La liste 3 (L3) contient x i x, c est-à-dire : L3 = L1 14 La liste 4 (L4) contient (x i x) 2, c est-à-dire : L4 = (L3) 2 La liste 5 (L5) contient y i y, c est-à_dire L5 =L2 3, 87 La liste (L) contient (x i x) (y i y), c est-à-dire L = L3 L5 La covariance et la variance s obtiennent alors par la calcul suivant : cov (x, y) = Total de L = 3, 8, 13 et V (x) = Le coefficient directeur de la droite de régression est donc : a = cov (x, y) V (x), 13 8, 7 0, 08 La droite de régression a donc une équation de la forme y = 0, 08x + b. De plus, elle passe par G (14 ; 3, 87) donc : 0, 08 14 + b = 3, 87 1, 12 + b = 3, 87 b = 3, 87 + 1, 12 = 4, 99 Total de L4 = 472 8, 7 5
RÉFÉRENCES RÉFÉRENCES L équation de la droite de régression est donc : y = 0, 08x + 4, 99. On peut la tracer sur le nuage de points (voir figure 3). Fig. 3 Droite de régression de y en x 1. On peut utiliser la calculatrice ou un tableur pour déterminer l équation de la droite de régression. Voir feuille annexe. Les résultats obtenus peuvent être un peu différents de ceux obtenus précédemment à cause des approximation du calcul. À l aide d un tableur, l équation de la droite de régression obtenu pour l exemple précédent est : y = 0, 08x + 4, 9. 2. On peut utiliser cette droite de régression pour faire des prévisions (interpolations ou extrapolations, les résultats obtenus par extrapolation étant, bien sûr moins fiables). Exemple : On reprend l exemple précédent en supposant que la droite de régression admet comme équation y = 0, 08x + 4, 9. L année 2010 correspond à x = 2010 1978 = 28. Si la progression continue toujours suivant le même schéma, on peut prévoir que la part en % du budget d un foyer consacré au logement en 2010 sera y = 0, 08 28 + 4, 9 = 2, 72, soit 2,72 % Il s agit bien sûr d une extrapolation. Ce résultat n est fiable que si l évolution de la part continue après 2004 en suivant le même principe qu entre 1978 et 2004... Exercices : 20, 21 page 50 et 37 page 55 10 23 page 50 ; 29, 30, 31 page 52 et 38 page 55 11 22 page 50 12 28 page 51 et 39 page 55 13 24 page 53 14 [Déclic] Références [Déclic] Déclic Term ES, Hachette éducation (édition 200) 2, 3, 10 QCM et Vrai-Faux. 11 Droites de régression. 12 D autres types d ajustements affines. 13 Changements de variables. 14 Exercice de synthèse.